4月2日讯 据国家知识产权局中国专利公布公告网显示,杭州深度求索人工智能基础技术研究有限公司(DeepSeek关联公司)于近期公示了一项名为”一种广度数据采集的方法及其系统”的发明专利。
该专利摘要指出:
此发明在多个维度实现突破:首先,通过创新算法显著提升了网页链接的发现效率;其次,在保证数据采集质量的同时大幅降低了对目标网站服务器的压力。具体而言,本方案通过对已获取内容进行智能分析,并基于此对未访问链接的质量进行预测和分级,采用动态分配下载资源的方式,有效避免了低质页面的重复抓取,从而实现了数据质量和采集效率的双重优化。
从技术发展的角度分析,随着人工智能技术尤其是自然语言处理(NLP)领域的快速进步,各种大规模语言模型(Large Language Models, LLMs)正在被广泛应用于人机交互研究。这些模型通过训练能够实现人类与计算机之间的高效自然语言通信。
要构建性能优越的大规模语言模型,必须依赖于一个高质量且多样化的训练数据集。这一过程需要通过网络爬取并处理海量网页信息,最终形成可用于模型训练的高质量文本资源。
然而,目前现有的网页数据采集技术仍存在明显缺陷:例如,在面对复杂网站结构时往往无法完整获取所有链接;在数据下载过程中缺乏有效控制机制,容易导致目标服务器过载甚至崩溃。更为关键的是,现有技术普遍忽视对已下载内容的质量评估和分析,这直接导致了重复抓取、低质数据过多等问题,严重影响了数据采集的整体效率。
因此,在互联网大数据获取领域,如何实现快速响应、精准识别、安全稳定且高效的数据采集已成为亟待解决的技术难题。此次DeepSeek公司的专利突破为这一问题提供了新的解决方案,具有重要的行业价值和应用前景。
© 版权声明
文章版权归作者所有,未经允许请勿转载。