DeepSeek：专利发布，降低数据采集网络资源消耗

AI资讯1年前 (2025)发布 ainav

242 0 0

4月2日讯据国家知识产权局中国专利公布公告网显示，杭州深度求索人工智能基础技术研究有限公司（DeepSeek关联公司）于近期公示了一项名为”一种广度数据采集的方法及其系统”的发明专利。

该专利摘要指出：

此发明在多个维度实现突破：首先，通过创新算法显著提升了网页链接的发现效率；其次，在保证数据采集质量的同时大幅降低了对目标网站服务器的压力。具体而言，本方案通过对已获取内容进行智能分析，并基于此对未访问链接的质量进行预测和分级，采用动态分配下载资源的方式，有效避免了低质页面的重复抓取，从而实现了数据质量和采集效率的双重优化。

从技术发展的角度分析，随着人工智能技术尤其是自然语言处理（NLP）领域的快速进步，各种大规模语言模型（Large Language Models, LLMs）正在被广泛应用于人机交互研究。这些模型通过训练能够实现人类与计算机之间的高效自然语言通信。

要构建性能优越的大规模语言模型，必须依赖于一个高质量且多样化的训练数据集。这一过程需要通过网络爬取并处理海量网页信息，最终形成可用于模型训练的高质量文本资源。

然而，目前现有的网页数据采集技术仍存在明显缺陷：例如，在面对复杂网站结构时往往无法完整获取所有链接；在数据下载过程中缺乏有效控制机制，容易导致目标服务器过载甚至崩溃。更为关键的是，现有技术普遍忽视对已下载内容的质量评估和分析，这直接导致了重复抓取、低质数据过多等问题，严重影响了数据采集的整体效率。

因此，在互联网大数据获取领域，如何实现快速响应、精准识别、安全稳定且高效的数据采集已成为亟待解决的技术难题。此次DeepSeek公司的专利突破为这一问题提供了新的解决方案，具有重要的行业价值和应用前景。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

中信建投认为：人工智能应用有望作为新的生产工具在企业级市场实现商业转化

ainav

289 0

微软推出Copilot动画形象，提升AI交互友好度

ainav

206 0

《中国发布全球人工智能治理新战略》

ainav

200 0

LeCun团队发布首个能像程序员一样思考的代码世界模型

ainav

199 0

我国科学家完成青藏高原高精度草地植被图绘制

ainav

229 0

优必选人形机器人订单再签3000万元总额逼近4.3亿元

ainav

242 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2