7月21日消息,据外媒Apple Insider报道,苹果公司在最新研究论文中重申,其智能模型的训练未涉及任何非法网络抓取的数据。
在新发布的研究论文中,苹果明确表示,如果出版商不同意数据被抓取用于训练,苹果将不会采集这些数据。公司认为,“使用多样且高质量的数据来训练我们的模型至关重要。我们使用的数据包括获得出版商授权的数据、公开可用或开源数据集中的信息,以及通过网络爬虫Applebot抓取的公开内容。”
公司进一步强调,“我们不会在训练基础模型时使用用户的私人数据或用户交互信息。同时,我们会采取措施应用过滤器,去除个人身份信息,排除粗俗和不安全的内容。”
论文重点阐释了苹果如何实施这一抓取过程,特别是Applebot系统如何在“网络复杂多变的环境”中确保获取有效信息。同时,苹果回应了关于版权的问题,再次重申公司始终坚持尊重版权所有者的权益。
据论文披露,苹果表示:“我们将继续遵循最佳的伦理抓取实践,包括遵守广泛采用的 robots.txt 协议。该协议允许网页出版商选择是否让其内容被用于训练苹果的生成式基础模型。出版商可以细致控制Applebot可访问的页面以及这些页面的使用方式,同时这些页面仍然会出现在Siri和Spotlight的搜索结果中。”
这些“精细控制”基于长期使用的 robots.txt 系统。该机制并非标准的隐私保护手段,但已被行业广泛采用。网页出版商会在其网站上放置一个名为 robots.txt 的文本文件。
如果AI系统识别到该文件,它就会避免抓取该站点或文件中列出的特定页面。遵守 robots.txt 协议相对简单,而像OpenAI这样的公司也曾表示会遵循这一协议。”
如需阅读完整论文,可参考以下链接:
-
https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models_tech_report_2025.pdf