苹果公司在一篇新的研究论文中表示,其智能模型的训练未使用任何非法从网络抓取的数据。
苹果称,如果出版商不同意其数据被抓取用于训练,公司将不会抓取这些数据。公司强调,使用多样且高质量的数据训练模型是必要的,这些数据包括从出版商获得授权的数据、公开可用或开源数据集中的数据,以及通过网络爬虫 Applebot 抓取的公开信息。
苹果表示,不会在训练基础模型时使用用户的私人数据或用户交互信息,并采取措施应用过滤器去除个人身份信息,排除粗俗和不安全的内容。
论文重点说明了 Applebot 系统如何在复杂的网络环境中获取有效信息。苹果回应版权相关问题时强调,始终尊重版权持有者的权益。
苹果称将继续遵循伦理抓取实践,包括遵守 robots.txt 协议,允许网页出版商选择是否允许其内容被 Applebot 抓取用于训练生成式基础模型。出版商可通过 robots.txt 文件控制 Applebot 的访问范围,且这些页面仍可出现在 Siri 和 Spotlight 的搜索结果中。
robots.txt 是一种广泛采用的系统,非标准隐私保护机制。网站可通过该文件指示 AI 系统哪些内容可以抓取。苹果指出,遵守 robots.txt 协议是可行的,OpenAI 也曾表示遵守这一协议。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。