哈佛大学近期开源了名为Institutional Books 1.0的AI训练数据集,该数据集包含983,004本公共领域图书。
这些图书是哈佛大学图书馆参与谷歌图书项目的一部分,经过数字化处理并由机构数据倡议(IDI)进一步优化。数据涵盖235种语言,其中40%为英文出版物,主要出版时间集中在19世纪和20世纪。
使用该数据集需遵循IDI早期访问条款的约束。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
哈佛大学近期开源了名为Institutional Books 1.0的AI训练数据集,该数据集包含983,004本公共领域图书。
这些图书是哈佛大学图书馆参与谷歌图书项目的一部分,经过数字化处理并由机构数据倡议(IDI)进一步优化。数据涵盖235种语言,其中40%为英文出版物,主要出版时间集中在19世纪和20世纪。
使用该数据集需遵循IDI早期访问条款的约束。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。