哈佛大学开源含98万余本公共领域图书的AI训练数据集

哈佛大学近期开源了名为Institutional Books 1.0的AI训练数据集,该数据集包含983,004本公共领域图书。

这些图书是哈佛大学图书馆参与谷歌图书项目的一部分,经过数字化处理并由机构数据倡议(IDI)进一步优化。数据涵盖235种语言,其中40%为英文出版物,主要出版时间集中在19世纪和20世纪。

使用该数据集需遵循IDI早期访问条款的约束。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1