快讯

AI challenger全球AI挑战赛开赛 五大公开数据集公布

翟继茹 2017-09-04 23:17:10

DoNews9月5日消息(记者 翟继茹)4日,由创新工场、搜狗和今日头条联合发起的“AI challenger全球AI挑战赛”正式开赛。大赛官网(challenger.ai)同步上线了训练数据集以及验证数据集,供参赛选手下载,进行算法设计、模型训练及评估。

截至目前,来自高校的参赛者包括清华大学、北京大学、中科院、上海交通大学、复旦大学、香港科技大学、美国康奈尔大学、佐治亚理工、剑桥大学、日本早稻田大学等。

来自公司机构的参赛者包括百度、蚂蚁金服、小米、奇虎360、格灵深瞳、驭势科技、摩拜、微软、通用电气、英特尔、eBay、Micron等。

AB双测试集赛制 

赛制方面,此次比赛的五个赛道人体骨骼关键点检测竞赛、图像中文描述竞赛、场景分类竞赛、英中机器文本翻译竞赛和英中机器同声传译竞赛已经全部开通训练数据集下载和验证数据集下载。

大赛将采取AB双集共同测试的模式。测试数据集A集将于9月25日可供下载,选手在本地使用先前训练的模型进行预测,生成预测结果并提交至平台。结果提交后,系统会按照评测指标实时反馈分数,并更新榜单排名。大赛规定每队每周最多可以提交2次结果。榜单以所有参赛队伍的历史最优成绩进行排名。当有团队提交新的预测结果之后,榜单将实时更新。最终的成绩排名以12月3日23:59:59的排名为准。

大赛组委会介绍,B集部分预计在11月下旬开放,具体开放时间待定。B集开放之后,榜单将采用选手模型在测试数据集的B集上的预测结果,作为排名依据。最终的榜单成绩排名以12月3日23:59:59的排名为准。

采用AB双赛制的好处是可以从不同角度评价一个模型。简而言之,A集像是一个已知的小测试,知道考题的考生可以不断“刷题”修改模型,提高自己的准确度。B集则像是大考,一次机会就检验考生的综合能力。

这样的赛制也说明对于AI模型来说,没有绝对的优劣和最佳方式之分,完全看所面临的特定场景为何。

海量公开数据集

创新工场、搜狗和今日头条希望在中国打造最大的科研数据集与世界级AI竞赛平台,推动中国人工智能领域科研创新。在国外,科研数据集的打造与AI竞赛平台的建设是推动AI发展和新技术公司成熟的重要助推力。因为,数据的质和量是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化起关键性作用。

如谷歌首席科学家,世界顶级AI专家李飞飞推出的ImageNet数据集与ImageNet挑战赛被行业公认为企业和研究者每年必参加的重要活动。此外,机器学习竞赛平台Kaggle着眼于真实数据和真实问题的解决方案,同样从中诞生了许多明星企业。

目前,AI challenger提供包括超过1000万条中英文翻译数据、70万个人体骨骼关键点标注数据、30万张图片场景标注和语义描述数据。这是国内迄今公开的规模最大的科研数据集。

据了解,此次竞赛奖金超过200万元人民币,还将为条件有限的参赛选手提供免费GPU资源的支持,并上线汇集了全球AI技术学习资源的“教程”栏目。(完)


相关文章

{{news.title}}

{{news.author}} {{news.timeFormat}}

正在加载......