快讯
2017中国专利统计数据出炉 2018科技风向预测
20分钟前
高航导读:1月18日,国家知识产权局在京发布了2017年主要工作统计数据及有关情况。站在科技创新发展的风口上,无论互联网圈内外的人都难以置之不理,今天小编与你聊聊从2017知产数据看2018科技风往哪吹?1主要统计数据2017年,我国发明专 [详情]
【论坛】努力开创我国工业互联网发展新局面
21分钟前
点击上方“工信微报” 可以订阅哦!努力开创我国工业互联网发展新局面中国信息通信研究院院长 刘多近日,国务院印发了《关于深化“互联网+先进制造业”发展工业互联网的指导意见》(以下简称《指导意见》),这是以党的十九大精神为指引,落实“加快发展先 [详情]
新闻AB面 | 云养猫?我最近养了只青蛙
26分钟前
原标题:新闻AB面 | 云养猫?我最近养了只青蛙嘻哈的热潮,以Gai的退赛,彻底凉了下来。而对于当下大行其道,以知名动漫形象包装的低俗儿童动漫,有关部门是不是更得管管?大中国人才济济,原创音乐的势头渐渐明朗,单靠用户评论成为营销界翘楚的网易 [详情]
P2P万顺网被曝逾期连发五条公告,实控人:黑势力威胁我 1月19日坏消息榜
29分钟前
摘要: 近日,一家名为“万顺网”的江苏P2P平台出现逾期,官网连发5条公告,称平台“遭多个恶意渠道挤兑”,并遭受20人有组织的哄抢,库房40多辆车短时间不见,随后,万顺网总部遭洗劫,公司已经报警。关注钛媒体每日、每月整理发布的行业坏消息榜, [详情]
汽车&互联网 “新”聚首2018
30分钟前

芳华逝去,一年一见,又到了车董会年会!

“车董会”是国内首个汽车互联网社群,由来自主机厂商、汽车金融、汽车后市场、汽车媒体、二手车电商、创投VC等不同领域的千余兄弟共同发起成立,本着“聚合、发声、共赢” [详情]

产学结合:工业4.0下的利戴人才培养新模式
38分钟前
随着软件和机器人技术的普及,站在众所周知的工业4.0的路口,现代工厂的人才培养模式变革势在必行。利戴全球市场正在积极探索产学结合的人才培养新模式。“自动化和机器人会首先取代简单的工作,”德国顶级顾问咨询公司Simon-Kucher & Pa [详情]
科技革命推动现代产业体系建设
38分钟前
来源:《中国国情国力》杂志作者单位:商务部国际贸易经济合作研究院党的十九大报告提出“贯彻新发展理念,建设现代化经济体系”,同时着眼于未来,提出到2035年,我国要基本实现社会主义现代化,经济实力、科技实力大幅跃升,跻身创新型国家前列;到20 [详情]
社会固化,经济低迷,屌丝逆袭到底有多难?(深度思考)
39分钟前
17年7月份,一高中同学偶然间得到老家城市一个做啤酒的项目,经过详细的分析以及同学敏锐的商业嗅觉,认为这是个机会,是可以认真做下去的项目,于是,同学就出手跟踪、调查、实施这个项目,直到今天。结果是:现实的生活总是让你感觉苍白无力。同学凭借自 [详情]
中科院预测中心2018中国经济预测(直播全文)
39分钟前
主题:2018中国经济预测发布与高端论坛时间:2018年1月18日上午地点:中国科学院数学系统与科学研究院南楼219会议室主持人:各位领导、各位嘉宾,各位媒体界的朋友,大家上午好!感谢大家在新年伊始来参加由中国科学院预测科学研究中心主办,中 [详情]
原创 | 人工智能助力信息化加速发展
42分钟前
作者:蓝海长青智库特邀研究员  王因传回顾人类社会发展的历程,无论农业文明还是工业文明,都是人类生存发展能力的提升,是将人从各种事务中解放出来。农业文明用工具增强了人类的劳动能力,延伸了人的劳动范围;工业文明用机器代替人的体力劳动,直接解放 [详情]
借力“新零售” ,汽车金融提质增效
43分钟前
2017年对于汽车金融行业而言是具有突破性发展的一年,市场参与主体日趋多元化,服务模式、产品种类更加丰富,汽车金融渗透率显著提升,市场竞争格局也在不断变化与调整。在各金融机构纷纷回归服务小微实体经济的大背景下,与汽车产业紧密结合的汽车金融预 [详情]
百度研究院引入三位科学家 新增两个实验室
43分钟前
雷帝网 乐天 1月19日报道百度研究院今日在硅谷召开全员大会,宣布设立商业智能实验室(Business Intelligence Lab,BIL)和机器人与自动驾驶实验室(Robotics and Autonomous Driving La [详情]
深度 阿里新供应链体系架构解读
45分钟前
阿里妹导读:很多童鞋发现,每年双11收货的速度,越来越快了。在“提速”的背后,阿里工程师是如何做到的呢?本文主要讲解天猫双11期间供应链的相关工作,包括前期的备货、爆款下沉等准备事项、流量调控、销量预测、补货调拨、以及仓、配履行等多个环节, [详情]
APP要被小程序取代了?小游戏将进一步催熟小程序!
46分钟前
微信小程序上线一周年还记得去年1月9日,微信小程序刚刚正式上线引起的轰动吗?从那个时候起,只要是在小程序上线的应用,用户无须下载安装,只要扫一扫或搜一下即可打开应用,本质上是简化版的APP,于是开始有了各种APPs能否继续存在下去的担忧。如 [详情]
短短60秒的广告,足以令你改变一生的行为!
46分钟前
家庭教育多么重要孩子会跟着学他们所看到的想要你的孩子成为什么样的人自己首先要成为什么样的人圈子真的很重要,抓住碎片学习,这几个微信号不能错过!商界智慧精选shangjiezhjx智慧、内涵、有品位,顶尖商界智慧每天分享,企业管理、营销思想、 [详情]
解锁新姿势 如何用配置中心实现全局动态流控?
46分钟前
阿里妹导读:当资源成为瓶颈时,服务框架需要对消费者做限流,启动流控保护机制。流量控制有多种策略,比较常用的有:针对访问速率的静态流控、针对资源占用的动态流控、针对消费者并发连接数的连接控制和针对并行访问数的并发控制。在实践中,各种流量控制策 [详情]
2017年度AppTOP1000|金融、短视频超速增长 共享单车季节效应放大
48分钟前
岁末年初,大到国家行业,小到职场个人,我们已习惯在辞旧迎新中的祝福中成长成熟。移动互联网在过去的2017,各大应用产品服务在下半场跑道上竞相奔逐,从野蛮时代的流量竞争开始转向精细时代的存量用户运营,规则开始建立,国家发布大数据和人工智能发展 [详情]
财经直播,能给你带来什么?
49分钟前
直播,一个被贴在新一代成长者上的新型标签,一个被不断提及、刷新的互联网工具。通过直播,我们可以了解不同行业、不同性别甚至于不同阶级之间所存在的不同的观念以及生活方式。而百度百科则给出了更为直接的释义——生活的圈层化,让我们对其他圈层的生活好 [详情]
周鸿祎评贾跃亭:乔布斯那么牛的人都没敢造车
49分钟前
IT之家1月19日消息 “下周回国贾跃亭”俨然成为了科技行业的新梗,根据贾跃亭公开发布的消息,其近期依然在美国造车,国内乐视方面的问题由贾跃亭妻子甘薇与贾跃民代为处理。一向快人快语的“红衣大炮”周鸿祎在近日参加某活动时直言不讳表示,乐视“为 [详情]
趣店罗敏是真傻还是在下一步大棋?
50分钟前
一个身价几百亿的人跟几个名不见经传的自媒体争短长,不由得让人慨叹,上帝果然还是公平的,给了他几百亿的同时也在脑子里灌了几勺水。其实监管政策刚出来时,我一直在想罗敏是真傻还是在下大棋,因为所有的条件他都合规,持牌、有消费场景、综合利率36%左 [详情]
中国快递“金包裹”花落谁家?谜底出人意料
51分钟前
1月18日,由中国邮政快递报社主办的“快递之夜”2018快递行业颁奖典礼在京举办。来自行业及关联产业的企业大佬及代表、国邮智库专家等近200人共襄盛举。各项大奖纷纷出炉、花落各家。作为快递之夜份量最重的奖项,“金包裹”大奖最终花落谁家悬念十 [详情]
赶超马云马化腾,干掉老王许家印,小米雷要成中国首富了?
54分钟前
说起中国首富,大伙儿相顾无言~双马一王一许,刚好凑成一桌麻将轮流坐庄。“一点都不funny,我们要Surprise~”吃瓜群众表示抗议~于是,小米雷说:我来了!这段时间,小米上市是热点。有说将在今年上市,有说下半年,有说年底;有说赴美,有说 [详情]
阿里新零售战略调整:云零售事业部与天猫淘宝全面合体
59分钟前
凤凰网科技讯 (作者/管艺雯)1月19日消息,阿里巴巴集团今日晚间宣布:阿里巴巴云零售事业部与天猫、淘宝全面合体,阿里新零售继续聚焦、聚力。原云零售事业部总经理叶国晖将担任新成立的天猫新零售平台事业部负责人,向天猫总裁靖捷汇报。天猫新零售平 [详情]
@程序员,你该如何做职业规划才能不被“废”?
1小时前
作者简介:王俊生,曾上线运营平台;报表自定义;养老护理中心信息化平台等项目。此外负责公司项目从 SVN 到 Gitlab 的迁移和公司十亿级数据迁移工作。日常喜欢运动、旅游、读书,励志做一个热衷技术、享受生活的新时代程序员。本文来自作者在 [详情]
风口上的数码印花,你是种了草还是掉进坑?
1小时前
本报记者  贾榕原创文章,欢迎转发,请授权转载都说“站在风口,猪也能飞”,这听起来很美,但“风口”真的那么好站吗?当前,数码印花的广泛应用掀起了纺织领域的变革,但行业中各种泡沫和揠苗助长的现象并不少见。如何避过“刀口”、找准“风口”,成为数 [详情]
揭秘手机QQ“智图”背后黑科技:AI深度学习帮你一键定
1小时前
年轻人的聊天世界是充满着表情的。“对方不想和你说话,并向你扔了一只单身狗;皮皮虾,我们走。”画风奇特的暴漫,被网友恶搞的尔康雪姨,还有那些被玩坏的热门影视,这些一夜之间火起来的表情包成为年轻人的最常用的元素,想接近年轻人必须要备好充足的表情 [详情]
云米全屋互联网家电陈小平:积极开放合作推动智能家
1小时前
“智能家居真的是下一个风口吗?”“如何避免华而不实的智能家电?”在智能家居被热议的今天,许多疑问也相继产生。1月18日,智联未来·2018智慧家庭产业创新峰会暨中国智慧家装应用白皮书发布会在广州召开。众多行业大咖相聚一堂,云米全屋互联网家电 [详情]
BV2018百度风投投资年会在京召开埃洛克航空CEO王砚泽
1小时前
1月18日,BV2018百度风投投资年会在北京召开,此次年会以“人工智能”为主题,汇聚了百度风投(BV)投资的50余家中美企业及国内外数百位嘉宾,BV大家庭成员先后探讨了全球视野下AI在工业、消费、数据与科技等领域的驱动与变革。作为BV大家 [详情]
360共享云发布官方声明布局海外市场拒绝恶意炒作
1小时前
近日,360对外公布了共享云计划,并宣布360共享云路由器开启预售,引起业内强烈反响。在迅雷链克等产品受到互联网金融协会的批评的前车之鉴下,360共享云官方也发表声明澄清,明确表示360共享云计划的云钻积分并非数字货币,杜绝一切炒作行为。3 [详情]
正式宣战?今日头条禁止微信、微博等账户推广!
1小时前
昨日上午,今日头条官方头条号发布了一则公告,自2018年1月24日(下周三)起,禁止推广微信、微博等第三方平台账户,触犯规则或对账户进行扣分和禁言处罚。据悉,推广第三方平台帐号及二维码、个人和群组联系方式,诱导用户关注第三方平台帐号这几类推 [详情]

从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网 2017-10-11 23:26

原标题:从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网AI科技评论:抓住时代机遇往往比个人努力更重要。

李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究者,赛后很快被谷歌吸收,并进入谷歌收购的DeepMind实验室工作。 现在,参与ImageNet挑战赛获奖的企业和个人已遍布科技行业的每个角落。

从历史经验中不难看出,想要拿到名企实习工作机会,或加速自己的职业生涯进程,亦或赢得行业投资者的关注,参加技术评测大赛都是一条有效途径。目前国内科研数据集规模最大,奖金最高,平台资源最丰富的当属由创新工场、搜狗和今日头条三家AI企业同发起“AI challenger全球AI挑战赛”。

众所周知,在人工智能领域,要想获得好的机器学习模型,数据的质和量是至关重要的。高质量训练数据对机器学习模型的建立和优化一直起着关键性作用。人工智能领域领军人物李飞飞发起建立的ImageNet图片数据集曾在计算机视觉、乃至整个人工智能发展史上都发挥过里程碑式的作用。李飞飞曾说:“数据将重新定义我们对模型的看法“ 。尽管深度学习今后的发展会趋向于半监督或无监督学习,但至少从目前来看数据的质和量仍是科学研究与产品技术研发的核心。

虽然深知数据对模型的重要性,但在AI Challenger 诞生之前,国内人工智能领域成规模的、大型权威的评测比赛还是一片空白。反观国际,无论是在图像识别领域还是语音交互领域,都已经有很多举办多年且口碑、效果皆不错的赛事。AI Challenger 的诞生可谓是给国内AI领域大规模赛事起了一个好头,而且从官方给出的数据集来看,某些方面提供的条件甚至已超过国际同类赛事。

单从机器翻译这个赛道来说,国际上的评测比赛几乎全是机器文本翻译,而AI  Challenger 在这个赛道上提供了两个方向的赛题——英中机器同声传译和英中机器文本翻译。AI科技评论专程采访了提供这两个赛题的设计方案,同时也是大赛主办方之一的搜狗科技,为大家介绍更详细的赛事情况。

在技术进步和文化扩散的双重推动下,这个世界总体是在趋向于互通互联。不同国家之间平等便捷获取信息,低成本地有效沟通成为一种强烈需求。从这个意义上讲,机器同传正是为了实现人类打破不同语言壁垒的愿望而生。搜狗语音交互技术中心总经理王砚峰说道:“搜狗是去年十一月在业界首发机器同传,之后在近百场会议现场中演示过,「一边用中文演讲、一边同步显示英文翻译」无论是给讲者还是观众都带来了很大的视听震撼。”

记者曾经有一段时间经常会在朋友圈看到AI将会使同声传译职业消亡的文章。这也可能是搜狗同传确实震撼到大家了吧!

而实际上,机器同传离真正的人工同声传译还有一段距离,实时翻译的速度虽已达到人类水平,甚至超越人类,但翻译的准确度还有待提高。

机器同传表面上看来是把语音识别和机器翻译叠加起来达成的效果,其实这里面还涉及到很多技术难题,比如语音识别之后的文本后处理,而文本后处理不单单是常见的语句分割,还包括噪声去除,语气词去除等等。正是这些因素直接影响到机器翻译出来的准确度。

王砚峰总经理告诉记者,「目前机器同传遇到的这些问题还不是一个非常成熟的问题,像如何保证语义完整性,怎么断句,怎么去除口语等问题,这些都不是一个统一标准,不是大家用一个深度学习模型就能解决好的。通过举办评测比赛来解决这类问题,在比赛过程中就会有一些好的自发创意出来,不管是是技巧性的创意,还是理论上的创新,最终这些创新、创意汇聚起来很可能就会比现有系统处理的效果好。机器同传吸引大家的还有一点就是看起来很酷,很多具有国际参赛经验的赛手都报名参加了,他们对具有挑战性,新鲜感的赛题更感兴趣,从比赛中获得的成就感和快乐值也会更高。机器同传就是一个这样比较新兴的方向,是未来机器翻译的发展趋势。搜狗开创这样一个赛题,希望能在行业中引领大家往更实用的方向发展。」

数据集对模型生成的重要性不言而喻,但并不是所有人都知道怎么来评判一个数据集的优缺点,赛手也几乎没有机会接触并参与到数据集的制作过程中。

搜狗在机器翻译领域中有着深厚的技术积累,WMT 2017 中英、英中比赛中取得双向第一

拥有国际大赛获奖经历的搜狗机器翻译技术团队,自然会对国际上同类赛事有着比较深刻的观察和见解,在对数据集的评价上也比较有发言权。搜狗语音交互技术中心总监陈伟告诉记者,「NIST,IWSLT,WMT,这三大比赛是机器翻译界的顶级评测,过去几年这些比赛放出来的最大有效数据量(不包括完全公开的千万级联合国数据),其独有的数据量是在两百到三百万之间。而AI Challenger赛事中,搜狗提供给参赛者是一千万独有数据量。」

另外他还向记者透露一些之前参加 WMT 2017的细节。他回忆道:“当时我们参加WMT 2017时,主办方最多给到了六百万数据,这些数据来自不同的组织和学术机构,数据的质量参差不齐。在参加评测的时候,由于数据的噪声特别大,我们用了三到四个人,处理了两周才把数据清洗完。”

也许正是体会到了数据清洗过程给赛手带来的干扰和折磨,搜狗在此次AI Challenger 大赛中格外重视赛手的参赛体验。“我们要把除了模型算法以外的准备工作做到极致,让赛手专心跑模型,不被其他因素干扰。”他说道:“搜狗这次给出的数据,都是找的专业译员一条一条精标过的数据,这一千万数据标准准确率都在97%以上。用了五十个全职译员,花了三个月,全力以赴地才把这一千万数据处理完。再加上前期的数据抓取,数据清洗等一系列准备工作,整个数据集的制作花费了大概半年时间。”

“相信在这些精心准备的数据前提下,参赛选手可以实现训练出一个好的机器翻译系统。"陈伟总监最后满怀信心地说道。

AI科技评论认为是包括搜狗在内的三家大公司提供的计算平台,以及相关的技术指导。毕竟现在大多数在校学生和科研机构面临的共同问题是计算平台能力不足,数据量不够。当算力和数据量都有限制的时候,会严重制约在科研上面的的发展速度。并且科研的最终成果是要到产业中落地应用,如果只是在实验室跑算法,模型再好也未必能在真实环境中经得住考验。搜狗机器翻译技术负责人王宇光也向记者表达了相似的观点。

机器翻译基础能力,最好的技术还是在工业界,搜狗在过去一直专注于直接能在商业中落地,效果好且实用的算法。另外搜狗在国际评测比赛中也积累了不少经验,也有能力来指导大家做出更好的算法。除了有专门的导师给予指导,搜狗在以往国际评测中使用的技术也会以评测报告的方式提交出来供大家参考。

参赛者的正向反馈使得主办方们对接下来的比赛很有信心。搜狗方面向记者分享了他们目前从赛手身上获得的一些惊喜。

第一,参赛的队伍比预期要多。目前英中文本翻译和同传赛道提交的结果的队伍已经达30多支。

第二,比赛报名除了来自于一些做机器翻译的学校研究组或者研究机构以外,还有来自于其它相似研究方向的选手,例如NLP机器翻译之外的研究方向。

另外赛手在后台对于赛制规则不清楚之处,或赛题不明白之处也做出了一些反馈,他们也都给了详细解答。

随着赛事的推进,搜狗负责大赛服务的团队也从参赛者的反馈中看到了一些存在的问题,比如,选手可能会使用外部数据集来提升效果,这是大赛禁止的。

AI科技评论记者了解到,搜狗采取的措施是:首先比赛要求选手不能使用外部数据集合进行训练,对于使用外部数据的结果系统不参与最终颁奖排名。此外,要求选手提交比赛系统详细报告。最终要求选手参与答辩。这样可以最大程度过滤掉一些“刷分”行为。

雷锋网小结:AI Challenger 的全球AI挑战赛提供的数据集,都是从工业而来,从现实应用中获取,这无疑会对算法的开发以及实用性评估带来更多的现实意义。搜狗语音技术团队在他们自己的赛道上,投入了巨大的人力,物力和计算资源,目的就是希望能和大家一起来发挥聪明才智,共同把机器同传做的更成熟,更有社会应用价值。有过从业经验的行业人士都知道,从企业中获取大规模数据并不容易,企业主动开放共享数据集更是难得一见。这样的机遇并不是年年都有,希望已经在积极备赛的选手都能收获自己满意的成绩,从比赛中得到能力的锻炼和水平的提升,早日走向人生巅峰!