快讯
海炜寒:黄金区间不破依旧震荡,原油回落筑底再反攻
10分钟前
  震荡,投资生涯的必经之路,谁也难以逃脱。就如同近期的黄金,长时间在1320-1356的区间内来回波动,消耗了多少人的耐心。但我们要习惯,因为震荡越久突破的就越狠,我们不都喜欢突破震荡之后瞬间拉伸带来的感觉吗?那就要更要习惯突破前的孤寂, [详情]
原来温州人那么爱读书!温州全民阅读报告今天发布
34分钟前
4月23日是世界读书日。21日上午,温州市图书馆发布了2017年度温州市全民阅读调查报告。全民阅读调查报从阅读量、阅读时间、阅读内容、阅读费用、阅读途径等多个维度解析温州读者的阅读行为和偏好。△图书馆馆长胡海荣详解《2017温州市全民阅读调 [详情]
《绝地求生》或将在未来添加更大的地图
36分钟前
《绝地求生》的创意总监 Brendan Greene(Playerunknown)透露,游戏将在未来不断增加地图,其中或许有比现在规模更大的地图。Brendan Greene在采访中表示他们想继续为游戏增加战场,他们现在发现4x4的小地图对 [详情]
只有1名学生的山区学校竟然有这门课……
37分钟前
三月份,山东省泰山教育创新研究院与泾川县教育局共建亲子共成长公共服务平台,全面推进家庭教育工作,推动实现家庭教育线上线下的全面覆盖。一个月来,随着家庭教育工作的逐步开展,我们发现了这样一所特别的学校……一位老师,和他唯一的学生,便是郝家小学 [详情]
漫威向粉丝道歉:这次的活动辜负了所有人的期望
39分钟前
在经历了《复联3》上海红毯夜排、十周年庆典等诸多情况后,面对影迷的频频指责和要求道歉,漫威官方终于对最近的一系列事件发声,向影迷道歉。 在道歉的博文中,漫威官方先是感谢了一直以来给予他们支持的广大漫威粉丝群体,称这次的活动辜负了 [详情]
还看啥普拉多?这款SUV2.5T配7AT,全时四驱,开它绝对有面子
43分钟前
随着经济的快速发展,汽车已经成为了人们生活中不可缺少的一部分,其中SUV更是成为了汽车市场主销车型,不仅好看霸气,开车去更让为你赢得面子,今天兔兔就为大家介绍一款比普拉多还霸气的SUV,性价比非常的高,越野性能更是出色。QX60混动版前排空 [详情]
4.21-22周评空头逆袭多头 黄金周一该怎么操作多单被套怎么办?
43分钟前
文章大纲:4月21日-4月22日黄金周线收官,4.21黄金后市如何操作?4.22黄金后市走势预测;4.23黄金还会涨吗?原油行情分析;后市如何操作布局?黄金空单被套了怎么解套?本周有哪些消息面影响黄金走势;目前黄金的支撑和阻力是多少;什么是 [详情]
修改里程表、事故车整容……二手车市场水多深?
43分钟前
  说起二手车,总是让人爱恨交加。刚拿本儿的新手想买二手车,“磕磕碰碰也不心疼,练手呗!”“车神”愿意买二手车,“如果能慧眼挑到一部‘准新车’,能省下一大笔税费。”才毕业的年轻人考虑买二手车,“积蓄不多,等以后赚了钱再买新车!”退休的叔叔阿 [详情]
不到50人的车厂,每年生产50台车,法拉利都没有它贵
46分钟前
  汽车工业发达的英国有着众多知名的车厂,其中又有不少小众化的品牌,比如TVR,Noble,Zenos,Ariel Atom,BAC等等,这些品牌有一个共同点—都很冷门。有些车甚至排到了全球十大冷门跑车之列,Ascari KZ1跑车就是其中 [详情]
畅想未来银行模式,聊聊智慧银行的起源
50分钟前
小新按:在共享经济和Fintech技术迅速发展的背景下,上海新金融研究院(SFI)常务理事、浦发银行公司业务管理部总经理李麟认为,智慧银行将开启未来银行服务新模式,也是未来银行发展的必由之路,其核心是要实现智慧泛在,服务无形;化繁为简,供需 [详情]
美亚柏科启动MiaAI平台,人工智能装上新引擎
51分钟前
股票投资是一场没有终点的修行,唯有专注,才够专业!本人征战股市二十几年,风来雨去还是坚持下来了,总结多年股市投资的经验,觉得还是价值投资是最可靠的方式,至于投机是可遇不可求的,恰巧长线的投资品种被推到风口,也是基于投资者对于行业,基本面的远 [详情]
抗日神剧在日本“出书”,中国网友:丢人丢到了国外!
52分钟前
作者:云俊德近日,一本名为《抗日神剧读本:出乎意料的反日·爱国喜剧》在日本发售。这本书刚刚发售,就在日本掀起了一阵“中国抗日神剧”狂风,中国网友大呼:“好丢人!”近些年,关于抗日神剧的吐槽一直不断,“包子雷”、“手撕鬼子”、“石头打飞机“” [详情]
财神叔:2018年,知识付费衰落,行动付费崛起,你落伍了吗?
52分钟前
【1】知识付费时代,只是认知世界的最初阶段!财神叔观察这个知识付费的大风,从2016年刮到现在,大有越演越烈的趋势。从得到APP、喜马拉雅FM、蜻蜓、知乎live,各大知识付费品牌,带领饥渴的中产民众,一头扎进了知识付费的汪洋大海。一夕之间 [详情]
重磅消息!仅限关注本号的朋友了解!勿转发!
54分钟前
已经关注了【管理者成长平台】的朋友,您好,本号运营已经4年了!您关注了大概多长时间了?我有哪些做的不到位的地方,还请您留言批评指正,也可以加我个人微信(wenzhangfei99)直接批评,只是您一定要把握尺度,不然我会哭 的!这个号除了管 [详情]
2018湖南省考成绩查询入口_面试公告及时间
55分钟前
2018年湖南全省共计划招考公务员9817名,报名方式为网上报名(报名入口),报名时间为2018年3月15日9:00至3月18日17:00。笔试公共科目为《行政职业能力测验》和《申论》两科。其中《申论》分为通用卷和乡镇卷。乡镇(街道)机关以 [详情]
聪明人买车都不要博越了,如今流行买这车,后悔没有早知道!
55分钟前
聪明人买车都不要博越了,如今流行买这车,后悔没有早知道!随着社会的发展进步,买车的人变多了,而聪明人买车都买什么车了呢?其实 聪明人买车都不要博越了,如今流行买这部杰德,我都后悔自己没有早知道,买错了车,下面一起来看看本田杰德吧!2017款 [详情]
监管冲击波!31家“教育机构”被责令停业! 校外培训不能成为“贩卖焦虑”的产业
55分钟前
原标题:监管冲击波!31家“教育机构”被责令停业! 校外培训不能成为“贩卖焦虑”的产业每个家长都“望子成龙、盼女成凤”,为迎合家长的心思,近些年,鱼龙混杂的培训市场也跟着推波助澜。不少家长架不住广告“忽悠”、老师“洗脑”,报班花费成千上万, [详情]
河北唐山宏扬神童双语幼儿园携手“童兵学府”共圆地球梦公益活动
58分钟前
中国公益记录者在线河北讯(公益记录者 许有福 王影 李霞)环境问题已是我国的关注性话题,为了让我们的下一代树立“环保”意识,保护环境,珍爱地球母亲。4月20日,河北唐山宏扬神童双语幼儿园携手优仁优课“童兵学府”带领186名环保小卫士开启“共 [详情]
朱永新:当老师,首先要让学生瞧得起!
58分钟前
  教师,不是园丁,教师本身就是应该是一朵花。”“教师,不是蜡烛,教师不能以化为灰烬为代价,以此来照亮学生。”这是朱永新对教师的理解,时代在不断变化,时代对教师的要求也在变化,究竟,在朱永新老师心中,好老师的标准是什么呢?  教师的价值不是 [详情]
河北两名寒门学子考上清华! 他们的故事值得所有家长看看!
58分钟前
接下来这两位主人公,都来自河北,家境贫寒但都用知识改变了命运。他们的故事,绝不仅仅是高考考了684分,更不仅仅是关于“寒门还能否出贵子”的讨论,他的故事感动了中国,值得每个父母、每个孩子都好好看看!1寒门学子684分被清华录取他的故事感动中 [详情]
事业赢家成龙,被媒体爆出买3.8亿的豪华专机
59分钟前
在事业上成龙早在1982年时便开始打入好莱坞市场,但他迈向国际之路并不顺遂;他首次进军国际的作品是《炮弹飞车》,可惜票房失利,令成龙要相隔多年才再闯好莱坞。而真正令成龙打入国际市场是1994年拍摄的《红番区》,在美国上映时创下高票房纪录,进 [详情]
麦市“天花板”不在,接新前或不断“寻底”
59分钟前
底价调整市场麦价应声而落拍卖底价下调后,市场各主体看空后市的氛围更加浓厚,面粉企业控制收购量,补库意愿不强;贸易商售粮态度积极,各级储备小麦轮换速度加快,受此影响,主产区小麦价格普遍呈现下跌态势。当前,河北邯郸容重780g/l、水分12.5 [详情]
汽车慢车道上“排排坐”,市民无路可走!
59分钟前
随着城市创卫工作的深入开展,相关部门在市区许多道路路边划设了机动车停放标线,规范机动车的停放,以提升市容环境。但有个别人私家车却乱停乱放,阻碍交通,给出行造成不便!汽车慢车道上还能排排坐?电动车被迫贴着公交车“这些车太没素质了,停车你靠边停 [详情]
第二谁都没想到漫威电影演员谁最有钱?
1小时前
十年间漫威为大家带来了十八部精彩的电影,随着《黑豹》票房的不断攀升,全球电影总票房排行榜当中现在已经有三部漫威的电影,分别是:《黑豹》、《复仇者联盟》以及《复仇者联盟2:奥创纪元》。如此高的票房自然也带动了演员的收入,今天小编跟大家分享一下 [详情]
中国梦,中国芯,科技兴国之核心!半导体芯片细分龙头详解(附股)
1小时前
中兴通讯的事件对于近期股票市场是个大事件,美国禁止美国企业向中兴通讯销售电子元器件包括芯片长达七年。这件事不是一个上市公司的劫数,也是中国半导体芯片行业的劫数。同时我们也看到了发展国产芯片对于国内来说是一件迫在眉睫的大事,所以今天A股市场中 [详情]
孙创宇:4月23日黄金关注33一线得失、原油低多为主【周评】
1小时前
  孙创宇:4月23日黄金关注33一线得失、原油低多为主【周评】    四月份又过了一大半了不知道你的操作是什么情况呢?不过时间还有,行情还在走,你挽回损失的机会就在!前路漫漫,任重而道远。那么针对此次行情创宇想问问大家你是否经常错过赚钱的 [详情]
2018年湖南公务员成绩查询_面试入围分数线
1小时前
湖南中公教育考试网现将2018年湖南公务员考试考试成绩查询入口链接发布在此,以便于考生快速顺利完成成绩查询。 >>点击进入:2018年湖南公务员考试考试成绩查询入口(详情点击链接:http://hn.offcn.com/zg/gwycj/) [详情]
三年了,我们终于对募资没信心了!这是好事
1小时前
今年以来,对募资难的探讨一直得到舆论的广泛关注,钱荒爆发四个字对机构而言重逾千斤,据投中研究院联合中华股权投资财务总监协会对97位主流VC/PE机构的CFO进行的调研显示,有近六成的CFO对今年的募资信心有所下滑。作为机构的大管家,CFO可 [详情]
吴天明青年电影专项基金选送青年制片人去戛纳
1小时前
2018年4月21日讯,中国电影基金会——吴天明青年电影专项基金昨天在第八届北京国际电影节上举办发布会,公布了2018青年制片人培育计划选送“戛纳制片人工作坊”的5个项目,入围的青年制片人将前往戛纳进行学习交流。发布会现场,该基金还和联承星 [详情]
机构看市 | 基金称“白马”估值重塑 笑纳稀有“独角兽”回归
1小时前
  4月18日的降准超出市场预期,此次降准的量级超过前期,因此,对股债两市均形成利好,这无疑提振了市场和投资者的信心  《投资者报》高方方/文  上周周K线收阴,跌幅达2.77%。近期影响市场走势的消息较多,关于央行宣布定向降准,向市场释放 [详情]

从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网 2017-10-11 23:26

原标题:从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网AI科技评论:抓住时代机遇往往比个人努力更重要。

李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究者,赛后很快被谷歌吸收,并进入谷歌收购的DeepMind实验室工作。 现在,参与ImageNet挑战赛获奖的企业和个人已遍布科技行业的每个角落。

从历史经验中不难看出,想要拿到名企实习工作机会,或加速自己的职业生涯进程,亦或赢得行业投资者的关注,参加技术评测大赛都是一条有效途径。目前国内科研数据集规模最大,奖金最高,平台资源最丰富的当属由创新工场、搜狗和今日头条三家AI企业同发起“AI challenger全球AI挑战赛”。

众所周知,在人工智能领域,要想获得好的机器学习模型,数据的质和量是至关重要的。高质量训练数据对机器学习模型的建立和优化一直起着关键性作用。人工智能领域领军人物李飞飞发起建立的ImageNet图片数据集曾在计算机视觉、乃至整个人工智能发展史上都发挥过里程碑式的作用。李飞飞曾说:“数据将重新定义我们对模型的看法“ 。尽管深度学习今后的发展会趋向于半监督或无监督学习,但至少从目前来看数据的质和量仍是科学研究与产品技术研发的核心。

虽然深知数据对模型的重要性,但在AI Challenger 诞生之前,国内人工智能领域成规模的、大型权威的评测比赛还是一片空白。反观国际,无论是在图像识别领域还是语音交互领域,都已经有很多举办多年且口碑、效果皆不错的赛事。AI Challenger 的诞生可谓是给国内AI领域大规模赛事起了一个好头,而且从官方给出的数据集来看,某些方面提供的条件甚至已超过国际同类赛事。

单从机器翻译这个赛道来说,国际上的评测比赛几乎全是机器文本翻译,而AI  Challenger 在这个赛道上提供了两个方向的赛题——英中机器同声传译和英中机器文本翻译。AI科技评论专程采访了提供这两个赛题的设计方案,同时也是大赛主办方之一的搜狗科技,为大家介绍更详细的赛事情况。

在技术进步和文化扩散的双重推动下,这个世界总体是在趋向于互通互联。不同国家之间平等便捷获取信息,低成本地有效沟通成为一种强烈需求。从这个意义上讲,机器同传正是为了实现人类打破不同语言壁垒的愿望而生。搜狗语音交互技术中心总经理王砚峰说道:“搜狗是去年十一月在业界首发机器同传,之后在近百场会议现场中演示过,「一边用中文演讲、一边同步显示英文翻译」无论是给讲者还是观众都带来了很大的视听震撼。”

记者曾经有一段时间经常会在朋友圈看到AI将会使同声传译职业消亡的文章。这也可能是搜狗同传确实震撼到大家了吧!

而实际上,机器同传离真正的人工同声传译还有一段距离,实时翻译的速度虽已达到人类水平,甚至超越人类,但翻译的准确度还有待提高。

机器同传表面上看来是把语音识别和机器翻译叠加起来达成的效果,其实这里面还涉及到很多技术难题,比如语音识别之后的文本后处理,而文本后处理不单单是常见的语句分割,还包括噪声去除,语气词去除等等。正是这些因素直接影响到机器翻译出来的准确度。

王砚峰总经理告诉记者,「目前机器同传遇到的这些问题还不是一个非常成熟的问题,像如何保证语义完整性,怎么断句,怎么去除口语等问题,这些都不是一个统一标准,不是大家用一个深度学习模型就能解决好的。通过举办评测比赛来解决这类问题,在比赛过程中就会有一些好的自发创意出来,不管是是技巧性的创意,还是理论上的创新,最终这些创新、创意汇聚起来很可能就会比现有系统处理的效果好。机器同传吸引大家的还有一点就是看起来很酷,很多具有国际参赛经验的赛手都报名参加了,他们对具有挑战性,新鲜感的赛题更感兴趣,从比赛中获得的成就感和快乐值也会更高。机器同传就是一个这样比较新兴的方向,是未来机器翻译的发展趋势。搜狗开创这样一个赛题,希望能在行业中引领大家往更实用的方向发展。」

数据集对模型生成的重要性不言而喻,但并不是所有人都知道怎么来评判一个数据集的优缺点,赛手也几乎没有机会接触并参与到数据集的制作过程中。

搜狗在机器翻译领域中有着深厚的技术积累,WMT 2017 中英、英中比赛中取得双向第一

拥有国际大赛获奖经历的搜狗机器翻译技术团队,自然会对国际上同类赛事有着比较深刻的观察和见解,在对数据集的评价上也比较有发言权。搜狗语音交互技术中心总监陈伟告诉记者,「NIST,IWSLT,WMT,这三大比赛是机器翻译界的顶级评测,过去几年这些比赛放出来的最大有效数据量(不包括完全公开的千万级联合国数据),其独有的数据量是在两百到三百万之间。而AI Challenger赛事中,搜狗提供给参赛者是一千万独有数据量。」

另外他还向记者透露一些之前参加 WMT 2017的细节。他回忆道:“当时我们参加WMT 2017时,主办方最多给到了六百万数据,这些数据来自不同的组织和学术机构,数据的质量参差不齐。在参加评测的时候,由于数据的噪声特别大,我们用了三到四个人,处理了两周才把数据清洗完。”

也许正是体会到了数据清洗过程给赛手带来的干扰和折磨,搜狗在此次AI Challenger 大赛中格外重视赛手的参赛体验。“我们要把除了模型算法以外的准备工作做到极致,让赛手专心跑模型,不被其他因素干扰。”他说道:“搜狗这次给出的数据,都是找的专业译员一条一条精标过的数据,这一千万数据标准准确率都在97%以上。用了五十个全职译员,花了三个月,全力以赴地才把这一千万数据处理完。再加上前期的数据抓取,数据清洗等一系列准备工作,整个数据集的制作花费了大概半年时间。”

“相信在这些精心准备的数据前提下,参赛选手可以实现训练出一个好的机器翻译系统。"陈伟总监最后满怀信心地说道。

AI科技评论认为是包括搜狗在内的三家大公司提供的计算平台,以及相关的技术指导。毕竟现在大多数在校学生和科研机构面临的共同问题是计算平台能力不足,数据量不够。当算力和数据量都有限制的时候,会严重制约在科研上面的的发展速度。并且科研的最终成果是要到产业中落地应用,如果只是在实验室跑算法,模型再好也未必能在真实环境中经得住考验。搜狗机器翻译技术负责人王宇光也向记者表达了相似的观点。

机器翻译基础能力,最好的技术还是在工业界,搜狗在过去一直专注于直接能在商业中落地,效果好且实用的算法。另外搜狗在国际评测比赛中也积累了不少经验,也有能力来指导大家做出更好的算法。除了有专门的导师给予指导,搜狗在以往国际评测中使用的技术也会以评测报告的方式提交出来供大家参考。

参赛者的正向反馈使得主办方们对接下来的比赛很有信心。搜狗方面向记者分享了他们目前从赛手身上获得的一些惊喜。

第一,参赛的队伍比预期要多。目前英中文本翻译和同传赛道提交的结果的队伍已经达30多支。

第二,比赛报名除了来自于一些做机器翻译的学校研究组或者研究机构以外,还有来自于其它相似研究方向的选手,例如NLP机器翻译之外的研究方向。

另外赛手在后台对于赛制规则不清楚之处,或赛题不明白之处也做出了一些反馈,他们也都给了详细解答。

随着赛事的推进,搜狗负责大赛服务的团队也从参赛者的反馈中看到了一些存在的问题,比如,选手可能会使用外部数据集来提升效果,这是大赛禁止的。

AI科技评论记者了解到,搜狗采取的措施是:首先比赛要求选手不能使用外部数据集合进行训练,对于使用外部数据的结果系统不参与最终颁奖排名。此外,要求选手提交比赛系统详细报告。最终要求选手参与答辩。这样可以最大程度过滤掉一些“刷分”行为。

雷锋网小结:AI Challenger 的全球AI挑战赛提供的数据集,都是从工业而来,从现实应用中获取,这无疑会对算法的开发以及实用性评估带来更多的现实意义。搜狗语音技术团队在他们自己的赛道上,投入了巨大的人力,物力和计算资源,目的就是希望能和大家一起来发挥聪明才智,共同把机器同传做的更成熟,更有社会应用价值。有过从业经验的行业人士都知道,从企业中获取大规模数据并不容易,企业主动开放共享数据集更是难得一见。这样的机遇并不是年年都有,希望已经在积极备赛的选手都能收获自己满意的成绩,从比赛中得到能力的锻炼和水平的提升,早日走向人生巅峰!