快讯
汤友良:7.22黄金原油周评策略——黄金原油在线指导/解套
29分钟前
给自己一点掌声,让自己战胜内心的怯懦;给自己一点掌声,无畏的心更加的坚定;给自己一点掌声,温暖你我前行的路。我是汤友良,唯有价值才能体现价格,我认识你,只是多一个朋友一个客户,而你认识我,可能就会拥有全世界。===最新国际消息===  北京 [详情]
沈金帆:7.23逆境多头能否力挽狂澜?黄金是否完成筑底?黄金解套
29分钟前
  交易之道,循序渐进,步步为营,当错过了一波趋势的开始,就没有必要纠结于是否去参与趋势的结束,市场如同一条鱼,吃鱼头需要魄力和勇气,而吃鱼尾不但风险大而且还不一定有肉,所以我们只能等待市场方向明确之后参与其中间的鱼身部分,交易也只能如此, [详情]
易乐格局不与凡夫语道丨龙腾九天会有时,易乐生态定不负众望!
29分钟前
今日看点昨日20时,数据盾易乐团队在一直播平台直播,带百万盾家军和盾粉聊聊几件易乐生态的大事,带盾粉一道领略易乐生态的未来发展、台湾之行所悟所想、ARP暴跌、BTC拉盘等。本次直播同时有116.6万粉丝在线观看,据不完全统计共计1143.9 [详情]
江子阳:外汇黄金是虚假交易吗?星耀国际真的存在问题吗?
29分钟前
    朋友们,晚上好,我是江子阳,很多投资者在投资的过程中与很多疑虑,或者说有很多不解。    而现在这里再次曝光一个外汇平台,那就是星耀国际,打着羊头卖狗肉的外汇交易商。为什么这么说,下 [详情]
穆晓小:7.22黄金突然反转是‘诱惑’还是‘陷阱’?
29分钟前
在过去的一周,市场热点可圈可点,包括普特会、欧日关税协议、鲍威尔国会证词、英国脱欧法案的进展、美国和墨西哥推进双边协定、褐皮书以及川普对货币政策的重炮言论,市场因事件波动产生了许多交易机会,而我们也抓住了其中大部分利润。在这里再多说一点很多 [详情]
薛梓杨:7.22黄金有人欢喜有人愁,多单给出出场机会!
29分钟前
       黄金分析百家强,有我华中薛梓杨!              套单常有,盈利何来,专业人做专业事,拒绝深套拒绝亏损,一次正确的选 [详情]
2019年马云将成为年轻人最受欢迎的人物,一句话受益匪浅
30分钟前
    作为一名企业家,无论我们是为企业做准备还是创业,  要在商业上取得成功,您必须在创业迷宫中找到正确的出路:    首先要改变主意:因为思维方式决定了出路。  如果我们的想法没有改变,即使我们面 [详情]
王渊哲:7.23黄金即将全面翻盘?本周中长线做好翻仓准备
30分钟前
  单,我不怕喊错,因为我有更大的把握去盈利,别问我为什么这么自信,有实力就是任性。  自从有了资本市场,人们就多了一个无形而残酷的争夺利益的战场,各种关于如何在这个战场作战的理论也就应运而生,正统的如学院派、基本分析派和技术分析派,边缘的 [详情]
本周聚焦周四欧银利率决议!
30分钟前
方世平—7月23日分析 上周五国际现货黄金收报1231.51美元/盎司,白银收报15.50美元/盎司。今日22:00关注美国6月成屋销售年化总数、欧元区7月消费者信心指数初值数据,若数据呈现同相关系则欧元兑美元波动加大,若数据出现 [详情]
7.23黄金早评;多头反攻如何应对?黄金多空在线解套
30分钟前
  文/李致宁(指导微信:lzn659)    一句话有一百种说法,一件事情有一百种做法;每个人的思路不一样,结果也是五花八门。在行情看法和操作上也是一样,但任何事情都有好的处理方式,判断行情,风险控制,入场安排,出场规划等等看似简单,里面 [详情]
钱煜鑫:7.23黄金多头是否昙花一现,黄金走势预测附黄金解套
30分钟前
  大家早上好,我是钱煜鑫。新的一周有开始了,你们准备好了吗?  在这个世界里,最公平的就是行情。所有的朋友们面对的都是一样的行情。然而,面对同样的行情,朋友们必然会做出不同的选择。当行情像浪花一样一波接一波的打过来,有的人面对机会,做好准 [详情]
金皓盈:7.23周一黄金开盘操作策略附趋势定义
30分钟前
睿智的投资者不是从昨天的增长中获利的——来自一个专注于黄金投资的分析师忠告。====行情回顾====上周黄金整体行情格局是偏向空头趋势,整周整体波幅34美金。前几个交易日黄金延续跌势,并且跌出今年的新低1211一线,黄金上周四大幅触底反弹并 [详情]
7.23早评-今日黄金原油操作建议,金价能否中线反转?
30分钟前
  没心没肺的笑,只是为了不输掉仅存的骄傲。在年少时,生活是盾,我们是矛,中年时,家庭是盾,工作是矛。没有绝对的分离,只有学会的平衡。投资是生活的一部分,而不是全部,每一个渴望改变和解救的人,都是源于相信,用心对待每一次的相遇,才能让匆匆而 [详情]
吴及鑫:7.23黄金将延续下跌多头仅昙花一现7.23黄金早间行情分析7.23黄金操作建议
30分钟前
  丨内容目录  黄金上周止跌反弹原因解析  黄金早间行情走势分析及操作策略  下周重要消息面前瞻及消息面解析  =====吴及鑫-黄金上周止跌反弹原因解析  技术面来看:黄金4小时图K线向上刺破5日,10日均线,拉动5日均线拐头向上,短期 [详情]
帮主:“特朗普”搬石头砸自己脚,沙特反悔后油价需谨慎看空!
30分钟前
  原油:本周我们原油做的比较少,原油价格在上周EIA走出黑天鹅事件后,一直延续空头思路,到了本周的EIA,行情基本跟上周的情况一样,数据大利空,行情走暴涨,67一线,一度涨至69附近,在周四开盘后价格一度在低开低走,非常的诡异,这也是我们 [详情]
朱彦德:7.23黄金今日热点,黄金开盘预测及建议附加解套
31分钟前
 考虑一千次,不如去做一次;犹豫一万次,不如实践一次;华丽的跌倒,胜过无谓的彷徨,将来的你,一定会感谢现在奋斗的你。  消息面: 北京时间周五晚间,特朗普再次炮轰美联储,他接受采访时称美联储主席鲍威尔的加息计划他并不认同 [详情]
朱金禹:7.23黄金反弹还是回落?黄金原油日内操作建议附解套
31分钟前
  投资的首要原则是规避风险,如果不能规避风险,那么有再多的盈利,总有一天都会还回去,投资者需要认清一点,对于普通投资者来说,大部分时间应该以观望为主,耐心等待最好的机会出手,避免频繁交易是公认的致胜法宝之一。不要企图抓住全部的波动,也不要 [详情]
汤煜森:7.23早评。早间黄金最新操作建议、原油今日走势分析
31分钟前
  近段时间,在强势美元下,黄金走势一直低迷,即使全球贸易紧张局势风险也未能提振黄金,黄金的避险功能未能得到体现,黄金与美元走势的负相关性相当明显。              而近两天,特朗 [详情]
祝子墨:今天不谈行情,谈谈一些亏损的原因和改正方法
31分钟前
  新的一周开始了,相信经过两天周末的休息!大家对于本周的行情都有了一个大致的判断!单子处于被套状态的也相继寻找到了想要的解决办法!都在期待着本周开盘的行情了!所以咱们不谈分析,想要看的可以去看子墨周末的文章!咱们今天只谈谈心态和操作的一些 [详情]
BUF早餐铺丨黑客入侵俄罗斯银行窃取100万美元;百度搜狗等搜索引擎搜出假物流;美国零售业数据泄露率持续创下新高
41分钟前
  各位Buffer早上好,今天是2018年7月23日星期一,农历六月十一。今天份的BUF早餐内容主要有:黑客入侵俄罗斯银行窃取100万美元;百度搜狗等搜索引擎搜出假物流;美国零售业数据泄露率持续创下新高;手机息屏拍摄功能引争议,专家这样解 [详情]
暑期实习的“套路”有多深?学生企业心思各异
43分钟前
大学校园,你所不知道的95后 暑期实习的“套路”有多深 暑期实习,对于每一个大学生来说都是一门“必修课”。不同的学生对于暑期实习有着不同的期待:有的是为了丰富简历,有的是为了新学期的校园招聘做准备,有的是为了提 [详情]
爱玩游戏早报:奇异人生漫画公布 PES2019 Demo时间放出
45分钟前
  各位玩家早上好,爱玩游戏早报固定在工作日晨间发布,为您梳理昨天或今天凌晨发生的一些游戏业界消息,以短平快的信息播报为主,针对这些信息在白天可能还会有更详细的报道,所以请有兴趣的玩家持续关注我们网易爱玩的网站以及爱玩APP。  《实况足球 [详情]
【视频】背刺G胖,2018“杉果暑促”剁手指南(福利向)
45分钟前
  杉果720暑促现已开启!今天我们不打广告,谈福利!!  今年的「杉果720暑促」全场数千款游戏统统倒贴钱,更有每日限时折上折.除了优惠券和你们熟悉的传家宝,众多新游戏也以史低价参与了此次促销。想买游戏的同学快看杉果商城看看~~~  最后 [详情]
舟山单个屋面装机容量最大的光伏发电项目将投产
52分钟前
2018-07-23 07:07 | 舟山晚报资料图近日,舟山单个屋面装机容量最大的光伏发电项目已进入调试阶段,即将在浙江华业塑料机械有限公司投产。近日,记者走进浙江华业塑料机械有限公司生产车间看到,机器设备正在运转,螺杆工人紧张有序工作。 [详情]
【活动】杉果720夏促第三天:《龙珠斗士 Z》半价,奥日买一送一
53分钟前
  今天是杉果720夏促第三天,新一批限时折扣已经在中午更新了。  和前几天一样,杉果仍然推出了不少新作,代替那些耳熟能详的镇果之宝。比如年初发售的漫改格斗游戏《龙珠:斗士Z》,卡普空翻炒的冷饭《鬼泣:高清合集》,另外还有《火星求生》和《火 [详情]
这部“三观不正”的婚外恋电影,为什么还是令人感动?
53分钟前
  2018 年 7 月 9 日,迈克尔·翁达杰的小说《英国病人》获得了金布克奖。  布克奖是英语世界最重要文学奖之一,创办50周年,也评选出了50部重要的作品;  为纪念50周年,就特别颁发了金布克奖。  不过《英国病人》之所以能够得到最 [详情]
“背刺行动”正式开始,G胖或于近日“潜逃”德国 | 杉果好周道
54分钟前
    杉果好周道,每周末和你侃侃游戏圈的奇闻异事    这个周末对于B站的很多员工来说,并不好过。在本周五下午,央视点名批评了Bilibili网站中存在大量“令人担忧的低俗内容”。  随后B站官方微博对此发布公告,表示已经下架了相关视频同 [详情]
互联网金融炸雷时代,全面重拳整治之下互金发展该向何方?
55分钟前
  今年的夏天,似乎是一个不平凡的季节,原先所有人都以为630大考对于互联网金融来说会是一个挑战,然而谁都没想到挑战来的如此之大,如此之猛烈,以至于让大量的互联网金融机构成为了这场挑战的牺牲品,在这场炸雷风波当中,幸存下来的互联网金融机构们 [详情]
2018年7月23日今日生猪价格|一路上涨,局部冲破七元大关
56分钟前
学习养殖技术、了解最新行情,在线咨询养殖难题和老师零距离交流,请点击右上角关注↗猪大夫在线。​今日猪价点评:又是全面飘红的一天呀!最高猪价出现在上海、广东,与近期降雨天气有很大关系,猪价最低出现在东北地区,最低报价5.9元,而且这波涨价已经 [详情]
交了7年保险每年6千,现在急用钱想全部提出来,划算吗?全是套路
59分钟前
导语:网友一:你和我买的是一样,都某安的“智盈人生”万能保险。刚好前几天收到平安给我补寄的交费对账单,今天刚好拿出来研究了一下。1、这个主险是6000元/年,已经交了8年,每年扣一定初始费用后,余额计入保单价值;2、我的附加了意外和医疗保险 [详情]

从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网 2017-10-11 23:26

原标题:从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

雷锋网AI科技评论:抓住时代机遇往往比个人努力更重要。

李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究者,赛后很快被谷歌吸收,并进入谷歌收购的DeepMind实验室工作。 现在,参与ImageNet挑战赛获奖的企业和个人已遍布科技行业的每个角落。

从历史经验中不难看出,想要拿到名企实习工作机会,或加速自己的职业生涯进程,亦或赢得行业投资者的关注,参加技术评测大赛都是一条有效途径。目前国内科研数据集规模最大,奖金最高,平台资源最丰富的当属由创新工场、搜狗和今日头条三家AI企业同发起“AI challenger全球AI挑战赛”。

众所周知,在人工智能领域,要想获得好的机器学习模型,数据的质和量是至关重要的。高质量训练数据对机器学习模型的建立和优化一直起着关键性作用。人工智能领域领军人物李飞飞发起建立的ImageNet图片数据集曾在计算机视觉、乃至整个人工智能发展史上都发挥过里程碑式的作用。李飞飞曾说:“数据将重新定义我们对模型的看法“ 。尽管深度学习今后的发展会趋向于半监督或无监督学习,但至少从目前来看数据的质和量仍是科学研究与产品技术研发的核心。

虽然深知数据对模型的重要性,但在AI Challenger 诞生之前,国内人工智能领域成规模的、大型权威的评测比赛还是一片空白。反观国际,无论是在图像识别领域还是语音交互领域,都已经有很多举办多年且口碑、效果皆不错的赛事。AI Challenger 的诞生可谓是给国内AI领域大规模赛事起了一个好头,而且从官方给出的数据集来看,某些方面提供的条件甚至已超过国际同类赛事。

单从机器翻译这个赛道来说,国际上的评测比赛几乎全是机器文本翻译,而AI  Challenger 在这个赛道上提供了两个方向的赛题——英中机器同声传译和英中机器文本翻译。AI科技评论专程采访了提供这两个赛题的设计方案,同时也是大赛主办方之一的搜狗科技,为大家介绍更详细的赛事情况。

在技术进步和文化扩散的双重推动下,这个世界总体是在趋向于互通互联。不同国家之间平等便捷获取信息,低成本地有效沟通成为一种强烈需求。从这个意义上讲,机器同传正是为了实现人类打破不同语言壁垒的愿望而生。搜狗语音交互技术中心总经理王砚峰说道:“搜狗是去年十一月在业界首发机器同传,之后在近百场会议现场中演示过,「一边用中文演讲、一边同步显示英文翻译」无论是给讲者还是观众都带来了很大的视听震撼。”

记者曾经有一段时间经常会在朋友圈看到AI将会使同声传译职业消亡的文章。这也可能是搜狗同传确实震撼到大家了吧!

而实际上,机器同传离真正的人工同声传译还有一段距离,实时翻译的速度虽已达到人类水平,甚至超越人类,但翻译的准确度还有待提高。

机器同传表面上看来是把语音识别和机器翻译叠加起来达成的效果,其实这里面还涉及到很多技术难题,比如语音识别之后的文本后处理,而文本后处理不单单是常见的语句分割,还包括噪声去除,语气词去除等等。正是这些因素直接影响到机器翻译出来的准确度。

王砚峰总经理告诉记者,「目前机器同传遇到的这些问题还不是一个非常成熟的问题,像如何保证语义完整性,怎么断句,怎么去除口语等问题,这些都不是一个统一标准,不是大家用一个深度学习模型就能解决好的。通过举办评测比赛来解决这类问题,在比赛过程中就会有一些好的自发创意出来,不管是是技巧性的创意,还是理论上的创新,最终这些创新、创意汇聚起来很可能就会比现有系统处理的效果好。机器同传吸引大家的还有一点就是看起来很酷,很多具有国际参赛经验的赛手都报名参加了,他们对具有挑战性,新鲜感的赛题更感兴趣,从比赛中获得的成就感和快乐值也会更高。机器同传就是一个这样比较新兴的方向,是未来机器翻译的发展趋势。搜狗开创这样一个赛题,希望能在行业中引领大家往更实用的方向发展。」

数据集对模型生成的重要性不言而喻,但并不是所有人都知道怎么来评判一个数据集的优缺点,赛手也几乎没有机会接触并参与到数据集的制作过程中。

搜狗在机器翻译领域中有着深厚的技术积累,WMT 2017 中英、英中比赛中取得双向第一

拥有国际大赛获奖经历的搜狗机器翻译技术团队,自然会对国际上同类赛事有着比较深刻的观察和见解,在对数据集的评价上也比较有发言权。搜狗语音交互技术中心总监陈伟告诉记者,「NIST,IWSLT,WMT,这三大比赛是机器翻译界的顶级评测,过去几年这些比赛放出来的最大有效数据量(不包括完全公开的千万级联合国数据),其独有的数据量是在两百到三百万之间。而AI Challenger赛事中,搜狗提供给参赛者是一千万独有数据量。」

另外他还向记者透露一些之前参加 WMT 2017的细节。他回忆道:“当时我们参加WMT 2017时,主办方最多给到了六百万数据,这些数据来自不同的组织和学术机构,数据的质量参差不齐。在参加评测的时候,由于数据的噪声特别大,我们用了三到四个人,处理了两周才把数据清洗完。”

也许正是体会到了数据清洗过程给赛手带来的干扰和折磨,搜狗在此次AI Challenger 大赛中格外重视赛手的参赛体验。“我们要把除了模型算法以外的准备工作做到极致,让赛手专心跑模型,不被其他因素干扰。”他说道:“搜狗这次给出的数据,都是找的专业译员一条一条精标过的数据,这一千万数据标准准确率都在97%以上。用了五十个全职译员,花了三个月,全力以赴地才把这一千万数据处理完。再加上前期的数据抓取,数据清洗等一系列准备工作,整个数据集的制作花费了大概半年时间。”

“相信在这些精心准备的数据前提下,参赛选手可以实现训练出一个好的机器翻译系统。"陈伟总监最后满怀信心地说道。

AI科技评论认为是包括搜狗在内的三家大公司提供的计算平台,以及相关的技术指导。毕竟现在大多数在校学生和科研机构面临的共同问题是计算平台能力不足,数据量不够。当算力和数据量都有限制的时候,会严重制约在科研上面的的发展速度。并且科研的最终成果是要到产业中落地应用,如果只是在实验室跑算法,模型再好也未必能在真实环境中经得住考验。搜狗机器翻译技术负责人王宇光也向记者表达了相似的观点。

机器翻译基础能力,最好的技术还是在工业界,搜狗在过去一直专注于直接能在商业中落地,效果好且实用的算法。另外搜狗在国际评测比赛中也积累了不少经验,也有能力来指导大家做出更好的算法。除了有专门的导师给予指导,搜狗在以往国际评测中使用的技术也会以评测报告的方式提交出来供大家参考。

参赛者的正向反馈使得主办方们对接下来的比赛很有信心。搜狗方面向记者分享了他们目前从赛手身上获得的一些惊喜。

第一,参赛的队伍比预期要多。目前英中文本翻译和同传赛道提交的结果的队伍已经达30多支。

第二,比赛报名除了来自于一些做机器翻译的学校研究组或者研究机构以外,还有来自于其它相似研究方向的选手,例如NLP机器翻译之外的研究方向。

另外赛手在后台对于赛制规则不清楚之处,或赛题不明白之处也做出了一些反馈,他们也都给了详细解答。

随着赛事的推进,搜狗负责大赛服务的团队也从参赛者的反馈中看到了一些存在的问题,比如,选手可能会使用外部数据集来提升效果,这是大赛禁止的。

AI科技评论记者了解到,搜狗采取的措施是:首先比赛要求选手不能使用外部数据集合进行训练,对于使用外部数据的结果系统不参与最终颁奖排名。此外,要求选手提交比赛系统详细报告。最终要求选手参与答辩。这样可以最大程度过滤掉一些“刷分”行为。

雷锋网小结:AI Challenger 的全球AI挑战赛提供的数据集,都是从工业而来,从现实应用中获取,这无疑会对算法的开发以及实用性评估带来更多的现实意义。搜狗语音技术团队在他们自己的赛道上,投入了巨大的人力,物力和计算资源,目的就是希望能和大家一起来发挥聪明才智,共同把机器同传做的更成熟,更有社会应用价值。有过从业经验的行业人士都知道,从企业中获取大规模数据并不容易,企业主动开放共享数据集更是难得一见。这样的机遇并不是年年都有,希望已经在积极备赛的选手都能收获自己满意的成绩,从比赛中得到能力的锻炼和水平的提升,早日走向人生巅峰!