田亮:通过高端审校把机器翻译质量提高

文 | 新浪财经

“2017中国高新技术论坛”于11月16日-18日在深圳会展中心举行,新译信息科技(深圳)有限公司CEO田亮出席并演讲,演讲主题为《智能翻译让你更懂世界》。


新译信息科技(深圳)有限公司CEO田亮

新译信息科技(深圳)有限公司CEO田亮


李开复说未来十年内有望被替代的行业就是翻译行业,田亮认为,通过高端审校把应用质提高,可以把机翻的质量提高,相应也会把跨国旅游以及多语媒体传播以及其他的高端工艺都会带来更加有利的方式。


以下为演讲实录:


田亮:谢谢主持人的介绍,其实今天早上从北京过来的时候,其实我进场的时候还有人说怎么跳水冠军也跑到高交会。首先我用一句话来介绍我们正在做的事情,其实我们用自然语言处理技术解决了文本和文本之间的互译技术,下面我用一段视频来让大家直观感受一下我们正在做的一些工作和事情。


其实这段视频我想除了传达一下我们正在做的事情,其实我更想传达我们应该拥有一个坚定的信心,就是科技真的会改变我们的生活,我来参加这个会议是两三天之前的事情,这段视频里面人在读的时候是语音合成,我们采取在深圳卫视抓取主持人大概十分钟的声音,去合成这段声音。我们所传达其中有一个双语字幕,如果可以看里面的翻译,多少会有一些翻译,是机器翻译的技术。对应到图片来讲,人工智能这个概念大家并不陌生,从媒体的报道可以非常熟悉这个词的表达和力量。我们主要是来看到人工智能主要是基础进程和一些技术层的东西,从技术的角度来讲,人工智能就是涉及到文本、语音、图像,我们主要专注在文本,而语音和图像和文本的一些结合就可以有很多的延伸品。


视频传达了两个,一个是语音合成和语音识别和机器翻译的混合体,由于它的算法通用性,导致我们都可以去做,但是做语音识别,它的目的是服务于机器翻译。这就是我们在给语言生态圈构建的生态图;语音资产其实简单大家可以理解,企业中留存的语音、文本、图像数字化的标签和资源,语言资产可以为信息翻译提供一些训练的源泉,辅助翻译系统他所提供就是一些便捷的工具和提高工作效率的一个工作平台,机器翻译主要是解决快速的双语数据以及现在的单体数据,我们从语言资产的自动采集到一些训练到辅助翻译逐渐形成不断的沉淀,构成语言环境下的生态圈。


机翻现在神经网络的复兴,很大层面他们之间都有一些共存和分享,我们可以看到其实不论是统计还是规则,留存了十几年时间,在未来的地方统计和规则以及神经网络也会有一个交融期和复苏期,神经网络并不是一开始就被主流的统一算法接受的;其实都是有一个过程。我们也在不断改进神经网络算法,都是在已有的神经网络算法不断地改进,达到翻译质量不断提升的效果。从论文也好,还是从现在做的实验来看,神经网络算法总体来讲是优于统计的模型,从百万的数据规模变到千万和亿的规模,一些可读性会更加明显。从这一点来讲,从现在机翻的实用性导致我们可以商用的程度,这是前两天我在人民日报抓的法语信息,虽然说神经网络模型不是过于完美,但是可读性质量大大优于统计模型。


我们自然会想到如何应用这种技术在我们生产实验中的应用,主要分为两类:1、独立性部署和机翻的差异化的服务,主要是缘自于当前服务的行业带来的一些延伸,我们主要服务传媒以及教育行业,导致我们现在所做的一些产品是针对这个行业逐渐延伸和改进。从公共安全的角度来讲,一个比较常见的应用是在舆情的情报采集上,企业也好,政府也好国内外会采集大量的信息,情报系统的留存中,可以看到情报的采集到分析过程中会用到大量的机器翻译服务,转变成我们可以理解的语言进行更多的层次的报道分析。无论是后端的专家还是专门的采集专员也好,他们会把浏览器插件用于他们后端的快速编辑和实践。


这个机器人其实应用公安和特定的场景,在旅游的场景也可以做一些基本的沟通和对话来满足外国人来到中国,以及我们中国人到国外出行的沟通问题。在出入境服务厅的时候也有类似的需求,常见就是旅游行业,从各方的宣传来讲,这是最广的应用,现在服务于B端的用户,比如说酒店前台、餐厅的就餐服务、博物馆等等。无论是平板还是机器人的一些包装也好都是基于APP的延伸和服务,在APP的扩展上可以达到交流的目的,在传媒上可以看到很多把中国“一带一路”走出去的信息报道给国外,这也是需要大量的快速采集和翻译。


其实包括我刚刚提到的,我们的文档翻译系统,在我们常见的WPS或者word的查检,便于记者人员传递我们的中国声音的应用。在教育行业;也有一个快速的解决方案,达到便捷理解的一些方式。在司法部门有类似的操作,就是独立部署以及多语言的沟通,以上就是一些大致的应用场景。


我们在服务B端的过程中,积累了大量的数据,数据对智能制造一些重要性,数据对人工智能里面很多的一些底层是一个不可或缺的资源,所以我们能够保证在机器翻译里面有一个垂直化领域的应用,这样也导致我们在各种数据上的积累,不断的迭代和更新。


其实现在来讲机器翻译并不是那么完美,虽然可以在很多地方应用,仍然会有很多的问题,其中两个最主要的问题就是神经网络出现的漏译和过译,会把很多的数据不翻译,但是对于机器的模型来说,它认为这是最优的,过译就是多出一些同样的东西。虽然说小问题存在,但是并不影响我们在现行中的应用,但是在现实过程中,这些问题将不断改进,达到能够不断迭代更新和创造的过程。


从现在来看,李开复说未来十年内有望被替代的行业就是翻译行业,我想补充一个就是站在替换的过程中,对于高端审校把应用质量达到更高的质量,便于机翻的质量提高,相应也会把跨国旅游以及多语媒体传播以及其他的高端工艺都会带来更加有利的方式。也许在未来的不久,我们现在在座的屏幕前都可以出现一些字幕和沟通,便于我们现在的理解和一些翻译,谢谢大家。

抢沙发

昵称*

邮箱*

网址