“我之前所说的惊喜,一是一款新的模型结构,它将会终结目前序列相关的问题领域的混乱现象。另一个我们放到最后再揭晓。”孟繁岐开门见山,这是写论文摘要的习惯,先说领域有什么不足有什么问题,自己通过了什么办法解决了什么难题。
这样有助于受众快速理解三要素,缺陷,方法和结果。
“序列问题,这个词可能对不少人来说,显得稍微有些晦涩。我把事情说得直白一点,在这里主要指的就是像自然语言和语音声音那一系列问题,当然了,如同基因序列这样一维的问题也可以归在其中。”
“最近一年多的时间,深度学习在图像领域一枝独秀,爆发性地突破了很多任务的极限水平。但在自然语言领域,目前的局面仍旧显得比较混乱。”
孟繁岐说到这里,不少稍微懂得一些领域内幕的人心中免不了有些腹诽,“什么叫深度学习在图像领域一枝独秀,整个儿就是你一个人在秀。”
“在目前的序列问题领域,传统的语言技术,效果也还不错,有着不少的应用。基于深度学习的卷积网络和循环网络,相互之间各有千秋。我个人的感觉是,我们学界总体还是非常迷茫,不知道未来应该主要发展哪个方向,不知道哪个方向才是正确的。”
“对于这个现象,这个问题,我给出的答案是,它们都是不够好的。目前序列问题发展的最好方向既不是卷积网络,也不是循环网络,而应该是注意力机制。”
“基于这种机制,我们放弃了卷积和循环的模式,提供了一种全新的建模方式,它的名字叫做transformer,t方法。”
孟繁岐说到这里,就没有再继续详细解释t方法的结构和原理了,这一次的宣布,主要目的还是为了流量和关注度,大部分民众,以及现在现场的人员,都是不大可能能够理解其中原理的。
继续往下说,只会是对牛弹琴,多说无益。
只有少部分在现场的人懂得这个新范式的意义,比如deepmind的同事们。
不过他们早就已经接触到代码了,此刻并不会感到惊讶,也不需要孟繁岐过多的解释。
“具体的原理和推导,我们很快会有论文公布出来,在这里就不耽误大家的时间了。”孟繁岐非常清楚,这次最核心的地方还是要展现这种方法在海量问题和数据上的强大能力,应该抓着实验结果多吹一吹,如果尽量能用普通人可以感受到的方式,那就更好了。
“transformer模型是一种先进的深度学习模型,既可以用于语音处理任务,也可以用于自然语言处理任务。我们已经在诸多领域使用它取得了巨大的进展,我在这里借用大家几分钟,做一个快速的展示。”
所有的观众们刚刚消化了阿尔法围棋这个围棋神明的事实,正是对人工智能有滤镜的时候。
“首先,机器翻译。我大量采用了注意力机制来捕获输入句子和输出句子之间的关联,从而使翻译质量得到了很大的提升。”
说着,孟繁岐的背后显示出了一个表格,旁边是不同大小的t方法对传统最佳办法的对比柱状图图。
列举了几种常见语言之间,翻译效果的指标。
有了这种直观的图表,即便不理解其中技术原理的人,也能够直观地对比不同方法性能之间的差距。
“然后,是语音识别,t方法可将音频频谱转换为文本形式。”孟繁岐点击了一下幻灯片上预设好的按钮,然后拿起麦克风说了一长串话:“语音识别的精确程度固然惊艳,但大家将会大为震撼的,其实是t方法在下一个任务上的能力。”
非常迅速地,t方法将该段音声转换成了文本。由于孟繁岐刻意控制了语速和发音质量,吐字比较清晰,因而这一次语音的转换分毫不差。
在场的人们虽然前面翻译的部分听得是云里雾里的,但在这里还是看得明白的,纷纷鼓掌致意。
“接下来,我刚才所说的惊艳能力,便是语音合成能力,它同样可以反过来根据输入的文本生成相应的语音内容。”
孟繁岐说着,直接把刚刚t方法识别出来的文本复制了一下,直接交由t方法去生成。
很快,一个知性地女声响起,若不是这个句子太长,在几个地方发音仍有一些瑕疵,人们几乎不敢相信这是由电脑合成出来的声音。
虽然t方法在诸多任务上均取得了不小的提升,但是那些大都是在表格上对比展示,大家其实也看不懂一个点两个点意味着什么。
没办法理解其中的技术含量和突破的难度。
但这一次语音和文本的来回转换,则直观了太多。
“卧槽,他的意思是刚刚那个声音是假的?是合成出来的?”战鹰的嘴再次因惊讶而成一个o型,她最开始没有想到这一点,后知后觉,半晌才回过神来。
“我以前听到的那种机器语音,都是冷冰冰一个调的,一开口就知道是老机器人了。孟繁岐这个效果完全不一样啊,语音语调都有,语速、停顿的特性都和人类像了很多。要不是偶有一点杂声,我都快分辨不出来了。”
语音合成这里,孟繁岐专门对网络做了许多的改动调整,专门设置了一些音高音准的调节器结构,为得就是语音生成出来可以更像是人类在说话。
此外,还专门做了一个全新的声码器,用来匹配新办法。在一系列任务中,属于是下了较多功夫的,效果自然非常惊艳。
其实这个领域,一直以来也没有一个特别好的指标来评价合成出来的语音到底效果和质量怎么样。
通常都是使用一个指标叫做moS,其实就是人类的平均打分。我找二三十个志愿者,然后让他们盲听一下真实的语音和几个生成出来的版本,让志愿者打分。
没想到吧,在这个深度学习飞速发展的时代,竟然还是有少数领域采用的是如此古老且不好控制均值方差的打分办法。
“这也导致语音合成领域后来不少论文中,几个方法的效果到底谁更好没有一个定论。”语音类型的会议也收图像类论文,并且好投中一点,所以孟繁岐也关注过这方面的一些内容。
这种比较主观草率的评分,就使得操作空间变得格外之大。
试想,只要你通过暗示等手段,甚至加入一些干扰,就能轻松使得志愿者对其他方法的评价变差。如此一来,便能够凸显你自己的办法效果绝佳。
不少人都没能抵挡住这个诱惑。
当然,这也只是一方面,不同的方法在不同的句子上,效果本就有出入。
研究者甚至不需要作假,只需要针对性地进行筛选,就能够达成自己的目的了。
“holy Shit。这小子加入了谷歌之后,真是离谱到家了。”燕京,李彦弘也在关注这件事:“我想过他有了资源之后能做出更大的成绩,却怎么也没有想到他的野心如此之大。”
孟繁岐作为核心贡献者做出阿尔法围棋,李彦弘是可以理解的,他认为以孟繁岐的实力,终结围棋智能这样特定的领域,是完全可以预见的。
但看今天这架势,孟繁岐已经不满足于某个方向了。
这小子是一个都不打算放过啊...
李彦弘看了一眼ppt,这东西二三十页,现在才翻到五六页呢,鬼知道后面还有多少东西。