1. 主页 > AI行业 > 精英人物

百度贾磊:研究语音大模型,痛并快乐着

目前AIGC主要是以输入文字prompt,要发出AIGC指令,而目前已经有一些大模型可以实现语音输入,比如华为鸿蒙座舱,目前已经是一个天花板级的存在。但通观国内的大模型,对语音的支持还偏弱,这也成为很多大模型发力的一个方面。

百度文心一言在AI语音大模型方面,已经有比较深厚的积累。经济观察报采访 了百度技术首席架构师,是国内稀缺的语音大模型带头人贾磊。

百度技术首席架构师,语音大模型带头人贾磊

百度技术首席架构师,语音大模型带头人贾磊

经济观察报:百度是国内首个推出大语言模型的互联网大公司,您在其中做了什么?

贾磊:百度十几年前就开始进行AI研究了,文心一言是我们多年技术积累和应用实践的结果。文心大模型是一个体系,有很多成员,包括NLP大模型、语音大模型、图像大模型、跨模态大模型、生物计算大模型等。语音相关的有语音识别大模型、语音合成大模型。我主要是负责语音大模型的一些研究和探索。

经济观察报:之前大家熟悉的人工智能应用更多是在智能音箱产品,但为什么取得突破的是图文而不是语音?

贾磊:作为人类智化的几个标志能力,语音、语言、视觉图像能力都属于基本的人工智能范畴,图像跟语言都有大模型了,但语音大模型一直是难产的状态,它有一定的技术障碍。我们当前的识别只能基于此时此刻的一句语音,没有办法利用提示,也没有办法利用上下文。

语音会有一个时间过程,比如随着你说话,时间是在往后延续的。并且,你说话结束,语音识别结果立刻就要给出来。所以语音大模型的特点是,要瞬时地去做反馈,并且语音分帧计算使得语音模型加载量比图像和语言大很多,这就使得计算机加载模型的压力很大

打个比方,大家现在开车去上班,如果你到了五环路,路很宽,就可以跑的很好。但是上到五环之前,大家从各个小区走出来的这些路很堵,导致你的车根本跑不到五环上去。现在语音大模型就卡在跑去五环的路上了。

比如说3秒钟的语音,语音模型加载到CPU进行计算的理论次数是300次,而对应这3秒语音的一张图或者一句话的深度学习计算,只需要做1次模型加载。而且语音大模型加进去之后,完成计算的时间必须很快,否则造成用户的过长等待和延迟。通常语音交互系统需要在0.4秒以内有反馈,否则用户就会觉得这个设备反应速度很慢,不愿意和设备进行语音交互。这是语音大模型难产的核心原因

经济观察报:未来是否有解决方案?

贾磊:计算机模型加载的限制问题,从硬件上看无法从根本上解决,除非是物理世界发生了重大的突破。举一个例子,解决计算机的模型加载问题,类似于超导技术的突破,只有超导技术突破了,传输介质电阻很小或者近似为0,高压传输才能做到无损。但在算法上,我们提出了一个特殊的模型结构,在smlta2模型的基础上,把模型的循环加载变成一次性加载,训练时候该算法不假设任何先验,可以完全端到端训练,最终使得在满足在线语音服务延迟要求的前提下,语音语音大模型的参数量,比原先增加了几十倍,极大的提升了语音识别系统的准确率和鲁棒性。

大语言模型体现智能的一个重要表现,是当模型体积增加到一定规模后,涌现出很多原始训练集合中没有的新能力。语音大模型的智能化更多表现为多领域口语信息的准确识别能力、多口音的辨识能力。比如一个小区的名字,我说新兴家园你知道是哪两个字吗?这种同音字如果没有提示,你是无法知道是“新兴”还是“欣星”。如果有语音大模型,这种歧义的、似是而非的信息都可以通过一个人的历史轨迹得到提示。

我们这个模型结构,可能会改变语音领域的研究方向和研究方式,在语音大模型这个领域是领先的。

经济观察报:您在AI行业从业20年,您怎样评价这一波人工智能浪潮?它是跟之前几波浪潮会完全不一样吗?

贾磊:之前的AI是站在一个“我服务大家”的角度,未来AI可能站在“我服务你”的角度来做,我觉得这次还是非常令人兴奋的。

经济观察报:在您看来,做AI是一种什么样的体验?会觉得有压力或者很枯燥吗?

贾磊:首先是竞争带来压力。因为AI领域是各个国家投入很大的领域,所以竞争十分激烈。但如果你能做的比别人更好,你能得到更多的快乐。

其次是广泛应用带来的成就感。AI正在越来越多的落地,也有大量产品出现在每个人生活中,看到这些进展我内心的成就感,比做其他的行业要大得多,这不是金钱可以获取的,这种成就感是驱动我一直从事AI行业最重要原因。

做技术研究,枯燥是难以避免的,因为处理、调试模型,模型跑出来后设计实验,这个周期很长,要根据中间的反馈做预判,做方案选择,非常难。做这个事,说到底已经是生活的一部分,也已经习惯了。

经济观察报:您之前说过,要探求语音交互认知的本源。现在看,这个本源是什么?

贾磊:其实我一直在想,为什么语音识别率不高?为什么人们不想使用语音?人为什么见一个人喜欢先说话而不是用文字表达?这背后内在的逻辑是什么?如果我做语音技术,我希望这个技术无处不在,那我该怎么样做?单单一句话无法理解,它有上下文才行,怎么样引入上下文?这些东西随着我做语音技术的深入之后,我想的越来越多。我终极的梦想就是人们对着计算机说话,像对着人说话一样自如,人和计算机说话获得的信息量、获得的满足感,与和人说话也能一样。语音解决的是交流的问题,NLP解决的是思考的问题,图像解决的是视觉问题,机器人动起来,解决的是肢体支撑力的问题,等到这些问题都解决了,通用人工智能有可能就实现了。从事这个领域,我所做的一切,都是为了这一天的到来。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/elite/816.html