1. 主页 > AI行业 > 行业快讯

ChatGPT即将推出图生文 并具语音对话能力

据报道,ChatGPT将在两周内对Plus和Enterprise用户开放新功能,包括图像读取与理解以及语音对话能力

chatGPT

语音对话功能将仅对iOS和Android客户端开放,而图生文功能将对全平台开放。用户可以通过语音直接与ChatGPT对话,而ChatGPT也可以直接以语音的方式回复用户,使用一种新的文生语音模型,其中可选的五种声音由chatgpt向配音演员特别定制而来。图像读取理解能力背后由GPT-3.5或GPT-4多模态模型支持,用户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容。

图生文能力让ChatGPT的应用方向更加广阔,并需要更大的算力支持。语音对话能力增强了用户与ChatGPT的互动体验,提高了便捷性;而图生文能力则让智能助理能够更好地与现实交互,有利于未来基于GPT的智能助理类产品在手机、耳机、音箱等智能终端上的落地应用。此外,图生文能力也有望在AIGC方向上打开更多应用,例如Adobe发布的新的Firefly生成式AI模型和Web应用程序为AI生成内容实施新的点数计费,这也彰显了以Firefly为核心的AIGC能力。

随着下游应用用户增长,应用厂商在模型推理侧需要更多算力,这将进一步催生算力需求。

大语言模型的更新结合图生文能力,有望加速机器人产业的发展。机器人能够理解指令、完成任务规划并与世界交互的核心在于大语言模型结合图生文能力。谷歌DeepMind发布的VLA模型RT-2使用预训练的PaLI-X和PaLM-E模型作为支柱,输出机器人控制指令,提高了机器人任务的泛化能力。特斯拉公布的人形机器人Optimus的神经网络是完全端到端训练的,从视频输入到控制输出,只靠视觉和关节位置编码器就能在空间中精确定位四肢,并有效地学习各种任务,比如在被干扰的情况下排序各种颜色块。

作为目前的领军大语言模型,ChatGPT此次更新展示的图生文能力有望大幅加速机器人产业发展,进而带动包括软件算法、机械组件、机器人整机等在内的产业链共振。

延伸阅读:

ChatGPT王炸更新:多模态功能将上线,将来能说会看

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/info/826.html