ChatGPT即将推出图生文并具语音对话能力

据报道，ChatGPT将在两周内对Plus和Enterprise用户开放新功能，包括图像读取与理解以及语音对话能力。

chatGPT

语音对话功能将仅对iOS和Android客户端开放，而图生文功能将对全平台开放。用户可以通过语音直接与ChatGPT对话，而ChatGPT也可以直接以语音的方式回复用户，使用一种新的文生语音模型，其中可选的五种声音由chatgpt向配音演员特别定制而来。图像读取理解能力背后由GPT-3.5或GPT-4多模态模型支持，用户可以上传一张或者多张图片给系统，甚至可以用画笔标注重点内容。

图生文能力让ChatGPT的应用方向更加广阔，并需要更大的算力支持。语音对话能力增强了用户与ChatGPT的互动体验，提高了便捷性；而图生文能力则让智能助理能够更好地与现实交互，有利于未来基于GPT的智能助理类产品在手机、耳机、音箱等智能终端上的落地应用。此外，图生文能力也有望在AIGC方向上打开更多应用，例如Adobe发布的新的Firefly生成式AI模型和Web应用程序为AI生成内容实施新的点数计费，这也彰显了以Firefly为核心的AIGC能力。

随着下游应用用户增长，应用厂商在模型推理侧需要更多算力，这将进一步催生算力需求。

大语言模型的更新结合图生文能力，有望加速机器人产业的发展。机器人能够理解指令、完成任务规划并与世界交互的核心在于大语言模型结合图生文能力。谷歌DeepMind发布的VLA模型RT-2使用预训练的PaLI-X和PaLM-E模型作为支柱，输出机器人控制指令，提高了机器人任务的泛化能力。特斯拉公布的人形机器人Optimus的神经网络是完全端到端训练的，从视频输入到控制输出，只靠视觉和关节位置编码器就能在空间中精确定位四肢，并有效地学习各种任务，比如在被干扰的情况下排序各种颜色块。

作为目前的领军大语言模型，ChatGPT此次更新展示的图生文能力有望大幅加速机器人产业发展，进而带动包括软件算法、机械组件、机器人整机等在内的产业链共振。

ChatGPT即将推出图生文 并具语音对话能力

相关推荐

ChatGPT即将推出图生文并具语音对话能力