ChatGPT王炸更新：多模态功能将上线，将来能说会看

ChatGPT发布了王炸级别的更新：多模态功能。不管是 GPT-4 还是 GPT-3.5 模型，现在都可以基于图像进行分析和对话了。

chatGPT-1

ChatGPT 中的新图像识别功能允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像配合进行对话。OpenAI 在其宣传博客文章中声称该功能可用于各种日常应用：从通过拍摄冰箱和食品储藏室的照片来让 AI 决定晚餐吃什么，到排除烧烤炉无法启动的原因。OpenAI 还表示，你可以使用设备的触摸屏圈出他们希望 ChatGPT 关注的图像部分。

简单来说，出了文本交互之外，ChatGPT现在可以理解语音和图像了，语音还好说，因为本质上还是TTS的技术，让文本和语音之间互相转化。其读取图像能力并不是那种以图搜图的传统模式，而是用OCR技术去真的识别用户发过去的图片，哪怕这个图片是用户现拍的、没有在网上出现过，ChatGPT也能做出理解并调用大模型进行回应。

在一个实例视频中，用户能够询问如何升起自行车座椅，需要提供的是照片、使用手册和用户工具箱的图片。然后，ChatGPT 会做出反应并建议用户如何完成这一过程。

在音频方面，ChatGPT 新的语音合成功能据说由 OpenAI 所称的”新文本到语音模型“驱动，尽管文本到语音问题已经解决了很长时间。该公司表示，该功能推出后，用户可以在应用设置中选择语音对话，然后从「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五种不同的合成声音中进行选择。OpenAI 表示，这些声音都是与专业配音演员合作制作的。

ChatGPT王炸更新：多模态功能将上线，将来能说会看

相关推荐