1. 主页 > AI行业 > 行业快讯

ChatGPT王炸更新:多模态功能将上线,将来能说会看

ChatGPT发布了王炸级别的更新:多模态功能不管是 GPT-4 还是 GPT-3.5 模型,现在都可以基于图像进行分析和对话了。

chatGPT-1

ChatGPT 中的新图像识别功能允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像配合进行对话。OpenAI 在其宣传博客文章中声称该功能可用于各种日常应用:从通过拍摄冰箱和食品储藏室的照片来让 AI 决定晚餐吃什么,到排除烧烤炉无法启动的原因。OpenAI 还表示,你可以使用设备的触摸屏圈出他们希望 ChatGPT 关注的图像部分。

简单来说,出了文本交互之外,ChatGPT现在可以理解语音和图像了,语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。其读取图像能力并不是那种以图搜图的传统模式,而是用OCR技术去真的识别用户发过去的图片,哪怕这个图片是用户现拍的、没有在网上出现过,ChatGPT也能做出理解并调用大模型进行回应。

在一个实例视频中,用户能够询问如何升起自行车座椅,需要提供的是照片、使用手册和用户工具箱的图片。然后,ChatGPT 会做出反应并建议用户如何完成这一过程

在音频方面,ChatGPT 新的语音合成功能据说由 OpenAI 所称的”新文本到语音模型“驱动,尽管文本到语音问题已经解决了很长时间。该公司表示,该功能推出后,用户可以在应用设置中选择语音对话,然后从「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五种不同的合成声音中进行选择。OpenAI 表示,这些声音都是与专业配音演员合作制作的。

延伸阅读:

多模态大模型的优点和面临的挑战

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/info/824.html