两大基础架构衍生各类大模型,多模态已成趋势
预训练大模型按照模态可以分为文本、图像、视频、代码、音乐生成等多种,但从底层架构上都分属两类。
Transformer框架是一种编解码模型框架,适用于处理文本、代码这类强连续性生成任务;
Diffusion、GAN、NeRF等框架善于处理图像生成类任务。叠加文--图转换技术可以形成文生图模型。
由单模态模型在实际训练时融合其他模态技术,可形成多模态、跨模态大模型,如GPT-4、文心一言、 Mid journey等,由于多模态模型可接受文本、图像等不同输入输出形式,对应用场景能够更广泛适配,着力发展多模态模型成为产研两界共同趋势。
延伸阅读:
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/904.html