腾讯混元:AI图像不仅要美,更重要是的是“对”
腾讯混元迎来第一次“批量上新”,并且对外开放。用户可以通过测试申请在“混元”上画画,生成图像的准确度和美观度都相当合理和逼真。文生图是AIGC领域的核心技术之一,也是体现通用大模型能力的试金石。智能涌现尝试用简单的指令让混元画图,生成速度基本在10秒左右,效果可以说风格各异,细节比此前更为丰富。
手部细节是可以说是文生图的一个难点。但在输入弹奏古筝的指令后,如下图所见,手部细节可以说比较逼真,没有出现多指、扭曲等问题。
腾讯混元文生图功能生成弹古筝图像示例
这两个月,混元在文生图领域的技术研发目标,用一句话可以总结:“AI图像不仅要美,更重要是的是‘对’。”
腾讯混元大模型文生图的生成示例
首先要把用户的指令理解对。在大模型的指令上,混元如今对中文里的意象理解也有所进步,采用了中英文双语细粒度的模型,同时建模中英文进行双语理解。
比如,输入“轻舟已过万重山,水墨画风格”,就可以得到下面的图片。
能画得更“对”,也来源于腾讯在训练过程中的一些算法创新。“在人像上的生成合理性上,我们把人物区分成肢体和手的数据,以及人体的骨架信息都加入到训练中,而手指头生成的局部情况也用了多种形式控制,这样畸形率会比较低。”腾讯混元大模型文生图技术负责人芦清林表示。
画面细节的提升来自多种因素的总和,比如人物衣服褶皱、色彩层粗等等——混元用多模型融合的方式对其进行提高。以前,文生图产品用的常规扩散模型是基于CNN等技术架构,特点是比较局部,对整体的结构和刻画能力没有那么强。但现在,混元是基于扩散模型和Transformer架构相结合,可以刻画更多细节,而且对空间位置的定位能力也有加强。目前在人像的优化上,比如头发、皱纹,我们的效果提升了30%,在场景模型比如草木、波纹效果提升25%。
超过180个腾讯业务接入为广告提效显著除了千亿参数的主模型外腾讯混元此次还释出了7B、13B等中小模型主要面向垂直业务。在这个层面腾讯表示如今混元的千亿级主模型中文效果整体超过GPT3.5而7B/13B中小模型实测效果整体优于国内外开源模型如LLaMA2等。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/product/1293.html