1. 主页 > AI行业 > 行业观察

20多家大模型厂商主管的圆桌交流会实录

近日,财联社在上海中心105层会议厅举办了一场名为“上海之巅论道AI”的大模型闭门会。近五个小时的会议座无虚席,吸引了众多人工智能领域的领军学者和互联网大厂核心高管的参与。

此次闭门会由财联社TMT主编毛明江主持。在会上,上海人工智能实验室、复旦大学、蚂蚁集团、百度集团等AI领域的知名机构和学者分别发表了主题演讲。与会嘉宾还包括了国内外多家人工智能相关上市公司的高管,如商汤科技、云从科技、第四范式、浪潮信息、云天励飞、戴尔集团等。

此外,国内20多家大模型相关新创企业和独角兽的创始人及高管也参与了圆桌交流。这些企业包括面壁智能、西湖心辰、智谱AI、达观数据、心识宇宙、墨芯人工智能、OpenCSG、Dify.AI、蜜度、云知声、智子引擎、奇异摩尔、创新奇智、生数科技、恒生聚源、亿铸科技、考拉悠然等。

值得一提的是,金沙江创投、源码资本、红点中国等知名投资机构也参加了本次闭门会的交流活动。这场闭门会为与会者提供了一个分享经验、探讨合作机会的平台,对于推动人工智能产业的发展具有重要意义。

这次会议也是难得的业内交流机会

此外,国泰君安、华泰证券、民生证券、中金资本、上海文化产业发展投资基金、金砖银行、徐汇资本、中国外汇交易中心、上海金融数据港、敦鸿资产、桥麦资本、德必集团等第一时间联系参会并出席。

整个闭门会持续了近5个小时,现场座无虚席,气氛活跃。 “今天活动收获很大,大家交流开放坦诚,尤其圆桌讨论环节,发言嘉宾都是分享干货和行业心声,很精彩。” 一会参会代表会后表示。

大模型高端闭门会.jpg

圆桌环节参会嘉宾畅所欲言,交流碰撞

本次“上海之巅 论道AI”大模型闭门会,会议地点专设在位于陆家嘴的上海中心大厦105层——全世界建筑物内最高的会议厅举行,会议现场大模型业内的“大咖”云集,是一场真正意义上的AI大模型业内“巅峰”盛会。

那么,这场今年下半年国内“最高”层的大模型会议,都聊了啥?

▍被忽视的“工程能力”

“ChatGPT这样的大模型的出现,让一种模型去应对多种任务成为了可能。而要真正把大模型用好,需要强大的工程能力。此外,目前大模型的基础理论还不完备,需要更多的创新力。” 上海人工智能实验室主任助理乔宇教授在主题演讲中表示。

上海人工智能实验室主任助理、领军科学家乔宇做主题演讲

大模型的出现,被认为是开启了通用人工智能落地应用的窗口。在乔宇看来,之前人工智能都是针对特定的问题收集数据,训练一个特定的模型。

“比如语音识别、人脸识别,甚至下围棋和蛋白质结构预测,都是针对专用特定的一件事情训练一个模型。而ChatGPT这样的大模型的出现,可以有一种模型去应对多种任务。现在自然语言大部分任务都用GPT这样的模型可以很好地应对。不仅如此,有了多模态大模型后,视觉,甚至具身智能,与物理世界连接的很多任务,都可以靠一个模型来去做。” 乔宇说。

任何一个大模型背后依赖千卡、万卡的数量支持,乃至千亿甚至万亿参数规模的训练,而这需要很强的工程能力。

“当你拥有一个千卡级的集群,是一个蛮骄傲的事情。但是真正想把这个集群用好是蛮难的事。Meta此前做开源语言大模型,曾遇到过两个月内系统重启了30多次,大概平均一两天要重启一次,这个频度是非常高的。要把如此大的系统做好,是一项大工程。”

除了工程能力,乔宇还谈到,目前大模型的基础理论还不完备,需要更多的创新力。“几乎没有一个很好的理论,能够预测大模型所具备的能力。也没有很好的理论能够完全指挥大模型这么复杂、这么多参数的优化过程。”

▍TO B应用的三大挑战

“大模型对to B市场意义非常重大,它是一次智能引擎的升级。” 复旦大学教授、上海市数据科学重点实验室主任肖仰华的主题演讲,聚焦于大模型在百行千业的应用。

复旦大学教授、博士生导师肖仰华做主题演讲

他认为,现在很多行业真正解决不了的是跨系统、跨边界、跨层级、跨模块的问题,而大模型的跨学科认知能力,使得把这些问题可以交给大模型成为可能。

谈及大模型面向企业服务的机会时,肖仰华认为要重视以下三个方面:

一是大模型需要与现有企业流程无缝融合,需要与现有工具或接口的有效衔接;

二是大模型需要与员工、专家有效协同;

三是大模型需要领域知识注入,以解决“幻觉”问题。

在肖仰华看来,企业做决策需要非常丰富的专业知识,复杂的决策逻辑,宏观的研判能力、综合任务的拆解、严密精细的规划、复杂约束的取舍和未知事务的预见等等,而通用大模型在这些方面的应用还有待挖掘。

“大模型会一本正经地胡编乱造一些虚假事实,这种虚假的‘真实’产生的后果是极其严重的,譬如金融领域的投资、医疗方面的数据,一个小数点之差就有可能酿成大错。”

针对场景化的大模型,肖仰华认为,如财务、客服、HR等场景的大模型,往往只需要大模型的通识能力加上少量的岗位培训,即可胜任。“这实际上可能是变现最快的一种大模型,值得关注。”

▍要看到AI深“黑盒”面

作为互联网大厂分管技术的核心高管,蚂蚁集团CTO、平台技术事业群总裁何征宇在主题演讲中表示,大模型就像新世界的小火花,它是互联网大数据时代发展到一定阶段必然会迸发出来的产物。作为一个新世界的开端,大模型不是目的,甚至只是一个“钻木取火”般产生类人智能的手段。

“今天的人工智能的范式可能还是处于非常早期的阶段。就像‘日心说’和‘地心说’,当人类敢于把自己从中心位置挪开,认知的角度发生改变的时候,往往就是人类文明进步的开始。”

蚂蚁集团CTO何征宇做主题演讲

何征宇同样提到的AI大模型的“幻觉”问题。“人一本正经胡说八道的时候,自己是知道的。但是AI胡说八道的时候,它自己是不知道的。”

因此,他认为,要加强研究AI的安全与可信,重视大模型的风险与挑战:

第一是认知一致性对齐。为什么会有这个担心?因为AI的价值观可能跟人类的价值观从来就不可能对齐,目前看只靠大模型技术本身是不太可能实现这个目标的,除非有搜索增强或者知识图谱,甚至更多技术的帮助。

第二是决策白盒化。如果真的把大模型用到决策系统中,一定是要白盒化。例如,当你在做一笔支付的时候,如果被拒付了,你一定会打电话给客服了解为什么会拒付?如果只能告诉你这是大模型决策的,我相信一定会被投诉。所以大模型要真正用在决策场景,一定要有白盒化的能力。

第三是交流协同演进。市面上有各种通用大模型,但事实上各有特点。人类之所以能够发展到今天,不是因为一两个人的智慧,如何像人类社会一样集百家之长,取得突破进展?我认为需要协作。大模型之间如何能够更好的协作,不是说简单的从语料层面,或者是从API层面去打通,而是大模型之间能够有一个协同演进的机制。

▍华为AI芯片从“备选项”渐成“必选项”

做大模型,算力一直是一个核心讨论话题。伴随着美国最新一轮的封锁制裁,包括英伟达H800在内的芯片对国内出口都受到影响,大模型GPU国产化已成一个必选项。

此前,业界对于国产芯片的一个观点在于,与英伟达的A100等芯片相比还存在较大差距。但美国芯片限制升级以后,国内人工智能产业与大模型企业该何去何从?这个话题也是现场与会者们讨论最有感触的一个话题。

“陪华为走过的历程确实太痛苦了。”一位参会嘉宾在圆桌交流中直言,“现在(华为芯片性能)是到了还不错的阶段”。该嘉宾认为,未来国内大模型发展趋势将会朝着基础软硬件国产化方向发展。

“我们是非常坚定决定要用华为的。”在现场,另一位参会嘉宾从使用效果举了个例子。“公司技术团队最近告诉我,用华为昇腾910训练大模型时,对比英伟达的A800,测评下来发现华为芯片某些方面效果甚至更好。”他自言听到自己技术团队的这个评价“非常意外”。虽然相比之下华为的各种配套(生态和服务),还是存在不小的差距。

浪潮信息首席AI架构师张云龙认为,明年国内企业算力选择会更多元化。在发展大模型应用时,需要同时关注整个产业链生态变化,从上游芯片厂商、中间整机厂商、模型开发和终端客户的业务应用,做全链横向对比,对业务会有更大帮助。

浪潮信息首席AI架构师张云龙

▍应提升国内整体的算力利用率

关于大模型算力,商汤科技联合创始人陈宇恒则从AI基础设施的角度,谈到未来大模型对于基础设施的需求以及可能演进的路径。要达到更好的大模型效果,下一个阶段如何构建万卡乃至十万卡级超大规模的集群,以及面临大量网络的连接问题,是陈宇恒的关心所在。

商汤科技联合创始人陈宇恒

他认为,训练出来的模型无论是千卡规模、万卡规模,最终还是要做高推理的效率。此时,用分布式算力网络的方式是一个解法。

具体而言,人工智能大模型推理,如果用分布式算力网络均衡化的方法,在全国范围内、多数据中心范围内做更多的调度算力,这就可以解决一些大型的C端应用峰值调用,包括训练和推理混合调度等一系列工作,从而提升国内整体的算力利用率和水平。

陈宇恒以商汤科技的实践举例,商汤科技将以大模型推理为抓手,按照“大中心+小中心”的战略,把原先在各处建设的算力中心逐步使用起来。通过人工智能大模型新的应用场景,去推导出未来人工智能基础设施,甚至整个计算机、算力基础设施如何去建,来形成指导作用。

▍AI大模型要“解决客户的实际问题”

在圆桌交流环节,多位嘉宾提到了同样一个观点,那就是“大模型一定要落地” 。

中科院自动化所副研究员、武汉人工智能研究院算法总监吴凌翔发言中直言, “大模型一定要做产业落地”,但这不是为了做营收,而是在使用的过程中会发现还有很多的问题,从而更好去形成数据闭环。

中科院自动化所副研究员吴凌翔

考拉悠然CEO沈复民则提到一个概念,“人工智能不是一个赛道,到现在为止,人工智能还不是一个行业”。他的逻辑在于,人工智能技术一定要落到行业里才能产生价值,因此,大模型技术更需要考虑如何更好、更快落到行业里去。

作为一家创业公司的CEO,沈复民表示,在创业对接客户的过程中的体会包括:一是AI技术必须要对准行业客户需求,解决客户实际的问题;第二是传统AI技术或系统的开发成本非常高。这也就是导致过去AI技术落地时,没有办法高效进行复制。

沈复民认为,大模型不仅具备强大的知识压缩和逻辑推理能力,解决业务问题时,从一个场景复制到另外一个场景的泛化能力更强,迁移的成本相对而言更低。这也强有力的促进了人工智能更好、更快落地行业,实现产业化发展。

▍语言模型和视觉模型结合才更“能打”

对于如何让大模型更好地应用在业务里以及实际场景里去,云从科技联合创始人、研究院院长李继伟认为,从语言模型和视觉模型生成和感知两个层面上做结合,这样也能更快帮助大模型做落地。

云从科技联合创始人李继伟

李继伟在现场举了个例子,云从科技的长尾算法占到公司业务的30%以上,如果按照以前一个模型去处理一个场景的话,代码根本无法胜任。大模型时代之后,一个大模型就通过Next token的预测和训练,就会涌现出很多关联和推理的能力。云从科技希望借助于大语言模型的能力,把视觉语义的分析关联建立起来,推动大模型后续落地。

面壁智能CEO李大海提出,基于大模型的 Agent 技术是一个好的路径,类似于计算机科学里的时间换空间,让 AI 慢下来,通过反思、COT 等技术,整个水平就会与规模更大、训得更好的模型水平相当。除了上述技术之外,跟知识库的结合、调用工具的能力等技术的使用,可以 Agent 的能力边界得到进一步的扩展。

▍“当前对大模型的想象力还不够”

财联社CTO叶周在交流中表示,当前对大模型的想象力还不够。“ChatGPT这样的杀手级应用把大家对大模型思维定式固化在聊天上,微软的copilot把大模型用在生产工具环节,将其定位在助手。但作为拥有大模型技术的人类,想象力要跟得上生产力的提升,而不只是局限于此。”

叶周认为,大模型的出现,整体拉高了跨领域能力水平,同时其信息传递效率高得离谱。“我们如果用上一个时代的生产关系,比如产品经理、项目经理、前端开发、后端开发这样的人类角色,简单套用在大模型上,那就是用前朝的剑来斩本朝的官。可以说,我们的想象力还有很大的扩展空间。”

财联社技术研发负责人叶周

▍国内到底有没有原创大模型?

在对于大模型技术路线的讨论上,开放传神(OpenCSG)CEO陈冉在交流现场抛出“劲爆”性观点:中国目前缺乏真正的原创的大模型。

“我个人理解,中国在整个开源开放基础软件赛道就没有成功的商业模式,从操作系统,包括硬件、数据库、中间件没有一个做开源开放的基础软件公司IPO的,所以要谈单纯做大模型有没有一家IPO公司?我的答案是很难。” 陈冉认为,中国有广泛的应用,互联网成就了那么多的应用公司,在大模型应用领域会有生态型和平台型IPO的公司出现。

开放传神(OpenCSG)CEO陈冉

对于国内大模型有没有原创的问题,蚂蚁集团CTO、平台技术事业群总裁何征宇接过话题表示,“原创这个东西,要看怎么去理解。我觉得非原创也是可以的,而且后来者也有后来者的优势。”

他举了蚂蚁在研发大模型走过的路作为例子。 “我们并没有直接去抢时间,来复刻GPT的成功。我们当时调了很多卡同时并行测试不同模型结构、不同语料,测试涌现的东西在哪儿。我们开始走了很多弯路,都没有采用Transformer的架构。”

在何征宇看来,第一名已经做出来了,第二名有第二名的红利,因为“第二名不用试错了。”

吴凌翔则认为,中国是否有原创的大模型也跟基于国产软硬件的大模型紧密相关。“之前基于国产软硬件的大模型比较少,大家大多是基于英伟达的,彻底被限制之后才开始转向国产计算卡。”

▍OpenAI 正在让AI从toB走向toC

闭门会的前一天,正逢OpenAI开发者大会,这场“ AI 春晚”也是现场热议的话题。

面壁智能 CEO 李大海在分享中谈到, OpenAI 现在非常关注 Agent 这个方向。Agent 并非新概念,但有了大模型以后,基于大模型的 Agent,其实用性、想象空间都比以前大很多。”

“大语言模型更像是人脑子里的系统1,问一个问题它马上给回答。但是人的整个大脑结合在一起不是这样工作的,他有大脑、小脑和海马体去负责记忆,它有快系统、慢系统,这些综合在一起之后,才能形成一个人的综合行为。”

面壁智能 CEO 李大海

使用了 Agent 的相关技术,OpenAI 能够更方便开发者们进行二次开发,对生态的发展非常有好处。

面壁智能很早就在 Agent 方向进行了布局,开发了面壁智能自己的 "Agent 三架马车",既有很好的单体智能的应用,又有不错的多体智能的探索。

第四范式大模型总架构师袁徐磊说自己“很兴奋”,但“也很恐慌”。兴奋之处在于,自己和团队正在做的很多工作,在OpenAI这里得到了印证。恐慌之处在于,OpenAI的模型能力很强,它现在做的很多事情,是袁徐磊和团队正在做的。如今OpenAI已经卡位前排,国内的企业会不会被甩开?这个赛道国内会不会进去?袁徐磊说自己当天晚上一直在思考这个事情。

第四范式大模型总架构师袁徐磊

吴凌翔很多同事告诉她,他们当晚一个晚上没睡觉,激动、感慨等各种心理交织。她说,可以看到OpenAI正在让AI逐渐从2B走向2C,AI的门槛正在降低,玩家越来越多,从业者们也走得越来越快。她认为,AI产业落地和前沿探索是可以并行往前高速发展的道路。

▍算力、AIPC与AI安全

在本轮AI大模型热潮中,作为IT基础架构或者信息硬件的厂商的戴尔、联想等并没有袖手旁观。一位硬件厂商参会嘉宾在交流中表示:

许多硬件生成厂商并没有推出自己的大模型,也不会成为一个纯AI公司,许多计算机厂商更多还是从算力的角度来看这个问题。

一、企业对算力要求持续增长,正诞生出新的商业模式,叫算力租赁的模式。这样对于大模型初创公司,不需要一开始大规模投入资金来购买GPU和服务器,这是我们的新服务模式。

二、现在各大厂商都在酝酿推出一个AIPC 。明年会是AIPC上市最主要的一年,包括英特尔、联想等很多公司。AIPC是指在电脑里也可以用到大模型的功能,这涉及的技术是大模型要轻量化,要进行模型的裁减、量化,对参数进行减少,因为PC有计算的限制或者存储的限制,这种情况下如何对大模型进行裁减?这也是重点关注的。

三、信息安全。美国总统已发布行政指令,要推出零信任机制,对所有信息系统没有信任,要持续验证、持续认证,从以前的黑名单走成白名单,在AI系统里零信任机制也会得到应用。相信在将来中国也会推出类似的AI规范信息要求,这可能在未来也会是非常重要的方向。AI信息的安全,AI模型可控,这不是要不要做,而是必须要做的。

▍“脚踏实地与仰望星空”

生数科技CEO唐家渝分享了如何看待国内大模型现状以及落地问题。

生数科技CEO唐家渝

概括起来就是脚踏实地与仰望星空:

首先说脚踏实地。现在大模型领域,尤其是多模态大模型的发展还处于非常早期的阶段。比如GPT4的语义理解能力已经很强了,但在一些细分专业的问题上,类似于给一个产品取名字这种,其结果的可控性以及链接知识的能力还是弱一些的。

再比如图像生成中,用户通常需要不断修改描述词,才能生成符合预期的画面,而现阶段3D、视频生成的内容,可控性差的就更多。所以单从可控生成这个角度来说,大模型的发展就还有很长的路要走,更别说打造真正的多模态理解+综合性生成的智能体,其中存在的技术难点更多,例如如何解决多模态数据的统一表示、特征提取以及信息理解等。

但从技术发展趋势来看,多模态融合是人机交互未来的必然趋势。因此我们团队是非常坚定投入多模态大模型方向,并在底层做非常大的投入。这背后也主要依赖于我们核心成员来自清华大学,是国内最早从事生成式AI研究的团队之一。

其次是仰望星空。现阶段大模型的发展还处于早期,但不能说它是个小孩就只能任由他慢慢成长。我们是一家创业公司,面向未来需要有持续商业化的收入,来维持公司的长期发展,这个过程当中需要我们持续思考的事情就是如何将技术做产品化。

现阶段多模态大模型主要围绕生成的能力,最简单的就是各种内容创作,比如快速生成图像、3D、视频等,但未来可延伸做更多可交互式的体验,比如说像我们现在看剧,剧集内容都是固定的,是单向交互的,但未来依托多模态能力刷剧可能变成沉浸式的话剧一样,是可以实时交互的,剧情内容是可以个性化生成的。

但就像人类刚发现火的时候,很难想象未来会有火箭、烟花之类的东西出现,所以在大模型发展的过程中,如何打造出具有领先性、颠覆性的产品,除了持续推进技术能力的成熟,还需要我们打开想象力,让想象力走的更快一步。

另外从技术角度来说,我们也持续在想如何在保障技术产品领先的基础之上,通过算法、架构等方面的优化做到更小算力消耗,获得更大成本优势,这方面我们也做了非常多的工作。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/1563.html