考拉悠然：拥有多模态技术的大模型

在AI大模型风起云涌的当下，一个自然而然的问题是，客户需要怎样的产业大模型？

我们可以从数字化转型的“重灾区”——高山路段交通感知预警场景入手，一窥市场真实需求的现状。

我们都知道的是，高山路段弯道多，同时容易受到恶劣天气、道路维护和交通违规等情况的影响，导致道路拥堵甚至事故。尽管许多道路已经部署了摄像头设备，但仍需要专门的业务办事人员对视频和图片进行标记，进行统计分析，并逐级汇报交通异常事件，这非常耗时耗力。

拥有多模态技术的大模型可以帮助客户直接省略掉交通监管业务中的人工监控视频、问题标记、统计分析、告警触发和事件归因等繁琐环节。它能够将一切图片和视频自动转化为可读的文字、可统计的数据、值得关注的预警和前瞻性的洞察。

考拉悠然多模态AI大模型

例如，基于考拉悠然的交通感知预警应用，当该公路出现紧急情况时，行业智能体将结合处理过的24小时实时传输的视频流和《道路交通安全法》等行业法规条例的信息，利用大模型的能力，智能判断告警程度并输出事件分析报告。

客户进一步的需求是让处理过的数据自行分析并自行上报。然而，实现这些效果并非易事。

复旦大学教授、上海市数据科学重点实验室主任肖仰华认为，在谈到大模型面向企业服务的机会时，需要重视以下三个方面：

首先，大模型需要与现有企业流程无缝融合，需要与现有工具或接口的有效衔接；其次，大模型需要与员工和专家有效协同；最后，大模型需要领域知识注入，以解决“幻觉”问题。

目前谈到大模型落地时，不得不提及Agent框架——被业内称为大模型落地的最佳路径。如果说大模型是一部百科全书，需要不断交互才能查询，那么Agent就像具备强大分析能力的研究助理，不仅掌握了所有百科知识，还能执行复杂任务，理解人们的需求和习惯，并做出调整。

由于Agent框架本身就具备记忆、计划和工具组件，通过自主计划能力和工具、交互界面，已经解决了第一和第二个问题的基础。

然而，在实际落地中，客户通常有严格的业务流程要求，因此Agent的计划能力和工具使用链路不一定符合业务要求。

也就是说，尽管是Agent框架，仍然需要采取额外的措施。对于这一行业难题，考拉悠然提出了自己的解决方案：利用业务流程画布形成人机互动的业务骨架，彻底解决上述问题。

具体到高山路段案例来说，当告警程度达到严重级别时，智能体首先将根据业务流程画布的配置对视频事件进行详细版本的事件分析和归因报告；然后，智能体将根据画布设定的业务逻辑通知当地公路路段管理处的办事人员及时关注和现场处置，并将事件报告信息同步上级公路局相关处室。

在这个过程中，业务流程画布使得智能体的行动决策真正受到业务实操规范的约束，既能实现真人一般的业务处理精度和可靠程度，最大限度地符合业务流程需求，还能够超越人类，保持无间断、无死角的工作状态。

最后，为了避免“幻觉”，厂商还需要具备获取场景数据的能力，即从业者在行业的专业知识和真实交互数据。

总的来说，厂商们既要有持续的高质量数据输入，又要能够高效处理多模态数据的技术系列，还要有一整套保姆式的产品化方案，使其平稳落地。这对厂商提出了极为严苛的要求——既要懂AI，还要懂行业应用。然而目前大多数产业大模型厂商只能满足其中的一个方面。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/aimodel/1901.html