1. 主页 > 观赛道 > 元宇宙

太厉害了!AppAgent能处理和理解多种类型的信息,并“操作”手机了

腾讯与德州大学达拉斯分校的研究团队联手开发了一个名为AppAgent的项目,该项目能够通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。

AppAgent.jpg

这个项目可以完成在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑等任务。AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。

AppAgent的主要功能特点包括多模态代理、直观交互、自主学习和构建知识库。作为一个基于大语言模型的多模态代理,AppAgent能够处理和理解多种类型的信息,使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。

它能够通过模仿人类的直观动作来与智能手机应用程序交互,就像一个真人用户一样。通过观察和分析不同应用程序中的用户界面交互,AppAgent能够自主学习并构建知识库,记录了不同应用程序的操作方法和界面布局,以便指导代理在不同应用程序中执行任务。

一旦学习了应用程序的操作方式,AppAgent就能够执行跨应用程序的复杂任务,如发送电子邮件、编辑图片或进行在线购物。这一创新的技术为用户提供了更便捷和高效的手机应用程序操作体验。

AI Agent,大模型技术驱动下的又一个”风口“

英伟达最新Agent开源:可以玩转笔动作

智能体(Agent)是什么意思?

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/meta/2432.html