微软发布Windows Agent Arena 为生成式AI代理提供基准测试

news/2024/9/19 4:25:06 标签: microsoft, 人工智能

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过,人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布,它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。

在这里插入图片描述
微软在 GitHub 页面上公布的这一基准名为 Windows Agent Arena。该框架旨在测试人工智能代理与人类通常使用的 Windows 应用程序的交互能力和速度。在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。

微软表示:

我们对 OSWorld 框架进行了调整,创建了 150 多个不同的 Windows 任务,这些任务跨越了需要代理在规划、屏幕理解和工具使用方面具备能力的代表性领域。我们的基准还具有可扩展性,可在 Azure 中进行无缝并行化,在短短 20 分钟内即可完成完整的基准评估。

在这里插入图片描述
微软研究院也创建了自己的多模式代理,名为 Navi,并在 Windows Agent Arena 基准测试中进行了测试。测试要求它在某些文本提示下执行任务,例如:"你能把我正在浏览的网站转换成 PDF 文件并放到我的主屏幕上吗?"测试发现,Navi 的平均成功率为 19.5%,与人类 74.5% 的成功率相比仍然很低。

有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。

微软团队还与卡内基梅隆大学和哥伦比亚大学的研究人员合作完成了该项目。您可以在 GitHub 上查看论文全文以及该基准的代码。

https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

https://github.com/microsoft/WindowsAgentArena

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!


http://www.niftyadmin.cn/n/5660975.html

相关文章

element-plus的面包屑组件el-breadcrumb

面包屑组件主要用来显示当页面路径,以及快速返回之前的页面。 涉及2个组件 el-breadcrumb 和el-breadcrumb-item, el-breadcrumb的spearator指定item的分隔符 el-breadcrumb-item的to和replace属性和vue-router的一致,需要结合vue_router一起使用 用法…

el-table 的单元格 + 图表 + 排序

<el-table border :data"tableDataThree" height"370px" style"width: 100%"><el-table-column :key"activeName 8" width"50" type"index" label"序号" align"center"></el…

FastAPI与环境变量:实现无缝切换与高效运维

在现代软件开发中&#xff0c;尤其是构建RESTful API时&#xff0c;环境变量的管理显得尤为重要。它们不仅允许我们在不同环境中&#xff08;如开发、测试、生产&#xff09;灵活地调整应用的行为&#xff0c;还极大地增强了应用的安全性和可维护性。FastAPI作为一个新兴的、高…

『功能项目』切换职业技能面板【49】

我们打开上一篇48切换职业面板的项目&#xff0c; 本章要做的事情是制作第二职业法师技能面板、第三职业面板并且完成切换 双击打开Canvas进入预制体空间 复制三个技能栏面板 重命名 设置第一技能栏 设置第二职业技能栏 设置第三职业技能栏 修改脚本&#xff1a;ChangeProfess…

浅谈Spring Cloud:认识微服务

SpringCloud就是分布式微服务架构的一站式解决方案&#xff0c;是微服务架构落地的多种技术的集合。 目录 微服务远程调用 Eureka注册中心 搭建Eureka Server 注册组件 服务拉取 当各种各样的服务越来越多&#xff0c;拆分的也越来越细&#xff0c;此时就会出现一个服务集…

后续学习规划 ----含我个人的学习路线,经历及感受

目前的基础 开发相关&#xff08;最重要&#xff09; 1.Java SE 从入门到起飞 2.Java Web开发 3.苍穹外卖 以上三个是和开发相关的基础。 我是按照书写的顺序学习的&#xff0c;有需要的朋友可以参考。 计算机相关 其他的话&#xff0c;都是比较久远的了。隔得时间一年半…

【目标检测数据集】厨房常见的水果蔬菜调味料数据集4910张39类VOC+YOLO格式

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;4910 标注数量(xml文件个数)&#xff1a;4910 标注数量(txt文件个数)&#xff1a;4910 标注…

二、Kubernetes中pod的管理及优化

目录 一 kubernetes 中的资源 1.1 资源管理介绍 1.2 资源管理方式 1.2.1 命令式对象管理 1.2.2 资源类型 1.2.3 基本命令示例 1.2.4 运行和调试命令示例 1.2.5 高级命令示例 二 什么是pod 2.1 创建自主式pod &#xff08;生产不推荐&#xff09; 2.2 利用控制器管理…