从单设备智能体到多设备星系
📖 Language / 语言: English | 中文
📚 快速链接: 🌌 UFO³ 中文文档 • 🖥️ UFO² 中文文档 • 📖 完整文档
|
✨ 新功能 & 推荐 适用于:
关键功能:
📖 Galaxy 中文文档 → |
稳定 & 经过实战检验 适用于:
关键功能:
|
观看 UFO³ Galaxy 如何跨多个设备编排复杂工作流:
%%{init: {'theme':'base', 'themeVariables': { 'primaryColor':'#E8F4F8','primaryTextColor':'#1A1A1A','primaryBorderColor':'#7CB9E8','lineColor':'#A8D5E2','secondaryColor':'#B8E6F0','tertiaryColor':'#D4F1F4','fontSize':'16px','fontFamily':'Microsoft YaHei, Segoe UI, Arial, sans-serif'}}}%%
graph LR
A["<b>🎈 UFO</b><br/><span style='font-size:14px'>2024年2月</span><br/><span style='font-size:13px; color:#666'><i>Windows GUI 智能体</i></span>"]
B["<b>🖥️ UFO²</b><br/><span style='font-size:14px'>2025年4月</span><br/><span style='font-size:13px; color:#666'><i>桌面智能体操作系统</i></span>"]
C["<b>🌌 UFO³ Galaxy</b><br/><span style='font-size:14px'>2025年11月</span><br/><span style='font-size:13px; color:#666'><i>多设备编排</i></span>"]
A -->|演进| B
B -->|扩展| C
style A fill:#E8F4F8,stroke:#7CB9E8,stroke-width:2.5px,color:#1A1A1A,rx:15,ry:15
style B fill:#C5E8F5,stroke:#5BA8D0,stroke-width:2.5px,color:#1A1A1A,rx:15,ry:15
style C fill:#A4DBF0,stroke:#3D96BE,stroke-width:2.5px,color:#1A1A1A,rx:15,ry:15
UFO³ 引入了 Galaxy,这是一个革命性的多设备编排框架,可在异构平台上协调智能智能体。建立在五个紧密集成的设计原则之上:
-
🌟 声明式分解为动态 DAG - 请求分解为带有 TaskStars 和依赖关系的结构化 DAG,支持自动调度和运行时重写
-
🔄 持续的结果驱动图演化 - 活动星座根据执行反馈通过受控重写和动态调整进行适应
-
⚡ 异构、异步与安全编排 - 基于能力的设备匹配,异步执行、安全锁定和形式化验证的正确性
-
🔌 统一的智能体交互协议(AIP) - 基于 WebSocket 的安全协调层,具有容错和自动重连功能
-
🛠️ 模板驱动的 MCP 赋能设备智能体 - 用于快速智能体开发的轻量级工具包,集成 MCP 进行工具增强
| 方面 | UFO² | UFO³ Galaxy |
|---|---|---|
| 架构 | 单个 Windows 智能体 | 多设备编排 |
| 任务模型 | 顺序 ReAct 循环 | 基于 DAG 的星座工作流 |
| 范围 | 单设备,多应用 | 多设备,跨平台 |
| 协调 | HostAgent + AppAgents | ConstellationAgent + TaskOrchestrator |
| 设备支持 | Windows 桌面 | Windows、Linux、Android(更多平台即将推出) |
| 任务规划 | 应用程序级别 | 设备级别,带依赖关系 |
| 执行 | 顺序 | 并行 DAG 执行 |
| 设备智能体角色 | 独立 | 可作为 Galaxy 设备智能体 |
| 复杂性 | 简单到中等 | 简单到非常复杂 |
| 学习曲线 | 低 | 中等 |
| 跨设备协作 | ❌ 不支持 | ✅ 核心功能 |
| 设置难度 | ✅ 简单 | |
| 状态 | ✅ LTS(长期支持) | ⚡ 积极开发 |
对于 UFO² 用户:
- ✅ 继续使用 UFO² – 完全支持,积极维护
- 🔄 渐进式采用 – Galaxy 可以使用 UFO² 作为 Windows 设备智能体
- 📈 扩展 – 当您需要多设备功能时迁移到 Galaxy
- 📚 学习资源 – 迁移指南
优势:
|
智能匹配:
|
编排功能:
|
UFO² 扮演双重角色:独立 Windows 自动化和 Windows 平台的 Galaxy 设备智能体。
| 功能 | 描述 | 文档 |
|---|---|---|
| 深度操作系统集成 | Windows UIA、Win32、WinCOM 原生控件 | 了解更多 |
| 混合操作 | GUI 点击 + API 调用以获得最佳性能 | 了解更多 |
| 推测性多操作 | 批量预测 → 减少 51% 的 LLM 调用 | 了解更多 |
| 视觉 + UIA 检测 | 用于稳健性的混合控件检测 | 了解更多 |
| 知识基底 | 带有文档、演示、执行轨迹的 RAG | 了解更多 |
| 设备智能体角色 | 可作为 Galaxy 编排中的 Windows 执行器 | 了解更多 |
作为 Galaxy 设备智能体:
- 通过 Galaxy 编排层从 ConstellationAgent 接收任务
- 使用经过验证的 UFO² 功能执行 Windows 特定的操作
- 向 TaskOrchestrator 报告状态和结果
- 无缝参与跨设备工作流
选择您的路径并遵循详细的设置指南:
|
用于跨设备编排 # 1. 安装依赖
pip install -r requirements.txt
# 2. 配置 ConstellationAgent
copy config\galaxy\agent.yaml.template config\galaxy\agent.yaml
# 编辑配置文件,添加 API Key
# 3. 配置设备
# 编辑 config\galaxy\devices.yaml 注册您的设备
# 4. 启动设备智能体(带平台标志)
# Windows: 启动服务器 + 客户端
# Linux: 启动服务器 + MCP 服务器 + 客户端
# Mobile (Android): 启动服务器 + MCP 服务器 + 客户端
# 请参阅特定平台指南了解详细设置
# 5. 启动 Galaxy
python -m galaxy --interactive📖 完整指南:
|
用于 Windows 自动化 # 1. 安装
pip install -r requirements.txt
# 2. 配置
copy config\ufo\agents.yaml.template config\ufo\agents.yaml
# 编辑并添加您的 API 密钥
# 3. 运行
python -m ufo --task <task_name>📖 完整指南: |
两个框架都需要 LLM API 配置。选择您的提供商:
OpenAI 配置
对于 Galaxy (config/galaxy/agent.yaml):
CONSTELLATION_AGENT:
REASONING_MODEL: false
API_TYPE: "openai"
API_BASE: "https://api.openai.com/v1/chat/completions"
API_KEY: "sk-your-key-here"
API_MODEL: "gpt-4o"对于 UFO² (config/ufo/agents.yaml):
VISUAL_MODE: True
API_TYPE: "openai"
API_BASE: "https://api.openai.com/v1/chat/completions"
API_KEY: "sk-your-key-here"
API_MODEL: "gpt-4o"Azure OpenAI 配置
对于 Galaxy (config/galaxy/agent.yaml):
CONSTELLATION_AGENT:
REASONING_MODEL: false
API_TYPE: "aoai"
API_BASE: "https://YOUR-RESOURCE.openai.azure.com"
API_KEY: "your-azure-key"
API_MODEL: "gpt-4o"
API_DEPLOYMENT_ID: "your-deployment-id"对于 UFO² (config/ufo/agents.yaml):
VISUAL_MODE: True
API_TYPE: "aoai"
API_BASE: "https://YOUR-RESOURCE.openai.azure.com"
API_KEY: "your-azure-key"
API_MODEL: "gpt-4o"
API_DEPLOYMENT_ID: "your-deployment-id"💡 更多 LLM 选项: 有关 Qwen、Gemini、Claude 等的信息,请参阅模型配置指南。
📖 技术文档: |
📖 在线文档: |
重大研究突破: 多设备编排系统
- 🌟 声明式 DAG 分解:TaskConstellation 结构实现工作流逻辑和依赖关系
- 🔄 动态图演化:通过受控重写适应的活态星座
- 🎯 异构编排:基于能力的设备匹配实现安全的异步执行
- 🔌 统一 AIP 协议:基于 WebSocket 的安全智能体协调,具有容错能力
- 🛠️ 支持 MCP 的智能体框架:用于快速设备智能体开发的模板驱动工具包
- 📄 研究论文:UFO³: Weaving the Digital Agent Galaxy
核心特性:
- 首个用于 GUI 智能体的多设备编排框架
- 结果驱动的自适应执行,而非僵化的工作流
- 模型上下文协议(MCP)集成用于工具增强
- 经过形式化验证的正确性和并发安全保证
- 📅 UFO² 桌面智能体操作系统发布
- 🏗️ 具有 AgentOS 概念的增强架构
- 📄 技术报告发布
- ✅ 进入长期支持(LTS)状态
- 🎈 第一个 UFO 版本 - Windows 的以 UI 为中心的智能体
- 📄 原始论文
- 🌍 广泛的媒体报道和采用
如果您在研究中使用 UFO³ Galaxy 或 UFO²,请引用相关论文:
@article{zhang2025ufo3,
title={UFO$^3$: Weaving the Digital Agent Galaxy},
author = {Zhang, Chaoyun and Li, Liqun and Huang, He and Ni, Chiming and Qiao, Bo and Qin, Si and Kang, Yu and Ma, Minghua and Lin, Qingwei and Rajmohan, Saravan and Zhang, Dongmei},
journal = {arXiv preprint arXiv:2511.11332},
year = {2025},
}@article{zhang2025ufo2,
title = {{UFO2: The Desktop AgentOS}},
author = {Zhang, Chaoyun and Huang, He and Ni, Chiming and Mu, Jian and Qin, Si and He, Shilin and Wang, Lu and Yang, Fangkai and Zhao, Pu and Du, Chao and Li, Liqun and Kang, Yu and Jiang, Zhao and Zheng, Suzhen and Wang, Rujia and Qian, Jiaxu and Ma, Minghua and Lou, Jian-Guang and Lin, Qingwei and Rajmohan, Saravan and Zhang, Dongmei},
journal = {arXiv preprint arXiv:2504.14603},
year = {2025}
}@article{zhang2024ufo,
title = {{UFO: A UI-Focused Agent for Windows OS Interaction}},
author = {Zhang, Chaoyun and Li, Liqun and He, Shilin and Zhang, Xu and Qiao, Bo and Qin, Si and Ma, Minghua and Kang, Yu and Lin, Qingwei and Rajmohan, Saravan and Zhang, Dongmei and Zhang, Qi},
journal = {arXiv preprint arXiv:2402.07939},
year = {2024}
}媒体报道:
- 微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」
- Microsoft's UFO: Smarter Windows Experience
- 下一代Windows系统曝光
- 更多报道 →
社区:
- 💬 GitHub 讨论
- 🐛 问题跟踪器
- 📧 电子邮件:ufo-agent@microsoft.com
- 📺 YouTube 频道
Microsoft Research:
- TaskWeaver – 用于数据分析和任务自动化的代码优先 LLM 智能体框架
GUI 智能体研究:
- 基于 LLM 的 GUI 智能体综述 – GUI 自动化智能体的全面综述
- 交互式综述网站 – 探索最新的 GUI 智能体研究和发展
多智能体系统:
- UFO³ Galaxy 代表了多设备编排的新方法,引入了星座框架,用于跨平台协调异构智能体
- 基于多智能体协调研究,同时解决跨设备 GUI 自动化的独特挑战
基准测试:
- Windows Agent Arena (WAA) – Windows 自动化智能体的评估基准
- OSWorld – 跨应用程序任务评估套件
🤔 我应该使用 Galaxy 还是 UFO²?
从 UFO² 开始,如果:
- 您只需要 Windows 自动化
- 您想要快速设置和学习
- 任务相对简单
选择 Galaxy,如果:
- 您需要跨设备协调
- 任务复杂且多步骤
- 您想要高级编排
- 您对积极开发感到满意
混合方法,如果:
- 您想要两全其美
- 一些任务简单(UFO²),一些复杂(Galaxy)
- 您正在逐步迁移
⚠️ UFO² 会被弃用吗?
不会! UFO² 已进入**长期支持(LTS)**状态:
- ✅ 积极维护
- ✅ 错误修复和安全更新
- ✅ 性能改进
- ✅ 完整的社区支持
- ✅ 没有弃用计划
UFO² 是 Windows 自动化的稳定、经过验证的解决方案。
🔄 如何从 UFO² 迁移到 Galaxy?
迁移是渐进的和可选的:
- 阶段 1:学习 – 了解 Galaxy 概念
- 阶段 2:实验 – 尝试使用 Galaxy 进行非关键任务
- 阶段 3:混合 – 同时使用两个框架
- 阶段 4:迁移 – 逐步将复杂任务移至 Galaxy
无强制迁移! 只要满足您的需求,就继续使用 UFO²。
有关详细信息,请参阅迁移指南。
🎯 Galaxy 能做 UFO² 做的所有事情吗?
功能上:是的。 Galaxy 可以使用 UFO² 作为 Windows 设备智能体。
实际上:这取决于。
- 对于简单的 Windows 任务:UFO² 独立更简单、更精简
- 对于复杂工作流:Galaxy 编排 UFO² 与其他设备智能体
建议: 使用正确的工具来完成工作。UFO² 可以独立工作或作为 Galaxy 的 Windows 设备智能体。
📊 Galaxy 有多成熟?
状态:积极开发 🚧
稳定:
- ✅ 核心架构
- ✅ DAG 编排
- ✅ 基本多设备支持
- ✅ 事件系统
开发中:
- 🔨 高级设备类型
- 🔨 增强监控
- 🔨 性能优化
- 🔨 扩展文档
建议: 非常适合实验和非关键工作流。
🔧 我可以扩展或自定义吗?
两个框架都是高度可扩展的:
UFO²:
- 自定义操作和自动化器
- 自定义知识源(RAG)
- 自定义控件检测器
- 自定义评估指标
Galaxy:
- 自定义智能体
- 自定义设备类型
- 自定义编排策略
- 自定义可视化组件
有关扩展指南,请参阅各自的文档。
🤝 我如何贡献?
我们欢迎对 UFO² 和 Galaxy 的贡献!
贡献方式:
- 🐛 报告错误和问题
- 💡 建议功能和改进
- 📝 改进文档
- 🧪 添加测试和示例
- 🔧 提交拉取请求
有关指南,请参阅 CONTRIBUTING.md。
免责声明: 使用本软件即表示您承认并同意 DISCLAIMER.md 中的条款。
许可证: 本项目根据 MIT 许可证 授权。
商标: Microsoft 商标的使用遵循 Microsoft 商标指南。
|
多设备编排 |
Windows 桌面智能体 |
© Microsoft 2025 | UFO³ 是一个开源研究项目
⭐ 在 GitHub 上给我们加星 | 🤝 贡献 | 📖 阅读文档 | 💬 加入讨论
