跳到主要内容

视觉探索（实验中）

注意

目前视觉探索功能仍在实验中，仅支持 Windows 系统。

什么是视觉探索？

视觉探索是一个智能桌面操作助手。它能像人一样"看"屏幕截图，自动规划并执行鼠标点击、键盘输入等操作，帮你完成桌面软件上的任务。

使用前提

你的客户端设备需要支持以下权限：

屏幕截图：Agent 需要看到你的屏幕
电脑控制：Agent 需要能够控制电脑，模拟鼠标键盘操作。

怎么使用？

只需用自然语言描述你想完成的完整目标，Agent 会自动规划并逐步执行。

好的描述方式：

"打开腾讯会议，创建一个会议"
"打开钉钉，发送消息给 xxx"

不好的描述方式：

"点击左下角" ← 不要给逐步指令，让 Agent 自己规划
"操作电脑" ← 太模糊，需要明确目标

Agent 能做什么？

操作	说明	示例场景
单击	点击屏幕上的按钮、链接等	点击"确定"按钮
双击	双击打开文件或选中文字	双击打开桌面上的文档
右键	打开右键菜单	右键文件查看属性
输入文本	在输入框中输入内容	在搜索框输入关键词
打开应用	启动一个桌面应用	打开浏览器、记事本等
按键	模拟键盘按键或快捷键	Ctrl+S 保存、Enter 确认
悬停	鼠标悬停触发提示或菜单	悬停查看工具提示
拖拽	从一个位置拖动到另一个位置	拖动文件到文件夹
滚动	上下左右滚动页面	向下滚动查看更多内容

执行过程

观察屏幕 — Agent 获取当前屏幕截图
分析思考 — AI 分析截图内容，决定下一步操作
执行操作 — 自动执行一个操作（如点击某个按钮）
检查结果 — 对比操作前后的截图，判断是否成功
重复 — 继续下一步操作，直到任务完成

整个过程中你可以在步骤列表中实时看到 Agent 正在执行的每一步操作。

注意事项

请确保目标应用的界面在屏幕上可见且未被遮挡，您可以使用“悬浮窗模式”将 bit-Agent 窗口收起。
如果操作失败，Agent 会自动尝试其他方法
复杂任务可能需要多个步骤，请耐心等待
如需中途取消，可以随时停止任务

什么是视觉探索？
使用前提
怎么使用？
Agent 能做什么？
执行过程
注意事项