跳到主要内容

视觉探索(实验中)

注意

目前视觉探索功能仍在实验中,仅支持 Windows 系统。

什么是视觉探索?

视觉探索是一个智能桌面操作助手。它能像人一样"看"屏幕截图,自动规划并执行鼠标点击、键盘输入等操作,帮你完成桌面软件上的任务。

使用前提

你的客户端设备需要支持以下权限:

  • 屏幕截图:Agent 需要看到你的屏幕

  • 电脑控制:Agent 需要能够控制电脑,模拟鼠标键盘操作。

怎么使用?

只需用自然语言描述你想完成的完整目标,Agent 会自动规划并逐步执行。

好的描述方式:

  • "打开腾讯会议,创建一个会议"

  • "打开钉钉,发送消息给 xxx"

不好的描述方式:

  • "点击左下角" ← 不要给逐步指令,让 Agent 自己规划

  • "操作电脑" ← 太模糊,需要明确目标

Agent 能做什么?

操作说明示例场景
单击点击屏幕上的按钮、链接等点击"确定"按钮
双击双击打开文件或选中文字双击打开桌面上的文档
右键打开右键菜单右键文件查看属性
输入文本在输入框中输入内容在搜索框输入关键词
打开应用启动一个桌面应用打开浏览器、记事本等
按键模拟键盘按键或快捷键Ctrl+S 保存、Enter 确认
悬停鼠标悬停触发提示或菜单悬停查看工具提示
拖拽从一个位置拖动到另一个位置拖动文件到文件夹
滚动上下左右滚动页面向下滚动查看更多内容

执行过程

  1. 观察屏幕 — Agent 获取当前屏幕截图

  2. 分析思考 — AI 分析截图内容,决定下一步操作

  3. 执行操作 — 自动执行一个操作(如点击某个按钮)

  4. 检查结果 — 对比操作前后的截图,判断是否成功

  5. 重复 — 继续下一步操作,直到任务完成

整个过程中你可以在步骤列表中实时看到 Agent 正在执行的每一步操作。

注意事项

  • 请确保目标应用的界面在屏幕上可见且未被遮挡,您可以使用“悬浮窗模式”将 bit-Agent 窗口收起。

  • 如果操作失败,Agent 会自动尝试其他方法

  • 复杂任务可能需要多个步骤,请耐心等待

  • 如需中途取消,可以随时停止任务