工具列表

通用工具

等待

功能说明

让程序暂停指定的时间，等待页面加载或其他操作完成。

执行逻辑

读取 等待秒数 参数；未填写时使用默认值（5 秒）。
校验参数范围（1-5 秒），超出范围时按限制值处理或报错。
在当前流程中阻塞执行计时，不触发其他动作。
计时结束后返回成功，继续后续步骤。

主要功能

暂停程序执行
等待页面加载完成
为下一步操作预留时间

设置选项

等待秒数: 暂停的时间长度，默认5秒，可设置1-5秒

使用场景

等待页面加载
等待动画完成
为慢速操作预留时间
按用户要求的等待时间

会话历史搜索

功能说明

搜索并查看你之前的聊天记录，帮助你快速找回聊过的话题、查看历史内容，或继续之前的讨论。

主要功能

搜索历史聊天内容
浏览最近的聊天记录
查看指定历史会话
查看某段对话的上下文
快速继续之前的话题

使用方式

不输入内容：浏览最近的历史记录
输入关键词：搜索包含该关键词的历史内容
指定会话：查看某次历史会话
查看上下文：围绕某条历史消息展开前后内容

使用场景

找回之前聊过的某个话题
回看上次的解决方案
查找以前提到的文件、项目或名称
继续之前未完成的讨论
浏览最近的聊天记录

记录信息

功能说明

记录页面中的关键信息，此步会针对需要记录的目标做分析处理，相比于 记录页面 工具，记录信息功能保留的记录更少。

执行逻辑

读取 记录目标 与 记录内容，明确本次需要保留的信息范围。
结合当前页面内容与最近步骤上下文，提取关键信息。
对提取结果做摘要与结构化，避免冗余内容。
写入会话笔记空间并返回记录结果，供后续步骤引用。

主要功能

快速记录重要信息
防止页面跳转导致信息丢失
智能提取关键内容

设置选项

记录目标: 需要记录的信息类型（必填）
记录内容: 具体要记录的信息内容

使用场景

点击提交按钮前记录表单信息
页面自动跳转前保存数据
记录验证码、订单号等重要信息
保存限时显示的内容

视觉分析

功能说明

对当前页面进行视觉理解，或者分析一个本地的图片文件。

执行逻辑

如果传入了本地路径/云端图片 id，则会分析图片。否则会分析当前的浏览器/应用页面。
获取当前页面/界面的可视内容作为分析输入。
将视觉结论与文本信息结合，作为下一步决策依据。

使用场景

页面结构复杂，纯文本信息不足以定位目标
需要结合页面视觉内容判断下一步动作
分析图片

数据生成工具

生成数据

功能说明

从当前页面和操作历史中提取并生成结构化数据。支持生成一些结构化的数据，比如获取当前网页的某些值，判断某个信息是否为真等。

生成的数据会以 JSON 格式返回。如果需要获取指标类的数值，如 CPU 使用率，今日股票价格等，均可使用此活动进行准确值的提取。

执行逻辑

读取字段列表与字段类型定义，确定目标输出结构。
从当前页面、历史步骤与记录信息中抽取候选数据。
按字段类型进行标准化与校验（文本/数字/布尔等）。
生成 JSON 结果并返回；缺失字段会给出可解释的空值结果。

主要功能

提取页面中的关键数据
生成结构化的数据格式
支持多种数据类型

设置选项

字段列表: 需要生成的数据字段（必填）
字段名称：数据字段的名字
字段类型：文本、数字、布尔值等
字段描述：提取该字段的要求
生成目标: 详细描述数据生成要求

使用场景

提取商品信息
生成报表数据
整理用户信息
创建数据统计

生成文件

功能说明

根据当前页面内容和操作历史生成各种格式的文件。此工具可以根据当前状态、已记录的信息以及用户任务要求，生成指定类型（如 xlsx, docx, html）的文件。
需要注意的是，生成文件的信息来源于当前页面以及通过 记录信息 和 记录页面 活动获取的信息。

执行逻辑

汇总当前页面信息与已记录内容，构建文件素材。
根据 文件类型（xlsx/docx/html）选择对应生成策略。
按 生成目标 组织内容结构并渲染文件。
保存到工作空间并返回文件标识，供下载或后续引用。

主要功能

生成Excel、Word、HTML格式文件
智能整理内容结构
自动生成文件名和描述

设置选项

文件类型: 选择xlsx、docx或html格式（必填）
生成目标: 详细描述文件生成要求（必填）

文件类型说明

xlsx: Excel表格文件，适合数据统计
docx: Word文档文件，适合文字报告
html: 网页文件，适合美观的展示报告

使用场景

生成数据报表
创建工作总结
制作分析报告
导出操作记录

生成PPT

功能说明

根据页面内容和操作记录自动生成PowerPoint演示文稿。

执行逻辑

从当前上下文提炼主题、章节与核心要点。
规划幻灯片结构（封面、目录、正文、结论等）。
将内容写入 PPT 并生成可用演示文件。
保存文件并返回文件标识。

主要功能

自动生成PPT文件
智能组织内容结构
创建专业的演示文稿

设置选项

生成目标: 详细描述PPT内容要求（必填）

使用场景

制作工作汇报PPT
生成项目展示文稿
创建培训材料
制作分析报告演示

浏览器操作工具

点击

功能说明

用于点击网页上的按钮、链接等元素，就像用鼠标点击一样。

执行逻辑

根据 目标元素 与等待参数定位页面元素。
元素可用后执行单击动作；下载场景启用下载处理。
监听页面状态变化（跳转、弹窗、刷新等）。
状态稳定后返回执行结果。

主要功能

点击网页上的任何按钮或链接
支持下载文件时的特殊处理
会等待页面元素加载完成再点击

设置选项

目标元素: 要点击的按钮或链接位置
下载按钮: 如果是下载文件的按钮，请勾选此选项

高级设置

元素等待超时: 最多等待多少秒让元素出现

使用场景

点击"登录"、"提交"、"确认"等按钮
点击网页链接跳转到其他页面
点击下载按钮下载文件
需要连续点击多次的情况

双击

功能说明

用于双击网页上的按钮、链接等元素，会触发浏览器的双击事件。

执行逻辑

等待并定位目标元素。
对目标连续触发双击事件。
观察双击后页面变化或组件状态变化。
返回执行结果；若元素不可交互则给出失败原因。

主要功能

点击网页上的任何按钮或链接
会等待页面元素加载完成再点击

设置选项

目标元素: 要点击的按钮或链接位置

高级设置

元素等待超时: 最多等待多少秒让元素出现

使用场景

需要双击的步骤

右键点击

功能说明

用于右键点击元素。

执行逻辑

等待并定位目标元素。
在目标元素上触发右键事件。
等待上下文菜单或后续交互状态出现。
返回执行结果与可见状态。

主要功能

点击网页上的任何按钮或链接

设置选项

目标元素: 要右键点击的按钮或链接位置

高级设置

元素等待超时: 最多等待多少秒让元素出现

使用场景

需要右键点击的步骤

输入

功能说明

用于在网页的输入框中填写文字，比如用户名、密码、搜索关键词等。

执行逻辑

等待输入框可见且可编辑。
聚焦输入框并清理原有值。
写入 输入内容，必要时处理特殊字符。
校验输入是否生效并返回结果。

主要功能

在各种输入框中填写文字
支持密码框、搜索框等不同类型
会自动清空原有内容再输入新内容
等待输入框准备好再开始输入

设置选项

目标输入框: 要填写的输入框位置
输入内容: 要填写的文字内容（必填）

高级设置

元素等待超时: 最多等待多少秒让输入框出现

使用场景

填写登录用户名和密码
在搜索框中输入关键词
填写注册表单的各种信息
在文本框中输入长段文字

悬停

功能说明

将鼠标悬停在某个元素上，用于触发下拉菜单或显示隐藏内容。

执行逻辑

等待并定位目标元素。
将鼠标移动至目标元素触发 hover 事件。
等待悬停态内容（菜单、提示层）稳定显示。
返回执行结果。

主要功能

模拟鼠标悬停操作
触发悬停效果，如下拉菜单
等待元素加载完成再悬停

设置选项

目标元素: 要悬停的元素位置

高级设置

元素等待超时: 最多等待多少秒让元素出现

使用场景

显示导航菜单的子菜单
查看工具提示信息
触发悬停显示的内容

选择选项

功能说明

在下拉框或选择列表中选择特定的选项。

执行逻辑

定位下拉框并确认可操作状态。
按 选项值 匹配对应 option（文本或 value）。
设置选中项并触发变更事件。
校验最终选中值并返回结果。

主要功能

在下拉框中选择选项
支持通过选项文字或值进行选择
等待下拉框准备好再选择

设置选项

目标下拉框: 要操作的下拉框位置
选项值: 要选择的选项文字或值（必填）

高级设置

元素等待超时: 最多等待多少秒让下拉框出现

使用场景

选择省市区域
选择商品规格
选择日期时间
选择分类选项

上传文件

功能说明

在网页表单中上传文件。

执行逻辑

解析 文件ID/本地路径，确认可访问的本地文件。
定位上传控件并注入文件。
监听上传过程与页面反馈（进度/成功提示）。
返回上传结果；失败时反馈具体原因。

主要功能

选择并上传本地文件
支持各种文件格式
等待上传按钮准备好再操作

设置选项

上传按钮: 文件上传按钮的位置
文件ID: 要上传的文件（必填，需从文件空间选择/给出本地路径）

高级设置

元素等待超时: 最多等待多少秒让按钮出现

使用场景

上传头像图片
提交文档资料
上传附件文件
批量文件上传

键盘输入

功能说明

模拟键盘按键操作，如按回车键、删除键等特殊按键。

执行逻辑

定位并聚焦目标元素。
解析按键码（含组合键/功能键）。
触发键盘事件序列（keydown/keyup）。
等待页面响应并返回执行结果。

主要功能

模拟各种键盘按键
支持功能键、方向键等特殊按键
可以配合其他操作使用

设置选项

目标元素: 要接收按键的元素位置
按键码: 要按的键盘按键（必填）

高级设置

元素等待超时: 最多等待多少秒让元素出现

支持的按键

功能键：F1-F12
数字键：0-9
字母键：A-Z
特殊键：回车、删除、退格、Tab、方向键等

使用场景

按回车键提交表单
按删除键清除内容
使用方向键导航
按Tab键切换焦点

滑动条

功能说明

拖动网页上的滑动条到指定位置，用于设置数值或进度。

执行逻辑

定位滑动条轨道与滑块。
根据最小值/最大值将目标值映射为位置偏移。
执行拖拽操作移动到目标位置。
校验最终值是否命中目标区间并返回结果。

主要功能

拖动滑动条到指定数值
支持设置最小值和最大值范围
精确控制滑动条位置

设置选项

滑动条: 要操作的滑动条位置
目标值: 要设置的数值（必填）
最小值: 滑动条允许的最小值（必填）
最大值: 滑动条允许的最大值（必填）

高级设置

元素等待超时: 最多等待多少秒让滑动条出现

使用场景

设置价格范围
调整音量大小
设置进度百分比
调整参数数值

新开页面

功能说明

在浏览器中打开新的网页标签页。

执行逻辑

校验 URL 格式（http/https）。
在浏览器中新建标签页并导航到目标地址。
等待页面加载完成。
返回页面打开结果。

主要功能

打开指定网址的新页面
支持互联网和局域网地址
自动验证网址格式

设置选项

网页地址: 要打开的网址（必填，需以http或https开头）

高级设置

跳过匹配 url: 用于设置，如果已经在某个页面上，就不执行此工具，以免多次打开。支持通配符，/* 可以匹配任意字符。

使用场景

打开新的网站
访问特定页面
开始新的操作流程

关闭页面

功能说明

关闭当前浏览器标签页。

执行逻辑

确认当前活动标签页。
执行关闭动作并回收标签页资源。
自动切换到可用标签页继续会话。
返回关闭结果。

主要功能

关闭当前活动的标签页
清理浏览器资源

使用场景

完成操作后关闭页面
清理多余的标签页
结束当前任务

切换页面

功能说明

在多个打开的标签页之间切换。

执行逻辑

读取当前标签页列表并匹配目标标签。
激活目标标签页。
等待目标页成为前台并完成状态同步。
返回切换结果。

主要功能

切换到指定的标签页
自动查找目标页面

设置选项

此功能必须使用动态步骤

使用场景

在多个页面间切换操作
返回之前的页面
管理多个任务

页面后退

功能说明

返回到浏览器历史记录中的上一个页面。

执行逻辑

触发浏览器后退动作。
等待历史页面加载与状态稳定。
校验 URL/内容是否回到上一页。
返回执行结果。

主要功能

模拟浏览器后退按钮
返回上一个访问的页面

使用场景

返回上一页
撤销页面跳转
回到之前的操作页面

页面前进

功能说明

前进到浏览器历史记录中的下一个页面。

执行逻辑

触发浏览器前进动作。
等待目标历史页加载完成。
校验 URL/内容是否前进成功。
返回执行结果。

主要功能

模拟浏览器前进按钮
前进到下一个页面

使用场景

重新前进到某个页面
恢复之前的页面位置

刷新页面

功能说明

重新加载当前网页，获取最新内容。

执行逻辑

触发当前页面刷新。
等待资源重新加载完成。
校验页面状态是否更新。
返回刷新结果。

主要功能

刷新当前页面
重新加载页面内容
清除页面缓存

使用场景

获取最新数据
重新加载页面
解决页面显示问题

图片验证码

功能说明

自动识别并输入网页上的图片验证码。此版本支持解决“字符识别类”验证码，即如下图所示的验证码。并支持简单的计算。

使用限制：

目前此活动仅支持在公网环境使用，不支持私有化部署。
不支持中文字符识别

执行逻辑

定位验证码图片与输入框。
截取验证码图像并执行识别（含简单计算场景）。
将识别结果写入输入框。
返回识别与填充结果；必要时提示重试。

主要功能

自动识别验证码图片
输入识别结果到输入框
处理各种类型的图片验证码

设置选项

输入框: 验证码输入框位置（必填）
验证码图片: 验证码图片位置（必填）

高级设置

元素等待超时: 等待元素出现的时间

使用场景

登录时的验证码输入
注册时的验证码验证
表单提交的安全验证

滑动验证码

功能说明

自动完成滑动拼图验证码的验证过程。

执行逻辑

定位拖动按钮、滑块图与背景图。
计算缺口位置与滑动距离。
以模拟人工轨迹完成拖拽。
验证是否通过；失败时返回原因用于重试。

主要功能

自动识别拼图缺口位置
精确拖动滑块到正确位置
完成滑动验证

设置选项

拖动按钮: 滑动验证码的拖动按钮位置（必填）
滑块图片: 滑动的小图片位置（必填）
背景图片: 背景大图片位置（必填）

高级设置

元素等待超时: 等待元素出现的时间

使用场景

登录安全验证
防机器人验证
表单提交验证

记录页面

功能说明

保存当前页面的完整状态信息，用于后续查看或分析。此功能会记录下 当前页面 的所有文字信息。在当前页面的信息都很重要时使用。

执行逻辑

采集当前页面 URL、正文内容与状态信息。
生成页面快照记录。
写入会话空间并生成唯一记录标识。
返回记录结果供后续引用。

主要功能

记录页面URL和文本内容
保存页面状态快照
生成唯一的记录ID

使用场景

保存重要页面信息
记录操作过程中的关键状态
为后续分析提供数据

抽取表格

功能说明

将页面上的表格内容抽取为 excel 文件。

信息

注意：此功能不支持在探索中直接调用，当前允许在能力编辑时手动使用。

执行逻辑

定位包含完整数据的目标表格元素。
解析表格行列结构并提取单元格内容。
清洗并标准化数据格式。
生成 Excel 文件并写入工作空间。

主要功能

将页面的内容转为 excel 表格

设置选项

目标元素: 要抽取的表格元素, 请在选取时，确认此元素包含全部表格。

高级设置

元素等待超时: 最多等待多少秒让元素出现

打印当前页面

功能说明

将当前页面打印为 pdf/图片，并保存在本地工作空间中。

执行逻辑

读取打印类型（pdf/png/jpeg）。
渲染当前页面完整内容（长页按格式处理为多页或长图）。
生成对应文件并保存到本地工作空间。
返回文件信息。

主要功能

将当前网站的全部内容打印为对应格式。如果是长页面， PDF 格式会分为多页，图片会输出长图。

设置选项

打印类型: 打印类型，pdf, png, jpeg（默认为 pdf）

使用场景

保存页面内容到本地

本地操作工具

对应 bit_agent_v3.env.units.worker.local_command。

可以点击图中按钮，打开本地工具的默认文件夹：

信息

出于安全考虑，目前不支持删除文件

读取文件

功能说明

用于读取文件内容或列出目录信息，支持多种文件格式的文本提取。

执行逻辑

解析文件路径并识别目标是文件还是目录。
目录场景返回目录清单；文件场景读取内容。
大文件按 起始行号 + 读取行数 分段读取。
返回读取结果；办公文档会先做文本提取。

主要功能

读取文本文件内容（.txt, .md, .js, .py 等）
读取办公文档中的文本（.pdf, .docx, .xls, .xlsx）
列出目录下的文件和子目录
支持分段读取大文件

设置选项

文件路径: 要读取的文件或目录路径（支持 Unix 或 Windows 格式）
起始行号: 从第几行开始读取，默认从头开始（0）
读取行数: 最多读取多少行，默认 2000 行

使用场景

查看代码文件内容
读取配置文件
提取 PDF、Word 文档中的文本
浏览目录结构
分段读取超大文件

写入文件

功能说明

用于向文件写入内容，支持追加和覆盖两种模式。

执行逻辑

校验路径与写入模式（append/overwrite）。
文件不存在且允许创建时自动建文件。
按模式写入内容并落盘。
返回写入状态。

主要功能

追加内容到文件末尾（默认模式）
覆盖整个文件内容
文件不存在时自动创建
仅支持文本类型文件

设置选项

文件路径: 要写入的文件路径（支持 Unix 或 Windows 格式）
写入内容: 要写入的文本内容
写入模式: append（追加）或 overwrite（覆盖），默认追加
不存在时创建: 文件不存在时是否自动创建，默认是

使用场景

创建新的配置文件
向日志文件追加记录
生成代码文件
更新文档内容
保存处理结果

编辑文件

功能说明

用于精确替换文件中的文本内容，类似查找和替换功能。

执行逻辑

读取目标文件并定位 原文本 匹配项。
按配置执行首个替换或全量替换。
将替换后的内容写回文件。
返回替换结果（是否命中、替换次数）。

主要功能

精确匹配并替换文本片段
支持替换第一个匹配或全部匹配
仅支持文本类型文件
替换内容必须与原文完全一致

设置选项

文件路径: 要编辑的文件路径（支持 Unix 或 Windows 格式）
原文本: 要被替换的原始文本，必须精确匹配
新文本: 用于替换的新文本内容
全部替换: 是否替换所有匹配项，默认只替换第一个

使用场景

修改代码中的变量名
更新配置文件中的参数值
批量替换文本内容
修正文档中的错误
重构代码片段

执行命令

注意

执行命令工具会获取您本地的命令行权限，请谨慎使用。

功能说明

在用户机器上执行 shell 命令，可以完成各种系统操作和自动化任务。

当命令涉及高风险操作时，系统会暂停执行并向你请求许可。你确认后才会继续执行。

执行逻辑

在用户机器 shell 环境执行命令，并应用超时控制。
采集标准输出、标准错误与退出码。
命中高风险命令时，暂停并等待用户许可后继续。
以结构化结果返回执行状态与输出。

主要功能

执行任意 shell 命令
搜索和定位文件
运行脚本和程序
安装依赖包
执行 git 操作

设置选项

命令: 要执行的 shell 命令
超时时间: 命令执行的最长等待时间（秒），默认 120 秒

高级设置

命令执行后会返回标准输出、标准错误和退出码
退出码为 0 表示执行成功

使用场景

搜索文件：find . -name "*.py"
查看文件列表：ls -la
安装依赖：pip install requests
Git 操作：git status, git commit -m "message"
运行测试：pytest tests/
查看系统信息：uname -a, df -h

通用工具​

等待​

功能说明​

执行逻辑​

主要功能​

设置选项​

使用场景​

会话历史搜索​

功能说明​

主要功能​

使用方式​

使用场景​

记录信息​

功能说明​

执行逻辑​

主要功能​

设置选项​

使用场景​

视觉分析​

功能说明​

执行逻辑​

使用场景​

数据生成工具​

生成数据​

功能说明​

执行逻辑​

主要功能​

设置选项​

使用场景​

生成文件​

功能说明​

执行逻辑​

主要功能​

设置选项​

文件类型说明​

使用场景​

生成PPT​

功能说明​

执行逻辑​

主要功能​

设置选项​

使用场景​

浏览器操作工具​

点击​

功能说明​

执行逻辑​

主要功能​

设置选项​

高级设置​

使用场景​

双击​

功能说明​

执行逻辑​

主要功能​

设置选项​

高级设置​

使用场景​

右键点击​

功能说明​

执行逻辑​

主要功能​

设置选项​

高级设置​

使用场景​

输入​

功能说明​

执行逻辑​

主要功能​

设置选项​

高级设置​

使用场景​

悬停​

功能说明​

执行逻辑​

主要功能​

设置选项​

高级设置​

使用场景​

选择选项​

功能说明​

通用工具

等待

功能说明

执行逻辑

主要功能

设置选项

使用场景

会话历史搜索

功能说明

主要功能

使用方式

使用场景

记录信息

功能说明

执行逻辑

主要功能

设置选项

使用场景

视觉分析

功能说明

执行逻辑

使用场景

数据生成工具

生成数据

功能说明

执行逻辑

主要功能

设置选项

使用场景

生成文件

功能说明

执行逻辑

主要功能

设置选项

文件类型说明

使用场景

生成PPT

功能说明

执行逻辑

主要功能

设置选项

使用场景

浏览器操作工具

点击

功能说明

执行逻辑

主要功能

设置选项

高级设置

使用场景

双击

功能说明

执行逻辑

主要功能

设置选项

高级设置

使用场景

右键点击

功能说明

执行逻辑

主要功能

设置选项

高级设置

使用场景

输入

功能说明

执行逻辑

主要功能

设置选项

高级设置

使用场景

悬停

功能说明

执行逻辑

主要功能

设置选项

高级设置

使用场景

选择选项

功能说明