跳到主要内容

工具列表

通用工具

等待

功能说明

让程序暂停指定的时间,等待页面加载或其他操作完成。

执行逻辑

  • 读取 等待秒数 参数;未填写时使用默认值(5 秒)。
  • 校验参数范围(1-5 秒),超出范围时按限制值处理或报错。
  • 在当前流程中阻塞执行计时,不触发其他动作。
  • 计时结束后返回成功,继续后续步骤。

主要功能

  • 暂停程序执行

  • 等待页面加载完成

  • 为下一步操作预留时间

设置选项

  • 等待秒数: 暂停的时间长度,默认5秒,可设置1-5秒

使用场景

  • 等待页面加载

  • 等待动画完成

  • 为慢速操作预留时间

  • 按用户要求的等待时间


记录信息

功能说明

记录页面中的关键信息,此步会针对需要记录的目标做分析处理,相比于 记录页面 工具,记录信息功能保留的记录更少。

执行逻辑

  • 读取 记录目标记录内容,明确本次需要保留的信息范围。
  • 结合当前页面内容与最近步骤上下文,提取关键信息。
  • 对提取结果做摘要与结构化,避免冗余内容。
  • 写入会话笔记空间并返回记录结果,供后续步骤引用。

主要功能

  • 快速记录重要信息

  • 防止页面跳转导致信息丢失

  • 智能提取关键内容

设置选项

  • 记录目标: 需要记录的信息类型(必填)

  • 记录内容: 具体要记录的信息内容

使用场景

  • 点击提交按钮前记录表单信息

  • 页面自动跳转前保存数据

  • 记录验证码、订单号等重要信息

  • 保存限时显示的内容


视觉分析

功能说明

对当前页面进行视觉理解,或者分析一个本地的图片文件。

执行逻辑

  • 如果传入了本地路径/云端图片 id,则会分析图片。否则会分析当前的浏览器/应用页面。
  • 获取当前页面/界面的可视内容作为分析输入。
  • 将视觉结论与文本信息结合,作为下一步决策依据。

使用场景

  • 页面结构复杂,纯文本信息不足以定位目标
  • 需要结合页面视觉内容判断下一步动作
  • 分析图片

数据生成工具

生成数据

功能说明

从当前页面和操作历史中提取并生成结构化数据。支持生成一些结构化的数据,比如获取当前网页的某些值,判断某个信息是否为真等。

生成的数据会以 JSON 格式返回。如果需要获取指标类的数值,如 CPU 使用率,今日股票价格等,均可使用此活动进行准确值的提取。

执行逻辑

  • 读取字段列表与字段类型定义,确定目标输出结构。
  • 从当前页面、历史步骤与记录信息中抽取候选数据。
  • 按字段类型进行标准化与校验(文本/数字/布尔等)。
  • 生成 JSON 结果并返回;缺失字段会给出可解释的空值结果。

主要功能

  • 提取页面中的关键数据

  • 生成结构化的数据格式

  • 支持多种数据类型

设置选项

  • 字段列表: 需要生成的数据字段(必填)

  • 字段名称:数据字段的名字

  • 字段类型:文本、数字、布尔值等

  • 字段描述:提取该字段的要求

  • 生成目标: 详细描述数据生成要求

使用场景

  • 提取商品信息

  • 生成报表数据

  • 整理用户信息

  • 创建数据统计


生成文件

功能说明

根据当前页面内容和操作历史生成各种格式的文件。此工具可以根据当前状态、已记录的信息以及用户任务要求,生成指定类型(如 xlsx, docx, html)的文件。
需要注意的是,生成文件的信息来源于当前页面以及通过 记录信息记录页面 活动获取的信息。

执行逻辑

  • 汇总当前页面信息与已记录内容,构建文件素材。
  • 根据 文件类型(xlsx/docx/html)选择对应生成策略。
  • 生成目标 组织内容结构并渲染文件。
  • 保存到工作空间并返回文件标识,供下载或后续引用。

主要功能

  • 生成Excel、Word、HTML格式文件

  • 智能整理内容结构

  • 自动生成文件名和描述

设置选项

  • 文件类型: 选择xlsx、docx或html格式(必填)

  • 生成目标: 详细描述文件生成要求(必填)

文件类型说明

  • xlsx: Excel表格文件,适合数据统计

  • docx: Word文档文件,适合文字报告

  • html: 网页文件,适合美观的展示报告

使用场景

  • 生成数据报表

  • 创建工作总结

  • 制作分析报告

  • 导出操作记录


生成PPT

功能说明

根据页面内容和操作记录自动生成PowerPoint演示文稿。

执行逻辑

  • 从当前上下文提炼主题、章节与核心要点。
  • 规划幻灯片结构(封面、目录、正文、结论等)。
  • 将内容写入 PPT 并生成可用演示文件。
  • 保存文件并返回文件标识。

主要功能

  • 自动生成PPT文件

  • 智能组织内容结构

  • 创建专业的演示文稿

设置选项

  • 生成目标: 详细描述PPT内容要求(必填)

使用场景

  • 制作工作汇报PPT

  • 生成项目展示文稿

  • 创建培训材料

  • 制作分析报告演示

浏览器操作工具

点击

功能说明

用于点击网页上的按钮、链接等元素,就像用鼠标点击一样。

执行逻辑

  • 根据 目标元素 与等待参数定位页面元素。
  • 元素可用后执行单击动作;下载场景启用下载处理。
  • 监听页面状态变化(跳转、弹窗、刷新等)。
  • 状态稳定后返回执行结果。

主要功能

  • 点击网页上的任何按钮或链接

  • 支持下载文件时的特殊处理

  • 会等待页面元素加载完成再点击

设置选项

  • 目标元素: 要点击的按钮或链接位置

  • 下载按钮: 如果是下载文件的按钮,请勾选此选项

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

使用场景

  • 点击"登录"、"提交"、"确认"等按钮

  • 点击网页链接跳转到其他页面

  • 点击下载按钮下载文件

  • 需要连续点击多次的情况


双击

功能说明

用于双击网页上的按钮、链接等元素,会触发浏览器的双击事件。

执行逻辑

  • 等待并定位目标元素。
  • 对目标连续触发双击事件。
  • 观察双击后页面变化或组件状态变化。
  • 返回执行结果;若元素不可交互则给出失败原因。

主要功能

  • 点击网页上的任何按钮或链接

  • 会等待页面元素加载完成再点击

设置选项

  • 目标元素: 要点击的按钮或链接位置

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

使用场景

  • 需要双击的步骤

右键点击

功能说明

用于右键点击元素。

执行逻辑

  • 等待并定位目标元素。
  • 在目标元素上触发右键事件。
  • 等待上下文菜单或后续交互状态出现。
  • 返回执行结果与可见状态。

主要功能

  • 点击网页上的任何按钮或链接

设置选项

  • 目标元素: 要右键点击的按钮或链接位置

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

使用场景

  • 需要右键点击的步骤

输入

功能说明

用于在网页的输入框中填写文字,比如用户名、密码、搜索关键词等。

执行逻辑

  • 等待输入框可见且可编辑。
  • 聚焦输入框并清理原有值。
  • 写入 输入内容,必要时处理特殊字符。
  • 校验输入是否生效并返回结果。

主要功能

  • 在各种输入框中填写文字

  • 支持密码框、搜索框等不同类型

  • 会自动清空原有内容再输入新内容

  • 等待输入框准备好再开始输入

设置选项

  • 目标输入框: 要填写的输入框位置

  • 输入内容: 要填写的文字内容(必填)

高级设置

  • 元素等待超时: 最多等待多少秒让输入框出现

使用场景

  • 填写登录用户名和密码

  • 在搜索框中输入关键词

  • 填写注册表单的各种信息

  • 在文本框中输入长段文字


悬停

功能说明

将鼠标悬停在某个元素上,用于触发下拉菜单或显示隐藏内容。

执行逻辑

  • 等待并定位目标元素。
  • 将鼠标移动至目标元素触发 hover 事件。
  • 等待悬停态内容(菜单、提示层)稳定显示。
  • 返回执行结果。

主要功能

  • 模拟鼠标悬停操作

  • 触发悬停效果,如下拉菜单

  • 等待元素加载完成再悬停

设置选项

  • 目标元素: 要悬停的元素位置

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

使用场景

  • 显示导航菜单的子菜单

  • 查看工具提示信息

  • 触发悬停显示的内容


选择选项

功能说明

在下拉框或选择列表中选择特定的选项。

执行逻辑

  • 定位下拉框并确认可操作状态。
  • 选项值 匹配对应 option(文本或 value)。
  • 设置选中项并触发变更事件。
  • 校验最终选中值并返回结果。

主要功能

  • 在下拉框中选择选项

  • 支持通过选项文字或值进行选择

  • 等待下拉框准备好再选择

设置选项

  • 目标下拉框: 要操作的下拉框位置

  • 选项值: 要选择的选项文字或值(必填)

高级设置

  • 元素等待超时: 最多等待多少秒让下拉框出现

使用场景

  • 选择省市区域

  • 选择商品规格

  • 选择日期时间

  • 选择分类选项


上传文件

功能说明

在网页表单中上传文件。

执行逻辑

  • 解析 文件ID/本地路径,确认可访问的本地文件。
  • 定位上传控件并注入文件。
  • 监听上传过程与页面反馈(进度/成功提示)。
  • 返回上传结果;失败时反馈具体原因。

主要功能

  • 选择并上传本地文件

  • 支持各种文件格式

  • 等待上传按钮准备好再操作

设置选项

  • 上传按钮: 文件上传按钮的位置

  • 文件ID: 要上传的文件(必填,需从文件空间选择/给出本地路径)

高级设置

  • 元素等待超时: 最多等待多少秒让按钮出现

使用场景

  • 上传头像图片

  • 提交文档资料

  • 上传附件文件

  • 批量文件上传


键盘输入

功能说明

模拟键盘按键操作,如按回车键、删除键等特殊按键。

执行逻辑

  • 定位并聚焦目标元素。
  • 解析按键码(含组合键/功能键)。
  • 触发键盘事件序列(keydown/keyup)。
  • 等待页面响应并返回执行结果。

主要功能

  • 模拟各种键盘按键

  • 支持功能键、方向键等特殊按键

  • 可以配合其他操作使用

设置选项

  • 目标元素: 要接收按键的元素位置

  • 按键码: 要按的键盘按键(必填)

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

支持的按键

  • 功能键:F1-F12

  • 数字键:0-9

  • 字母键:A-Z

  • 特殊键:回车、删除、退格、Tab、方向键等

使用场景

  • 按回车键提交表单

  • 按删除键清除内容

  • 使用方向键导航

  • 按Tab键切换焦点


滑动条

功能说明

拖动网页上的滑动条到指定位置,用于设置数值或进度。

执行逻辑

  • 定位滑动条轨道与滑块。
  • 根据最小值/最大值将目标值映射为位置偏移。
  • 执行拖拽操作移动到目标位置。
  • 校验最终值是否命中目标区间并返回结果。

主要功能

  • 拖动滑动条到指定数值

  • 支持设置最小值和最大值范围

  • 精确控制滑动条位置

设置选项

  • 滑动条: 要操作的滑动条位置

  • 目标值: 要设置的数值(必填)

  • 最小值: 滑动条允许的最小值(必填)

  • 最大值: 滑动条允许的最大值(必填)

高级设置

  • 元素等待超时: 最多等待多少秒让滑动条出现

使用场景

  • 设置价格范围

  • 调整音量大小

  • 设置进度百分比

  • 调整参数数值


新开页面

功能说明

在浏览器中打开新的网页标签页。

执行逻辑

  • 校验 URL 格式(http/https)。
  • 在浏览器中新建标签页并导航到目标地址。
  • 等待页面加载完成。
  • 返回页面打开结果。

主要功能

  • 打开指定网址的新页面

  • 支持互联网和局域网地址

  • 自动验证网址格式

设置选项

  • 网页地址: 要打开的网址(必填,需以http或https开头)

高级设置

  • 跳过匹配 url: 用于设置,如果已经在某个页面上,就不执行此工具,以免多次打开。支持通配符,/* 可以匹配任意字符。

使用场景

  • 打开新的网站

  • 访问特定页面

  • 开始新的操作流程


关闭页面

功能说明

关闭当前浏览器标签页。

执行逻辑

  • 确认当前活动标签页。
  • 执行关闭动作并回收标签页资源。
  • 自动切换到可用标签页继续会话。
  • 返回关闭结果。

主要功能

  • 关闭当前活动的标签页

  • 清理浏览器资源

使用场景

  • 完成操作后关闭页面

  • 清理多余的标签页

  • 结束当前任务


切换页面

功能说明

在多个打开的标签页之间切换。

执行逻辑

  • 读取当前标签页列表并匹配目标标签。
  • 激活目标标签页。
  • 等待目标页成为前台并完成状态同步。
  • 返回切换结果。

主要功能

  • 切换到指定的标签页

  • 自动查找目标页面

设置选项

  • 此功能必须使用动态步骤

使用场景

  • 在多个页面间切换操作

  • 返回之前的页面

  • 管理多个任务


页面后退

功能说明

返回到浏览器历史记录中的上一个页面。

执行逻辑

  • 触发浏览器后退动作。
  • 等待历史页面加载与状态稳定。
  • 校验 URL/内容是否回到上一页。
  • 返回执行结果。

主要功能

  • 模拟浏览器后退按钮

  • 返回上一个访问的页面

使用场景

  • 返回上一页

  • 撤销页面跳转

  • 回到之前的操作页面


页面前进

功能说明

前进到浏览器历史记录中的下一个页面。

执行逻辑

  • 触发浏览器前进动作。
  • 等待目标历史页加载完成。
  • 校验 URL/内容是否前进成功。
  • 返回执行结果。

主要功能

  • 模拟浏览器前进按钮

  • 前进到下一个页面

使用场景

  • 重新前进到某个页面

  • 恢复之前的页面位置


刷新页面

功能说明

重新加载当前网页,获取最新内容。

执行逻辑

  • 触发当前页面刷新。
  • 等待资源重新加载完成。
  • 校验页面状态是否更新。
  • 返回刷新结果。

主要功能

  • 刷新当前页面

  • 重新加载页面内容

  • 清除页面缓存

使用场景

  • 获取最新数据

  • 重新加载页面

  • 解决页面显示问题


图片验证码

功能说明

自动识别并输入网页上的图片验证码。 此版本支持解决“字符识别类”验证码,即如下图所示的验证码。并支持简单的计算。

使用限制:

  • 目前此活动仅支持在公网环境使用,不支持私有化部署。
  • 不支持中文字符识别

执行逻辑

  • 定位验证码图片与输入框。
  • 截取验证码图像并执行识别(含简单计算场景)。
  • 将识别结果写入输入框。
  • 返回识别与填充结果;必要时提示重试。

主要功能

  • 自动识别验证码图片

  • 输入识别结果到输入框

  • 处理各种类型的图片验证码

设置选项

  • 输入框: 验证码输入框位置(必填)

  • 验证码图片: 验证码图片位置(必填)

高级设置

  • 元素等待超时: 等待元素出现的时间

使用场景

  • 登录时的验证码输入

  • 注册时的验证码验证

  • 表单提交的安全验证


滑动验证码

功能说明

自动完成滑动拼图验证码的验证过程。

执行逻辑

  • 定位拖动按钮、滑块图与背景图。
  • 计算缺口位置与滑动距离。
  • 以模拟人工轨迹完成拖拽。
  • 验证是否通过;失败时返回原因用于重试。

主要功能

  • 自动识别拼图缺口位置

  • 精确拖动滑块到正确位置

  • 完成滑动验证

设置选项

  • 拖动按钮: 滑动验证码的拖动按钮位置(必填)

  • 滑块图片: 滑动的小图片位置(必填)

  • 背景图片: 背景大图片位置(必填)

高级设置

  • 元素等待超时: 等待元素出现的时间

使用场景

  • 登录安全验证

  • 防机器人验证

  • 表单提交验证


记录页面

功能说明

保存当前页面的完整状态信息,用于后续查看或分析。 此功能会记录下 当前页面 的所有文字信息。在当前页面的信息都很重要时使用。

执行逻辑

  • 采集当前页面 URL、正文内容与状态信息。
  • 生成页面快照记录。
  • 写入会话空间并生成唯一记录标识。
  • 返回记录结果供后续引用。

主要功能

  • 记录页面URL和文本内容

  • 保存页面状态快照

  • 生成唯一的记录ID

使用场景

  • 保存重要页面信息

  • 记录操作过程中的关键状态

  • 为后续分析提供数据


抽取表格

功能说明

将页面上的表格内容抽取为 excel 文件。

信息

注意:此功能不支持在探索中直接调用,当前允许在能力编辑时手动使用。

执行逻辑

  • 定位包含完整数据的目标表格元素。
  • 解析表格行列结构并提取单元格内容。
  • 清洗并标准化数据格式。
  • 生成 Excel 文件并写入工作空间。

主要功能

  • 将页面的内容转为 excel 表格

设置选项

  • 目标元素: 要抽取的表格元素, 请在选取时,确认此元素包含全部表格。

高级设置

  • 元素等待超时: 最多等待多少秒让元素出现

打印当前页面

功能说明

将当前页面打印为 pdf/图片,并保存在本地工作空间中。

执行逻辑

  • 读取打印类型(pdf/png/jpeg)。
  • 渲染当前页面完整内容(长页按格式处理为多页或长图)。
  • 生成对应文件并保存到本地工作空间。
  • 返回文件信息。

主要功能

  • 将当前网站的全部内容打印为对应格式。如果是长页面, PDF 格式会分为多页,图片会输出长图。

设置选项

  • 打印类型: 打印类型,pdf, png, jpeg(默认为 pdf)

使用场景

  • 保存页面内容到本地

本地操作工具

对应 bit_agent_v3.env.units.worker.local_command

可以点击图中按钮,打开本地工具的默认文件夹:

信息

出于安全考虑,目前不支持删除文件

读取文件

功能说明

用于读取文件内容或列出目录信息,支持多种文件格式的文本提取。

执行逻辑

  • 解析文件路径并识别目标是文件还是目录。
  • 目录场景返回目录清单;文件场景读取内容。
  • 大文件按 起始行号 + 读取行数 分段读取。
  • 返回读取结果;办公文档会先做文本提取。

主要功能

  • 读取文本文件内容(.txt, .md, .js, .py 等)

  • 读取办公文档中的文本(.pdf, .docx, .xls, .xlsx)

  • 列出目录下的文件和子目录

  • 支持分段读取大文件

设置选项

  • 文件路径: 要读取的文件或目录路径(支持 Unix 或 Windows 格式)

  • 起始行号: 从第几行开始读取,默认从头开始(0)

  • 读取行数: 最多读取多少行,默认 2000 行

使用场景

  • 查看代码文件内容

  • 读取配置文件

  • 提取 PDF、Word 文档中的文本

  • 浏览目录结构

  • 分段读取超大文件


写入文件

功能说明

用于向文件写入内容,支持追加和覆盖两种模式。

执行逻辑

  • 校验路径与写入模式(append/overwrite)。
  • 文件不存在且允许创建时自动建文件。
  • 按模式写入内容并落盘。
  • 返回写入状态。

主要功能

  • 追加内容到文件末尾(默认模式)

  • 覆盖整个文件内容

  • 文件不存在时自动创建

  • 仅支持文本类型文件

设置选项

  • 文件路径: 要写入的文件路径(支持 Unix 或 Windows 格式)

  • 写入内容: 要写入的文本内容

  • 写入模式: append(追加)或 overwrite(覆盖),默认追加

  • 不存在时创建: 文件不存在时是否自动创建,默认是

使用场景

  • 创建新的配置文件

  • 向日志文件追加记录

  • 生成代码文件

  • 更新文档内容

  • 保存处理结果


编辑文件

功能说明

用于精确替换文件中的文本内容,类似查找和替换功能。

执行逻辑

  • 读取目标文件并定位 原文本 匹配项。
  • 按配置执行首个替换或全量替换。
  • 将替换后的内容写回文件。
  • 返回替换结果(是否命中、替换次数)。

主要功能

  • 精确匹配并替换文本片段

  • 支持替换第一个匹配或全部匹配

  • 仅支持文本类型文件

  • 替换内容必须与原文完全一致

设置选项

  • 文件路径: 要编辑的文件路径(支持 Unix 或 Windows 格式)

  • 原文本: 要被替换的原始文本,必须精确匹配

  • 新文本: 用于替换的新文本内容

  • 全部替换: 是否替换所有匹配项,默认只替换第一个

使用场景

  • 修改代码中的变量名

  • 更新配置文件中的参数值

  • 批量替换文本内容

  • 修正文档中的错误

  • 重构代码片段


执行命令

注意

执行命令工具会获取您本地的命令行权限,请谨慎使用。

功能说明

在用户机器上执行 shell 命令,可以完成各种系统操作和自动化任务。

当命令涉及高风险操作时,系统会暂停执行并向你请求许可。你确认后才会继续执行。

执行逻辑

  • 在用户机器 shell 环境执行命令,并应用超时控制。
  • 采集标准输出、标准错误与退出码。
  • 命中高风险命令时,暂停并等待用户许可后继续。
  • 以结构化结果返回执行状态与输出。

主要功能

  • 执行任意 shell 命令

  • 搜索和定位文件

  • 运行脚本和程序

  • 安装依赖包

  • 执行 git 操作

设置选项

  • 命令: 要执行的 shell 命令

  • 超时时间: 命令执行的最长等待时间(秒),默认 120 秒

高级设置

  • 命令执行后会返回标准输出、标准错误和退出码

  • 退出码为 0 表示执行成功

使用场景

  • 搜索文件:find . -name "*.py"

  • 查看文件列表:ls -la

  • 安装依赖:pip install requests

  • Git 操作:git statusgit commit -m "message"

  • 运行测试:pytest tests/

  • 查看系统信息:uname -adf -h


使用提示

操作流程

  1. 选择合适的工具

  2. 填写必要的设置选项

  3. 确认操作参数

  4. 执行自动化操作

注意事项

  • 确保网页元素已加载完成

  • 设置合理的等待时间

  • 重要信息及时记录

  • 操作失败时系统会自动尝试修复