跳到主要内容

进阶:能力的组合

🎯 我们先来看一个“工程级需求”

需求:
每周自动从政府网站中,抓取最近 7 天发布的所有公告,并提取结构化数据

以「长春市商务局」网站为例:

我们以长春市商务局的网站为例:

这个任务的特点是:

  • ✅ 每周重复执行

  • ✅ 每次数量不固定

  • ✅ 每条都要点进去,分析后退出。

  • ✅ 页面结构复杂

  • ❌ 非常不适合“临时探索一次就完事”

方案一:直接用探索 + 定时

你当然可以:

  • 新建一个计划

  • 用探索能力写一个超长提示词

  • 让模型每周自动跑

(你现在的示例 Prompt 很好,这里略)

⚠️ 但这个方案的问题是:

❌ 长链路任务极度依赖模型稳定性
❌ 一旦页面细节变化,很容易整批失败
❌ 不可调试,不可拆解,不可复用

首先,我们需要进入控制台->计划管理进行新建计划。

使用“探索”能力,配置定时,并提供提示词:

从 http://swj.changchun.gov.cn/sy/tzgg/ 自动抓取【最近7日内】发布的所有政策,并最终输出 JSON 字符串(无额外说明文字)。全过程自动执行,不中断、不等待我确认。

🟥 任务要求:
抓取【最近7日内】的全部政策,不能漏抓、不能重复、不能跳过。
按列表顺序处理页面。
正文若为 PDF,则跳过整条,不计为遗漏。
最终必须输出符合要求的 JSON 字符串。

🟥 执行步骤:
1. 构建列表
打开 http://swj.changchun.gov.cn/sy/tzgg/,收集【最近7日内】的所有政策的:标题、URL、发布时间,列表必须完整。

2. 逐条抓取
对列表每条记录按顺序执行:
- 打开政策页面(若正文为 PDF → 跳过,不抓取内容)
- HTML 正文页面需提取以下字段:
{
"政策页面路径": "",
"标题": "",
"正文内容": "",
"发布单位": "",
"发布时间": "",
"有效期": "",
"摘要": "",
"公开时间": "",
"附件列表": [
{
"附件名称": "",
"附件路径": ""
}
]
}
正文必须完整。
附件名称 + 完整下载路径必须提取。
缺失字段返回空字符串。

3. 页面导航
每条抓取完成后:
- 连续后退两次返回列表页
- 点击下一条(禁止使用“下一篇”按钮)

4. 质量校验
列表数量 = 抓取成功数量 + PDF 跳过数量。
如有遗漏必须自动补抓。

🟥 最终输出:
格式如下:
{
"policies": [],
"summary": {
"搜索结果总数": "X",
"成功抓取总数": "Y",
"PDF跳过数量": "Z",
"数据完整性": "完整"
}
}

保存后,即可以在每周日晚上 10 点自动执行。

方案二:工程化解法:拆能力 + 组合能力

我们先抽象这个任务的流程:

列表页 → 找符合条件的公告 →
对每一条:打开 → 采集 → 关闭 →
全部完成 → 生成汇总

我们把它拆成两个能力:

🧩 能力 A:采集「单条公告」

职责只有一件事:

👉 给我一个公告入口 →
👉 打开 → 抽数据 → 关闭 → 回到列表页

步骤结构:

  1. 新开页面

  2. 点击元素

  3. 生成数据

  4. 关闭标签页

关键设计点:

✅ 把「点击的元素」设为 输入参数

并在「生成数据」步骤中定义好结构:

保存这个能力,作为:可复用的“单页采集器”

由于:

能力 A 是子能力

建议设置:

仅在特定页面生效

好处:

  • 不会乱触发

  • 不会重复新开页面

  • 行为更可控、更安全


🧩 能力 B:调度 + 循环执行能力 A

这个能力负责:

👉 打开列表页
👉 找到所有符合条件的公告
👉 循环调用🧩能力 A
👉 最后生成汇总数据

循环执行能力

bit-Agent 支持把某一步设为:

🔁 循环模式

然后:

👉 让 AI 决定:

  • 要执行多少次

  • 每次参数是什么

  • 什么时候结束

什么是「动态模式」?

这里选择的是:

✅ 参数来源:动态模式

意思是:

当执行到这一步时:
👉 不提前写死参数
👉 由 AI 根据上下文当场决定参数

这里我们设置动态提示为:

自动抓取【最近7天】发布的所有政策


动态模式 vs 抽取为参数

场景用哪个
需要用户提前输入抽取为参数
需要根据页面 / 上下文决定动态模式

保存后,设置定时执行能力 B,即可完成按需获取内容。

🏗 最终你得到的不是:

❌ 一个“每周赌运气的 Agent”

而是:

✅ 一个:

  • 可拆解

  • 可维护

  • 可调试

  • 可长期运行

  • 可复用组件的

自动化数据生产流水线