2026-06-27
把今天几条放一起看,方向很一致:2026 年 agent 的竞赛,已经从『能不能生成』转向『能不能可靠地把一件需要几小时的活干完』。ByteDance 把 DeerFlow 升级到 2.0,官方的定位词就是『长程 SuperAgent 框架』——靠沙箱、记忆、工具、技能、子 agent 和消息网关,处理从几分钟到几小时不等的任务;约 7.5 万星说明这套『让 agent 干长活』的工程正在成为主流需求。学界的 KLong 给同一件事补上了方法论:它用 Research-Factory 自动造长程训练数据、用『轨迹切分 SFT』先冷启动、再用『渐进式 RL』分阶段拉长超时,最后让一个 106B 的模型在 PaperBench 上反超 1T 参数的 Kimi K2 思考版,还迁移到了 SWE-bench、MLE-bench。一句话:让小模型学会干长活,靠的是训练方法,不只是堆参数。
而要让 agent 真能跑几小时不翻车,缺的两块底座今天也都有人补:一是记忆,mem0 做的正是 agent 的『通用记忆层』,约 6 万星,让 agent 跨会话记住你的偏好和上下文,不再每次从零开始;二是和真实世界打交道的能力,Mozilla 的 Tabstack 把『让 agent 可靠地抽取网页、生成结构化数据、点击填表』做成一个按次计费的 API(每千次 Markdown 抽取约 $1、自动化操作约 $7.5,还带免费额度),省掉你自己维护爬虫和浏览器集群的苦差,并且把隐私和 robots.txt 尊重做进了默认。把 DeerFlow(长程框架)+ KLong(训练方法)+ mem0(记忆)+ Tabstack(网页执行)拼起来,你能清楚看到一条流水线:agent 正在被一块块补成『敢上生产、能干长活』的工人。
那普通人该站哪?HuggingFace 春季开源报告给了大盘判断:开源模型还在猛涨,中国模型已占 Hub 下载量的 41%,但近一半模型下载不到 200 次、头部 0.01% 的模型吃掉了近一半下载——能力在白菜化,价值却极度向头部集中。结论很清楚:去训一个通用模型,99% 的人赢不了;真正能落到自己口袋的,是把上面这些开源零件拼成一个能解决具体问题的方案,卖给一个肯付钱的具体客户。今天最实在的现金流样本就是自动化代理商:给本地生意搭一套 AI 工作流,先收一笔搭建费(约 $1.5K–5K),再按月收维护费(约 $900–3K),4–6 个月做到万元级 MRR——你卖的不是『AI 功能』,而是『把活干完并对结果负责』。把今天拼成一句话:当 agent 能稳定干长活、模型能力越来越白菜,普通人的护城河不在『拥有能力』,而在『会把能力拼成方案、并为结果兜底』——会当集成者和运营者的人,正在跑赢只会发指令的人。
Key Points
- **定位长程 SuperAgent**:官方描述就是能研究、写代码、创作,单任务从几分钟干到几小时——目标不是答一句,而是把多步骤长活干完
- **自带工程底座**:沙箱执行 + 跨步骤记忆 + 工具/技能 + 子 agent 分工 + 消息网关汇报,省掉你自己造可靠性基础设施
- **大厂背书、生态活跃**:ByteDance 开源、约 7.5 万星、每日更新,2.0 升级后在趋势榜回升,是『让 agent 干长活』这股潮流的代表项目
Key Points
- **补 agent 最缺的记忆**:自动从交互中抽取并检索用户偏好、历史与上下文,跨会话喂回模型,让 agent 不再每次从零开始
- **通用中间件**:接在 agent 与 LLM 之间,兼容主流模型和向量库,把『记什么/怎么存/何时取』做成可复用标准层
- **已成 agent 标配**:约 6 万星、每日更新,与长程框架、长程训练同属『把 agent 补成能干长活的工人』这条主线的关键拼图
Key Points
- **一个 API 搞定网页读写**:/extract 出 Markdown/JSON、/generate 即时转换、/automate 点击填表,省掉自建爬虫与浏览器集群
- **嵌进现有工作流**:提供 MCP server / CLI / Raycast / Agent Skill,coding agent 和数据管线可直接调用
- **Mozilla 背书 + 隐私默认**:专属 user-agent、尊重 robots.txt 退出、内容临时处理不用于训练,按用量计费且有免费额度
Key Points
- **三步训长程**:Research-Factory 自动造数据 → 轨迹切分 SFT 冷启动 → 渐进式 RL 逐档拉长超时,专门针对几小时级长任务
- **小模型反超大模型**:106B 的 KLong 在 PaperBench 上超过 1T 的 Kimi K2 思考版 11.28%,并迁移到 SWE-bench、MLE-bench
- **方法>参数**:证明『干长活的能力』可以靠训练方法逼出来,而非只能靠堆规模——给资源有限的团队留了一条路
Key Points
- **中国模型占下载 41%**:Qwen/DeepSeek 等领跑,百度一年发 100+ 模型、字节腾讯翻八九倍,开源模型供给端格局已变
- **极度幂律集中**:近一半模型下载不到 200 次,前 0.01% 的模型却占了全站近一半下载——能力过剩、注意力稀缺
- **新热点在垂直**:机器人成增长最快社区(数据集一年涨 23 倍),AI for science 快速壮大,垂直/专用生态正在分化成形
Key Points
- **两段收费、稳现金流**:搭建费约 $1.5K–5K 先回血,月维护费约 $900–3K 形成 MRR;卖的是『把活干完』而非工具
- **真实节奏可参考**:1–2 月落 2–3 客户($3K–8K MRR)→3–4 月 $8K–15K→5–6 月系统化到万元级 MRR,有案例 4 个月做到约 $25K MRR
- **门槛在拆解不在写代码**:用 n8n/Make 等低代码平台搭具体场景(漏接线索跟进、预约提醒、报表),难点是听懂客户流程、对结果负责