今天的主线是『agent 正在从跑一次的 demo,长成能干几小时活的工人』——ByteDance 把 DeerFlow 升到 2.0(约 7.5 万星),做成一个能研究、能写代码、能创作、单任务从几分钟干到几小时的『长程 SuperAgent 框架』;学界的 KLong 给出训练方法论,用『轨迹切分 SFT + 渐进式 RL』把一个 106B 的模型在长程任务上训得超过 1T 的 Kimi K2;mem0(约 6 万星)补上 agent 最缺的『持久记忆』,让 agent 不再每次从零开始;Mozilla 的 Tabstack 把『让 agent 可靠地读网页、填表单』做成一个按次计费的 API,省掉自己维护爬虫和浏览器的苦差。HuggingFace 春季开源报告则点出大盘:开源模型还在猛涨,中国模型已占 Hub 下载量的 41%,但近一半模型下载不到 200 次——能力在白菜化、同时极度向头部集中。落到现金流,最稳的不是去训模型,而是把这些零件拼成服务卖给本地生意:自动化代理商先收一笔搭建费(约 $1.5K–5K)、再收每月维护费(约 $900–3K),4–6 个月做到万元级 MRR。把这串起来:当 agent 能稳定干长活、模型能力越来越白菜,普通人的位置是当『把这些零件拼成能解决具体问题的方案、并对结果负责』的集成者和运营者。
今天的信号:agent 开始能干『几小时的长活』,会把零件拼成方案的人最值钱

把今天几条放一起看,方向很一致:2026 年 agent 的竞赛,已经从『能不能生成』转向『能不能可靠地把一件需要几小时的活干完』。ByteDance 把 DeerFlow 升级到 2.0,官方的定位词就是『长程 SuperAgent 框架』——靠沙箱、记忆、工具、技能、子 agent 和消息网关,处理从几分钟到几小时不等的任务;约 7.5 万星说明这套『让 agent 干长活』的工程正在成为主流需求。学界的 KLong 给同一件事补上了方法论:它用 Research-Factory 自动造长程训练数据、用『轨迹切分 SFT』先冷启动、再用『渐进式 RL』分阶段拉长超时,最后让一个 106B 的模型在 PaperBench 上反超 1T 参数的 Kimi K2 思考版,还迁移到了 SWE-bench、MLE-bench。一句话:让小模型学会干长活,靠的是训练方法,不只是堆参数。

而要让 agent 真能跑几小时不翻车,缺的两块底座今天也都有人补:一是记忆,mem0 做的正是 agent 的『通用记忆层』,约 6 万星,让 agent 跨会话记住你的偏好和上下文,不再每次从零开始;二是和真实世界打交道的能力,Mozilla 的 Tabstack 把『让 agent 可靠地抽取网页、生成结构化数据、点击填表』做成一个按次计费的 API(每千次 Markdown 抽取约 $1、自动化操作约 $7.5,还带免费额度),省掉你自己维护爬虫和浏览器集群的苦差,并且把隐私和 robots.txt 尊重做进了默认。把 DeerFlow(长程框架)+ KLong(训练方法)+ mem0(记忆)+ Tabstack(网页执行)拼起来,你能清楚看到一条流水线:agent 正在被一块块补成『敢上生产、能干长活』的工人。

那普通人该站哪?HuggingFace 春季开源报告给了大盘判断:开源模型还在猛涨,中国模型已占 Hub 下载量的 41%,但近一半模型下载不到 200 次、头部 0.01% 的模型吃掉了近一半下载——能力在白菜化,价值却极度向头部集中。结论很清楚:去训一个通用模型,99% 的人赢不了;真正能落到自己口袋的,是把上面这些开源零件拼成一个能解决具体问题的方案,卖给一个肯付钱的具体客户。今天最实在的现金流样本就是自动化代理商:给本地生意搭一套 AI 工作流,先收一笔搭建费(约 $1.5K–5K),再按月收维护费(约 $900–3K),4–6 个月做到万元级 MRR——你卖的不是『AI 功能』,而是『把活干完并对结果负责』。把今天拼成一句话:当 agent 能稳定干长活、模型能力越来越白菜,普通人的护城河不在『拥有能力』,而在『会把能力拼成方案、并为结果兜底』——会当集成者和运营者的人,正在跑赢只会发指令的人。

Type
Track
Source
Repo AI Agent
ht ht ht ht
NEW
#1 bytedance/deer-flow ★ 约7.5万 ▲ +约数千(2025-05 创建,本周随 DeerFlow 2.0 升级在 GitHub 趋势/OSSInsight 回升,仓库每日持续更新)/w
ByteDance 开源的『长程 SuperAgent 框架』,2.0 版把自己定位成一个能研究、能写代码、能创作的通用 agent harness。它的核心不是一个模型,而是一整套让 agent 干长活的工程底座:沙箱(隔离地跑代码和命令)、记忆(跨步骤、跨会话保留上下文)、工具、技能(skill)、子 agent(把大任务拆给多个专职小 agent)以及消息网关(让 agent 通过你常用的渠道汇报和接收指令)。靠这套组合,它能处理不同量级的任务——从几分钟能完成的小事,到需要连续干几小时的复杂研究/工程任务。换句话说,它要解决的不是『生成一段答案』,而是『把一件需要长时间、多步骤、会用到外部工具的活,稳定地从头干到尾』。
DeerFlow 2.0 是今天『agent 从 demo 走向长活工人』这条主线最直白的代表。过去一年大家发现:让 agent 答一个问题很容易,难的是让它连续干几十步、用上工具和代码、中途不跑偏、最后真把活交付掉。DeerFlow 把这件难事工程化——用沙箱保证执行安全、用记忆保证不健忘、用子 agent 把复杂任务分而治之、用消息网关让你随时插手。约 7.5 万星、出自 ByteDance,说明『长程 agent 框架』正在成为基础设施级的刚需。它对个人的价值在于:你不必从零搭一套崩溃恢复、记忆、子 agent 编排的底座,就能在它之上去做自己领域的『能干几小时活』的 agent。它和今天的 KLong(训练方法)、mem0(记忆层)是同一件事的不同切面——大家在合力把 agent 补成能上生产的工人。
Key Points
  • **定位长程 SuperAgent**:官方描述就是能研究、写代码、创作,单任务从几分钟干到几小时——目标不是答一句,而是把多步骤长活干完
  • **自带工程底座**:沙箱执行 + 跨步骤记忆 + 工具/技能 + 子 agent 分工 + 消息网关汇报,省掉你自己造可靠性基础设施
  • **大厂背书、生态活跃**:ByteDance 开源、约 7.5 万星、每日更新,2.0 升级后在趋势榜回升,是『让 agent 干长活』这股潮流的代表项目
💡 对普通人,DeerFlow 2.0 的信号是:agent 的能力边界正在从『答一个问题』推到『干一件需要几小时的活』,而这恰恰是能产生商业价值的那一段。可落地的两层机会:一是学习层——别只把 agent 当聊天框,去读 DeerFlow 这类框架是怎么用沙箱、记忆、子 agent 把长任务拆开干的,这套『把大活拆成可被 agent 稳定执行的小步』的能力,本身就是 AI 时代的核心手艺;二是变现层——你不需要自己造框架,可以在它之上给某个具体场景(如行业调研、批量内容生产、数据整理)搭一个能自动干完的 agent,卖『把活交付掉』而不是『一个工具』。记住今天的主线:当 agent 能干长活,稀缺的不再是会提问,而是会设计任务、会验收结果、会为最终交付负责的人。
Repo Infra
ht ht ht ht
NEW
#2 mem0ai/mem0 ★ 约6万 ▲ +约数千(2023-06 创建,随 agent 记忆需求升温本周在 OSSInsight AI 榜活跃,仓库每日更新)/w
mem0 是给 AI agent 用的『通用记忆层』,解决一个最朴素但最致命的问题:大多数 agent 没有持久记忆,每次对话都从零开始——它记不住你是谁、上次聊到哪、你的偏好和约束是什么。mem0 在 agent 和模型之间加一层记忆中间件:它会从对话和交互里自动抽取、存储、检索『值得记住的事实』(用户偏好、历史决定、关键上下文),并在下次交互时按相关性把这些记忆喂回给模型。它支持接入主流 LLM 和向量库,能跨会话、跨应用地维持一个对用户/任务的持续理解。一句话:它让 agent 从『每次失忆的临时工』变成『记得住事、越用越懂你的助手』。
mem0 命中的是 agent 走向实用化绕不开的一块短板:记忆。一个 agent 要真能帮你长期干活,前提是它记得住你的偏好、项目背景、过往决定——否则你每次都得重新交代一遍,体验和价值都大打折扣。mem0 把『记什么、怎么存、何时取』这件事做成可复用的标准层,约 6 万星说明开发者已普遍把记忆当成 agent 的标配而非加分项。它和今天 DeerFlow 的『长程框架』、KLong 的『长程训练』是一条线上的事——长活 agent 之所以可能,靠的正是记忆、可靠执行、长程训练这些底座被一块块补齐。对个人开发者,它的意义是:你不必自己设计一套记忆抽取和检索系统,就能给自己的 agent 加上『越用越懂你』的能力,这往往是产品留存和差异化的关键。
Key Points
  • **补 agent 最缺的记忆**:自动从交互中抽取并检索用户偏好、历史与上下文,跨会话喂回模型,让 agent 不再每次从零开始
  • **通用中间件**:接在 agent 与 LLM 之间,兼容主流模型和向量库,把『记什么/怎么存/何时取』做成可复用标准层
  • **已成 agent 标配**:约 6 万星、每日更新,与长程框架、长程训练同属『把 agent 补成能干长活的工人』这条主线的关键拼图
💡 对普通人,mem0 点出一个容易被忽视却很值钱的产品认知:在 AI 时代,差异化往往不来自『用了哪个模型』,而来自『你的产品记不记得住用户』。同样接 GPT 或 Claude,一个每次失忆、一个越用越懂你,留存和口碑天差地别。可落地的机会有两层:一是技术层——如果你在做任何带 agent 的产品/工具,给它加一层持久记忆,是性价比极高的体验升级;二是认知层——『记忆』本质是把用户的上下文沉淀成资产,谁掌握并善用用户的长期上下文,谁就更难被替代。把它和今天的主线连起来:能力在白菜化,但『懂你的上下文』无法被白菜化——这正是个人和小团队能守住的护城河之一。
Product Infra
ht ht ht ht
NEW
#3 Tabstack by Mozilla:把『让 agent 可靠读网页、填表单』做成按次计费的 API,省掉自维护爬虫 按用量计费:Markdown 抽取约 $1/千次、结构化 JSON 约 $5/千次、浏览器自动化操作约 $7.5/千次;含每月 5 万额度免费层;提供 MCP server / CLI / Raycast 扩展 / Agent Skill
by Mozilla(开发者部门)
Tabstack 是 Mozilla 推出的『给 AI agent 用的网页执行层』,要解决的是 agent 落地时一个又脏又累的活:可靠地从真实网页里拿数据、并在网页上执行操作。传统做法是自己写爬虫、养一堆浏览器实例,既难维护又容易被反爬打断。Tabstack 把这件事收敛成一个 API、三个端点:/extract 把页面转成干净 Markdown 或结构化 JSON,/generate 在抓取时即时转换内容,/automate 让 agent 点击、滚动、填表单——浏览器、模型、编排都跑在它那边,你只管给 URL、schema、问题或任务。它还能直接从你已有的工具里用:MCP server、CLI、Raycast、Agent Skill。隐私姿态是亮点:请求带专属 user-agent 便于站点识别、尊重针对它的 robots.txt 退出、抓到的内容按临时数据处理且不拿去训练。对个人开发者,意义是:你做带 agent 的产品时,不用再自建爬虫和浏览器基础设施,按次付费即可获得稳定的『网页读写能力』。
Key Points
  • **一个 API 搞定网页读写**:/extract 出 Markdown/JSON、/generate 即时转换、/automate 点击填表,省掉自建爬虫与浏览器集群
  • **嵌进现有工作流**:提供 MCP server / CLI / Raycast / Agent Skill,coding agent 和数据管线可直接调用
  • **Mozilla 背书 + 隐私默认**:专属 user-agent、尊重 robots.txt 退出、内容临时处理不用于训练,按用量计费且有免费额度
💡 对普通人,Tabstack 揭示了一类被严重低估的机会:agent 大潮里真正稳赚的,往往不是又一个聊天产品,而是给所有 agent 卖『铲子和水电』的基础设施——可靠的网页读取、浏览器自动化、数据抽取,是几乎每个 agent 应用都要用到的刚需。你未必能做出一个 Tabstack,但这给了两条可落地思路:一是用它当杠杆——做内容聚合、竞品监控、批量数据整理这类服务时,直接调它的 API,把交付速度和稳定性拉满,自己专注在『给客户解决什么问题』;二是顺着它的思路去找你所在行业里那块『大家都要、又脏又累、没人愿意自己做』的环节,把它做成标准化、按量付费的小服务。记住:当上层应用越来越卷,往下走一层、做大家都依赖的可靠组件,常常是更稳的位置。
Paper AI Agent
ht ht ht ht
NEW
by Yue Liu 等(开源项目 yueliu1999/KLong)
KLong 研究的是 agent 时代最硬的一块骨头:怎么训出一个能稳定干『极长程任务』的 agent——那种要连续几十上百步、用工具、写代码、跑几小时才能完成的活。它的方法分三步:先用一个叫 Research-Factory 的自动化流水线造训练数据(收集研究论文、构建评测打分细则,并从 Claude 4.5 Sonnet 思考版蒸馏出数千条长程轨迹);再用『轨迹切分 SFT』冷启动——保留早期上下文、渐进截断后期、子轨迹之间保持重叠,让模型先学会长程的基本盘;最后用『渐进式 RL』分阶段把超时一档档拉长,逐步逼出更强的长程解题能力。结果很有冲击力:106B 的 KLong 在 PaperBench 上比 1T 参数的 Kimi K2 思考版高出 11.28%,而且这种提升迁移到了 SWE-bench Verified、MLE-bench 等编码基准。换句话说,在『干长活』这件事上,训练方法比单纯堆参数更关键。
给『如何把模型训得能干几小时的长程任务』提供了一套可复现的方法论,并证明小模型靠训练方法能在长程任务上反超大十倍的模型——把『长活能力』从堆参数转向了堆方法。
Key Points
  • **三步训长程**:Research-Factory 自动造数据 → 轨迹切分 SFT 冷启动 → 渐进式 RL 逐档拉长超时,专门针对几小时级长任务
  • **小模型反超大模型**:106B 的 KLong 在 PaperBench 上超过 1T 的 Kimi K2 思考版 11.28%,并迁移到 SWE-bench、MLE-bench
  • **方法>参数**:证明『干长活的能力』可以靠训练方法逼出来,而非只能靠堆规模——给资源有限的团队留了一条路
💡 对普通人,KLong 的启发不在于你要不要去训模型(绝大多数人不会),而在于它印证了一个适用于自己成长的规律:在长任务上赢,靠的是方法和流程,不是蛮力。它训模型干长活的三步——先用好数据打基础、再循序渐进地拉长难度、分阶段验收——几乎就是一套『如何让自己(或团队、或 agent)稳定完成复杂大活』的通用方法论:把大目标拆成有重叠、可衔接的小段,逐步加难度,每段都有明确的验收标准。更现实的一层:当开源社区开始把『长程能力』标准化、白菜化,意味着不久后普通人也能用上能干几小时活的开源 agent——提前练好『怎么给 agent 设计一个长任务、怎么拆解、怎么逐段验收』的能力,等这些 agent 普及时,你就是那个会用、会调度它们的人。
Article LLM/Model
ht ht ht
NEW
by Hugging Face
HuggingFace 的春季开源报告给了 2026 年开源 AI 一张冷静的全景图。规模上,平台已有约 1300 万用户、200 万+ 公开模型、50 万+ 公开数据集。格局上有两个值得普通人记住的事实:一是地缘洗牌——中国模型(Qwen、DeepSeek 等)已占 Hub 下载量的 41%,百度从零到一年发布 100+ 模型,字节、腾讯各把发布量翻了八九倍,逼得西方厂商加紧推 GPT-OSS、OLMo、Gemma 这类可商用开源替代;二是极度的幂律集中——约一半模型总下载不到 200 次,而下载量前 0.01%(约前 200 个)的模型吃掉了全站 49.6% 的下载。同时机器人成了增长最快的子社区(数据集从 2024 年的 1145 个涨到 2025 年的 26991 个),AI for science 也在快速壮大。一句话:开源能力在猛涨、在白菜化,但注意力和使用却极度向极少数头部集中。
Key Points
  • **中国模型占下载 41%**:Qwen/DeepSeek 等领跑,百度一年发 100+ 模型、字节腾讯翻八九倍,开源模型供给端格局已变
  • **极度幂律集中**:近一半模型下载不到 200 次,前 0.01% 的模型却占了全站近一半下载——能力过剩、注意力稀缺
  • **新热点在垂直**:机器人成增长最快社区(数据集一年涨 23 倍),AI for science 快速壮大,垂直/专用生态正在分化成形
💡 对普通人,这份报告把『该把精力放哪』说得很透。第一,别去卷做通用模型:供给已经爆炸、且近一半模型几乎没人用,赢家通吃到前 0.01% 才有声量——这条路对个人几乎不可能。第二,开源模型白菜化对你是大利好:高质量能力随便取用,意味着你的成本和门槛被打到极低,竞争优势必须建在『模型之上』——也就是你解决的具体问题、你掌握的领域数据和上下文、你的分发渠道。第三,跟着新热点的方向走:机器人、AI for science 这类垂直社区正在高速成形,越早进入一个还在分化、尚未被头部垄断的细分领域,个人越有机会占住位置。一句话:在能力过剩、注意力稀缺的时代,普通人的杠杆不在『造能力』,而在『把白菜价的能力,对准一个还没被占满的具体需求』。
Article 小微现金流
ht ht ht ht
NEW
by AI 自动化代理商定价实践(arsum.com)+ r/n8n 案例
这条是今天最实在的现金流路子,且和上面几条技术线直接接得上:当 agent/自动化工具越来越成熟,本地生意(诊所、门店、地产、律所、装修队等)想用却没人会搭,于是『帮他们把活自动化』本身就是一门能立刻收钱的生意。打法很清晰:用 n8n / Make 这类自动化平台,给客户搭一套具体工作流(漏接线索自动跟进、预约提醒、数据汇总报表、内部流程通知等),然后收两次钱——先收一笔搭建费(行业普遍约 $1.5K–5K,复杂项目更高),再按月收维护/监控/优化的留存费(约 $900–3K/月)。公开案例显示,有人 4 个月做到约 $25K MRR;更常见的现实节奏是 1–2 个月落地 2–3 个客户($3K–8K MRR)、3–4 个月加到 $8K–15K、5–6 个月系统化到万元级 MRR。它的本质是:你不卖『AI 功能』,你卖『把一件具体的活自动干完并对结果负责』——而这恰恰是今天 DeerFlow、mem0、Tabstack 这些零件让一个人也能交付的东西。
Key Points
  • **两段收费、稳现金流**:搭建费约 $1.5K–5K 先回血,月维护费约 $900–3K 形成 MRR;卖的是『把活干完』而非工具
  • **真实节奏可参考**:1–2 月落 2–3 客户($3K–8K MRR)→3–4 月 $8K–15K→5–6 月系统化到万元级 MRR,有案例 4 个月做到约 $25K MRR
  • **门槛在拆解不在写代码**:用 n8n/Make 等低代码平台搭具体场景(漏接线索跟进、预约提醒、报表),难点是听懂客户流程、对结果负责
💡 对想挣现金流的普通人,这是把今天所有技术信号变现的最短路径:你不需要会训模型、也不需要造框架,只需要会用 n8n/Make 这类工具,把本地一门生意里『又烦又重复』的某个环节自动掉。它对个人特别友好的地方在于:一是现金流健康——搭建费先覆盖成本、月费滚成 MRR,不用先烧钱;二是壁垒来自关系和领域理解而非技术,你越懂某个行业(比如你本来就熟的那行)的真实流程,越能搭出客户真正离不开的工作流,也越难被替代;三是可复制——给一家牙科诊所搭好的『漏接电话自动回拨+预约提醒』,几乎能原样卖给同城其它诊所。最务实的第一步:从你身边一个具体行业、一个具体痛点入手,先免费/低价给一家搭通跑出效果,拿着这个真实案例去复制收费。
My Take 评分(5=最优):最快成交 4 / 最低成本 5 / 可复制 4 / 风险安全度 4。卖『把本地生意的活自动干完』的服务型现金流,搭建费先回血、月费滚 MRR,最适合懂某行业流程的个人切入。