今天的主线是『Skills/Agent 标准化之后,价值开始往两端走:一端是搜索与行动越来越强,一端是安全与编排越来越重要』。GitHub 当日 #1 的 mvanhorn/last30days-skill(45K 星)做了一个『搜真实的人,不搜编辑部』的 agent 搜索技能——并行扒 Reddit/X/YouTube/HN/Polymarket,按真人点赞、真金下注打分再让 agent 综述;NVIDIA 罕见地下场做 SkillSpector(8.6K 星,本周 +5K),直接给『agent skills』当安全扫描器,并甩出一组扎心数据:26.1% 的 skill 含漏洞、5.2% 疑似恶意;Astro 团队推出 Flue(6K 星),不做又一个 SDK,而是做带沙箱的『agent harness 运行层』;微软的 Fara-7B(计算机操作智能体小模型,arXiv 2511.19663)证明 7B 量级也能把『让 agent 替你点网页、办事』做到高性价比;Andrew Ng 团队的 aisuite(14.8K 星)则把『一行代码切换多家大模型』做成标准件。把这几条连起来看:当人人都在装 skill、跑 agent,真正升值的不再是『又一个技能』,而是『会甄别能信哪个 skill、会用安全的运行层、会让小而省的模型替你干活』这套元能力——这也正是普通人能立刻上手积累的方向。
今天的信号:Skills 普及之后,杠杆从『装哪个技能』移到『信哪个技能 + 在哪个运行层跑 + 用多省的模型干活』

过去一周这块榜单的关键词是『Skills 正在变成标准件』——把资深经验沉淀成可加载、可共享的技能。今天的几条把这件事推进到了下一幕:标准件多了之后,问题不再是『有没有技能可用』,而是『这堆技能你敢信吗、在哪儿跑才安全、用多大的模型最划算』。NVIDIA 罕见地亲自下场做 SkillSpector,给 agent skills 当安全扫描器,并摆出一组让人后背发凉的数据:被它扫过的 skill 里 26.1% 含漏洞、5.2% 疑似恶意——提示注入、数据外泄、供应链投毒一应俱全。也就是说,你随手 `/plugin install` 的那个技能,本质上和 npm 装一个陌生包没区别,是个真实的攻击面。与此同时,Astro 团队的 Flue 明确说『不做又一个 SDK』,而是做一个带沙箱的 agent 运行层(harness)——让任何模型都能在隔离环境里安全地长期干活。这两条放一起指向同一个判断:当技能本身商品化、且开始变得不可全信,价值就上移到了『甄别层』和『运行层』。

另一端,行动力和性价比也在快速变强。GitHub 当日 #1 的 last30days 把『搜索』重新定义了一遍:它不搜被编辑部排过序的网页,而是并行扒 Reddit 点赞、X 点赞、YouTube 观看、Polymarket 上押了真金白银的赔率,让 agent 综合成一份『真实的人在关注什么』的简报——这是 Google 和单一 AI 都给不了的视角。微软的 Fara-7B 则证明,『让 agent 替你点网页、订东西、办流程』这种计算机操作能力,7B 量级的小模型也能做到高准确率且成本低一个数量级;Andrew Ng 的 aisuite 把『一行代码在多家大模型之间切换』做成标准。合起来看,2026 年中的现实是:能干活的 agent 越来越便宜、越来越触手可及,但它们装的技能越来越需要被审视。

对个人,今天有三条很具体的动作。第一,把 agent skill 当依赖管:别看到 #1 trending 就无脑装,先用 SkillSpector 这类工具扫一遍,尤其是会读你文件、连你账号的技能——『会甄别能信哪个工具』正在成为一项实打实的安全技能,围绕『帮人/帮团队审 AI 工具与 skill』本身就是一门新生意。第二,把注意力从『再学一个技能』抬到『运行层与编排』:会用带沙箱的 harness(如 Flue)让 agent 安全地长期跑、会用 aisuite 这种统一层按任务切模型,这些元能力不会随某个具体工具过气而贬值。第三,趁早动手做点真东西:用 Fara-7B 这类小而省的计算机操作模型 + last30days 这类真实信号搜索,普通人完全可以低成本搭出『自动盯某个垂直领域风向、自动跑重复网页流程』的小工具——能力在变便宜,先用起来的人才能积累出别人拷不走的手感。

Type
Track
Source
Repo AI Agent
ht ht ht
🔥 3d
#1 mvanhorn/last30days-skill ★ 45K ▲ +约4.5K(本周高居 GitHub Trending 当日 #1,Trendshift 在榜)/w
一个可被 Claude Code、Codex、Cursor、Gemini CLI 等 50+ agent 直接加载的 Agent Skill(/last30days)。它的定位是『一个由 AI agent 主导、用真人点赞和真金下注打分的搜索引擎——而不是由编辑部排序』:一条命令就能并行抓取 Reddit、X、YouTube、TikTok、Hacker News、Polymarket 和网页,按真人互动与真实下注权重打分,再让一个 agent 评审把结果综述成一份简报。零配置即可跑 Reddit/HN/Polymarket/GitHub,约 4.5 万星,是本周 GitHub 当日热度第一的项目。
last30days 抓的是一个被低估的痛点:你想知道『过去 30 天某件事真实的风向』时,Google 给你的是被 SEO 和编辑排过序的网页,单个 AI 也只接得到自己那一亩三分地(ChatGPT 有 Reddit 没 X,Gemini 有 YouTube 没 Reddit,Claude 几乎都没有原生接入)。它的解法是把『真实的人在用注意力和钱投票』的地方——Reddit 点赞、X 点赞、YouTube 观看、TikTok 互动、Polymarket 上押了真钱的赔率——全部并行扒下来,按真人互动度打分,再让 agent 综合成一份有出处的简报。它能在一周内冲到当日 #1,说明大家越来越不信『被算法和编辑排过序的信息』,转而想要『真人此刻在关注什么』的原始信号。它也顺势成为 Agent Skills 生态成熟的又一个标志:一个高价值能力以『可一键安装、跨 50+ host 通用的 skill』形态分发。
Key Points
  • **搜真人不搜编辑部**:并行抓 Reddit/X/YouTube/TikTok/HN/Polymarket,按真人点赞与真金下注打分,再让 agent 综述——给出单一 AI 拿不到的全网真实信号
  • **当日 Trending #1、约 4.5 万星**:一周内登顶 GitHub 当日榜,说明『要真人此刻在关注什么、而非被算法排序的网页』是强需求
  • **一键装、跨 50+ host 通用**:Claude Code 走 marketplace 自动更新,或 `npx skills add` 装到 Codex/Cursor/Gemini CLI 等任意 Agent Skills host,零配置即用
💡 对普通人,last30days 给的不只是一个好用的搜索技能,更是一种该立刻借用的『信息源思路』:当你想判断某个赛道、某个产品、某个话题的真实热度时,别只问一个 AI、也别只看搜索结果第一页——去看真人在哪儿用点赞、观看、下注投票。这套『扒真实信号再综述』的方法,你完全可以照着搭一个盯自己垂直领域的小工具:每天自动汇总你关心的那个细分市场里 Reddit/X 上真人讨论最热的几件事,几分钟就能掌握风向,这本身对做内容、选品、找选题的人就是实打实的优势。更进一层,它示范了 Agent Skill 时代一个高价值动作:把一个『别人难以复制的信息获取+综述能力』封装成可一键安装的 skill 来分发——谁能把一个真实痛点做成这样一个能被几十种 agent 直接调用的技能,谁就握住了一个会被持续使用、持续传播的资产。
Repo Infra
ht ht ht
NEW
#2 NVIDIA/SkillSpector ★ 8.7K ▲ +约5K(本周 GitHub/Trendshift 周榜在榜,NVIDIA 出品带动)/w
NVIDIA 开源的『AI agent skill 安全扫描器』。它要回答一个越来越要命的问题:『这个 skill 装了安全吗?』——因为 Claude Code、Codex CLI、Gemini CLI 等加载的 agent skills 几乎是以隐式信任、近乎零审查的方式直接执行的。SkillSpector 能扫 Git 仓库、URL、zip、目录或单文件,内置覆盖 16 大类的 64 种漏洞模式(提示注入、数据外泄、提权、供应链、越权代理、系统提示泄露、记忆投毒、工具滥用、MCP 工具投毒等),做『快速静态分析 + 可选的 LLM 语义评估』两段式检测,给出 0–100 风险分与 SARIF/JSON/Markdown 报告。本周约 +5K 星。
SkillSpector 是对最近一周『Skills 变成标准件』热潮最及时的一记冷水,而且是 NVIDIA 亲自下场泼的。它甩出的数据很扎心:被扫过的 skill 里 26.1% 含漏洞、5.2% 疑似恶意。换句话说,你随手 `/plugin install` 的那个技能,本质上和你 npm 装一个陌生作者的包没区别——它会以你的身份读文件、连账号、执行命令,却几乎没人审。SkillSpector 把成熟的软件供应链安全那一套(静态扫描、taint 跟踪、YARA 签名、查 OSV.dev 实时 CVE)搬到了 agent skills 这个全新的攻击面上,再叠加针对 LLM 特有风险的检测(提示注入、记忆投毒、MCP 工具投毒)。它的出现标志着 agent 生态进入了一个新阶段:从『有没有技能用』转向『这些技能你敢不敢信』——而当一个领域开始需要专门的安全工具,往往说明它已经真正普及、也真正开始出事了。
Key Points
  • **26.1% 有洞、5.2% 疑似恶意**:NVIDIA 给出的扫描数据直指 agent skills 是个被严重低估的攻击面——隐式信任、近乎零审查地执行
  • **64 种漏洞模式 / 16 大类**:覆盖提示注入、数据外泄、提权、供应链、记忆投毒、MCP 工具投毒等,把软件供应链安全那套搬到 agent 世界
  • **两段式 + 实时 CVE**:静态分析快筛 + 可选 LLM 语义评估,并查 OSV.dev 实时漏洞库,输出 0–100 风险分与 SARIF 报告,可直接进 CI
💡 SkillSpector 对普通人有两层意义。第一层是马上能用的安全习惯:别看到某个 skill 上了 trending 就无脑装,尤其是那些会读你本地文件、连你账号、能执行命令的技能——先扫一遍再说,把 agent skill 当成『来路不明的依赖包』来管,是 2026 年用 AI 必备的自我保护。第二层是机会:当一个新领域开始需要专门的安全工具,说明围绕它的『信任服务』正在变成生意。会读懂这些风险、能帮个人和小团队审查『我们到底装了哪些 AI 工具/skill、哪些有风险』的人,正卡在一个稀缺位置上——这既可以是给中小企业做的『AI 工具安全体检』服务,也可以是把 SkillSpector 这类工具接进团队 CI 的咨询活儿。AI 普及得越快,『帮人安全地用 AI』这件事就越值钱,而它对技术门槛的要求,远比训练模型低得多。
Product DevTools
ht ht ht
NEW
#3 Flue(withastro/flue)— Astro 团队推出的 Agent Harness 框架 开源免费(MIT 生态,TypeScript;可本地 CLI 运行或部署到自选托管 runtime)
by Astro 团队(withastro,知名前端框架 Astro 的开发团队)
Flue 是知名前端框架 Astro 背后团队推出的新项目,口号很直接:『不做又一个 SDK』,而是做一个可编程的 TypeScript『agent harness(运行层)』。它的判断是:第一代 agent 靠裸调 LLM API,只能做简单聊天;像 Claude Code、Codex 这样真正自主的 agent 之所以行,是因为有一整套『运行环境』——会话记忆、工具、技能(SKILL.md)、指令,以及一个能安全执行动作的沙箱。Flue 把这一整套打包成框架:你用 TypeScript 定义一个 agent,挂上工具和 skills,指定模型(如 anthropic/claude-sonnet-4-6),选一个本地/远程/虚拟的沙箱,就能让它在隔离环境里自主地端到端干活(比如『复现 bug→定位根因→验证→尝试修复』),还能直接以 HTTP 服务暴露出去。它和今天 SkillSpector 是一体两面:当技能不可全信,『在哪个运行层、哪个沙箱里跑』就成了关键。
Key Points
  • **运行层而非 SDK**:把会话、工具、skills、指令、文件系统访问和安全沙箱打包成 harness,让任何模型都能获得自主干活所需的完整环境
  • **Astro 团队出品 + 原生沙箱**:知名前端团队背书,内置本地/远程/虚拟容器沙箱,让 agent『安全地采取行动』成为一等能力——正好接住 skill 安全焦虑
  • **TypeScript 可编程 + 一键暴露 HTTP**:用熟悉的 TS 定义 agent、组合工具与 skills、指定模型,可本地 CLI 跑或部署到自选 runtime
💡 Flue 对个人的启发是:当『写 agent』从『拼命调 API』变成『在一个成熟 harness 里组合工具和技能』,门槛其实降低了、但杠杆点变了——值钱的不再是会调 API,而是会设计『给 agent 什么工具、什么技能、在什么沙箱里、用哪个模型』这套编排。对前端/全栈背景的人尤其友好:你已经会 TypeScript,就能用 Flue 把日常重复的工作(盯仓库、跑 triage、自动化某个网页流程)做成一个能 7×24 自主跑的 agent,而且因为有沙箱,敢让它真正去执行动作。更值得记住的是它和 SkillSpector 合起来的信号:2026 年 agent 的竞争正从『模型多强、技能多花』转向『运行层多稳、多安全』。早点把『harness + 沙箱 + 编排』这套能力练起来,比追逐又一个新模型更能积累出不会过时的本事。
Paper LLM/Model
ht ht ht
NEW
by Microsoft Research 团队(模型与数据集开源在 huggingface.co/microsoft/Fara-7b,本周随仓库更新重新登上 GitHub Trending)
Fara-7B 是微软研究院做的『计算机操作智能体(Computer Use Agent, CUA)』小模型:目标是让 agent 像人一样看屏幕、点按钮、填表单、跨网页完成多步任务(订票、查信息、走流程),而不是只会聊天。它的关键贡献是『高效』二字——在自家的 WebTailBench(覆盖 609 个真实长尾网页任务)等基准上,7B 量级就能把准确率做到接近甚至追上体量大得多的方案,但推理成本低一个数量级。配套还开源了 WebTailBench、CUAVerifierBench(评估『给 agent 打分的裁判』的人工标注基准)等数据集,并在持续迭代(如 Fara1.5 harness)。本周它随仓库更新重新登上 GitHub Trending(约 5.9K 星),说明社区对『小而省、可本地化的行动型 agent 模型』有真实需求——大家不只想要会说话的模型,更想要替自己动手干活、又不烧钱的模型。
用一个仅 7B 的小模型证明『让 agent 替你操作电脑/浏览器办事』这件事可以做到高准确率且成本低一个数量级——把原本属于大模型的『计算机操作智能体(CUA)』能力,拉到普通人也能本地跑、用得起的量级。
Key Points
  • **7B 也能操作电脑**:把『看屏幕、点按钮、跨网页办多步事』的 CUA 能力压到 7B 量级,准确率与性价比的曲线显著优于大体量方案
  • **真实长尾基准 + 配套裁判基准**:开源 WebTailBench(609 真实网页任务)与 CUAVerifierBench(评估 agent 轨迹裁判),把『能不能真办成事』做成可量化评测
  • **开源可本地化、微软出品**:模型与数据集都在 HuggingFace 开放,成本低一个数量级,让个人也能跑得起『替我动手』的 agent
💡 Fara-7B 对普通人最实在的信号是:『让 AI 替我动手操作电脑/浏览器』正在从大厂演示,变成你本地也跑得起、用得起的能力。过去做一个自动化网页流程的 agent,要么靠脆弱的 RPA 脚本、要么烧大模型的钱;现在一个 7B 小模型就能把『跨网页办多步事』做到能用且便宜——这意味着普通人可以低成本搭建『自动帮我每天跑某个重复网页流程、填某些表单、查某些信息』的小工具,把自己从机械劳动里解放出来。更值得学的是它强调的『高效』思路:在 AI 时代,能用更小、更省的模型把一件具体事办成,往往比追最大的模型更有价值——尤其当你要把 agent 长期、批量地跑起来时,成本就是生死线。对想做产品的人,这也指向一个机会:围绕某个垂直场景(订位、对账、信息采集)把小模型 + 自动化操作打磨成一个稳定能交付的工具,门槛和成本都比想象中低。
Repo DevTools
ht ht ht
NEW
#5 andrewyng/aisuite ★ 14.8K ▲ +约800(本周 GitHub Trending 在榜,Andrew Ng 出品长期受关注)/w
由 Andrew Ng(吴恩达)团队维护的『统一多家大模型供应商的简单接口』。它让你用一套近乎统一、类 OpenAI 风格的 API,去调用 OpenAI、Anthropic、Google、Mistral 等多家供应商的模型——很多时候只需改一个字符串(如把模型从 'openai:gpt-...' 换成 'anthropic:claude-...')就能切换底层模型,而不用为每家 SDK 各写一套适配。本周在 GitHub Trending 在榜,约 1.48 万星。
aisuite 解决的是一个所有用多家大模型的人都会遇到的琐碎痛点:每家供应商的 SDK、参数、返回格式都不一样,想对比效果或防止被单一供应商绑死,就得写一堆适配代码。Andrew Ng 团队把它抽象成一个统一层:一套接口、一行切换模型,让『按任务/成本/效果选最合适的模型』从工程负担变成顺手的事。它和今天的 Flue(运行层)一脉相承——都是在『模型与工具爆炸式增多』之后,去做那一层让你不被任何单一供应商锁死、能自由编排的基础设施。在大模型价格和能力快速变化、新模型层出不穷的 2026 年,这种『统一切换层』的实用价值只增不减:今天哪家便宜好用就用哪家,明天换了也几乎零成本。出自吴恩达团队这一点,也让它在教学与上手友好度上格外有号召力。
Key Points
  • **一行切换多家模型**:用一套类 OpenAI 的统一接口调用 OpenAI/Anthropic/Google/Mistral 等,常常只改一个模型字符串即可切换,省掉为每家 SDK 写适配
  • **吴恩达团队出品、约 1.48 万星**:Andrew Ng 背书,上手友好、文档清晰,是『多模型编排』入门的事实参考之一
  • **抗供应商锁定**:在模型价格与能力快速变化的当下,统一层让你按成本/效果自由选模型、随时迁移,几乎零切换成本
💡 aisuite 对普通人的启发,是一个正在变得很重要的习惯:别把自己绑死在某一家大模型上。模型的价格、速度、强项每个月都在变,今天最划算的,下个月可能就被超越;用一个统一层把『选哪家模型』变成一行可随时调整的配置,你才能始终用上当下性价比最高的那个,也不会因为某家涨价或下线而被动。对想做 AI 产品或副业的人,这一点直接关系到成本结构:很多 AI 小工具的毛利就取决于你能不能灵活地把任务路由到最便宜够用的模型上。更广义地说,它体现了 2026 年一个反复出现的主题——当底层(模型)快速商品化、互相替代时,价值就上移到『编排与切换层』;练就『按任务选模型、随时迁移』的判断,本身就是一项不会过时的实用技能。