2026-06-21
过去一周这块榜单的关键词是『Skills 正在变成标准件』——把资深经验沉淀成可加载、可共享的技能。今天的几条把这件事推进到了下一幕:标准件多了之后,问题不再是『有没有技能可用』,而是『这堆技能你敢信吗、在哪儿跑才安全、用多大的模型最划算』。NVIDIA 罕见地亲自下场做 SkillSpector,给 agent skills 当安全扫描器,并摆出一组让人后背发凉的数据:被它扫过的 skill 里 26.1% 含漏洞、5.2% 疑似恶意——提示注入、数据外泄、供应链投毒一应俱全。也就是说,你随手 `/plugin install` 的那个技能,本质上和 npm 装一个陌生包没区别,是个真实的攻击面。与此同时,Astro 团队的 Flue 明确说『不做又一个 SDK』,而是做一个带沙箱的 agent 运行层(harness)——让任何模型都能在隔离环境里安全地长期干活。这两条放一起指向同一个判断:当技能本身商品化、且开始变得不可全信,价值就上移到了『甄别层』和『运行层』。
另一端,行动力和性价比也在快速变强。GitHub 当日 #1 的 last30days 把『搜索』重新定义了一遍:它不搜被编辑部排过序的网页,而是并行扒 Reddit 点赞、X 点赞、YouTube 观看、Polymarket 上押了真金白银的赔率,让 agent 综合成一份『真实的人在关注什么』的简报——这是 Google 和单一 AI 都给不了的视角。微软的 Fara-7B 则证明,『让 agent 替你点网页、订东西、办流程』这种计算机操作能力,7B 量级的小模型也能做到高准确率且成本低一个数量级;Andrew Ng 的 aisuite 把『一行代码在多家大模型之间切换』做成标准。合起来看,2026 年中的现实是:能干活的 agent 越来越便宜、越来越触手可及,但它们装的技能越来越需要被审视。
对个人,今天有三条很具体的动作。第一,把 agent skill 当依赖管:别看到 #1 trending 就无脑装,先用 SkillSpector 这类工具扫一遍,尤其是会读你文件、连你账号的技能——『会甄别能信哪个工具』正在成为一项实打实的安全技能,围绕『帮人/帮团队审 AI 工具与 skill』本身就是一门新生意。第二,把注意力从『再学一个技能』抬到『运行层与编排』:会用带沙箱的 harness(如 Flue)让 agent 安全地长期跑、会用 aisuite 这种统一层按任务切模型,这些元能力不会随某个具体工具过气而贬值。第三,趁早动手做点真东西:用 Fara-7B 这类小而省的计算机操作模型 + last30days 这类真实信号搜索,普通人完全可以低成本搭出『自动盯某个垂直领域风向、自动跑重复网页流程』的小工具——能力在变便宜,先用起来的人才能积累出别人拷不走的手感。
Key Points
- **搜真人不搜编辑部**:并行抓 Reddit/X/YouTube/TikTok/HN/Polymarket,按真人点赞与真金下注打分,再让 agent 综述——给出单一 AI 拿不到的全网真实信号
- **当日 Trending #1、约 4.5 万星**:一周内登顶 GitHub 当日榜,说明『要真人此刻在关注什么、而非被算法排序的网页』是强需求
- **一键装、跨 50+ host 通用**:Claude Code 走 marketplace 自动更新,或 `npx skills add` 装到 Codex/Cursor/Gemini CLI 等任意 Agent Skills host,零配置即用
Key Points
- **26.1% 有洞、5.2% 疑似恶意**:NVIDIA 给出的扫描数据直指 agent skills 是个被严重低估的攻击面——隐式信任、近乎零审查地执行
- **64 种漏洞模式 / 16 大类**:覆盖提示注入、数据外泄、提权、供应链、记忆投毒、MCP 工具投毒等,把软件供应链安全那套搬到 agent 世界
- **两段式 + 实时 CVE**:静态分析快筛 + 可选 LLM 语义评估,并查 OSV.dev 实时漏洞库,输出 0–100 风险分与 SARIF 报告,可直接进 CI
Key Points
- **运行层而非 SDK**:把会话、工具、skills、指令、文件系统访问和安全沙箱打包成 harness,让任何模型都能获得自主干活所需的完整环境
- **Astro 团队出品 + 原生沙箱**:知名前端团队背书,内置本地/远程/虚拟容器沙箱,让 agent『安全地采取行动』成为一等能力——正好接住 skill 安全焦虑
- **TypeScript 可编程 + 一键暴露 HTTP**:用熟悉的 TS 定义 agent、组合工具与 skills、指定模型,可本地 CLI 跑或部署到自选 runtime
Key Points
- **7B 也能操作电脑**:把『看屏幕、点按钮、跨网页办多步事』的 CUA 能力压到 7B 量级,准确率与性价比的曲线显著优于大体量方案
- **真实长尾基准 + 配套裁判基准**:开源 WebTailBench(609 真实网页任务)与 CUAVerifierBench(评估 agent 轨迹裁判),把『能不能真办成事』做成可量化评测
- **开源可本地化、微软出品**:模型与数据集都在 HuggingFace 开放,成本低一个数量级,让个人也能跑得起『替我动手』的 agent
Key Points
- **一行切换多家模型**:用一套类 OpenAI 的统一接口调用 OpenAI/Anthropic/Google/Mistral 等,常常只改一个模型字符串即可切换,省掉为每家 SDK 写适配
- **吴恩达团队出品、约 1.48 万星**:Andrew Ng 背书,上手友好、文档清晰,是『多模型编排』入门的事实参考之一
- **抗供应商锁定**:在模型价格与能力快速变化的当下,统一层让你按成本/效果自由选模型、随时迁移,几乎零切换成本