
Semble — 为 AI Agent 量身打造的高效代码搜索工具
相比 grep+read 需要 100k token 才能达到 85% 召回率,Semble 只需 2k token 就能做到 94% 召回率,而且完全本地运行。
原文来源:GitHub - MinishLab/semble — Semble 是一个专为 AI 编码 Agent 设计的代码搜索工具,使用语义搜索代替传统 grep,平均节省 98% 的 token 消耗。
一个让 Agent 更聪明的搜索工具
如果你用过 AI 编码 Agent(如 Claude Code、Cursor 的 Agent 模式),你一定遇到过这个问题:Agent 需要理解你的代码库才能完成任务,但全量读取代码的 token 成本高得离谱。
传统的方案是 grep + read:先用 grep 搜索关键词,再读取匹配文件。这种方式有两个问题:
- 召回率低 —— grep 只能做字符串匹配,搜不到语义相近但词面不同的内容
- token 消耗大 —— 读取匹配文件的全文往往需要大量 token
Semble 就是为了解决这个问题而生的。
惊人的性能数据
根据开发者的基准测试:
| 方案 | Token 消耗 | 召回率 |
|---|---|---|
| grep+read(全文) | 100k tokens | 85% |
| Semble | 2k tokens | 94% |
Semble 平均使用 98% 更少的 token,同时召回率从 85% 提升到了 94%。
在性能方面,索引一个仓库只需要约 250ms,回答查询只需要 1.5ms,而且这一切都在 CPU 上完成——不需要 GPU。
工作原理
Semble 的核心思路是语义代码搜索。它不像 grep 那样逐行匹配字符串,而是理解代码的语义——知道「创建用户」和「注册新账户」是同一个意思。
具体来说,它:
- 为代码库构建一个轻量级语义索引(250ms 完成)
- 支持自然语言查询,比如「找到用户登录的实现」
- 返回最相关的结果片段,而不是整个文件
- 完全在本地运行,代码不需要离开你的机器
作为 MCP Server 使用
Semble 最大的亮点是它可以作为一个 MCP(Model Context Protocol)Server 运行,这意味着任何支持 MCP 的 AI 工具都可以直接使用它。
# 安装
npm install -g @minishlab/semble
# 以 MCP Server 方式启动
semble mcp --index ./my-project然后 Claude Code、Cursor 等工具就可以通过 MCP 协议调用 Semble 的搜索能力,而不是每次都暴力读取整个代码库。
对于 Cursor 用户,还可以直接在 .cursor/mcp.json 中配置:
{
"mcpServers": {
"semble": {
"command": "npx",
"args": ["-y", "@minishlab/semble", "mcp", "--index", "."]
}
}
}谁应该使用 Semble?
- AI Agent 重度用户——如果 Claude Code 或 Cursor 是你日常开发的主力工具,Semble 能大幅降低 token 消耗,直接省 API 费用
- 大型代码库维护者——仓库越大,grep 的召回率越低,Semble 的语义搜索优势越明显
- 关心隐私的开发者——所有索引和搜索都在本地完成,代码不需要发送到云端
- 自托管 Agent 用户——如果你自己在运行 OpenClaw 或其他开源 Agent,Semble 是一个理想的代码搜索后端
值得关注的方向
Semble 代表了 AI 工具链中的一个明确趋势:为 Agent 量身定制的底层工具正在快速涌现。
2026 年,我们已经看到:
- 专门为 Agent 优化的代码搜索(Semble)
- 专门为 Agent 设计的浏览器交互(Playwright MCP)
- 专门为 Agent 构建的文件系统接口
这些工具的共性是将 Agent 的「感知」和「行动」效率提升到实用水平。Semble 解决的是感知问题——让 Agent 更快地「读懂」你的代码库。
如果你在寻找一个能直接降低 AI 编码成本的开源工具,Semble 值得一试。
项目地址:github.com/MinishLab/semble 许可证:MIT
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tools/semble-code-search
相关文章
Agent TARS:字节跳动开源通用多模态 AI Agent 栈
字节跳动开源的 Agent TARS 是一套通用多模态 AI Agent 栈,提供 CLI 和 Web UI,支持 GUI Agent、浏览器控制、MCP 工具集成和远程桌面操作,近期登顶 GitHub Trending。
Trigger.dev:开发者优先的开源工作流自动化平台
Trigger.dev 是面向开发者的开源工作流自动化平台,用 TypeScript 代码定义任务而非拖拽界面,支持 AI Agent、长时运行、弹性扩缩容。
Gemini CLI:Google 开源的终端 AI Agent
Gemini CLI 是 Google 推出的开源终端 AI Agent,将 Gemini 3 的强大能力直接带入命令行。支持 60 请求/分钟的免费额度、Google Search 联网搜索、MCP 扩展和代码库级理解。