
Needle:将 Gemini 工具调用能力蒸馏进 26M 参数模型
Cactus Compute 开源了 Needle,一个仅 26M 参数的 Function Calling 模型,从 Gemini-3.1-Flash-Lite 蒸馏而来。可在智能手机上原生运行,预填充速度达 6000 tok/s。
原文来源:Hacker News - Show HN: Needle | GitHub - cactus-compute/needle — 2026 年 5 月。
引言
当大多数 AI 公司还在追逐更大参数的模型、更庞大的算力集群时,一个名为 Needle 的小模型悄然登顶 Hacker News Show HN,引发了开发者社区的广泛关注。这个由 Cactus Compute 团队开源的模型参数仅有 26M,却在工具调用(Function Calling)能力上展现出了令人惊讶的实力。
Needle 的诞生源于一个简单却尖锐的洞察:AI Agent 不应该只能在云端运行。它的出现为智能手机、智能手表、IoT 设备等边缘场景带来了真正的本地 AI Agent 可能性。
什么是 Needle?
Needle 是一个专门针对 工具调用(Function Calling) 任务优化的小型语言模型。所谓工具调用,是指 AI 模型能够理解外部的 API 或函数接口,根据用户的自然语言指令生成对应的结构化调用请求——这是现代 AI Agent 系统的核心能力之一。
Cactus Compute 团队选择了一条与其他主流厂商截然不同的路线:他们没有从头训练一个大模型,而是通过**知识蒸馏(Knowledge Distillation)**技术,将 Google 的 Gemini-3.1-Flash-Lite 模型在工具调用方面的能力,压缩进了一个仅有 26M 参数的小模型中。
该项目已在 GitHub 上以 MIT 协议 完全开源,仓库地址为:cactus-compute/needle,任何人都可以自由下载、使用和修改。
技术亮点
极致的轻量化
26M 参数是什么概念?作为对比:
- GPT-3 有 175B(1750亿)参数,是 Needle 的 6730 倍以上
- LLaMA-3-8B 有 80 亿参数,是 Needle 的 307 倍
- 即便是最小的 Phi-3-mini 也有 3.8B 参数,是 Needle 的 146 倍
Needle 的体型意味着它可以运行在绝大多数消费级硬件上,甚至无需 GPU 加速。
惊人的推理速度
尽管参数极小,Needle 的推理性能却相当亮眼:
- 预填充速度(Prefill):6000 tok/s
- 解码速度(Decode):1200 tok/s
这些数字是在普通的消费级硬件(如笔记本电脑的 CPU)上实测得到的。对于许多实时交互场景而言,这种速度已经足以胜任。
边缘设备上的 AI Agent
Cactus Compute 团队明确指出,Needle 的目标设备包括:
- 智能手机:直接在手机上运行本地 AI Agent,无需联网
- 智能手表:在低功耗的小型设备上实现智能助手
- 智能眼镜:为可穿戴设备提供实时的工具调用能力
- IoT 设备:为物联网终端赋予智能化交互能力
训练背后的故事
Needle 的训练过程本身就是一个关于效率的绝佳案例。
预训练阶段:团队使用了 16 个 Google TPU v6e 处理器,总耗时仅 27 小时。考虑到大多数现代语言模型的预训练通常需要数百甚至上千个 GPU/TPU 运行数周,这个数字显得格外引人注目。
后训练阶段:更加夸张——仅用了 45 分钟。团队使用 Gemini 自动生成的工具调用数据集进行蒸馏训练,将大模型的工具调用能力迁移到小模型身上。
这种训练效率的背后,正是知识蒸馏技术的精髓:不需要从零开始学习语言的所有知识,而是专注于从教师模型中提取特定能力。
核心争议:许可证问题
Needle 项目最大的争议点在于其训练数据的来源。项目公开声明从 Gemini-3.1-Flash-Lite 蒸馏而来,然而 Google 的服务条款明确禁止提取和蒸馏 Gemini 模型。
根据 Google AI 的使用政策,用户不得使用 Google 的 API 输出来训练、蒸馏或改进其他 AI 模型,除非获得明确的书面许可。
这意味着 Needle 的合法性存在灰色地带。一方面,知识蒸馏在学术界和开源社区是一种常见的做法;另一方面,直接从受条款保护的商业模型中蒸馏能力,可能会带来法律风险。
这种情况让人联想到此前 Stability AI 与 Getty Images 之间的版权纠纷,或者 OpenAI 与《纽约时报》的诉讼——当 AI 的训练数据来源与知识产权保护条款发生冲突时,法律边界的划定往往滞后于技术发展。
对于开发者而言,Needle 的价值是实在的,但在实际商业应用中使用时需要谨慎评估法律风险。
开发者视角
Needle 的核心开发者 Henry Ndubuaku 在 Hacker News 上分享了他的动机,这段话或许代表了许多边缘计算和移动端开发者的心声:
"我们对几乎没有人在开发能在低成本手机上运行的 AI Agent 感到沮丧。"
他进一步解释道,团队在深入分析后发现,AI Agent 的核心能力实际上是工具调用,而不是大模型的全部能力。大模型在很多 Agent 场景下是过度杀伤(overkill)——你不需要一个能写诗、编程、画画的模型来完成"帮我查一下天气"或"预定一个餐厅"这样的工具调用任务。
这一观点直击当前 AI Agent 领域的痛点:许多 Agent 框架直接套用大模型 API,不仅成本高昂,而且响应延迟大,还依赖网络连接。Needle 提供了一种更轻量、更专注、更本地化的替代方案。
应用场景分析
智能手机上的本地 AI Agent
想象一个完全运行在手机上的 AI 助手:它不需要将你的语音指令发到云端,所有数据处理都在本地完成。这意味着:
- 零延迟响应:无需等待网络传输
- 隐私保护:敏感数据不出设备
- 离线可用:没有网络也能正常工作
智能家居与 IoT
在智能家居场景中,Needle 可以用作本地化的命令解析引擎。例如,它可以嵌入到智能音箱中,解析用户的指令并调用对应的设备 API,一切都在本地闭环完成。
边缘计算
对于工业物联网、车载系统等场景,网络连接可能不稳定或带宽受限。一个能在边缘端独立完成工具调用的模型,可以显著降低系统对云端的依赖,提高系统的可靠性和实时性。
低功耗设备自动化
对于需要长时间运行、功耗敏感的设备(如传感器节点、可穿戴设备),Needle 的超小体型使得它可以被集成到电池供电的设备中,为"万物智联"提供真正的本地智能化能力。
开源社区的反应
Needle 在 Hacker News 上发布后迅速登顶 Show HN,开发者社区的反馈呈现出两极分化的态势:
支持者认为,Needle 证明了"小模型 + 针对性蒸馏"是一条可行且高效的技术路线。在 AI 产业狂卷参数规模的当下,Needle 提供了一个逆向思考的范本——与其让模型学会所有知识,不如让它把一件事做到极致。
质疑者则主要集中在其训练数据的合法性问题上。一些评论指出,直接蒸馏受条款保护的商业模型可能会给开源社区带来法律风险,也建议团队开发完全合规的训练数据管道。
总结与展望
Needle 的价值远不止于一个 26M 参数的小模型。它代表了 AI 行业一个重要的方向性思考:
- 小模型的价值被低估了——在特定任务上,小模型通过知识蒸馏可以达到令人惊讶的效果,远超其参数规模给人的预期。
- 工具调用是 AI Agent 的基石——与其追逐全能型大模型,不如专注于 Agent 最核心的能力。
- 边缘计算需要自己的 AI 范式——云端的 AI 架构不能简单平移到移动端和 IoT 场景。
尽管许可证问题给 Needle 蒙上了一层阴影,但它所开启的思路——通过知识蒸馏将大模型的专业能力压缩进可以在手机上运行的小模型——无疑为 AI 的发展提供了一个有价值的参考。
在未来,我们可能会看到更多类似 Needle 的项目出现:小而专注,能够在边缘设备上原生运行,让 AI Agent 真正走进每个人的口袋。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tools/needle-tool-calling
相关文章
Gemini CLI:Google 开源的终端 AI Agent
Gemini CLI 是 Google 推出的开源终端 AI Agent,将 Gemini 3 的强大能力直接带入命令行。支持 60 请求/分钟的免费额度、Google Search 联网搜索、MCP 扩展和代码库级理解。
Open Design:Claude Design 的开源替代方案
Open Design 是 Anthropic Claude Design 的开源替代方案,支持 16 种编码 Agent、71 套品牌级设计系统,可生成交互式原型、幻灯片、图片和视频。本地优先、BYOK、可部署到 Vercel。
WhatCable:一眼看穿你的 USB-C 线缆到底能干什么
开源免费的 macOS 菜单栏工具,能识别每根 USB-C 线缆的充电速度、数据传输能力和安全性,让你告别不停换线的困扰。