
KANELÉ:在 FPGA 上用 Kolmogorov-Arnold 网络实现纳秒级机器学习推理
MIT 研究团队提出 KANELÉ 架构,将 Kolmogorov-Arnold Networks (KAN) 直接映射到 FPGA 查找表上,实现纳秒级推理和在线学习,同时获得 FPGA 2026 最佳论文奖和 ICML 2026 录用。
原文来源:Aarush Gupta 的个人博客 — MIT 研究团队提出 KANELÉ 架构,利用 FPGA 查找表直接实现 Kolmogorov-Arnold 网络,实现纳秒级推理和在线学习,获 FPGA 2026 最佳论文奖。
一、为什么需要在 FPGA 上跑机器学习?
大多数机器学习工作负载——无论是训练还是推理——都跑在 GPU 上。GPU 通过高度并行的执行模型,能在大量数据上高效完成简单运算,适合大模型和批量推理。
但 GPU 架构无法满足一类特殊需求:亚微秒级延迟。GPU 内部的指令调度、内存访问、上下文切换等开销,对需要纳秒级响应的应用来说太大了。
这就是 FPGA(现场可编程门阵列)的用武之地。FPGA 是一种可重新配置的数字逻辑器件,你可以把神经网络直接烧录成数字电路——而非在处理器上逐条执行指令。没有指令调度开销、没有内存访问延迟,每个时钟周期都在做有用计算。
二、KAN 网络为什么适合 FPGA?
传统神经网络(MLP)的每个神经元做的是加权求和 + 激活函数——这在硬件上需要大量乘法器,消耗资源且较慢。
KAN(Kolmogorov-Arnold Network)的思路完全不同:它用可学习的单变量函数叠加来替代 MLP 中的权重 + 激活的组合。每个"边"(连接)都是一个可学习的函数,通常用 B-spline 样条曲线表示。
这正是 FPGA 擅长的地方。FPGA 的核心构建模块叫 LUT(Lookup Table,查找表)——一种用枚举输出值的方式实现数字函数的组合逻辑。KAN 中的样条函数,天然可以用 LUT 来实现:给定输入值和训练好的样条参数,查找表直接输出结果,比乘法器快得多。
三、KANELÉ 架构的核心设计
KANELÉ 团队提出了两个关键创新:
1. 基于 LUT 的 KAN 评估(FPGA 2026 最佳论文)
核心思想:把 KAN 的 B-spline 函数预计算并固化到 FPGA 的 LUT 中,推理时直接查表输出。
具体做法:
- 输入量化:将输入值量化为固定位宽的整数(如 8 位)
- LUT 预计算:对每个 KAN 边的 B-spline,枚举所有可能的量化输入值,计算输出,存入 LUT
- 流水线推理:所有 LUT 查表操作在 FPGA 的流水线中并行执行
效果:对于一个小型 KAN 网络(如 2-5-1 结构),推理延迟可以做到单个时钟周期(纳秒级)。
2. 片上在线学习(ICML 2026)
更令人惊讶的是,KANELÉ 还能在 FPGA 上做在线学习——而且不是慢速的微调,是真正的实时权重更新。
这利用了 B-spline 的局部性(locality)特性:样条曲线上的每个点只影响附近几个控制点。当输入变化时,只需要更新 LUT 中的少数几个条目,而不是整个网络。
这种"小范围更新"的特性使得在线学习的计算量大大降低,可以在 FPGA 的数字逻辑中直接实现,不需要外部存储器或 CPU 介入。
四、性能数据
虽然论文中具体的基准数据需要查阅完整论文,但从架构设计来看,KANELÉ 有几个明显的优势:
| 指标 | 传统 FPGA MLP 加速 | KANELÉ |
|---|---|---|
| 推理延迟 | 几十到几百纳秒 | 单时钟周期(纳秒级) |
| 硬件资源 | 需要大量 DSP(数字信号处理器)乘加单元 | 以 LUT 为主,DSP 需求极少 |
| 在线学习 | 困难,通常需要外部 CPU | 原生支持,利用 spline 局部性 |
| 模型可解释性 | 低(黑盒权重) | 高(可学习的单变量函数) |
KANELÉ 特别适合的应用场景包括:
- 高能物理实验:实时粒子触发(这也是团队背景——MIT 与 CERN 合作)
- 通信基带处理:纳秒级信道估计
- 工业控制:微秒级传感数据处理
- 金融高频交易:在 FPGA 上直接做模型推理
五、局限与展望
KANELÉ 目前还在学术研究阶段。主要的局限包括:
- 模型规模有限:LUT 在 FPGA 中是非常稀缺的资源。一个大 KAN 网络可能需要大量 LUT,配置灵活性受硬件资源限制
- 输入位宽限制:量化位宽直接影响精度和 LUT 大小,需要在精度和资源之间做权衡
- 训练仍需在 GPU 上完成:KANELÉ 支持在线学习,但初始训练还是在 GPU 上进行,之后再将参数部署到 FPGA
不过,作为同时被 FPGA 2026(最佳论文)和 ICML 2026 录用的工作,KANELÉ 证明了 KAN 网络在极端低延迟场景下的独特优势。随着 FPGA 成本的下降和 LUT 密度的提升,这种"把网络烧成电路"的思路可能会在更多垂直领域落地。
参考来源
- Aarush Gupta 博客:Ultrafast machine learning on FPGAs via KAN
- KANELÉ: Kolmogorov–Arnold Networks for Efficient LUT-based Evaluation — FPGA 2026 (Best Paper)
- arXiv: Ultrafast on-FPGA Online Learning via Spline Locality in KAN
- Hacker News 讨论 (153 points)
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/ai/kan-fpga-kanele
相关文章
Claude Fable 5 和 Mythos 5 发布:Anthropic 迄今最强模型,以安全护栏释放前沿能力
2026 年 6 月 9 日,Anthropic 发布 Claude Fable 5(面向公众的 Mythos 级模型)和 Claude Mythos 5(增强版)。新模型在几乎所有 AI 能力基准上实现 SOTA,定价仅为 Mythos Preview 的一半。
Claude Opus 4.8 正式发布:Anthropic 迄今最强模型,Agent 能力大幅提升
2026 年 5 月 28 日,Anthropic 发布 Claude Opus 4.8。新模型在编程、Agent、推理等全面超越前代,推出 Effort Control 和动态工作流功能,定价不变。
DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿
DeepSeek 于 2026 年 4 月 24 日正式发布 V4 预览版,包含 Pro 和 Flash 两个版本,以 1.6T 总参数、1M 上下文窗口、极低 API 定价冲击 AI 格局。本文基于官方技术报告与 HuggingFace 开源模型信息,全面解读其架构创新、性能表现与行业影响。