KANELÉ：在 FPGA 上用 Kolmogorov-Arnold 网络实现纳秒级机器学习推理

原文来源：Aarush Gupta 的个人博客 — MIT 研究团队提出 KANELÉ 架构，利用 FPGA 查找表直接实现 Kolmogorov-Arnold 网络，实现纳秒级推理和在线学习，获 FPGA 2026 最佳论文奖。

一、为什么需要在 FPGA 上跑机器学习？

大多数机器学习工作负载——无论是训练还是推理——都跑在 GPU 上。GPU 通过高度并行的执行模型，能在大量数据上高效完成简单运算，适合大模型和批量推理。

但 GPU 架构无法满足一类特殊需求：亚微秒级延迟。GPU 内部的指令调度、内存访问、上下文切换等开销，对需要纳秒级响应的应用来说太大了。

这就是 FPGA（现场可编程门阵列）的用武之地。FPGA 是一种可重新配置的数字逻辑器件，你可以把神经网络直接烧录成数字电路——而非在处理器上逐条执行指令。没有指令调度开销、没有内存访问延迟，每个时钟周期都在做有用计算。

传统神经网络（MLP）的每个神经元做的是加权求和 + 激活函数——这在硬件上需要大量乘法器，消耗资源且较慢。

KAN（Kolmogorov-Arnold Network）的思路完全不同：它用可学习的单变量函数叠加来替代 MLP 中的权重 + 激活的组合。每个"边"（连接）都是一个可学习的函数，通常用 B-spline 样条曲线表示。

这正是 FPGA 擅长的地方。FPGA 的核心构建模块叫 LUT（Lookup Table，查找表）——一种用枚举输出值的方式实现数字函数的组合逻辑。KAN 中的样条函数，天然可以用 LUT 来实现：给定输入值和训练好的样条参数，查找表直接输出结果，比乘法器快得多。

KANELÉ 团队提出了两个关键创新：

核心思想：把 KAN 的 B-spline 函数预计算并固化到 FPGA 的 LUT 中，推理时直接查表输出。

具体做法：

效果：对于一个小型 KAN 网络（如 2-5-1 结构），推理延迟可以做到单个时钟周期（纳秒级）。

更令人惊讶的是，KANELÉ 还能在 FPGA 上做在线学习——而且不是慢速的微调，是真正的实时权重更新。

这利用了 B-spline 的局部性（locality）特性：样条曲线上的每个点只影响附近几个控制点。当输入变化时，只需要更新 LUT 中的少数几个条目，而不是整个网络。

这种"小范围更新"的特性使得在线学习的计算量大大降低，可以在 FPGA 的数字逻辑中直接实现，不需要外部存储器或 CPU 介入。

虽然论文中具体的基准数据需要查阅完整论文，但从架构设计来看，KANELÉ 有几个明显的优势：

KANELÉ 特别适合的应用场景包括：

KANELÉ 目前还在学术研究阶段。主要的局限包括：

不过，作为同时被 FPGA 2026（最佳论文）和 ICML 2026 录用的工作，KANELÉ 证明了 KAN 网络在极端低延迟场景下的独特优势。随着 FPGA 成本的下降和 LUT 密度的提升，这种"把网络烧成电路"的思路可能会在更多垂直领域落地。