AI 前沿·阅读约 2 分钟·
KANELÉ:在 FPGA 上用 Kolmogorov-Arnold 网络实现纳秒级机器学习推理

KANELÉ:在 FPGA 上用 Kolmogorov-Arnold 网络实现纳秒级机器学习推理

MIT 研究团队提出 KANELÉ 架构,将 Kolmogorov-Arnold Networks (KAN) 直接映射到 FPGA 查找表上,实现纳秒级推理和在线学习,同时获得 FPGA 2026 最佳论文奖和 ICML 2026 录用。

原文来源:Aarush Gupta 的个人博客 — MIT 研究团队提出 KANELÉ 架构,利用 FPGA 查找表直接实现 Kolmogorov-Arnold 网络,实现纳秒级推理和在线学习,获 FPGA 2026 最佳论文奖。

一、为什么需要在 FPGA 上跑机器学习?

大多数机器学习工作负载——无论是训练还是推理——都跑在 GPU 上。GPU 通过高度并行的执行模型,能在大量数据上高效完成简单运算,适合大模型和批量推理。

但 GPU 架构无法满足一类特殊需求:亚微秒级延迟。GPU 内部的指令调度、内存访问、上下文切换等开销,对需要纳秒级响应的应用来说太大了。

这就是 FPGA(现场可编程门阵列)的用武之地。FPGA 是一种可重新配置的数字逻辑器件,你可以把神经网络直接烧录成数字电路——而非在处理器上逐条执行指令。没有指令调度开销、没有内存访问延迟,每个时钟周期都在做有用计算。

二、KAN 网络为什么适合 FPGA?

传统神经网络(MLP)的每个神经元做的是加权求和 + 激活函数——这在硬件上需要大量乘法器,消耗资源且较慢。

KAN(Kolmogorov-Arnold Network)的思路完全不同:它用可学习的单变量函数叠加来替代 MLP 中的权重 + 激活的组合。每个"边"(连接)都是一个可学习的函数,通常用 B-spline 样条曲线表示。

这正是 FPGA 擅长的地方。FPGA 的核心构建模块叫 LUT(Lookup Table,查找表)——一种用枚举输出值的方式实现数字函数的组合逻辑。KAN 中的样条函数,天然可以用 LUT 来实现:给定输入值和训练好的样条参数,查找表直接输出结果,比乘法器快得多。

三、KANELÉ 架构的核心设计

KANELÉ 团队提出了两个关键创新:

1. 基于 LUT 的 KAN 评估(FPGA 2026 最佳论文)

核心思想:把 KAN 的 B-spline 函数预计算并固化到 FPGA 的 LUT 中,推理时直接查表输出。

具体做法:

  1. 输入量化:将输入值量化为固定位宽的整数(如 8 位)
  2. LUT 预计算:对每个 KAN 边的 B-spline,枚举所有可能的量化输入值,计算输出,存入 LUT
  3. 流水线推理:所有 LUT 查表操作在 FPGA 的流水线中并行执行

效果:对于一个小型 KAN 网络(如 2-5-1 结构),推理延迟可以做到单个时钟周期(纳秒级)。

2. 片上在线学习(ICML 2026)

更令人惊讶的是,KANELÉ 还能在 FPGA 上做在线学习——而且不是慢速的微调,是真正的实时权重更新。

这利用了 B-spline 的局部性(locality)特性:样条曲线上的每个点只影响附近几个控制点。当输入变化时,只需要更新 LUT 中的少数几个条目,而不是整个网络。

这种"小范围更新"的特性使得在线学习的计算量大大降低,可以在 FPGA 的数字逻辑中直接实现,不需要外部存储器或 CPU 介入。

四、性能数据

虽然论文中具体的基准数据需要查阅完整论文,但从架构设计来看,KANELÉ 有几个明显的优势:

指标传统 FPGA MLP 加速KANELÉ
推理延迟几十到几百纳秒单时钟周期(纳秒级)
硬件资源需要大量 DSP(数字信号处理器)乘加单元以 LUT 为主,DSP 需求极少
在线学习困难,通常需要外部 CPU原生支持,利用 spline 局部性
模型可解释性低(黑盒权重)高(可学习的单变量函数)

KANELÉ 特别适合的应用场景包括:

  • 高能物理实验:实时粒子触发(这也是团队背景——MIT 与 CERN 合作)
  • 通信基带处理:纳秒级信道估计
  • 工业控制:微秒级传感数据处理
  • 金融高频交易:在 FPGA 上直接做模型推理

五、局限与展望

KANELÉ 目前还在学术研究阶段。主要的局限包括:

  1. 模型规模有限:LUT 在 FPGA 中是非常稀缺的资源。一个大 KAN 网络可能需要大量 LUT,配置灵活性受硬件资源限制
  2. 输入位宽限制:量化位宽直接影响精度和 LUT 大小,需要在精度和资源之间做权衡
  3. 训练仍需在 GPU 上完成:KANELÉ 支持在线学习,但初始训练还是在 GPU 上进行,之后再将参数部署到 FPGA

不过,作为同时被 FPGA 2026(最佳论文)和 ICML 2026 录用的工作,KANELÉ 证明了 KAN 网络在极端低延迟场景下的独特优势。随着 FPGA 成本的下降和 LUT 密度的提升,这种"把网络烧成电路"的思路可能会在更多垂直领域落地。

参考来源

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/ai/kan-fpga-kanele