神秘模型 Hy3 为何霸榜 OpenRouter？Max Woolf 深度调查

原文来源：Minimaxir / Max Woolf — OpenRouter 排行榜上出现两款神秘新模型 Hy3 Preview 和 DeepSeek Flash V4，Token 使用量超过 Claude 50% 以上，Max Woolf 对此展开调查。

2026 年 5 月 26 日，Max Woolf（即 Minimaxir）在个人博客上发表了一篇引人深思的调查文章。OpenRouter 的 AI 模型排行榜上突然冒出两个陌生面孔——Tencent 的 Hy3 Preview 和 DeepSeek Flash V4——它们的 Token 使用量竟然全面碾压了包括 Claude 在内的主流模型。这究竟是怎么回事？

OpenRouter 是什么？

OpenRouter 是一项提供统一 API 接口的服务，让开发者可以通过一个端点访问几乎所有的主流大语言模型。无论是 OpenAI 的 GPT 系列、Anthropic 的 Claude，还是各种开源模型，都能在 OpenRouter 上找到。它的便利性使其成为许多开发者和企业构建 AI 应用的首选网关。

更重要的是，OpenRouter 会实时公开所有模型的使用数据——在 AI Model Rankings 页面上，你可以清楚地看到每个模型的 Token 消耗量、活跃用户数、请求量等指标。这本是一个帮助用户了解模型流行度的有用工具，但最近的数据却引来了不少疑惑。

两大黑马横空出世

就在不久前，OpenRouter 排行榜上出现了两款之前并不为人熟知的新模型：

Hy3 Preview：由腾讯（Tencent）推出的 685B 参数大模型，定价为每百万输入 Token 0.15 美元，每百万输出 Token 0.60 美元。685B 的参数量说明它是一个相当庞大的模型，按常理来说不应该便宜到哪里去。

DeepSeek Flash V4：来自 DeepSeek 的开源模型，定价更加激进——每百万输入 Token 仅 0.14 美元，每百万输出 Token 仅 0.28 美元。模型权重已在 HuggingFace 上开源，任何人都可以下载和使用。

这两款模型的 Token 使用量竟然比 Claude 高出 50% 以上。Claude 家族一直是 OpenRouter 上最受欢迎的模型之一，被两个"无名小卒"在数据上大幅超越，这不得不让人怀疑：它们到底有什么魔力？

真相：不是质量，是价格

经过调查，Max Woolf 发现了一个简单却容易被忽视的事实：这些模型之所以"霸榜"，不是因为它们比 Claude 更好，而是因为它们比 Claude 便宜太多。

OpenRouter 的排行榜反映的是 Token 使用量——也就是用户通过 API 实际消费了多少 Token。当某个模型的定价低到一定程度时，用户自然会倾向于用它来处理大量任务，尤其是在以下场景中：

自动化工作流（Automated Workflows）：许多开发者搭建了自动化的 AI 处理管线，每天处理海量数据。当成本降低到每百万 Token 仅需 0.14 美元时，这些管线可以无限制地运行。
批量处理（Batch Processing）：大规模的数据清洗、文本分类、内容生成等任务，对成本极度敏感。价格优势会让用户毫不犹豫地选择更便宜的模型。
机器人流量（Bots）：部分用户运行着大量 AI 机器人，这些机器人可能每小时都要发出数千次请求。在同等预算下，更便宜的模型意味着可以运行更多的机器人实例。

换句话说，OpenRouter 排行榜上的数据在很大程度上反映了模型的成本效益（Cost Efficiency），而远非模型本身的质量（Quality）。这就像用总营收来对比利润率——一个卖得便宜但销量极大的商品，在总销售额上可能远超一个定价高但销量有限的精品，但前者并不比后者"更好"。

Hy3 和 DeepSeek Flash V4 到底怎么样？

腾讯 Hy3：这是一个 685B 参数的通用大模型，由腾讯开发。685B 的参数量让它跻身超大模型行列，理论上具备较强的综合能力。腾讯将其定位为通用型模型，适用于多种 NLP 任务。不过，由于它相对较新，第三方独立评测还比较有限，其真实能力水平仍有待时间检验。

DeepSeek Flash V4：这是 DeepSeek 推出的开源模型，权重已在 HuggingFace 上发布。它的最大卖点就是极致的性价比——以接近成本价的价格提供还算不错的模型能力。开源属性也让它可以被部署在自有基础设施上，进一步降低使用成本。

排行榜的真正意义

Max Woolf 的这篇文章给我们提了一个醒：任何排行榜都有其局限性，关键在于理解它衡量的是什么。

OpenRouter 的 Token 使用量排行榜是一个反映市场采用度（Market Adoption）和成本敏感度（Cost Sensitivity）的指标，但它并不能直接告诉你哪个模型在智能水平、推理能力或创造性上更胜一筹。一个模型在排行榜上名列前茅，可能仅仅是因为它足够便宜，能够被大规模用于简单任务。

对于开发者和企业来说，这意味着在选择模型时不能只看排行榜——你需要理解自己的使用场景，清楚什么样的能力对你是真正重要的。如果只是做大规模文本分类，Hy3 或 DeepSeek Flash V4 可能是绝佳选择；但如果需要深度推理、复杂代码生成或精细的创意写作，Claude 或 GPT-4 仍然可能是更好的选择——尽管它们更贵。

结语

Hy3 Preview 和 DeepSeek Flash V4 在 OpenRouter 上的"霸榜"现象，本质上是一个经济学故事而非技术故事。它告诉我们，在大模型时代，价格竞争正在成为一个越来越重要的变量。随着越来越多的模型进入市场，我们很可能会看到更多定价激进的选手出现，用极低的价格换取市场份额和使用量。

这对整个行业来说未必是坏事——更低的成本意味着更广泛的 AI 应用落地可能性。但同时，它也在提醒我们：数据和排行榜需要放在具体的语境中解读，否则很容易得出错误的结论。

下次当你看到 OpenRouter 排行榜上某个神秘模型突然登顶时，不妨先看看它的定价——答案可能就在那里。

神秘模型 Hy3 为何霸榜 OpenRouter？Max Woolf 深度调查

OpenRouter 是什么？

两大黑马横空出世

真相：不是质量，是价格

Hy3 和 DeepSeek Flash V4 到底怎么样？

排行榜的真正意义

结语

相关文章

DeepSeek V4 预览版全面解读：1M 上下文、1.6T MoE、开源逼近闭源前沿

Claude Opus 4.8 正式发布：Anthropic 迄今最强模型，Agent 能力大幅提升

Apple Silicon 本地跑大模型，真的比 API 便宜吗？