麻豆传媒黑丝 AI 圈本年最大丑闻曝光！Llama 4 被揭西席舞弊，实测惨遭滑铁卢，中枢主干愤然去职

麻豆传媒黑丝

昨天，Meta Llama 4 就这样倏得地发布了。

纸面参数很肥大上，堪称原生多模态 MOE 模子，打败 DeepSeek V3，还有 2 万亿参数巨兽，连 Meta CEO 扎克伯格也发视频，摇旗高呼欢迎「Llama 4 日」。

欢腾是顷刻的，当网友开动实测后，却确切是一边倒的负面评价，堪称本年 AI 界最大的「翻车」事件。

在特意参谋腹地部署大说话模子的社区 r/LocalLLaMA（可并吞为 Llama「贴吧」）中，一篇标题为「我对 Llama 4 感到 incredibly disappointed（终点失望）」的帖子马上获取了多数关心和共识。

更有 Llama 诚恳粉丝原地破防，直言是时间该将「LocalLLaMA」更名为「LocalGemma」了，捉弄 Llama 4 的发布更像是迟到的愚东说念主节打趣。

实测透露货不合板，曝 Llama 4 发布前肆意「灌题」

在 Reddit 的这篇原帖中，网友 karminski 热烈提出不要使用 Llama 4 进行编码。

他暗示 Llama-4-Maverick ——总参数达 402B 的型号——在编码才略上仅能与 Qwen-QwQ-32B 拼凑匹敌。而 Llama-4-Scout（总参数 109B 的型号）透露则大约与 Grok-2 或 Ernie 4.5 相仿。

事实上，根据最新的 aider polyglot 编码基准测试收尾，Llama 4 Maverick 的得分仅为 16%。

这一基准测试旨在评估大型说话模子（LLM）在多说话编程任务中的透露，阴私了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程说话。

而这个分数，在繁密模子中亦然属于妥妥的垫底水平。

博主 @deedydas 雷同抒发了对 Llama 4 的失望，直呼其为「一个灾祸彻底的编程模子」。

他指出，Scout ( 109B ) 和 Maverick ( 402B ) 在针对编程任务的 Kscores 基准测试中，透露远不足 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

另一位网友 Flavio Adamo 远离让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画，而况，小球逾越的经过中要衔命重力和摩擦力的影响。

收尾清楚，Llama 4 Maverick 生成的多边时势样缺少启齿，小球的畅通也屈膝物理王法，比拟之下，新版 GPT-4o 的透露彰着更胜一筹，而 Gemini 2.5 Pro 的透露则堪称王者。

回望本年 1 月，扎克伯格还声称，AI 将达中级软件工程师编程水平，就现在 Llama 4 灾祸的透露，属实是打脸来的有些快。

另外，Llama 4 Scout 的高下文长度达到了 1000 万 tokens。这一超长高下文长度使得 Llama 4 Scout 能够不断和分析极长的文本内容，举例整本竹素、大型代码库或多媒体档案。

Meta 官方以致还展示了「大海捞针」的测试收尾以讲授其才略。

然则，根据 Fiction.LiveBench 最新给出的收尾，Llama 4 模子的效果亦然中看不顶用，举座效果不足 Gemini 2.0 Flash，而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。

Google 上大分 +1。

网友 karminski 进一步指出，Llama 4 在 1K 高下文调回率（肖似并吞为问题回答的正确率）时就已跌至 60% 以下，以致 Llama-4-Scout 在高出 16K 时仅剩 22%。

他还给出了一个形象的例子「《哈利 · 波特与魔法石》的文本长度碰巧约为 16K。

这意味着，要是你把整本书输入模子，然后问「哈利小时间是住在卧室如故楼梯下的储物间」，Llama-4-Scout 惟有 22% 的概率能答对（肖似并吞，本色调回机制更复杂）。而这个收货当然也就远低于头部模子的平均水平。

不仅模子自己稍显拉胯，Llama 4 作为「开源扛把子」的光环也在逐渐覆没。

Meta 绽放了 Llama 4 的权重，但即使使用量化（quant），也无法在铺张级 GPU 上运行。堪称单卡运行，但本色指的却是 H100。门槛之高，对开发者可谓是终点不友好。

更何况，Llama 4 的新许可证还有几个截至条目，其中备受诟病的则是领有高出 7 亿月活跃用户的公司必须向 Meta 央求突出许可证，Meta 不错自行决定是否批准或拒却。

等等，昨天 Meta 公布的纸面参数可不是这样说的，如何过了一天，风向就全变了。

在大模子竞技场（Arena）名次中，Llama 4 Maverick 名列总榜第二，成为第四个遏制 1400 分的模子，在开源模子中更是高居榜首，更是超越了 DeepSeek V3。

jiuse

濒临实测性能的「货不合板」，提防的网友很快嗅到一点蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实践性聊天版块」。

这还没完，今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称，经过反复西席后，Llama 4 未能取得开源 SOTA，以致与之收支甚远。

而 Meta 公司里面诞生发布的 deadline（截止日历）则是 4 月底。

于是，公司指点层提出将各个 benchmark 的测试集搀杂在 post-training 经过中，主义是但愿能够在各项方针上交差。拿出一个「看起来不错」的收尾。

这里说的将各个 benchmark 的测试集搀杂在 post-training 经过中，是指在模子的后西席（post-training）阶段，通过搀杂不同基准测试的数据集，模子不错在多种任务和场景中学习，从而普及其泛化才略。

打个简短的譬如，这就像磨砺时舞弊。试题本该从守秘题库（benchmark 测试集）中立地抽取，考前无东说念主清醒。可要是有东说念主提前偷看了题目并反复练习（终点于将测试集混入西席），那磨砺的时间笃定能考得很好。

帖主进一步解释说，Llama 4 发布之后，实测收尾遭到 X 和 Reddit 网友的吐槽。作为又名现在也在学术界的东说念主他声称实在无法收受 Meta 的作念法，已提交去职央求，并明确要求在 Llama 4 的 Technical Report 中剔除我方的名字。

他还暗示，Meta 的 VP of AI 亦然因为这个原因辞职的。而早在几天前，就有报说念称 Meta AI 考虑厚爱东说念主乔尔 · 皮诺（Joelle Pineau）晓示将于 5 月 30 日去职。

不外，关于这桩疑似「刷榜舞弊」的指控，真相究竟如何，大要还需更多左证。一位名为 LichengYu 的 Meta 职工也疑似在辩驳区实名恢复称：

「这两天谦和凝听各方 feedback ( 比如 coding，creativewriting 等时弊必须纠正 ) ，但愿能不才一版有普及。但为了刷点而 overfit 测试集，咱们从来莫得作念过，实名 Licheng Yu，两个 oss model 的 post training 有经手我这边。请呈文哪条 prompt 是测试集选出来放进西席集的，我给你磕一个 + 说念歉！」

公开贵府清楚，Licheng Yu（虞立成）曾本科毕业于上海交通大学，2014 年获佐治亚理工学院和上海交通大学双硕士学位，在 2019 年 5 月获北卡罗来纳大学教堂山分校臆想机科学博士学位，。

他的考虑界限专注于臆想机视觉和当然说话不断，多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议采纳。

Licheng Yu 曾在微软、Adobe 等大厂有过职责阅历，现在 ( 2023.06 于今 ) 担任 Meta 的考虑科学家司理，曾参与 Llama3.2 多模态模子 ( 11B+90B ) 的发布，以及指点 Llama 4 技俩中 17Bx128 和 17Bx16 的文本 + 图像强化学习阶段。

真假难辨，大要还不错让枪弹再飞一会。

开源大模子的「王座」，不成靠蛮力夺取

在客岁这个时间，Meta 还被誉为 AI 行业的天选之子。

虽然，脱下简短的灰色 T 恤、牛仔裤和连帽衫，扎克伯格也开动时常地穿戴大 LOGO 的名牌服装，颈间挂上野蛮的大金链子，以致在公开风景自信展示我方的健身效力。

别灵验心不在酒的扎克伯格试图通过展现更「着实」、更「接地气」的一面，拉近与公众的距离。这不仅让 Meta 显得愈加亲民，也使其趁势成为对抗 OpenAI 闭源模子的开源旗头，阵容一时无两。

与此同期，Meta 的丰足实力为转型提供了坚实后援。据悉，Meta 运筹帷幄在 2025 年参加高达 650 亿好意思元用于彭胀其 AI 基础活动，这一数字在业内堪称大手笔，到 2025 年底，Meta 运筹帷幄领有高出 130 万块 GPU。

其次，Meta 坐拥丰富的酬酢平台数据，这为其 AI 研发提供了先天不足的上风。

作为 Facebook、Instagram 和 WhatsApp 等各人著明酬酢平台的母公司，Meta 掌合手着数十亿用户的日常交互数据。据统计，其平台的各人日活跃用户数（DAU）在 2024 年已高出 30 亿，这一雄伟的数据体量为 AI 模子的西席提供了海量的原材料。

再者，Meta 在东说念主才储备上雷同不遑多让。其 AI 部门的领军东说念主物是业界享有殊荣的图灵奖得主 Yann LeCun。在他的指导下，Meta 相持开源战略，推出了 Llama 系列模子。

因此，Meta 也贪念完全——它不仅要安稳自身在酬酢界限的地位，更但愿在 AI 界限兑现弯说念超车，标的是在 2025 年底前超越 OpenAI 等强盛敌手。

但目击他起朱楼，目击他宴客东说念主，目击他楼塌了。

若一亩三分地的爆料属实，Llama 4 的研发经过中可能存在为追求基准测试分数而「舞弊」的活动——通过将测试集混入西席数据，也更像是「AI 流量焦躁」下的操作变形。

岁首就曾有音讯称 DeepSeek 让 Meta AI 团队堕入挂牵：

「当生成式 AI 组织中的每个高管薪资都比西席悉数这个词 DeepSeek-V3 的资本还要高，而咱们有好几十个这样的高管，他们要如何濒临高层？」

2023 年，Meta 凭借 Llama 系列在开源大模子界限确切开采了旁边地位，成为开源 AI 的代名词和标杆。

然则，AI 一日，东说念主间一年，在 Llama 4 遭逢「滑铁卢」的辩驳区中，其他开源模子的好评遍地可见。其中，Google Gemma 以轻量高效和多模态才略赢得平淡招供，阿里的 Qwen 系列基座模子崭露头角，而 DeepSeek 更以低资本高性能的黑马姿态震憾了悉数这个词行业。

Meta 能否挪动战略重回开源 AI 的模子领跑位置尚未可知，但不管如何，开源 AI 的百花都放照旧不可逆转地到来了。

秉持着哪个 AI 好用，用哪个的原则，Meta 也不玉成然怪用户「墙头草」。更何况，在开源透明度方面，相较于上述几家公司的开源模子，Llama 4 的自缚行为，也颇有些自断一臂的意味。

而 Meta 现在的抵拒大要也标明麻豆传媒黑丝，即便手合手各人悉数的 GPU 算力和海量数据，资源上风已不再是决定性成分，开源大模子的「王座」，不成靠蛮力夺取。

麻豆传媒 黑丝 AI 圈本年最大丑闻曝光！Llama 4 被揭西席舞弊，实测惨遭滑铁卢，中枢主干愤然去职

麻豆传媒黑丝 AI 圈本年最大丑闻曝光！Llama 4 被揭西席舞弊，实测惨遭滑铁卢，中枢主干愤然去职