Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

　　Meta 的 Llama-4-Maverick-03-26-Experimental 为何涌现不佳？该公司正在上周六宣布的一张图外中注释称，该模子是“针对对话性实行优化”的。这些优化彰彰正在 LM Arena 上博得了不错的恶果，由于 LM Arena 的人类评分者会对比分歧模子的输出，并采用他们更偏好的结果。

　　因为各样因为，LM Arena 从未被视为权衡 AI 模子职能的最牢靠目标。只管这样，针对基准测试调度模子不但具有误导性，还使得开荒者难以凿凿预测该模子正在分歧场景下的涌现。

　　Meta 的一位措辞人向 TechCrunch 流露，Meta 会测试“各品种型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是咱们测试的一个针对闲扯优化的版本，它正在 LM Arena 上也涌现不错，”该措辞人说，“咱们现正在已宣布了开源版本，将看看开荒者怎么凭据我方的操纵案例定制 Llama 4。咱们等候看到他们构修的内容，并等候他们一连的反应。”

相关文章