发布日期: 2025-06-27
Meta 的 Llama-4-Maverick-03-26-Experimental 为何涌现不佳?该公司正在上周六宣布的一张图外中注释称,该模子是“针对对话性实行优化”的。这些优化彰彰正在 LM Arena 上博得了不错的恶果,由于 LM Arena 的人类评分者会对比分歧模子的输出,并采用他们更偏好的结果。
因为各样因为,LM Arena 从未被视为权衡 AI 模子职能的最牢靠目标。只管这样,针对基准测试调度模子不但具有误导性,还使得开荒者难以凿凿预测该模子正在分歧场景下的涌现。
Meta 的一位措辞人向 TechCrunch 流露,Meta 会测试“各品种型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是咱们测试的一个针对闲扯优化的版本,它正在 LM Arena 上也涌现不错,”该措辞人说,“咱们现正在已宣布了开源版本,将看看开荒者怎么凭据我方的操纵案例定制 Llama 4。咱们等候看到他们构修的内容,并等候他们一连的反应。”