LMArena 推出“Battles in Direct”模式,这是一种新的评估模式,允许用户在直接聊天中匿名引入第二个模型进行对比。
📝 详细摘要
LMArena 发布了名为“Battles in Direct”的新评估模式。该功能允许用户在直接聊天过程中匿名对比不同模型。通过利用更长的上下文窗口,这种方法使得评估能在交互流程的更深处进行,从而产生更具决定性的投票结果,并更贴近真实使用场景。团队报告称,该模式与标准对战模式的相关性超过 90%,且用户无需中断工作流即可探索新模型。
📊 文章信息
AI 评分:88
来源:lmarena.ai(@lmarena_ai)
作者:Arena.ai
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:484
标签: LMArena, AI 基准测试, LLM 评估, 模型对比