全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ LMArena 共 28 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 52 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
百度发布文心 5.1:搜索能力登顶国内,预训练成本仅为业界 6%
📌 一句话摘要 百度发布文心大模型 5.1,采用多维弹性预训练技术,以业界 6% 的预训练成本实现基础效果领先,并登顶 LMArena 搜索榜国内第一。 📝 详细摘要 文章报道了百度在 5 月 9 日正式发布的新一代基础大模型文心 5.1。该模型的核心亮点在于其采用的「多维弹性预训练」技术,使得
📅 2026-05-09 11:11 (05-09 11:11) 量子位的朋友们 人工智能 2 分鐘 ★ 86
文心大模型 5.1 百度 大语言模型 预训练
文心 5.1 Preview 登顶 LMArena 文本榜,国产模型全球前十五唯一
📌 一句话摘要 文心 5.1 Preview 在 LMArena 文本榜以 1476 分排名全球第 13,超越 GPT-5.5 和 DeepSeek-V4-Pro,作者借此指出文本能力仍是模型竞争的核心地基。 📝 详细摘要 这条推文引用 LMArena 文本榜最新排名,指出百度文心 5.1 Pr
📅 2026-04-30 17:14 (04-30 17:14) Berryxia.AI 人工智能 1 分鐘 ★ 85
文心 5.1 LMArena 文本榜 国产模型
在 LMArena 上试用“Battles in Direct”
📌 一句话摘要 LMArena 邀请用户试用新的“Battles in Direct”聊天功能。 📝 详细摘要 这是该系列推文的最后一条,提供了 LMArena 平台的直接链接,邀请用户测试新的“Battles in Direct”聊天功能并提供反馈。 📊 文章信息 AI 评分:80 来源:l
📅 2026-04-07 05:01 (04-07 05:01) Arena.ai 人工智能 1 分鐘 ★ 80
LMArena AI 基准测试
LMArena:解读“Battles in Direct”的设计决策
📌 一句话摘要 LMArena 提供了一个 YouTube 视频,解释了新功能“Battles in Direct”背后的设计决策。 📝 详细摘要 此推文是对主要公告的补充,提供了一个 YouTube 视频链接,其中 Clayton 和 John 解释了“Battles in Direct”评估
📅 2026-04-07 05:01 (04-07 05:01) Arena.ai 人工智能 1 分鐘 ★ 81
LMArena AI 基准测试 设计决策
LMArena 推出“Battles in Direct”评估模式
📌 一句话摘要 LMArena 推出“Battles in Direct”模式,这是一种新的评估模式,允许用户在直接聊天中匿名引入第二个模型进行对比。 📝 详细摘要 LMArena 发布了名为“Battles in Direct”的新评估模式。该功能允许用户在直接聊天过程中匿名对比不同模型。通过
📅 2026-04-07 05:01 (04-07 05:01) Arena.ai 人工智能 1 分鐘 ★ 88
LMArena AI 基准测试 LLM 评估 模型对比
Gemma 4 31B 在 Arena 帕累托前沿的表现
📌 一句话摘要 LMArena 报告称,Gemma 4 31B 模型显著改变了帕累托前沿,比 DeepSeek 3.2 等同价位模型高出 30 个 Arena 积分。 📝 详细摘要 此推文重点介绍了谷歌 Gemma 4 31B 模型在 LMArena 排行榜上的表现。它指出该模型改变了帕累托前沿
📅 2026-04-04 02:04 (04-04 02:04) Arena.ai 人工智能 1 分鐘 ★ 83
Gemma 4 LMArena AI 基准测试 帕累托前沿
访问交互式 Arena 排行榜
📌 一句话摘要 一条跟进推文,提供了交互式 Arena 排行榜的直接链接,方便用户根据个人需求筛选和自定义模型对比。 📝 详细摘要 此推文提供了通往交互式 LMArena 排行榜的直接操作链接。它鼓励用户探索帕累托前沿的细节,并自定义查看体验,以便根据特定的个人或项目需求对模型进行筛选。 📊
📅 2026-04-04 02:04 (04-04 02:04) Arena.ai 人工智能 1 分鐘 ★ 78
LMArena 排行榜 AI 工具 模型评估
帕累托前沿教育资源
📌 一句话摘要 这是一条跟进推文,提供了一个教育视频链接,帮助用户理解和解读 AI 模型基准测试中的帕累托前沿。 📝 详细摘要 此推文为资源分享帖,链接到了一个由 Peter 和 Justin 主讲的教育视频。内容旨在帮助用户更好地解读和利用 LMArena 排行榜上的帕累托前沿可视化图表,从而
📅 2026-04-04 02:04 (04-04 02:04) Arena.ai 人工智能 1 分鐘 ★ 76
帕累托前沿 AI 基准测试 教育 LMArena
阿里 Qwen 3.6 登顶 LMArena 编程榜,超越 GPT-5 成为中国最强编程模型
📌 一句话摘要 阿里最新发布的 Qwen 3.6-Plus 在 LMArena 编程盲测榜单中位列全球第二,超越 GPT-5.0,成为排名最高的中国大模型。 📝 详细摘要 文章报道了阿里巴巴新一代大语言模型 Qwen 3.6-Plus 在全球权威大模型盲测平台 LMArena(Code Aren
📅 2026-04-03 10:23 (04-03 10:23) 量子位的朋友们 人工智能 2 分鐘 ★ 87
Qwen 3.6 LMArena AI 编程 大模型榜单
2026 年 3 月竞技场更新回顾
📌 一句话摘要 包含 2026 年 3 月 LMArena 更新总结的博客文章链接。 📝 详细摘要 这条推文分享了一篇详细的博客文章链接,涵盖了 2026 年 3 月 LMArena 的更新,包括产品变更、排行榜排名和研究见解。 📊 文章信息 AI 评分:78 来源:lmarena.ai(@l
📅 2026-04-02 01:35 (04-02 01:35) Arena.ai 人工智能 1 分鐘 ★ 78
LMArena 博客 2026 年 3 月
LMArena 2026 年 4 月月度回顾
📌 一句话摘要 LMArena 发布了四月月度更新,重点介绍了文档、视频、文本和代码竞技场中的变化。 📝 详细摘要 LMArena 发布了四月月度回顾,总结了排行榜的关键变动、新增的竞技场以及产品更新。此次更新强调了这些变化均基于真实世界的评估数据。 📊 文章信息 AI 评分:82 来源:lm
📅 2026-04-02 01:35 (04-02 01:35) Arena.ai 人工智能 1 分鐘 ★ 82
LMArena 月度更新 AI 基准测试
GLM-5V-Turbo 加入视觉竞技场
📌 一句话摘要 LMArena 宣布将 GLM-5V-Turbo 添加到视觉竞技场,供社区测试和评估。 📝 详细摘要 LMArena 已将 GLM-5V-Turbo 模型添加到其视觉竞技场中。邀请用户使用真实提示词测试该模型的多模态推理能力,并通过投票为排行榜排名做出贡献。 📊 文章信息 AI
📅 2026-04-02 01:51 (04-02 01:51) Arena.ai 人工智能 1 分鐘 ★ 85
GLM-5V-Turbo 视觉竞技场 LMArena 多模态
访问视觉竞技场排行榜
📌 一句话摘要 提供视觉竞技场排行榜的直接链接,以查看当前模型排名。 📝 详细摘要 这条推文提供了视觉竞技场排行榜的直接链接,允许用户查看当前模型的性能排名,包括新加入的 GLM-5V-Turbo。 📊 文章信息 AI 评分:76 来源:lmarena.ai(@lmarena_ai) 作者:A
📅 2026-04-02 01:51 (04-02 01:51) Arena.ai 人工智能 1 分鐘 ★ 76
LMArena 视觉竞技场 排行榜
在 LMArena 上测试 GLM-5V-Turbo
📌 一句话摘要 呼吁用户在 LMArena 平台上测试新加入的 GLM-5V-Turbo 模型。 📝 详细摘要 这条推文鼓励用户访问 LMArena 平台,通过上传图像文件来测试 GLM-5V-Turbo 模型,并评估其在特定用例中的推理能力。 📊 文章信息 AI 评分:78 来源:lmare
📅 2026-04-02 01:51 (04-02 01:51) Arena.ai 人工智能 1 分鐘 ★ 78
GLM-5V-Turbo LMArena 视觉竞技场
GPT-5.4 模型变体及缩放行为分析
📌 一句话摘要 LMArena 分析证实,GPT-5.4 的各变体(Regular、Mini、Nano)表现为同一模型的不同缩放版本,这验证了定价差异反映的是效率优化,而非能力上的根本差距。 📝 详细摘要 这项基于 Text Arena 真实使用场景对 OpenAI GPT-5.4 系列的分析得
📅 2026-03-28 06:13 (03-28 06:13) Arena.ai 人工智能 1 分鐘 ★ 83
GPT-5.4 OpenAI AI 基准测试 LMArena
GPT-5.4 在 Chatbot Arena 上的性能与价格分析
📌 一句话摘要 LMArena 提供了新款 GPT-5.4-Mini-High 和 Nano 模型的性能与价格解析。 📝 详细摘要 这条推文分析了 Chatbot Arena 中新发布的 GPT-5.4 变体,特别是 Mini-High 和 Nano 模型。它重点介绍了这些模型在商业、多轮对话和
📅 2026-03-28 00:13 (03-28 00:13) Arena.ai 人工智能 1 分鐘 ★ 86
GPT-5.4 LMArena AI 基准测试 LLM 定价
在排行榜上探索 GPT-5.4 变体
📌 一句话摘要 一个用于在 LMArena 排行榜上筛选和探索特定 GPT-5.4 模型变体的后续链接。 📝 详细摘要 这条推文作为导航辅助,引导用户前往 LMArena 排行榜,根据特定的应用场景来筛选和分析各种 GPT-5.4 模型变体的表现。 📊 文章信息 AI 评分:78 来源:lma
📅 2026-03-28 00:13 (03-28 00:13) Arena.ai 人工智能 1 分鐘 ★ 78
LMArena 排行榜 GPT-5.4
详细的排行榜筛选
📌 一句话摘要 一个用于按特定应用场景筛选排行榜的后续链接。 📝 详细摘要 这条推文提供了前往 LMArena 排行榜的直接链接,允许用户根据其特定的应用场景需求来筛选和排序模型排名。 📊 文章信息 AI 评分:77 来源:lmarena.ai(@lmarena_ai) 作者:Arena.ai
📅 2026-03-28 01:34 (03-28 01:34) Arena.ai 人工智能 1 分鐘 ★ 77
LMArena 排行榜 AI 基准测试
开源模型与闭源模型之间差距的演变
📌 一句话摘要 LMArena 分析了 3 年的数据,表明开源模型与闭源模型之间的性能差距已稳定在 50-60 分左右。 📝 详细摘要 该分析考察了过去三年开源模型与闭源模型之间的竞争格局。它揭示了尽管 2024 年底性能差距显著缩小,但此后已稳定在约 50-60 分,目前闭源模型在排名前 20
📅 2026-03-28 01:34 (03-28 01:34) Arena.ai 人工智能 1 分鐘 ★ 89
开源 AI 闭源模型 AI 趋势 LMArena
详解 Arena 排行榜中的“风格控制”功能
📌 一句话摘要 LMArena 在排行榜中引入了“风格控制”功能,允许用户从人类偏好数据中过滤掉回复长度和语气等偏差因素。 📝 详细摘要 该推文解释了 Arena 排行榜上的“风格控制”功能。通过允许用户切换此控制选项,LMArena 旨在减轻回复长度、语气和格式等表面因素对人类偏好投票的影响,
📅 2026-03-26 03:49 (03-26 03:49) Arena.ai 人工智能 1 分鐘 ★ 82
LMArena AI 基准测试 模型评估 风格控制