← 回總覽

MiroThinker-1.7 & H1 发布:验证优先的“重型求解器”AI 模型

📅 2026-03-17 20:51 meng shao 人工智能 2 分鐘 2124 字 評分: 92
MiroThinker MiroThinker-H1 AI模型 重型求解器 验证优先
📌 一句话摘要 MiroMind AI 发布新一代模型 MiroThinker-1.7 系列及 MiroThinker-H1,采用“重型求解器”理念和验证优先架构,在 F1 赛事预测、金价预测及多项基准测试中刷新 SOTA。 📝 详细摘要 MiroMind AI 正式推出其新一代大模型 MiroThinker-1.7 和 MiroThinker-H1,核心定位为“重型求解器”(Heavy-Duty Solver)。该系列模型摒弃了传统通过强化学习延长 CoT 时间的方法,转而强调“验证优先”的架构,即在推理过程中放慢响应速度,以换取更深的推理深度和结果的可验证性。推文详细介绍了其在 F1

Title: MiroThinker-1.7 & H1 发布:验证优先的“重型求解器”AI 模型 | BestBlogs.dev

URL Source: https://www.bestblogs.dev/status/2033889025585778829

Published Time: 2026-03-17 12:51:46

Markdown Content: MiroThinker-1.7 & H1 技术解析:F1 赛事全中、金价误差 0.08% 的验证优先架构 核心定位:重型求解器 @miromind_ai 发布新一代模型 MiroThinker-1.7 系列及 MiroThinker-H1,核心理念是"重型求解器"(Heavy-Duty Solver)——放慢响应速度,换取推理深度与结果可验证性。

行业普遍通过强化学习延长 CoT 时间以提升性能,MiroThinker 选择不同路径:不止延长思考时间,更强调每一步的可验证性与有效交互。

-- 实测表现 --

F1 上海站正赛预测(三重验证测试)

开赛前 2 小时、比赛中 1 小时、最后 30 分钟三个节点要求模型预测排名:

· 开赛前:建立完整信息搜索路径(比赛策略→车队实力→规则变化→天气状况)

· 比赛中:动态抓取实时信息,关注退赛情况,逐步微调预测

· 最后 30 分钟:与真实结果完全一致

同期测试 ChatGPT、Gemini、DeepSeek,MiroThinker 是唯一关注实时天气状况的模型,推理完整度显著领先,并支持一键生成网页报告。

黄金价格预测

2 月 10 日预测 2 月 25 日金价$5,185/oz,实际 Fortune$5,181 / 150 Currency$5,185.89,误差仅 0.08%($4)。

基准测试成绩

MiroThinker-H1 刷新 SOTA:BrowseComp 88.2%、BrowseComp-ZH 84.4%、GAIA-Val-165 88.5%、HLE-Text 47.7%,超越 Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus 等顶尖闭源模型。

开源版本覆盖差异化需求:MiroThinker-1.7 (235B) 性能与效率平衡,MiroThinker-1.7-mini (30B) 小尺寸高效方案。

-- 技术架构:两大核心升级 --

  • 智能体原生训练升级
问题洞察:若单步决策质量不高,更多轮交互只会放大低质量决策。

引入 Mid-Training(中期训练)阶段,在预训练→ SFT→ RL 流程中新增核心训练:

· 合成大规模高质量任务数据

· 重点训练规划、推理、总结能力

· 扩展任务领域多样性

训练效果:规划更可靠、推理更准确、长程不走偏。再通过 SFT、DPO、RL 内化能力,实现长时任务稳定推理。

  • 验证中心型重型推理模式
核心信念:推理可靠性取决于系统审视自身推理过程的能力。

双重验证机制:

· 局部验证:每一步自我审查,打破概率偏置,找到概率较低但正确的路径

· 全局验证:回溯整条数据链,确保答案推理严密而非仅语义流畅

反直觉发现:引入验证后,交互步骤数量反而减少。验证器充当过滤器,筛除无信息增益的步骤,将算力集中分配到真正推动求解的环节。总步数减少,但每一步推理质量更高。

产品体验

· Pro 模式:更大模型尺寸、更深入推理

· 多模态输入:支持文件上传和语音输入

· 报告生成:一键生成网页报告

· 移动端:MiroMind App 已上线

开源框架 MiroFlow 提供灵活配置,支持 SGLang/vLLM 部署及 llama.cpp/Ollama 量化方案。

核心团队

核心团队包括创始人陈天桥、COO 邴立东博士(新加坡团队牵头人),以及 2026 年 3 月新加入的三位世界级 AI 科学家(杜少雷、安波、杨凯峪),均长期从事大模型推理决策研究。

核心理念:有效交互的 Scaling Law

Scaling 交互次数 ≠ Scaling 有效交互

"快思考"模式在简单任务表现尚可,但中间步骤出错会像滚雪球一样累积。MiroThinker 选择"慢"推理——行动前暂停、验证、权衡,推得深、推得对。只要踏实做好有效交互,"慢"反而成为 LLM 走向真实物理世界更扎实的一步。

在线体验 dr.miromind.ai

GitHub github.com/MiroMindAI/Mir…

HuggingFacehuggingface.co/collections/mi…

查看原文 → 發佈: 2026-03-17 20:51:46 收錄: 2026-03-18 00:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。