MiroThinker-1.7 & H1 发布：验证优先的“重型求解器”AI 模型

Title: MiroThinker-1.7 & H1 发布：验证优先的“重型求解器”AI 模型 | BestBlogs.dev

URL Source: https://www.bestblogs.dev/status/2033889025585778829

Published Time: 2026-03-17 12:51:46

Markdown Content: MiroThinker-1.7 & H1 技术解析：F1 赛事全中、金价误差 0.08% 的验证优先架构核心定位：重型求解器 @miromind_ai 发布新一代模型 MiroThinker-1.7 系列及 MiroThinker-H1，核心理念是"重型求解器"（Heavy-Duty Solver）——放慢响应速度，换取推理深度与结果可验证性。

行业普遍通过强化学习延长 CoT 时间以提升性能，MiroThinker 选择不同路径：不止延长思考时间，更强调每一步的可验证性与有效交互。

-- 实测表现 --

F1 上海站正赛预测（三重验证测试）

开赛前 2 小时、比赛中 1 小时、最后 30 分钟三个节点要求模型预测排名：

· 开赛前：建立完整信息搜索路径（比赛策略→车队实力→规则变化→天气状况）

· 比赛中：动态抓取实时信息，关注退赛情况，逐步微调预测

· 最后 30 分钟：与真实结果完全一致

同期测试 ChatGPT、Gemini、DeepSeek，MiroThinker 是唯一关注实时天气状况的模型，推理完整度显著领先，并支持一键生成网页报告。

黄金价格预测

2 月 10 日预测 2 月 25 日金价$5,185/oz，实际 Fortune$5,181 / 150 Currency$5,185.89，误差仅 0.08%（$4）。

基准测试成绩

MiroThinker-H1 刷新 SOTA：BrowseComp 88.2%、BrowseComp-ZH 84.4%、GAIA-Val-165 88.5%、HLE-Text 47.7%，超越 Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus 等顶尖闭源模型。

开源版本覆盖差异化需求：MiroThinker-1.7 (235B) 性能与效率平衡，MiroThinker-1.7-mini (30B) 小尺寸高效方案。

-- 技术架构：两大核心升级 --

智能体原生训练升级

问题洞察：若单步决策质量不高，更多轮交互只会放大低质量决策。

引入 Mid-Training（中期训练）阶段，在预训练→ SFT→ RL 流程中新增核心训练：

· 合成大规模高质量任务数据

· 重点训练规划、推理、总结能力

· 扩展任务领域多样性

训练效果：规划更可靠、推理更准确、长程不走偏。再通过 SFT、DPO、RL 内化能力，实现长时任务稳定推理。

验证中心型重型推理模式

核心信念：推理可靠性取决于系统审视自身推理过程的能力。

双重验证机制：

· 局部验证：每一步自我审查，打破概率偏置，找到概率较低但正确的路径

· 全局验证：回溯整条数据链，确保答案推理严密而非仅语义流畅

反直觉发现：引入验证后，交互步骤数量反而减少。验证器充当过滤器，筛除无信息增益的步骤，将算力集中分配到真正推动求解的环节。总步数减少，但每一步推理质量更高。

产品体验

· Pro 模式：更大模型尺寸、更深入推理

· 多模态输入：支持文件上传和语音输入

· 报告生成：一键生成网页报告

· 移动端：MiroMind App 已上线

开源框架 MiroFlow 提供灵活配置，支持 SGLang/vLLM 部署及 llama.cpp/Ollama 量化方案。

核心团队

核心团队包括创始人陈天桥、COO 邴立东博士（新加坡团队牵头人），以及 2026 年 3 月新加入的三位世界级 AI 科学家（杜少雷、安波、杨凯峪），均长期从事大模型推理决策研究。

核心理念：有效交互的 Scaling Law

Scaling 交互次数 ≠ Scaling 有效交互

"快思考"模式在简单任务表现尚可，但中间步骤出错会像滚雪球一样累积。MiroThinker 选择"慢"推理——行动前暂停、验证、权衡，推得深、推得对。只要踏实做好有效交互，"慢"反而成为 LLM 走向真实物理世界更扎实的一步。

在线体验 dr.miromind.ai

GitHub github.com/MiroMindAI/Mir…

HuggingFacehuggingface.co/collections/mi…

MiroThinker-1.7 & H1 发布：验证优先的“重型求解器”AI 模型

🤖 問 AI