Title: MiroThinker-1.7 & H1 发布:验证优先的“重型求解器”AI 模型 | BestBlogs.dev
URL Source: https://www.bestblogs.dev/status/2033889025585778829
Published Time: 2026-03-17 12:51:46
Markdown Content: MiroThinker-1.7 & H1 技术解析:F1 赛事全中、金价误差 0.08% 的验证优先架构 核心定位:重型求解器 @miromind_ai 发布新一代模型 MiroThinker-1.7 系列及 MiroThinker-H1,核心理念是"重型求解器"(Heavy-Duty Solver)——放慢响应速度,换取推理深度与结果可验证性。
行业普遍通过强化学习延长 CoT 时间以提升性能,MiroThinker 选择不同路径:不止延长思考时间,更强调每一步的可验证性与有效交互。
-- 实测表现 --
F1 上海站正赛预测(三重验证测试)
开赛前 2 小时、比赛中 1 小时、最后 30 分钟三个节点要求模型预测排名:
· 开赛前:建立完整信息搜索路径(比赛策略→车队实力→规则变化→天气状况)
· 比赛中:动态抓取实时信息,关注退赛情况,逐步微调预测
· 最后 30 分钟:与真实结果完全一致
同期测试 ChatGPT、Gemini、DeepSeek,MiroThinker 是唯一关注实时天气状况的模型,推理完整度显著领先,并支持一键生成网页报告。
黄金价格预测
2 月 10 日预测 2 月 25 日金价$5,185/oz,实际 Fortune$5,181 / 150 Currency$5,185.89,误差仅 0.08%($4)。
基准测试成绩
MiroThinker-H1 刷新 SOTA:BrowseComp 88.2%、BrowseComp-ZH 84.4%、GAIA-Val-165 88.5%、HLE-Text 47.7%,超越 Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus 等顶尖闭源模型。
开源版本覆盖差异化需求:MiroThinker-1.7 (235B) 性能与效率平衡,MiroThinker-1.7-mini (30B) 小尺寸高效方案。
-- 技术架构:两大核心升级 --
- 智能体原生训练升级
引入 Mid-Training(中期训练)阶段,在预训练→ SFT→ RL 流程中新增核心训练:
· 合成大规模高质量任务数据
· 重点训练规划、推理、总结能力
· 扩展任务领域多样性
训练效果:规划更可靠、推理更准确、长程不走偏。再通过 SFT、DPO、RL 内化能力,实现长时任务稳定推理。
- 验证中心型重型推理模式
双重验证机制:
· 局部验证:每一步自我审查,打破概率偏置,找到概率较低但正确的路径
· 全局验证:回溯整条数据链,确保答案推理严密而非仅语义流畅
反直觉发现:引入验证后,交互步骤数量反而减少。验证器充当过滤器,筛除无信息增益的步骤,将算力集中分配到真正推动求解的环节。总步数减少,但每一步推理质量更高。
产品体验
· Pro 模式:更大模型尺寸、更深入推理
· 多模态输入:支持文件上传和语音输入
· 报告生成:一键生成网页报告
· 移动端:MiroMind App 已上线
开源框架 MiroFlow 提供灵活配置,支持 SGLang/vLLM 部署及 llama.cpp/Ollama 量化方案。
核心团队
核心团队包括创始人陈天桥、COO 邴立东博士(新加坡团队牵头人),以及 2026 年 3 月新加入的三位世界级 AI 科学家(杜少雷、安波、杨凯峪),均长期从事大模型推理决策研究。
核心理念:有效交互的 Scaling Law
Scaling 交互次数 ≠ Scaling 有效交互
"快思考"模式在简单任务表现尚可,但中间步骤出错会像滚雪球一样累积。MiroThinker 选择"慢"推理——行动前暂停、验证、权衡,推得深、推得对。只要踏实做好有效交互,"慢"反而成为 LLM 走向真实物理世界更扎实的一步。
在线体验 dr.miromind.ai
GitHub github.com/MiroMindAI/Mir…
HuggingFacehuggingface.co/collections/mi…