全部 未讀 (21615) ★ 收藏 (0) 🤖 人工智能 (11168) 📊 商业科技 (4461) 💻 软件编程 (1685) 📁 个人成长 (1605) 📁 生活文化 (857) 📁 媒体资讯 (827) 📁 投资财经 (529) 🎨 产品设计 (408) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 视觉语言模型 共 13 篇 ✕ 清除篩選
21617
全部文章
21615
未讀
204
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-08 20:00)
BestBlogs 精選 (21582)

🏷️ 熱門標籤

AI Agent 2157 AI 编程 985 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 674 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 398 具身智能 334 Agent 334 个人成长 331 GitHub 321 生产力 315
ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制
📌 一句话摘要 本文介绍了首个面向视觉语言模型的并行思考框架 Visual Para-Thinker,通过以视觉为中心的路径划分和创新的注意力与位置编码机制,有效缓解了长序列推理中的注意力漂移和视觉幻觉问题。 📝 详细摘要 本文详细介绍了 Visual Para-Thinker,这是首个针对大规
📅 2026-05-24 15:00 (15 天前) 机器之心 人工智能 2 分鐘 ★ 88
并行思考 视觉语言模型 注意力机制 位置编码
ACL 2026|多模态大模型是“看错”还是“想错”?浙大 VL-Calibration 让模型学会校准自信
📌 一句话摘要 浙江大学团队提出 VL-Calibration 框架,通过强化学习将多模态大模型的置信度解耦为视觉置信度和推理置信度,有效解决了模型“盲目自信”的问题,并被 ACL 2026 接收。 📝 详细摘要 本文介绍了浙江大学研究团队提出的 VL-Calibration 框架,旨在解决大型
📅 2026-05-20 00:00 (19 天前) 青稞AI 人工智能 2 分鐘 ★ 86
多模态大模型 置信度校准 强化学习 视觉语言模型
今日开源(2026-5-15):Motif-Video 正式开源,20 亿参数文生视频/图生视频扩散 Transformer 模型,VBench 开源模型最高分 83.76%
📌 一句话摘要 本文汇总了 2026 年 5 月 15 日 7 个值得关注的开源项目,重点介绍了 20 亿参数文生视频模型 Motif-Video、高表现力 TTS 项目 Dramabox 等。 📝 详细摘要 本文是「机器之心 SOTA 模型」公众号发布的一期开源项目日报,汇总了 2026 年
📅 2026-05-15 18:30 (24 天前) 机器之心SOTA模型 人工智能 2 分鐘 ★ 80
开源项目 文生视频 Motif-Video 文本转语音
今日开源(2026-4-27):谷歌开源 TIPSv2 模型,对比学习框架驱动图像文本特征对齐,覆盖零样本分类应用场景
📌 一句话摘要 本文汇总了 2026 年 4 月 27 日的 6 个开源项目,涵盖视觉语言模型、智能体诊断系统、技能编译框架、医学视频理解、多语言扩展和推理优化等方向。 📝 详细摘要 文章以信息简报形式介绍了 6 个最新开源项目。TIPSv2 是谷歌开源的对比式视觉语言模型,支持零样本分类和空间
📅 2026-04-27 18:30 (04-27 18:30) 机器之心SOTA模型 人工智能 2 分鐘 ★ 82
开源项目 视觉语言模型 智能体诊断 技能编译
Mano-P:纯视觉 GUI-VLA 智能体,一句话操控桌面软件
📌 一句话摘要 本文介绍了明略科技开源的 Mano-P 项目,这是一个基于纯视觉理解的 GUI-VLA 智能体模型,能够通过自然语言指令操控电脑上的任何桌面软件,并支持本地运行以保障数据隐私。 📝 详细摘要 文章重点推介了 GitHub 上新开源的 Mano-P 项目,该项目旨在解决桌面软件自动
📅 2026-04-17 11:49 (04-17 11:49) 逛逛GitHub 人工智能 2 分鐘 ★ 84
Mano-P GUI Agent 视觉语言模型 桌面自动化
团队赢得最佳边缘 AI 奖:火星探索 VLM 多探测车系统
📌 一句话摘要 介绍了一个在 YC 黑客松获奖的团队,他们开发了用于火星探索的本地视觉语言模型多探测车协同系统。 📝 详细摘要 这条中文推文报道了 Lucas 的团队在 Y Combinator 和 Innate 联合举办的黑客松中荣获“最佳边缘 AI”奖的消息。他们的获奖项目是一个面向火星探索
📅 2026-04-16 16:19 (04-16 16:19) AI Will 人工智能 1 分鐘 ★ 84
边缘 AI 视觉语言模型 VLM 多智能体
LFM2.5-VL 多语言视觉模型上线,函数调用与 9 语支持拓宽通用视觉任务边界
📌 一句话摘要 本文汇总了 2026 年 4 月 14 日发布的 6 个开源 AI 项目,涵盖多语言视觉模型、跨模态统一模型、工业代码模型、AI Agent 安全平台、长期记忆工具集和机器人评估范式。 📝 详细摘要 文章以「今日开源」的形式,集中介绍了 6 个新近发布的开源 AI 项目。内容分为
📅 2026-04-14 18:30 (04-14 18:30) 机器之心SOTA模型 人工智能 1 分鐘 ★ 78
开源项目 AI 模型 AI Agent 视觉语言模型
ICLR 2026 | 机器人不够聪明?VLMgineer 让大模型自己「发明工具」,从设计到使用全自动
📌 一句话摘要 宾夕法尼亚大学研究团队提出 VLMgineer 框架,利用视觉语言模型(VLM)和进化搜索实现机器人工具设计与操作动作的全自动协同优化。 📝 详细摘要 本文详细介绍了被 ICLR 2026 接收的研究成果 VLMgineer。该框架旨在解决机器人因硬件限制难以完成复杂任务的问题,
📅 2026-03-20 13:00 (03-20 13:00) 机器之心 人工智能 2 分鐘 ★ 84
机器人学 视觉语言模型 VLMgineer 具身智能
Feynman:应对 VLM 挑战的知识注入式图表智能体
📌 一句话摘要 Feynman 是一款新型的知识注入式图表智能体,旨在通过规划视觉表示并将其转化为声明式程序,克服当前视觉语言模型 (VLM) 在处理简单图表方面的难题。 📝 详细摘要 这条推文介绍了“Feynman”,一款旨在解决当前视觉语言模型在理解和生成简单图表方面局限性的新型 AI 智能
📅 2026-03-17 22:39 (03-17 22:39) elvis 人工智能 3 分鐘 ★ 85
AI 智能体 视觉语言模型 图表绘制 Feynman
NanoVDR:将 2B 视觉语言模型蒸馏为 70M 纯文本编码器
📌 一句话摘要 NanoVDR 引入了一种新方法,将 2B 参数的视觉语言检索模型蒸馏为高效的 70M 纯文本编码器,用于视觉文档检索。 📝 详细摘要 这条推文重点介绍了一篇名为“NanoVDR”的研究论文。其核心贡献在于一种知识蒸馏技术,能够将拥有 2B 参数的大型视觉语言模型(VLM)压缩为
📅 2026-03-17 00:00 (03-17 00:00) AK 人工智能 1 分鐘 ★ 84
NanoVDR 知识蒸馏 视觉语言模型 文档检索
CVPR'26 | 以机器人为中心的 ToM 推理框架,从心智推理到决策行动
📌 一句话摘要 吉林大学与微软亚洲研究院等提出 MindPower 框架,通过六层心智推理链条和 Mind-Reward 强化学习优化,显著提升机器人理解人类意图并主动协作的能力。 📝 详细摘要 本文详细介绍了入选 CVPR 2026 的 MindPower 框架,旨在解决当前视觉语言模型(VL
📅 2026-03-15 12:28 (03-15 12:28) 新智元 人工智能 9 分鐘 ★ 86
心智理论 (ToM) 具身智能 视觉语言模型 (VLM) BDI 模型
视觉语言模型如何从“零”开始训练
📌 一句话摘要 这篇技术指南解释了视觉语言模型 (VLM) 的架构和训练过程,重点介绍了如何通过 Q-Former 适配器将冻结的视觉骨干网络与 LLM 集成。 📝 详细摘要 本文详细解读了现代视觉语言模型 (VLM) 如何采用模块化方法构建,而非从零开始训练。它将架构分解为三个核心组件:用于特
📅 2026-03-14 00:30 (03-14 00:30) Avishek Biswas 人工智能 2 分鐘 ★ 83
视觉语言模型 多模态学习 Q-Former Vision Transformer
MM-Zero:零数据下的自进化多模态视觉语言模型
📌 一句话摘要 MM-Zero 提出了一种无需外部数据即可让视觉语言模型实现自进化的新方法。 📝 详细摘要 这篇研究论文介绍了 MM-Zero,这是一个允许视觉语言模型在零数据基础上实现自进化的框架。该研究聚焦于多模态架构中的自主学习与数据效率,旨在解决训练数据匮乏这一核心挑战。 📊 文章信息
📅 2026-03-12 01:24 (03-12 01:24) AK 人工智能 3 分鐘 ★ 84
MM-Zero 视觉语言模型 零数据学习 AI 研究