全部 未讀 (11821) ★ 收藏 (0) 🤖 人工智能 (7594) 📊 商业科技 (1791) 💻 软件编程 (1198) 📁 个人成长 (736) 🎨 产品设计 (209) 📁 生活文化 (109) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ VLM 共 17 篇 ✕ 清除篩選
11823
全部文章
11821
未讀
140
今日新增
0
收藏
📡 Poller 最後抓取: 3 分鐘前 (04-16 14:00)
BestBlogs 精選 (11804)

🏷️ 熱門標籤

AI Agent 1324 AI 智能体 734 Claude Code 645 Anthropic 622 LLM 563 AI 编程 501 OpenClaw 498 开源 439 AI 安全 396 AI 396 Claude 384 OpenAI 362 软件工程 354 开发者工具 343 生产力 308 GitHub 251 自动化 238 AI 基础设施 227 AI 开发 225 MCP 223
一款好的 AI Native 硬件,硬件只是脚手架,真正壁垒一定是 Agent
📌 一句话摘要 本文通过采访儿童 AI 硬件公司奇朵创始人黄勇,深入探讨了 AI Native 硬件的新范式,即硬件应为智能体(Agent)服务,并分享了其基于建构主义教育理念、打造可信任知识底座以及处理 Token 成本与供应链关系的实践经验。 📝 详细摘要 文章是对儿童 AI 硬件公司奇朵创
📅 2026-04-13 20:16 (2 天前) Founder Park 人工智能 12 分鐘 ★ 88
AI Native 硬件 AI Agent 儿童教育 VLM
LlamaParse 对标前沿 VLM:解决复杂文档理解难题
📌 一句话摘要 Jerry Liu 探讨了为何像 GPT-5.4 和 Gemini 3.1 Pro 这样的前沿模型在处理密集文档 OCR 时仍显吃力,以及 LlamaParse 如何解决这些失效模式。 📝 详细摘要 这条推文对使用原生前沿视觉语言模型(VLMs)进行 OCR 和文档理解进行了技术
📅 2026-04-11 00:42 (5 天前) Jerry Liu 人工智能 1 分鐘 ★ 86
LlamaParse OCR VLM 文档理解
VLM 驱动的 OCR 在生产环境中的常见失效模式
📌 一句话摘要 Jerry Liu 指出了在生产环境中使用 VLM 进行 DIY 文档解析时的两个关键边缘案例——重复循环和安全过滤器拦截。 📝 详细摘要 这条推文分析了在大规模文档解析中使用视觉语言模型(VLM)的技术挑战。他识别了两种主要的失效模式:1) 重复和空白错误,即 LLM 输出无限
📅 2026-04-09 02:46 (7 天前) Jerry Liu 人工智能 1 分鐘 ★ 86
VLM OCR 文档解析 LlamaIndex
LiteParse vs. LlamaParse:为 AI 搜索选择合适的工具
📌 一句话摘要 Jerry Liu 明确了 LiteParse(快速文本搜索)和 LlamaParse(深度 VLM 驱动搜索)的应用场景。 📝 详细摘要 在这条跟进推文中,Jerry Liu 对 LlamaIndex 的解析工具进行了简要对比。LiteParse 被推荐用于高速文本搜索,而 L
📅 2026-04-08 07:54 (8 天前) Jerry Liu 人工智能 1 分鐘 ★ 81
LiteParse LlamaParse LlamaIndex 文档解析
拍照即交互、专为 Z 世代打造,Chance AI 做了世界首款视觉 Agent 产品
📌 一句话摘要 Chance AI 是一款专为 Z 世代打造的视觉 Agent 产品,通过模拟人类认知科学的「Harness Engineering」架构,实现「拍照即交互」的直觉化体验,旨在成为下一代 AI 终端的视觉操作系统。 📝 详细摘要 本文是 Founder Park 对 Chance
📅 2026-04-03 17:37 (12 天前) Founder Park 人工智能 2 分鐘 ★ 89
Visual Agent VLM Z 世代 认知科学
Qwen3.6-Plus VLM 性能(引用)
📌 一句话摘要 重申 Qwen3.6-Plus 的 VLM 性能指标。 📝 详细摘要 一条引用推文,分享了 Qwen3.6-Plus 的 VLM 性能指标,强化了主推文中宣布的多模态能力。 📊 文章信息 AI 评分:78 来源:Qwen(@Alibaba_Qwen) 作者:Qwen 分类:人工
📅 2026-04-02 22:19 (13 天前) Qwen 人工智能 1 分鐘 ★ 78
Qwen3.6-Plus VLM 多模态
Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能
📌 一句话摘要 IBM 发布了 Granite 4.0 3B Vision,这是一款紧凑、模块化的视觉语言模型,通过创新的 DeepStack 架构和 ChartNet 数据集,针对表格提取和图表理解等企业文档任务进行了优化。 📝 详细摘要 IBM 推出了 Granite 4.0 3B Visi
📅 2026-03-31 23:10 (15 天前) Madison Lee, Rogerio Feris, Eli Schwartz, Dhiraj Joshi, Pengyuan Li, Isaac Sanchez 人工智能 2 分鐘 ★ 91
VLM IBM Granite 文档理解 表格提取
NVIDIA 在 2026 年 ISC West 大会上展示 VLM 与 AI 智能体解决方案
📌 一句话摘要 NVIDIA 在 2026 年 ISC West 大会上演示了如何利用视觉语言模型和 AI 智能体进行实时视频流分析。 📝 详细摘要 在 2026 年 ISC West 大会上,NVIDIA 展示了视觉语言模型 (VLM) 和 AI 智能体如何将视频流转化为可落地的实时洞察,突显
📅 2026-03-27 02:01 (20 天前) NVIDIA AI 人工智能 1 分鐘 ★ 74
NVIDIA ISC West VLM AI 智能体
针对复杂文档的 VLM 任务,选择 LlamaParse
📌 一句话摘要 Jerry Liu 建议对于需要视觉语言模型 (VLM) 理解能力的复杂文档,应使用 LlamaParse。 📝 详细摘要 作为对 LiteParse 公告的补充,这条推文引导有更复杂文档需求的用户使用 LlamaParse,它更适合基于 VLM 的理解任务。 📊 文章信息 A
📅 2026-03-27 02:28 (20 天前) Jerry Liu 人工智能 1 分鐘 ★ 78
LlamaParse VLM 文档 AI LlamaIndex
微软研究院推出 GroundedPlanBench,助力 VLM 空间推理
📌 一句话摘要 微软研究院推出 GroundedPlanBench,这是一项用于评估视觉语言模型(VLM)动作规划与空间定位能力的新基准,并结合 V2GP 方法,旨在提升机器人行为的可靠性。 📝 详细摘要 微软研究院揭晓了 GroundedPlanBench,这是一项旨在评估视觉语言模型(VLM
📅 2026-03-27 00:04 (20 天前) Microsoft Research 人工智能 1 分鐘 ★ 80
VLM 机器人技术 GroundedPlanBench 空间定位
VLM 的“苦涩教训”:规模化与编排之争
📌 一句话摘要 swyx 对 AI 领域的“苦涩教训”进行了反思,指出由多个小型专用模型组成的复杂流水线,最终败给了一个强大的 VLM。 📝 详细摘要 这条推文评论了 Hacker News 上关于一个复杂的收据数据处理流水线的故事。swyx 将其作为一个案例研究,阐释了 AI 领域的“苦涩教训
📅 2026-03-23 09:42 (24 天前) swyx 人工智能 1 分鐘 ★ 82
苦涩的教训 VLM AI 架构 Claude
ICLR 2026 | 机器人不够聪明?VLMgineer 让大模型自己「发明工具」,从设计到使用全自动
📌 一句话摘要 宾夕法尼亚大学研究团队提出 VLMgineer 框架,利用视觉语言模型(VLM)和进化搜索实现机器人工具设计与操作动作的全自动协同优化。 📝 详细摘要 本文详细介绍了被 ICLR 2026 接收的研究成果 VLMgineer。该框架旨在解决机器人因硬件限制难以完成复杂任务的问题,
📅 2026-03-20 13:00 (27 天前) 机器之心 人工智能 2 分鐘 ★ 84
机器人学 视觉语言模型 VLMgineer 具身智能
MolmoPoint:提升 VLM 的指向能力
📌 一句话摘要 介绍 MolmoPoint,这是一种利用锚定标记(Grounding Tokens)来提升视觉语言模型(VLM)指向能力的新方法。 📝 详细摘要 这条推文宣布了 MolmoPoint 的发布,这是一个专注于通过使用锚定标记来提高视觉语言模型(VLM)指向准确性的研究项目。推文提供
📅 2026-03-19 11:19 (28 天前) AK 人工智能 1 分鐘 ★ 82
MolmoPoint VLM 计算机视觉 锚定标记
MolmoPoint:改进的 VLM 锚定与指向能力
📌 一句话摘要 发布 MolmoPoint,这是一种利用锚定标记增强 VLM 的方法,并附带论文、模型和演示应用。 📝 详细摘要 这是关于 MolmoPoint 的综合公告,它利用锚定标记显著提高了视觉语言模型(VLM)的指向能力。推文提供了完整的资源包,包括研究论文、模型权重和功能性演示应用,
📅 2026-03-19 11:25 (28 天前) AK 人工智能 3 分鐘 ★ 88
MolmoPoint VLM AI 演示 计算机视觉
CVPR'26 | 以机器人为中心的 ToM 推理框架,从心智推理到决策行动
📌 一句话摘要 吉林大学与微软亚洲研究院等提出 MindPower 框架,通过六层心智推理链条和 Mind-Reward 强化学习优化,显著提升机器人理解人类意图并主动协作的能力。 📝 详细摘要 本文详细介绍了入选 CVPR 2026 的 MindPower 框架,旨在解决当前视觉语言模型(VL
📅 2026-03-15 12:28 (03-15 12:28) 新智元 人工智能 9 分鐘 ★ 86
心智理论 (ToM) 具身智能 视觉语言模型 (VLM) BDI 模型
有效思考激发多模态智能体决策潜力!清华&北大&腾讯联合提出 GTR 训练新框架
📌 一句话摘要 清华、北大与腾讯联合提出 GTR 框架,通过自动化修正器实时引导多模态智能体的思维过程,有效解决了强化学习中的“思维崩塌”问题并显著提升决策成功率。 📝 详细摘要 本文介绍了针对多模态大模型(VLM)智能体训练的新型强化学习框架——思维引导的强化学习(GTR)。研究团队发现,在交
📅 2026-03-13 11:57 (03-13 11:57) 机器之心 人工智能 5 分鐘 ★ 88
VLM 强化学习 思维链 (CoT) 智能体 (Agent)
Sakana AI 获得日本防卫省重大国防研究合同
📌 一句话摘要 Sakana AI 宣布与日本防卫省建立多年期合作关系,将利用自主智能体和基于边缘的视觉模型,开发 AI 驱动的指挥与控制系统。 📝 详细摘要 Sakana AI 已获得日本防卫省下属防卫创新技术研究所授予的一份重要的多年期研究合同。该项目重点在于构建一个集成系统,利用自主 AI
📅 2026-03-13 09:03 (03-13 09:03) hardmaru 人工智能 4 分鐘 ★ 88
Sakana AI 国防 AI 日本防卫省 SVLM