全部 未讀 (11821) ★ 收藏 (0) 🤖 人工智能 (7594) 📊 商业科技 (1791) 💻 软件编程 (1198) 📁 个人成长 (736) 🎨 产品设计 (209) 📁 生活文化 (109) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 多模态 LLM 共 5 篇 ✕ 清除篩選
11823
全部文章
11821
未讀
140
今日新增
0
收藏
📡 Poller 最後抓取: 37 分鐘前 (04-16 14:00)
BestBlogs 精選 (11804)

🏷️ 熱門標籤

AI Agent 1324 AI 智能体 734 Claude Code 645 Anthropic 622 LLM 563 AI 编程 501 OpenClaw 498 开源 439 AI 安全 396 AI 396 Claude 384 OpenAI 362 软件工程 354 开发者工具 343 生产力 308 GitHub 251 自动化 238 AI 基础设施 227 AI 开发 225 MCP 223
Deep Agents v0.5
📌 一句话摘要 LangChain 的 Deep Agents v0.5 引入了用于处理长时间运行任务的非阻塞异步子智能体,并扩展了多模态支持,涵盖了 PDF、音频和视频。 📝 详细摘要 Deep Agents v0.5 版本专注于通过异步执行和更广泛的多模态能力来增强智能体工作流。主要更新是引
📅 2026-04-08 01:09 (8 天前) Chester Curme 人工智能 1 分鐘 ★ 91
LangChain AI 智能体 异步编程 多模态 LLM
[AI 新闻] Gemma 4:最强小型多模态开源模型,在各方面均大幅超越 Gemma 3
📌 一句话摘要 Google DeepMind 发布了 Gemma 4,这是一系列采用 Apache 2.0 许可的多模态开放权重模型,具备原生音频/视频支持,并采用了高度优化的非标准 Transformer 架构。 📝 详细摘要 本期 AINews 聚焦于 Google 迄今为止最重要的开源模
📅 2026-04-03 15:02 (12 天前) Latent.Space 人工智能 2 分鐘 ★ 92
Gemma 4 Google DeepMind 开源 AI 多模态 LLM
当前前沿模型中视觉理解的“海市蜃楼”
📌 一句话摘要 本文重点介绍了斯坦福大学的一项研究,该研究揭示了前沿 AI 模型经常表现出“海市蜃楼式推理”(mirage reasoning),即在没有图像输入的情况下也能生成详细的视觉分析,这引发了对其是否具备真正视觉理解能力的质疑。 📝 详细摘要 Gary Marcus 讨论了斯坦福大学最
📅 2026-03-29 22:32 (17 天前) Gary Marcus 人工智能 9 分鐘 ★ 82
视觉理解 多模态 LLM 海市蜃楼式推理 AI 基准测试
智谱 AI 推出 GLM-OCR:一个 0.9B 多模态 OCR 模型,用于文档解析和关键信息提取 (KIE)
📌 一句话摘要 智谱 AI 和清华大学推出了 GLM-OCR,这是一个 0.9B 多模态模型,通过多令牌预测和两阶段布局感知流水线优化了文档解析和信息提取。 📝 详细摘要 GLM-OCR 是一个紧凑的 0.9B 参数多模态模型,旨在解决传统大规模 OCR 系统相关的高计算成本和延迟问题。该模型由
📅 2026-03-15 16:08 (03-15 16:08) Asif Razzaq 人工智能 7 分鐘 ★ 83
OCR 多模态 LLM 文档解析 多令牌预测
深入理解智能 OCR 及 LlamaParse 的实现
📌 一句话摘要 LlamaIndex 推出“智能 OCR”,这是一种基于推理的文档解析方法,它利用多模态模型和自我校正循环,无需模板即可实现高精度。 📝 详细摘要 这条推文阐释了“智能 OCR”的概念,将其定义为从简单的文本提取转向目标导向的文档推理。其核心技术亮点包括:利用多模态 LLM 理解
📅 2026-03-13 03:03 (03-13 03:03) LlamaIndex 🦙 人工智能 1 分鐘 ★ 82
智能 OCR LlamaIndex LlamaParse 多模态 LLM