SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11821)
★ 收藏 (0)
🤖 人工智能 (7594)
📊 商业科技 (1791)
💻 软件编程 (1198)
📁 个人成长 (736)
🎨 产品设计 (209)
📁 生活文化 (109)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 多模态 LLM
共 5 篇
✕ 清除篩選
11823
全部文章
11821
未讀
140
今日新增
0
收藏
📡 Poller
最後抓取:
37 分鐘前
(04-16 14:00)
BestBlogs 精選 (11804)
🏷️ 熱門標籤
AI Agent
1324
AI 智能体
734
Claude Code
645
Anthropic
622
LLM
563
AI 编程
501
OpenClaw
498
开源
439
AI 安全
396
AI
396
Claude
384
OpenAI
362
软件工程
354
开发者工具
343
生产力
308
GitHub
251
自动化
238
AI 基础设施
227
AI 开发
225
MCP
223
●
Deep Agents v0.5
📌 一句话摘要 LangChain 的 Deep Agents v0.5 引入了用于处理长时间运行任务的非阻塞异步子智能体,并扩展了多模态支持,涵盖了 PDF、音频和视频。 📝 详细摘要 Deep Agents v0.5 版本专注于通过异步执行和更广泛的多模态能力来增强智能体工作流。主要更新是引
📅 2026-04-08 01:09
(8 天前)
Chester Curme
人工智能
1 分鐘
★ 91
LangChain
AI 智能体
异步编程
多模态 LLM
●
[AI 新闻] Gemma 4:最强小型多模态开源模型,在各方面均大幅超越 Gemma 3
📌 一句话摘要 Google DeepMind 发布了 Gemma 4,这是一系列采用 Apache 2.0 许可的多模态开放权重模型,具备原生音频/视频支持,并采用了高度优化的非标准 Transformer 架构。 📝 详细摘要 本期 AINews 聚焦于 Google 迄今为止最重要的开源模
📅 2026-04-03 15:02
(12 天前)
Latent.Space
人工智能
2 分鐘
★ 92
Gemma 4
Google DeepMind
开源 AI
多模态 LLM
●
当前前沿模型中视觉理解的“海市蜃楼”
📌 一句话摘要 本文重点介绍了斯坦福大学的一项研究,该研究揭示了前沿 AI 模型经常表现出“海市蜃楼式推理”(mirage reasoning),即在没有图像输入的情况下也能生成详细的视觉分析,这引发了对其是否具备真正视觉理解能力的质疑。 📝 详细摘要 Gary Marcus 讨论了斯坦福大学最
📅 2026-03-29 22:32
(17 天前)
Gary Marcus
人工智能
9 分鐘
★ 82
视觉理解
多模态 LLM
海市蜃楼式推理
AI 基准测试
●
智谱 AI 推出 GLM-OCR:一个 0.9B 多模态 OCR 模型,用于文档解析和关键信息提取 (KIE)
📌 一句话摘要 智谱 AI 和清华大学推出了 GLM-OCR,这是一个 0.9B 多模态模型,通过多令牌预测和两阶段布局感知流水线优化了文档解析和信息提取。 📝 详细摘要 GLM-OCR 是一个紧凑的 0.9B 参数多模态模型,旨在解决传统大规模 OCR 系统相关的高计算成本和延迟问题。该模型由
📅 2026-03-15 16:08
(03-15 16:08)
Asif Razzaq
人工智能
7 分鐘
★ 83
OCR
多模态 LLM
文档解析
多令牌预测
●
深入理解智能 OCR 及 LlamaParse 的实现
📌 一句话摘要 LlamaIndex 推出“智能 OCR”,这是一种基于推理的文档解析方法,它利用多模态模型和自我校正循环,无需模板即可实现高精度。 📝 详细摘要 这条推文阐释了“智能 OCR”的概念,将其定义为从简单的文本提取转向目标导向的文档推理。其核心技术亮点包括:利用多模态 LLM 理解
📅 2026-03-13 03:03
(03-13 03:03)
LlamaIndex 🦙
人工智能
1 分鐘
★ 82
智能 OCR
LlamaIndex
LlamaParse
多模态 LLM