全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 多模态 共 349 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
WPS 笔记正式发布:AI 贯穿记录、整理与复用全过程
📌 一句话摘要 金山办公发布 AI 原生多模态笔记产品 WPS 笔记,将 AI 能力贯穿信息录入、理解、组织、检索与复用全流程,旨在解决知识工作者信息过载但难以被有效利用的痛点。 📝 详细摘要 本文报道了金山办公于 6 月 5 日正式发布的 AI 笔记产品 WPS 笔记。该产品定位为面向个人知识
📅 2026-06-05 17:16 (3 天前) 田, 晏林 人工智能 2 分鐘 ★ 82
AI 产品与应用 知识管理 AI 笔记 多模态 AI
智源&清华合作成果登上 Science:脑科学多模态基础模型 Brainμ支撑揭示“记忆-睡眠”调控的神经机制
📌 一句话摘要 智源与清华联合研究登上《科学》,利用脑科学多模态基础模型 Brainμ 证实睡眠中记忆重激活可动态调控睡眠结构,为理解记忆-睡眠双向机制提供新证据。 📝 详细摘要 本文报道了北京智源人工智能研究院与清华大学联合团队在《科学》杂志发表的研究成果。研究首次证实,睡眠中的记忆重激活(尤
📅 2026-06-05 18:53 (3 天前) 量子位的朋友们 人工智能 1 分鐘 ★ 86
AI 与科学研究 脑科学 多模态 AI 基础模型
谷歌 Gemma 4 12B 开源:把多模态模型塞进 16GB 笔记本
📌 一句话摘要 谷歌开源 Gemma 4 12B 多模态模型,采用统一无编码器架构,支持文本、图像、音频输入,官方运行门槛为 16GB VRAM,旨在将多模态能力下放到消费级本地设备。 📝 详细摘要 本文详细介绍了谷歌最新开源的 Gemma 4 12B 多模态模型。文章从模型定位(介于 E4B
📅 2026-06-04 16:06 (4 天前) AINLP 人工智能 2 分鐘 ★ 84
LLM 多模态 AI 开源模型 模型发布
Token 必须死?
📌 一句话摘要 本文从维特根斯坦的语言哲学切入,结合何恺明团队与字节 Seed 的最新论文,论证逐 token 预测范式存在结构性天花板,并梳理了 Google、OpenAI、Anthropic 等巨头在连续空间建模方向上的战略布局。 📝 详细摘要 文章以「Token 必须死?」为标题,系统探讨
📅 2026-06-04 17:20 (4 天前) 腾讯研究院 人工智能 2 分鐘 ★ 88
LLM AI Agent 多模态AI 模型训练与推理
120 亿参数跑在 16G 笔记本上,谷歌 Gemma 4 新成员杀来了
📌 一句话摘要 谷歌发布 Gemma 4 12B 模型,在 16GB 显存笔记本上即可本地运行,性能接近更大的 26B MoE 模型,并首次支持原生音频输入。 📝 详细摘要 文章报道了谷歌正式推出 Gemma 4 12B 模型的消息。该模型是 Gemma 4 系列的新成员,定位介于边缘设备模型与
📅 2026-06-04 17:52 (4 天前) 机器之心 人工智能 1 分鐘 ★ 82
模型发布 LLM 多模态 AI AI 硬件与芯片
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
📌 一句话摘要 戴盟机器人完成亿元 A 轮融资,并引入阿里通义前多模态专家原玮浩,以触觉模态为核心攻关物理世界模型,试图补齐具身智能在真实物理交互中的关键数据缺口。 📝 详细摘要 本文报道了具身智能公司戴盟机器人完成亿元 A 轮融资的消息,投资方为汇川产投和中国电信。文章重点介绍了戴盟的技术路线
📅 2026-06-04 11:06 (4 天前) 衡宇 人工智能 2 分鐘 ★ 84
具身智能 机器人 AI Agent 多模态AI
准确率突破 96.33%!百度文心发布 PaddleOCR-VL-1.6,刷新文档解析 SOTA
📌 一句话摘要 百度发布 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 评测中准确率达 96.33%,超越 Gemini-3-Pro、GPT-5.2 等模型,刷新文档解析 SOTA。 📝 详细摘要 文章报道了百度最新发布的 PaddleOCR-VL-1.6 模型。该模
📅 2026-06-03 12:30 (5 天前) InfoQ 中文 人工智能 2 分鐘 ★ 80
模型发布 OCR 文档理解 多模态 AI
「悲观者正确,乐观者成功」,和好友亚婷聊聊 AI 行业的种种
📌 一句话摘要 资深投资人庄明浩从 VC 底层逻辑出发,深度拆解 AI 浪潮下的创业范式、模型竞争终局及对人类职业与存在价值的终极拷问。 📝 详细摘要 本期播客,主播庄明浩与「易论 AI」主理人亚婷展开了一场关于 AI 行业现状与未来的深刻对谈。对话从 VC 投资的「概率游戏」本质切入,剖析了行
📅 2026-06-04 00:00 (5 天前) 屠龙之术 商业科技 2 分鐘 ★ 90
AI Agent 商业模式与战略 创业投资 多模态模型
MiniMax M3 一手实测:老黄 PPT 上 74 个 Logo,我以为能难住它
📌 一句话摘要 本文通过复现论文、识别 PPT Logo、制作打卡地图和讲解语言学奥赛视频等实测,验证了 MiniMax M3 在长上下文、多模态和 Coding 三大能力上的综合表现,认为其已进入全球第一梯队。 📝 详细摘要 文章围绕 MiniMax 最新开源的旗舰模型 M3 展开,重点评测其
📅 2026-06-02 23:50 (6 天前) 克雷西 人工智能 2 分鐘 ★ 87
AI模型 LLM 多模态AI AI编程
96.33% 新 SOTA!PaddleOCR-VL-1.6 发布,大模型时代的数据基座再升级
📌 一句话摘要 PaddleOCR-VL-1.6 发布,通过模型驱动的数据引擎与渐进式后训练策略,在 OmniDocBench v1.6 上以 96.33% 刷新 SOTA,模型结构与 v1.5 完全一致,零成本升级。 📝 详细摘要 本文是 PaddleOCR-VL-1.6 的版本发布公告。文章
📅 2026-06-02 16:30 (6 天前) 魔搭ModelScope社区 人工智能 2 分鐘 ★ 84
OCR 文档解析 模型发布 多模态 AI
字节开源统一框架 Bernini:给 DiT 配个“大模型军师”,AI 视频编辑先理解再动手
📌 一句话摘要 字节商业化技术团队开源 Bernini 框架,采用「多模态大模型规划 + DiT 渲染」的两阶段架构,实现先理解语义再生成视频的可控编辑与参考生成。 📝 详细摘要 本文报道字节商业化技术团队开源的视频生成与编辑统一框架 Bernini。该框架的核心创新在于将任务拆分为两步:首先由
📅 2026-06-02 17:28 (6 天前) 梦瑶 人工智能 2 分鐘 ★ 86
AI 视频生成 视频编辑 DiT 多模态大模型
Qwen3.7-Plus 上线!多模态智能体新基座,一键复刻桌面端专业软件
📌 一句话摘要 阿里发布 Qwen3.7-Plus 多模态大模型,实现视觉理解、编程、工具调用与自主迭代的统一智能体工作流,可一键复刻桌面软件等复杂任务。 📝 详细摘要 6 月 2 日,阿里巴巴发布千问 3.7 系列多模态大模型 Qwen3.7-Plus。该模型在文本和视觉能力上大幅提升,于全球
📅 2026-06-02 11:15 (6 天前) 量子位的朋友们 人工智能 1 分鐘 ★ 85
Qwen3.7-Plus 多模态大模型 智能体 阿里云
MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你
📌 一句话摘要 MiniMax 发布 M3 模型,集前沿 Coding 能力、1M 超长上下文和原生多模态于一体,是国内首个齐备这些要素的模型,并已开源。 📝 详细摘要 MiniMax 正式发布 M3 模型,这是国内首个同时具备前沿编程能力、1M 超长上下文和原生多模态能力的模型,也是目前唯一的
📅 2026-06-01 09:24 (7 天前) MiniMax 稀宇科技 人工智能 2 分鐘 ★ 93
MiniMax M3 大语言模型 多模态 Coding
Step 3.7 Flash 模型已加入 mlx-vlm,可在 Mac 上本地运行
📌 一句话摘要 Step 3.7 Flash 模型已成功移植到 mlx-vlm,可在 Apple Silicon Mac 上本地运行,4bit 量化版本支持 32K 上下文,生成速度达 53 tokens/s。 📝 详细摘要 该推文引用开发者 Ivan Fioravanti 的更新,宣布 Ste
📅 2026-05-31 00:20 (9 天前) Berryxia.AI 人工智能 1 分鐘 ★ 86
mlx-vlm Step 3.7 Flash Apple Silicon 本地 AI
一手实测 Step 3.7 Flash:目前最快的开源模型
📌 一句话摘要 本文一手实测了阶跃星辰最新发布的 Step 3.7 Flash 模型,重点验证其 400 TPS 的超快速度、原生视觉理解能力和 Agent 长程任务表现,并指出其在 Coding 和 3D 推理方面与顶级模型仍有差距。 📝 详细摘要 文章对阶跃星辰发布的 Step 3.7 Fl
📅 2026-05-30 16:23 (9 天前) (沃垠AI) 人工智能 2 分鐘 ★ 85
Step 3.7 Flash 阶跃星辰 多模态模型 开源模型
快手 Keye2.0 开源:将 DSA 注意力引入多模态,开启强化推理新范式
📌 一句话摘要 快手开源 Keye-VL-2.0-30B-A3B 多模态大模型,率先将 DeepSeek 的 DSA 稀疏注意力引入多模态场景,以 30B 总参、3B 激活参数实现视频理解 SOTA,多项基准超越 200B+ 开源模型。 📝 详细摘要 本文介绍了快手正式开源的新版多模态大模型 K
📅 2026-05-30 15:29 (9 天前) 魔搭ModelScope社区 人工智能 2 分鐘 ★ 88
快手 Keye-VL-2.0 多模态大模型 DSA
阶跃开源 Step 3.7 Flash:面向生产级 Agent 的高效率 Flash 模型
📌 一句话摘要 阶跃星辰发布并开源 Step 3.7 Flash 模型,这是一款面向生产级 Agent 的高效率多模态模型,采用 196B MoE 架构,激活参数仅 11B,最高生成速度达 400 Tokens/s,并具备原生多模态理解与高可靠工具调用能力。 📝 详细摘要 阶跃星辰正式发布并开源
📅 2026-05-29 16:00 (10 天前) 魔搭ModelScope社区 人工智能 2 分鐘 ★ 86
阶跃星辰 Step 3.7 Flash MoE 多模态
阶跃发布 Step 3.7 Flash,效率模型开始争夺 Agent 主战场
📌 一句话摘要 阶跃星辰发布的 Step 3.7 Flash 模型,以 11B 激活参数和极致效率,瞄准 Agent 时代对速度、成本和稳定性的核心需求,重新定义了 Flash 模型从旗舰轻量版到 Agent 任务基座的新生态位。 📝 详细摘要 本文深入分析了阶跃星辰最新发布的 Step 3.7
📅 2026-05-29 16:02 (10 天前) Founder Park 人工智能 2 分鐘 ★ 86
阶跃星辰 Step 3.7 Flash Agent 效率模型
OPPO 小布记忆:全模态碎片化内容的理解与智能整理实践|AICon 上海
📌 一句话摘要 OPPO 高级算法工程师分享小布记忆产品的技术实践,介绍端云协同的一键闪记架构、基于自研 AndesVL 多模态大模型的端侧推理、全模态碎片化内容理解与结构化记忆整理方案。 📝 详细摘要 本文是 OPPO 高级算法工程师王闯闯在 AICon 上海大会上的演讲预告,详细介绍了小布记
📅 2026-05-29 14:00 (10 天前) InfoQ 中文 人工智能 2 分鐘 ★ 84
端侧大模型 多模态理解 AI Memory 端云协同
音效生成自己说了算!小米开源可控视频音效生成模型 ControlFoley
📌 一句话摘要 小米大模型应用团队开源了 ControlFoley,一个统一且可控的视频音效生成框架,支持文本引导、文本控制和参考音频控制三类任务,在多个基准上达到开源 SOTA。 📝 详细摘要 本文由小米技术团队发布,详细介绍了其开源的视频音效生成模型 ControlFoley。文章指出,现有
📅 2026-05-29 17:00 (10 天前) 小米技术 人工智能 2 分鐘 ★ 86
ControlFoley 视频音效生成 可控生成 多模态