全部 未讀 (12252) ★ 收藏 (0) 🤖 人工智能 (7801) 📊 商业科技 (1922) 💻 软件编程 (1219) 📁 个人成长 (764) 🎨 产品设计 (214) 📁 生活文化 (131) 📁 媒体资讯 (80) 📁 投资财经 (77) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 评测 共 100 篇 ✕ 清除篩選
12254
全部文章
12252
未讀
124
今日新增
0
收藏
📡 Poller 最後抓取: 56 分鐘前 (04-18 22:00)
BestBlogs 精選 (12233)

🏷️ 熱門標籤

AI Agent 1371 AI 智能体 738 Claude Code 656 Anthropic 652 LLM 564 AI 编程 538 OpenClaw 502 开源 445 AI 安全 410 Claude 401 AI 398 OpenAI 371 软件工程 359 开发者工具 349 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
Xiaomi miclaw 通过首批中国信通院可信 AI 手机端智能助手(Claw)评测
📌 一句话摘要 小米自研的 AI 智能体 Xiaomi miclaw 成为首批通过中国信通院手机端智能助手权威评测的产品,其在基础能力、端侧应用和综合能力方面表现优异,体现了小米在“人车家全生态”AI 落地的技术布局。 📝 详细摘要 本文宣布小米自研的 AI 智能体 Xiaomi miclaw
📅 2026-04-17 17:49 (1 天前) 小米技术 人工智能 2 分鐘 ★ 81
小米 AI 智能体 手机端智能助手 中国信通院
Claude Opus 4.7 发布,竟是大型翻车现场
📌 一句话摘要 本文基于作者实测和社区反馈,批评 Claude Opus 4.7 在长上下文、表达能力和成本方面的倒退,认为其仅在多步 Agent 场景有优势,对其他场景是降级。 📝 详细摘要 文章对 Anthropic 新发布的 Claude Opus 4.7 模型进行了负面评测。作者结合自身
📅 2026-04-18 00:07 (22 小時前) 刘小排 人工智能 1 分鐘 ★ 81
Claude Opus 模型评测 Anthropic 大语言模型
实测 Claude Opus 4.7,好好的模型也开始不说人话了
📌 一句话摘要 本文基于作者实测,详细分析了 Claude Opus 4.7 在视觉能力、编程效率和审美上的显著提升,同时尖锐地指出了其语言风格「不说人话」的退化趋势,并探讨了新 tokenizer 带来的隐性成本以及新功能的价值。 📝 详细摘要 文章是作者对 Claude Opus 4.7 模
📅 2026-04-17 12:09 (1 天前) 创业邦 人工智能 2 分鐘 ★ 87
Claude Opus 4.7 模型评测 多模态 AI 编程
Opus 4.7 来了!官方罕见承认并非最强,用户直呼:真能干,但也太难聊了
📌 一句话摘要 本文详细解读了 Anthropic 最新发布的 Claude Opus 4.7 模型,指出其核心定位是强化编程、工具调用和视觉理解等「干活」能力,而非通用聊天,并分析了其性能提升、API 变更、使用方式变化以及企业升级建议。 📝 详细摘要 文章深入报道了 Anthropic 发布
📅 2026-04-17 09:48 (1 天前) 网易科技 人工智能 2 分鐘 ★ 87
Claude Opus 4.7 Anthropic 大语言模型 AI 编程
一句话,AI 直接给我建了个能跑能跳的「吉卜力」3D 小镇
📌 一句话摘要 本文通过亲身体验腾讯混元 3D 世界模型 2.0,结合对阿里、英伟达、李飞飞团队同期发布的世界模型分析,探讨了 AI 从生成 2D 内容迈向构建可交互 3D 世界的技术进展、应用场景及其对 3D 设计工作流的潜在颠覆。 📝 详细摘要 文章围绕近期密集发布的世界模型(腾讯混元 2.
📅 2026-04-18 01:50 (21 小時前) 张子豪 人工智能 2 分鐘 ★ 87
世界模型 3D生成 腾讯混元 AI产品评测
ACL 2026 | OPeRA Dataset: LLM 真的能模仿人类行为了吗?首次系统评估 LLM 的人类行为模拟能力
📌 一句话摘要 本文介绍了 ACL 2026 收录的 OPeRA 数据集,这是一个通过记录真实用户在线购物行为轨迹来系统评估大语言模型模拟人类决策能力的数据集与评测框架,揭示了当前 LLM 在细粒度、个性化行为预测上的显著不足。 📝 详细摘要 文章报道了 ACL 2026 会议上的一项研究,该研
📅 2026-04-17 11:03 (1 天前) 机器之心 人工智能 2 分鐘 ★ 88
LLM 人类行为模拟 评测数据集 OPeRA
实测 Claude Opus 4.7,好好的模型也开始不说人话了。
📌 一句话摘要 本文基于作者实测,详细分析了 Claude Opus 4.7 在视觉能力、审美、编程效率上的显著提升,同时尖锐地指出了其语言风格「不说人话」的倒退趋势,并探讨了新 tokenizer 导致的隐形涨价、新增功能及安全验证计划等关键更新。 📝 详细摘要 文章是作者对 Claude O
📅 2026-04-17 05:30 (1 天前) 数字生命卡兹克 人工智能 2 分鐘 ★ 88
Claude Opus 4.7 模型评测 多模态 AI 编程
Opus 4.7 压根没想做“最强模型”:各位吹 Claude 的速度都跟不上 Anthropic 的节奏了
📌 一句话摘要 本文深度剖析了 Anthropic 最新发布的 Claude Opus 4.7 模型,指出其并非追求全面“最强”,而是在编程和视觉能力上大幅提升的同时,主动牺牲了长上下文和搜索能力,是一次有明确取舍、反映商业化策略转变的“精准刀法”式迭代。 📝 详细摘要 文章对 Anthropi
📅 2026-04-17 10:58 (1 天前) 硅星人Pro 人工智能 2 分鐘 ★ 88
Claude Opus 4.7 Anthropic 大语言模型 AI 编程
18 家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场
📌 一句话摘要 全球首个大规模具身智能真机评测平台 RoboChallenge 完成第二批生态扩容,8 家顶尖企业加入,从算力、仿真、硬件、算法到复杂场景 Benchmark 全面赋能,加速构建开放协同的标准化具身智能产业生态。 📝 详细摘要 文章报道了具身智能领域的重要进展:由 Dexmal
📅 2026-04-17 13:52 (1 天前) 量子位的朋友们 人工智能 2 分鐘 ★ 87
具身智能 RoboChallenge 评测基准 机器人
Codex Computer Use Mac 版交互体验获赞
📌 一句话摘要 作者称赞 Codex Computer Use 的 Mac 版本交互设计非常出色。 📝 详细摘要 这条推文是作者对 Codex Computer Use 这款 AI 编程工具 Mac 版本交互体验的正面评价。推文附带了视频,可能展示了其流畅的界面或独特的操作方式。作为 HIGH
📅 2026-04-17 07:15 (1 天前) 宝玉 人工智能 1 分鐘 ★ 78
Codex Computer Use AI 编程 Mac 交互设计
大疆 OSMO Pocket 4 深度体验:三年之后,大疆如何继续定义「手持云台相机」
📌 一句话摘要 本文通过深度体验,剖析了大疆 Pocket 4 作为一款在无直接竞争对手的品类中,如何通过解决上一代产品的诸多细节痛点,实现从「极客工具」到「新时尚」的迭代,并探讨了其背后的产品哲学。 📝 详细摘要 文章是对大疆最新发布的手持云台相机 Pocket 4 的深度评测。作者认为,Po
📅 2026-04-16 20:04 (2 天前) 极客公园 商业科技 2 分鐘 ★ 87
大疆 Pocket 4 手持云台相机 产品评测
即梦平台 Seedance 2.0 模型现已支持 1080P 视频生成
📌 一句话摘要 博主测试了即梦平台新上线的 Seedance 2.0 模型,认为其 1080P 视频生成效果出色,模型智能度与提示词理解能力均有提升。 📝 详细摘要 这条推文分享了博主对即梦平台新功能 Seedance 2.0 模型的初步测试体验。博主宣布该模型现已支持生成 1080P 视频,并
📅 2026-04-17 00:03 (1 天前) 歸藏(guizang.ai) 人工智能 1 分鐘 ★ 81
即梦 Seedance 2.0 AI 视频生成 1080P
OpenAI GPT-Image-2 图像模型实测体验分享
📌 一句话摘要 作者分享了对 OpenAI 新图像模型 GPT-Image-2 的实测体验,认为其根据 GitHub 链接生成宣传图的能力非常出色,中文准确无误,并对比了谷歌 Gemini Nano 2 的表现。 📝 详细摘要 这是一条关于 OpenAI 新图像模型 GPT-Image-2 的早
📅 2026-04-16 18:14 (2 天前) 歸藏(guizang.ai) 人工智能 1 分鐘 ★ 81
GPT-Image-2 OpenAI 图像生成 AI 产品评测
ERNIE-Image 在 SuperCLUE-Image 中文文生图测评中获国内第一
📌 一句话摘要 百度宣布其开源的文生图模型 ERNIE-Image 在 SuperCLUE-Image 最新测评中位列国内第一、全球第四,并在图文一致性和汉字生成两个细分榜单中取得国内榜首。 📝 详细摘要 本文是百度 AI 官方发布的公告,宣布其近期开源的文生图模型 ERNIE-Image 在
📅 2026-04-16 19:28 (2 天前) 百度AI 人工智能 1 分鐘 ★ 81
文生图 ERNIE-Image 百度文心 模型评测
神秘模型 'duct-tape' 在竞技场测试,疑似 GPT Image2 效果惊人
📌 一句话摘要 博主转述并评论了一个代号为 'duct-tape' 的神秘 AI 图像生成模型在竞技场测试的消息,推测其可能是 GPT Image2,效果非常出色。 📝 详细摘要 这条推文转述了关于一个代号为 'duct-tape' 的神秘 AI 图像生成模型正在 Arena 平台进行测试的消息
📅 2026-04-16 16:23 (2 天前) 小互 人工智能 1 分鐘 ★ 73
duct-tape GPT Image2 AI 图像生成 竞技场测试
神秘模型排名超 Gemma 4 31B:不跟 Qwen 硬刚,主打“快”和“省 token”
📌 一句话摘要 本文报道了在 OpenRouter 上排名飙升的 100B 参数隐身模型“Elephant”,通过对比分析其与 Qwen3.5-122B-A10B、NVIDIA Nemotron 3 Super 等模型的性能,指出其主打“快速响应”和“低 token 消耗”,定位为高频开发场景下的
📅 2026-04-16 15:05 (2 天前) AI前线 人工智能 2 分鐘 ★ 84
大语言模型 模型评测 OpenRouter Elephant
谷歌推出原生 Swift 版 Gemini Mac 客户端,但功能简陋 UI 粗糙
📌 一句话摘要 作者评论谷歌新推出的原生 Swift 版 Gemini Mac 客户端,认为其功能简陋、UI 粗糙,是谷歌产品开发缓慢的体现。 📝 详细摘要 这条推文是对谷歌官方宣布推出 Gemini Mac 客户端的评论。作者转述了该客户端由小团队在 100 天内用 Swift 原生开发的事实
📅 2026-04-16 10:38 (2 天前) 歸藏(guizang.ai) 人工智能 1 分鐘 ★ 73
Gemini Google Mac 客户端 产品评测
短短 3 个月,高德已拿下具身智能领域 15 项世界第一
📌 一句话摘要 高德 Abot-world 系列世界模型在 Agibot World Challenge 与 World Arena 两大国际评测中登顶,并在三个月内累计获得 15 项权威评测第一,标志着其在具身智能核心的世界模型构建能力上取得突破。 📝 详细摘要 文章报道了高德在具身智能领域的
📅 2026-04-16 11:45 (2 天前) 量子位的朋友们 人工智能 2 分鐘 ★ 87
具身智能 世界模型 高德 机器人
Agent 记忆赛道大洗牌!LoCoMo-Refined 重磅发布,主流记忆框架迎来核心检验
📌 一句话摘要 本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined,该基准通过修正数据集和引入更严格的评判标准,揭示了主流记忆框架在旧基准下得分虚高的问题,并展示了其在严苛标准下的真实性能。 📝 详细摘要 文章详细阐述了南京大学与上海人工
📅 2026-04-15 16:31 (3 天前) AI科技评论 人工智能 2 分鐘 ★ 87
Agent 记忆 评测基准 LoCoMo-Refined 记忆系统
15 个前沿大模型,100 个职业场景:谁才是最强 AI 打工人?
📌 一句话摘要 本文介绍了通义千问与港中文联合发布的 OccuBench 评测基准,它利用语言世界模型模拟 100 个职业场景,对 15 个前沿大模型的 AI Agent 能力进行了系统性评测,并揭示了模型在专业领域、故障处理及环境模拟能力上的显著差异。 📝 详细摘要 文章详细解读了由通义千问团
📅 2026-04-15 16:31 (3 天前) AI科技评论 人工智能 2 分鐘 ★ 87
AI Agent 评测基准 语言世界模型 OccuBench