全部 未讀 (11821) ★ 收藏 (0) 🤖 人工智能 (7594) 📊 商业科技 (1791) 💻 软件编程 (1198) 📁 个人成长 (736) 🎨 产品设计 (209) 📁 生活文化 (109) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 大模型评测 共 3 篇 ✕ 清除篩選
11823
全部文章
11821
未讀
140
今日新增
0
收藏
📡 Poller 最後抓取: 45 分鐘前 (04-16 14:00)
BestBlogs 精選 (11804)

🏷️ 熱門標籤

AI Agent 1324 AI 智能体 734 Claude Code 645 Anthropic 622 LLM 563 AI 编程 501 OpenClaw 498 开源 439 AI 安全 396 AI 396 Claude 384 OpenAI 362 软件工程 354 开发者工具 343 生产力 308 GitHub 251 自动化 238 AI 基础设施 227 AI 开发 225 MCP 223
15 个前沿大模型,100 个职业场景:谁才是最强 AI 打工人?
📌 一句话摘要 本文介绍了通义千问与港中文联合发布的 OccuBench 评测基准,它利用语言世界模型模拟 100 个职业场景,对 15 个前沿大模型的 AI Agent 能力进行了系统性评测,并揭示了模型在专业领域、故障处理及环境模拟能力上的显著差异。 📝 详细摘要 文章详细解读了由通义千问团
📅 2026-04-15 16:31 (22 小時前) AI科技评论 人工智能 2 分鐘 ★ 87
AI Agent 评测基准 语言世界模型 OccuBench
「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能“扛活儿”了?
📌 一句话摘要 本文通过“复杂决策”与“Agentic Coding”双线实测,深度评估了阿里云 Qwen 3.6-Plus 模型在真实工作级任务中的规划、执行与工程闭环能力,并分析了其在参数效率与成本上的优势。 📝 详细摘要 文章对阿里云新发布的 Qwen 3.6-Plus 模型进行了深度测评
📅 2026-04-15 16:31 (22 小時前) AI科技评论 人工智能 2 分鐘 ★ 87
Qwen 3.6-Plus Agentic Coding 大模型评测 AI 编程
Claude Mythos 首次完成端到端网络攻击模拟,AI 安全里程碑
📌 一句话摘要 AISA 测评显示 Claude Mythos Preview 成为首个能自主完成完整 32 步网络攻击模拟的 AI 模型,标志着 AI 安全能力的重大突破。 📝 详细摘要 这条推文转述并评论了 AISecurityInst 的一项网络安全评估结果:Claude Mythos P
📅 2026-04-14 07:46 (2 天前) Berryxia.AI 人工智能 1 分鐘 ★ 83
Claude Mythos AI 安全 网络安全 AISA