全部 未讀 (21710) ★ 收藏 (0) 🤖 人工智能 (11206) 📊 商业科技 (4475) 💻 软件编程 (1690) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (843) 📁 投资财经 (538) 🎨 产品设计 (410) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 数据质量 共 8 篇 ✕ 清除篩選
21712
全部文章
21710
未讀
74
今日新增
0
收藏
📡 Poller 最後抓取: 42 分鐘前 (06-09 08:00)
BestBlogs 精選 (21677)

🏷️ 熱門標籤

AI Agent 2177 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 434 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315
verify-data:一个端到端的数据验数 Agent Skill
📌 一句话摘要 本文系统介绍了阿里云团队开发的 verify-data Agent Skill,通过自然语言交互自动完成数据验数全流程,将传统手工验数从 2-4 小时压缩至 30 分钟以内。 📝 详细摘要 文章详细介绍了 verify-data,一个面向数据开发团队的端到端数据验证 Agent
📅 2026-05-27 08:30 (13 天前) 阿里云开发者 人工智能 2 分鐘 ★ 88
Agent Skill 数据验证 数据质量 AI Agent
工业级 LLM 预训练数据工程的关键实践!
📌 一句话摘要 本文系统综述了工业级 LLM 预训练数据工程的关键实践,涵盖语料库构建、数据利用与评估方法,并提炼了经大规模训练验证的技术共识与最佳实践。 📝 详细摘要 本文是一篇关于 LLM 预训练数据工程的深度综述,作者李煜东基于 2020 至 2026 年间发布的 GPT、LLaMA、Qw
📅 2026-05-14 19:35 (25 天前) AINLP 人工智能 2 分鐘 ★ 88
LLM 预训练 数据工程 数据质量
AI 生图论文中的四个关键洞察
📌 一句话摘要 提炼了 AI 生图综述论文中的四个关键洞察,包括数据质量、AI 生成数据污染、蒸馏必要性及开源与闭源差距。 📝 详细摘要 这条推文引用了上一条推荐的 AI 生图综述论文,并提炼了四个关键洞察:1)数据质量,尤其是最后训练阶段的少量专家质量,对用户感知影响巨大;2)训练数据中混入
📅 2026-05-01 21:48 (05-01 21:48) 向阳乔木 人工智能 1 分鐘 ★ 85
AI生图 数据质量 蒸馏 开源
10 万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道
📌 一句话摘要 普林斯顿大学助理教授刘壮在最新访谈中提出核心观点:架构选择不如数据重要,数据集远未达到真正的多样性,记忆而非能力是当前 AI 的最大瓶颈。 📝 详细摘要 本文是量子位对普林斯顿大学助理教授刘壮在《信息瓶颈》播客中访谈的深度编译。刘壮以 ConvNeXt、ImageBind 等 1
📅 2026-04-29 12:20 (04-29 12:20) 听雨 人工智能 2 分鐘 ★ 88
刘壮 AI架构 数据质量 世界模型
AI 想要成功,必须先打好基础
📌 一句话摘要 本文认为,AI 的成功应用需要领导者优先考虑基本的质量管理原则——以客户为中心、流程导向、数据驱动决策、持续改进和以人为本——而不是盲目追逐炒作。 📝 详细摘要 Thomas C. Redman 在《哈佛商业评论》中指出,许多组织在 AI 方面举步维艰,因为他们将 AI 视为一种
📅 2026-04-06 20:05 (04-06 20:05) Thomas C. Redman 商业科技 1 分鐘 ★ 88
AI 战略 数字化转型 数据质量 管理
AI 领域中最佳算法与数据的协同效应
📌 一句话摘要 Hugging Face 联合创始人 Thomas Wolf 发起了一场讨论,探讨将年度最佳算法与数据集相结合可能带来的性能表现。 📝 详细摘要 在这条推文中,Thomas Wolf 提出了一个引人深思的问题:当把年度顶尖算法(涵盖模型架构和优化技术)与年度最高质量的数据集相结合
📅 2026-03-27 18:32 (03-27 18:32) Thomas Wolf 人工智能 1 分鐘 ★ 76
Hugging Face AI 研究 模型优化 数据质量
如何将混乱的医疗运营数据转化为机器学习就绪的特征
📌 一句话摘要 一份实用指南,旨在通过优先考虑数据质量、验证和特征工程而非模型复杂度,为医疗运营数据构建稳健的机器学习流水线。 📝 详细摘要 本文概述了一种处理混乱的医疗运营数据以用于机器学习的务实方法。文章强调将数据质量视为产品需求,针对数据量、有效性和重复性实施早期验证检查,并设计稳健且时间
📅 2026-03-25 15:26 (03-25 15:26) Eferhire 人工智能 1 分鐘 ★ 84
医疗机器学习 数据工程 MLOps 数据质量
关于 RLHF 数据质量的讽刺评论
📌 一句话摘要 对大模型(LLM)训练中常见且重复、低质量的人工反馈的诙谐批评。 📝 详细摘要 作者通过讽刺手法,指出了“基于人类反馈的强化学习”(RLHF)中一个常见问题:人类评估者倾向于提供诸如“hits different”(感觉完全不一样)这样重复且低质量的反馈。这篇评论指出,这种反馈通
📅 2026-03-23 02:53 (03-23 02:53) swyx 人工智能 1 分鐘 ★ 76
RLHF LLM AI 训练 数据质量