搜尋結果 — SuperPortia 閱讀

全部未讀 (21702) ★ 收藏 (0) 🤖 人工智能 (11205) 📊 商业科技 (4472) 💻 软件编程 (1689) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (841) 📁 投资财经 (538) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)

篩選中: 🏷️ 训练数据共 17 篇 ✕ 清除篩選

21704

全部文章

21702

未讀

今日新增

📡 Poller 最後抓取: 1 小時前 (06-09 04:00)

BestBlogs 精選 (21669)

🏷️ 熱門標籤

AI Agent 2176 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 433 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315

● 数据比模型更值钱，国内最大的「端侧」训练数据开源了！600B 预训练+千万级 SFT 核心数据配方公开

📌 一句话摘要面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData，包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据，并公开了完整的数据治理方法论，强调在端侧模型竞争中数据质量才是真正的壁垒。 📝 详细摘要本文深入分析了面壁智能最新开源的 U

📅 2026-05-29 13:50 (10 天前) 夕小瑶科技说人工智能 2 分鐘 ★ 86

端侧模型数据治理 MiniCPM 预训练数据

● 时薪 15 美元的新工种：把 iPhone 绑在脑门上，替 AI 蒸馏自己

📌 一句话摘要本文揭示了为训练人形机器人，全球数千名工人以时薪 15 美元的价格，佩戴头戴摄像头录制日常家务动作，将身体知识转化为 AI 训练数据，背后是数据殖民主义与幽灵劳动的显形。 📝 详细摘要文章深入报道了 AI 行业为训练人形机器人而催生的新型数据采集工作。以 Micro1 为代表的

📅 2026-04-27 17:18 (04-27 17:18) 36氪商业科技 2 分鐘 ★ 86

数据殖民主义幽灵劳动人形机器人 AI训练数据

● 时薪 15 美元的新工种：把 iPhone 绑在脑门上，替 AI 蒸馏自己

📌 一句话摘要本文揭示了机器人训练数据采集的「幽灵劳动」现象，全球数千名工人以每小时 15 美元的价格，将日常家务动作录制为训练数据，引发对数据殖民主义和默会知识外化的深刻反思。 📝 详细摘要文章以 Micro1 公司在全球招募工人、佩戴头戴摄像头录制家务视频以训练人形机器人为切入点，深入剖

📅 2026-04-27 10:31 (04-27 10:31) 硅星人Pro 商业科技 2 分鐘 ★ 86

幽灵劳动数据殖民主义人形机器人 AI训练数据

● Karpathy 观点：AI 模型臃肿源于训练数据质量低下

📌 一句话摘要转述 Andrej Karpathy 的核心观点：当前前沿 AI 模型参数庞大主因是训练数据质量差，而非技术复杂，并提出了“认知核心+外部记忆”的解决方案。 📝 详细摘要这条推文精炼地转述了 Andrej Karpathy 关于 AI 模型设计的一个重要论点。他指出，万亿参数模

📅 2026-04-19 06:40 (04-19 06:40) Berryxia.AI 人工智能 1 分鐘 ★ 91

Andrej Karpathy 模型架构训练数据 Scaling Law

● π0.6 和 GEN-1 谁代表未来？乾坤未定，但这条底层赛道浮出水面

📌 一句话摘要本文深入分析了具身智能领域当前面临的核心瓶颈——高质量训练数据的获取与处理，并通过对初创公司「智域基石」的专访，揭示了「数据编译」作为底层基础设施的巨大机遇与实现路径。 📝 详细摘要文章指出，在具身智能领域，模型性能的提升正从算法驱动转向数据驱动。当前行业普遍面临数据质量低下、

📅 2026-04-17 11:03 (04-17 11:03) 机器之心人工智能 1 分鐘 ★ 89

具身智能数据编译机器人训练数据

● AI 训练数据中的安全隐患

📌 一句话摘要 Emad 指出，AI 模型的训练数据中天然包含了所有公开代码的漏洞，这解释了它们在安全审计方面的效力。 📝 详细摘要针对 Anthropic 推出的 Mythos 预览版（该工具在主流系统中发现了数千个高危漏洞），Emad 指出了一个基本的技术现实：由于前沿模型是在几乎所有公开

📅 2026-04-08 06:40 (04-08 06:40) Emad 人工智能 1 分鐘 ★ 82

AI 安全训练数据漏洞发现 Anthropic Mythos

● 马克·安德森谈 AI 训练中的历史数据应用

📌 一句话摘要马克·安德森透露了他长期以来对使用历史数据集（1900 年前）训练 LLM 的浓厚兴趣。 📝 详细摘要针对一个利用 1900 年前语料库进行 LLM 训练的项目，马克·安德森表示他自 2022 年底以来就一直倡导这种方法。这凸显了他通过将训练数据从现代互联网文本扩展到历史数据，

📅 2026-04-03 14:04 (04-03 14:04) Marc Andreessen 🇺🇸 人工智能 1 分鐘 ★ 81

LLM 训练数据历史数据 AI 研究

● GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型

📌 一句话摘要自 4 月 24 日起，GitHub 将默认使用 Copilot Free、Pro 和 Pro+ 用户的交互数据来训练 AI 模型，此举引发了严重的隐私和伦理担忧。 📝 详细摘要 GitHub 宣布对其 Copilot 数据使用政策进行重大更新，该政策将于 4 月 24 日生效。

📅 2026-04-02 18:17 (04-02 18:17) Steef-Jan Wiggers 人工智能 2 分鐘 ★ 85

GitHub Copilot AI 训练数据隐私政策数据伦理

● 创意 AI 实验：用于自主系统的 POV 训练数据

📌 一句话摘要一个展示蚂蚁视角 POV 影像的创意实验，继 EGO-BIRD 项目之后，旨在探索用于自主系统的训练数据。 📝 详细摘要这条推文介绍了一个涉及蚂蚁视角 POV 影像的创意 AI 实验。该项目建立在 EGO-BIRD 项目的基础上（该项目利用 10 万小时的鸟类 POV 影像来训

📅 2026-04-02 11:45 (04-02 11:45) Justine Moore 人工智能 3 分鐘 ★ 81

AI 计算机视觉机器人技术训练数据

● 作者在法庭上的“幸运突破”或将助力针对 Meta 种子下载的集体诉讼

📌 一句话摘要 Meta 正利用最高法院近期关于 ISP 责任的裁决，在涉及使用盗版种子数据进行 AI 训练的诉讼中，为自己免受共同版权侵权指控进行辩护。 📝 详细摘要本文报道了内容创作者与 Meta 之间关于使用盗版数据进行 AI 模型训练的持续诉讼中的一项重大法律进展。Meta 正试图通过

📅 2026-03-31 04:23 (03-31 04:23) Ashley Belanger 人工智能 1 分鐘 ★ 80

Meta AI 训练数据版权法共同侵权

● SaaS 转向 AI 数据业务

📌 一句话摘要这句充满讽刺意味的观察指出，SaaS 初创公司正越来越多地转向将 RL 训练数据出售给 AI 实验室，以此作为传统退出路径的替代方案。 📝 详细摘要这条推文借用了一句名言的变体，评论了当前的 AI 行业趋势。它强调了一种转变：SaaS 公司不再仅仅追求 IPO 或并购等传统退出

📅 2026-03-30 11:50 (03-30 11:50) Deedy 商业科技 1 分鐘 ★ 80

SaaS AI RLHF 训练数据

● 为什么智力比纯数据更重要

📌 一句话摘要解释了为什么“真正的智力”优于穷举式的训练数据：智力是知识的乘数，能够实现更高的能力和成本效益。 📝 详细摘要作为上一条推文的后续，本文探讨了为什么我们应该追求真正的智力，而不是仅仅收集密集的训练数据。作者认为，智力是知识的乘数，使系统能够比仅依赖准备工作的系统更廉价、更有效地

📅 2026-03-25 05:04 (03-25 05:04) François Chollet 人工智能 1 分鐘 ★ 87

AI 智力训练数据效率 AI 理论

● DoorDash 的“Dasher 任务”：机器人训练数据的催化剂

📌 一句话摘要 Matt Shumer 分析了 DoorDash 新推出的“Dasher 任务”功能，强调了其为机器人技术和 AI 智能体生成海量现实世界训练数据的潜力。 📝 详细摘要 Matt Shumer 评论了 DoorDash 推出的“Dasher 任务”功能，该功能允许 AI 智能体雇

📅 2026-03-20 05:24 (03-20 05:24) Matt Shumer 人工智能 1 分鐘 ★ 86

DoorDash AI 智能体机器人技术具身智能

● DoorDash 推出 AI 数据采集应用

📌 一句话摘要 DoorDash 发布了一款新应用，通过付费让用户录制自己做家务的视频，以此获取 AI 训练数据。 📝 详细摘要 DoorDash 通过推出这款激励用户拍摄家务视频的应用，正式涉足 AI 数据采集领域。这凸显了当前对用于训练 AI 模型的真实、以人为中心的视频数据的需求日益增长，

📅 2026-03-20 01:45 (03-20 01:45) Polymarket 人工智能 1 分鐘 ★ 82

DoorDash AI 训练数据计算机视觉数据采集

● AI 生成代码质量平庸的根源

📌 一句话摘要 Gergely Orosz 认为，AI 编程输出之所以平庸，是因为公开代码普遍质量一般，且开发者自身缺乏编写高质量代码的能力，而非工具配置问题。 📝 详细摘要在这条推文中，Gergely Orosz 挑战了“AI 生成代码差主要是因为工具配置不当”这一普遍观点。他指出，由于 A

📅 2026-03-12 16:26 (03-12 16:26) Gergely Orosz 人工智能 3 分鐘 ★ 81

AI 编程代码质量软件工程开发者技能

● Pokémon GO 数据助力下一代配送机器人

📌 一句话摘要 Pokémon GO 玩家在无意中构建了一个包含 300 亿张图像的数据集，Coco Robotics 正利用该数据提升人行道机器人的自动导航能力。 📝 详细摘要这条推文揭示了游戏化与 AI 基础设施之间令人着迷的交集。它指出，数百万 Pokémon GO 玩家收集的地理空间数

📅 2026-03-12 05:01 (03-12 05:01) The Rundown AI 人工智能 1 分鐘 ★ 82

Pokémon GO Coco Robotics AI 训练数据机器人技术

● YC 孵化项目 Asimov 发布全球人体运动数据平台，助力人形机器人研发

📌 一句话摘要 Asimov 提供了一个全栈平台，通过向全球用户支付报酬来记录其日常生活，为训练人形机器人构建海量数据集。 📝 详细摘要 Asimov 正式发布，为人形机器人领域的数据瓶颈提供了独特的解决方案。通过激励全球家庭和企业记录其动作，他们每天能生成数千小时的多样化训练数据。其产品线涵盖

📅 2026-03-10 15:00 (03-10 15:00) Y Combinator 人工智能 1 分鐘 ★ 82

人形机器人 AI 训练数据 Asimov Y Combinator