搜尋結果 — SuperPortia 閱讀

全部未讀 (21710) ★ 收藏 (0) 🤖 人工智能 (11206) 📊 商业科技 (4475) 💻 软件编程 (1690) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (843) 📁 投资财经 (538) 🎨 产品设计 (410) 📁 AI 产品 (39) 📁 体育运动 (28)

篩選中: 🏷️ 数据科学共 21 篇 ✕ 清除篩選

21712

全部文章

21710

未讀

今日新增

📡 Poller 最後抓取: 1 小時前 (06-09 08:00)

BestBlogs 精選 (21677)

🏷️ 熱門標籤

AI Agent 2177 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 434 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315

● 如何使用 Python 构建基于持仓分析的原油交易策略 [完整手册]

📌 一句话摘要本手册详细介绍了利用持仓报告 (COT) 数据和 WTI 价格分析，通过 Python 构建原油交易策略的工程化流程。 📝 详细摘要本文提供了一份开发原油量化交易策略的全面分步指南。作者摒弃了模糊的市场叙事，转而使用 Python 处理持仓报告 (COT) 数据和 WTI 历史

📅 2026-04-10 23:57 (04-10 23:57) Nikhil Adithyan 软件编程 1 分鐘 ★ 88

Python 量化交易数据科学金融工程

● 对经济数据计算方法的抨击

📌 一句话摘要马克·安德森对经济和统计图表的构建及操纵方式表示怀疑。 📝 详细摘要在回应一篇关于美国特定经济数据计算方法的帖子时，马克·安德森对数据可视化和统计报告表达了讽刺的态度，暗示图表经常被用来歪曲事实或服务于特定的叙事。 📊 文章信息 AI 评分：76 来源：Marc Andree

📅 2026-04-10 07:42 (04-10 07:42) Marc Andreessen 🇺🇸 商业科技 1 分鐘 ★ 76

数据科学经济学统计学

● Python 生存分析指南：利用事件发生时间模型预测客户生命周期

📌 一句话摘要本指南介绍了如何使用 Python 中的 Kaplan-Meier 和 Cox 比例风险模型进行生存分析，以预测客户流失和生命周期价值。 📝 详细摘要本文全面介绍了生存分析（SA），这是一个用于预测特定事件发生时间的统计分支。文章解释了为什么传统的回归模型（如 OLS 或逻辑回

📅 2026-04-09 21:30 (04-09 21:30) Gustavo Santos 软件编程 1 分鐘 ★ 86

生存分析 Python 数据科学客户流失

● 生产力提升的算术题：为什么“生产力提升 40%”往往名不副实？

📌 一句话摘要本文解构了生产力声明中的数学谬误，解释了为什么局部任务优化很少能带来全局效率的提升，并提出将认知负荷作为更好的衡量指标。 📝 详细摘要作者是一位数学家兼顾问，他探讨了为什么营销中承诺的“生产力提升 40%”往往无法在现实中实现。核心问题在于“生产力算术”：针对特定狭窄任务的显著

📅 2026-04-07 20:00 (04-07 20:00) Eirik Berge 个人成长 1 分鐘 ★ 86

生产力思维模型认知负荷数据科学

● 绘制纽约市交通公平地图 — LessWrong

📌 一句话摘要本文提出了一种针对纽约市的数据驱动型“公交需求指数”，利用多源交通和人口统计数据，识别出最能从免费公交政策中受益的社区。 📝 详细摘要作者开发了一个细粒度的数据驱动框架，用于评估纽约市免费公交政策的潜在影响。通过整合 GTFS 交通数据流、美国人口普查收入数据、车辆拥有率统计以

📅 2026-04-07 06:56 (04-07 06:56) hassandawy 商业科技 1 分鐘 ★ 87

数据科学城市规划纽约交通公共政策

● 揭穿时间序列数据中的统计谬误

📌 一句话摘要 Chollet 批评了对随机时间序列数据中结构化模式的误读，并提供了一个可复现的示例。 📝 详细摘要此推文针对时间序列中相关性的误读进行了技术性纠正。Chollet 解释说，将两条独立的随机游走序列绘制成散点图，可能会产生误导性的结构化图形。他提供了一个 Google Cola

📅 2026-04-06 00:37 (04-06 00:37) François Chollet 软件编程 3 分鐘 ★ 87

数据科学统计学时间序列数据可视化

● 一位数据科学家对 599 美元 MacBook Neo 的看法

📌 一句话摘要一位数据科学家评估了 599 美元的 MacBook Neo，结论是：虽然其 8GB 内存对于专业本地工作负载来说不足，但它对于学生和基于云的学习者来说是一个极佳且经济实惠的入门选择。 📝 详细摘要本文从数据科学家的视角对 599 美元的 MacBook Neo 进行了专业评估

📅 2026-04-05 21:00 (04-05 21:00) Benjamin Nweke 个人成长 1 分鐘 ★ 82

MacBook Neo 数据科学硬件选择内存需求

● 将 1.27 亿个数据点转化为行业报告

📌 一句话摘要一篇关于如何将 1.27 亿个安全数据点转化为高影响力行业报告的技术与战略工作流的全面回顾，涵盖了数据工程、基于 LLM 的分类以及受众细分方面的经验教训。 📝 详细摘要作者是 Semgrep 的高级技术产品营销经理（PMM），详细介绍了制作《大规模修复》（Remediatio

📅 2026-03-31 18:35 (03-31 18:35) Braden Riggs 商业科技 8 分鐘 ★ 86

数据科学数据工程行业报告应用安全

● 7 个用于特征工程的必备 Python itertools 工具 - MachineLearningMastery.com

📌 一句话摘要本文展示了如何利用 Python 的 itertools 标准库，为机器学习工作流实现高效、可读且可组合的特征工程模式。 📝 详细摘要本文提供了关于使用 Python 的 itertools 模块来简化特征工程任务的实用指南。它涵盖了七个特定的函数——combinations、

📅 2026-03-30 19:00 (03-30 19:00) Bala Priya C 软件编程 1 分鐘 ★ 85

Python 特征工程 itertools 数据科学

● 为什么数据科学家应该关注量子计算

📌 一句话摘要研究员 Sara A. Metwalli 探讨了量子计算与数据科学的融合，强调了量子算法如何彻底改变优化和机器学习领域。 📝 详细摘要在本次访谈中，量子计算研究员 Sara A. Metwalli 分享了她的学术历程以及目前在苏格兰量子软件实验室（Quantum Softwar

📅 2026-03-30 20:00 (03-30 20:00) TDS Editors 人工智能 1 分鐘 ★ 84

量子计算数据科学机器学习 QML

● 5 个用于高效特征选择的实用 Python 脚本

📌 一句话摘要一份提供 5 个可复用 Python 脚本的实用指南，旨在自动化特征选择，帮助数据科学家提升模型性能和流水线效率。 📝 详细摘要本文介绍了一系列旨在简化机器学习流水线中特征选择过程的 Python 脚本。涵盖的技术范围广泛，包括方差阈值、相关性分析、统计显著性检验、基于模型的特

📅 2026-03-30 20:00 (03-30 20:00) Bala Priya C 人工智能 1 分鐘 ★ 85

机器学习特征选择 Python 数据科学

● 超越代码生成：面向完整数据科学工作流的 AI

📌 一句话摘要本文展示了一个利用 AI (Codex) 和模型上下文协议 (MCP) 实现端到端数据科学工作流的案例，涵盖了数据提取、工程化和分析的自动化，突显了从简单的代码生成向全周期编排的转变。 📝 详细摘要作者分享了一个利用 Codex 和 MCP 分析多年 Apple Health

📅 2026-03-26 20:00 (03-26 20:00) Yu Dong 人工智能 2 分鐘 ★ 88

数据科学 Codex MCP 工作流自动化

● 我的模型失败了。这就是我成为一名更优秀数据科学家的原因。

📌 一句话摘要一位数据科学家分享了他们在医疗建模早期的失败经历（特别是数据泄露和工作流不匹配问题），这些经历揭示了在 AI 时代，领域专业知识和对生产环境的认知比技术编码更为重要。 📝 详细摘要作者记录了自己从大型医院系统中的初级数据分析师晋升为二级数据科学家的职业历程。通过一系列失败的项目

📅 2026-03-25 17:47 (03-25 17:47) Hayden Kastens 个人成长 9 分鐘 ★ 85

数据科学医疗 AI 数据泄露职业发展

● 4 个悄悄破坏数据流水线的 Pandas 概念

📌 一句话摘要本文指出了 Pandas 的四个关键行为——数据类型、索引对齐、复制与视图（Copy vs. View）以及防御性编码——它们经常导致生产数据流水线中出现隐蔽的 Bug。 📝 详细摘要作者认为，尽管大多数 Pandas 教程都专注于 `groupby` 等高级函数，但往往忽略了

📅 2026-03-24 00:30 (03-24 00:30) Ibrahim Salami 软件编程 2 分鐘 ★ 85

Pandas Python 数据工程数据科学

● 因果推断正在“吞噬”机器学习

📌 一句话摘要本文探讨了为何基于相关性的传统机器学习在决策中会失效，以及 DoWhy 等现代因果推断工具如何成为有效部署 AI 的关键。 📝 详细摘要本文指出了现代 AI 的一个关键缺陷：预测与行动之间的鸿沟。虽然传统的机器学习擅长寻找相关性（关联），但由于无法解释混杂变量，它在用于指导干预

📅 2026-03-23 23:00 (03-23 23:00) Kaushik Rajan 人工智能 2 分鐘 ★ 89

因果推断机器学习 DoWhy Judea Pearl

● 可视化解决方案中的模式：数据结构如何影响编码风格

📌 一句话摘要本文探讨了数据的内在结构如何决定 SQL 和 Pandas 中的最佳编码模式，并为数据分析师提供了一个启发式框架，以提高编码效率和一致性。 📝 详细摘要作者认为，数据结构是一种自然引导编码风格的约束。通过分析面试类问题中的模式，文章展示了特定的数据形态（如时间序列或实体-事件关

📅 2026-03-18 22:00 (03-18 22:00) Nate Rosidi 软件编程 11 分鐘 ★ 82

数据科学 SQL Pandas 编码模式

● 你很可能无法实现数据驱动的自我提升 — LessWrong

📌 一句话摘要本文对数据驱动的自我提升进行了严谨的统计学批判，认为大多数生活方式干预过于微妙，在日常生活的噪音中，若没有数月的追踪，将难以被检测到。 📝 详细摘要作者挑战了个人可以轻松使用 A/B 测试和数据追踪来优化生活的流行观念。通过应用科恩 d 值（Cohen's d）和 p 值等正式

📅 2026-03-14 02:03 (03-14 02:03) siarshai 人工智能 25 分鐘 ★ 85

统计学自我提升数据科学量化自我

● 构建像数据科学家一样思考的智能体：我们如何通过可复用工具生成在 DABStep 上取得第一名

📌 一句话摘要 NVIDIA KGMON 团队推出了一种三阶段智能体架构，通过将复杂推理提炼成可复用、优化的 Python 工具，实现了 SOTA 数据分析性能。 📝 详细摘要本文详细介绍了 NVIDIA KGMON Data Explorer，这是一个基于 NeMo Agent Toolki

📅 2026-03-13 09:02 (03-13 09:02) Jiwei Liu, Maximilian Jeblick, Jack Yu 人工智能 2 分鐘 ★ 91

LLM 智能体数据科学 NVIDIA NeMo DABStep 基准测试

● 个人开发者利用 43 年数据构建 85% 准确率的网球预测 AI

📌 一句话摘要详细拆解了一个利用 43 年 ATP 数据、ELO 评分系统和 XGBoost 算法实现高精度网球胜负预测的 AI 项目。 📝 详细摘要该推文深度拆解了开发者 @theGreenCoding 的开源项目。该项目通过处理 1985-2024 年超过 9.5 万场网球比赛数据，提取

📅 2026-03-12 00:17 (03-12 00:17) Berryxia.AI 人工智能 1 分鐘 ★ 88

机器学习 XGBoost 特征工程 ELO 算法

● 机构决策系统中的招生与学生成功系统预测建模

📌 一句话摘要本文探讨了高等教育从回顾性报告向预测建模的转变，重点关注招生和学生成功所需的统计架构与运营策略。 📝 详细摘要文章讨论了高等教育领域的一个根本性转变：从分析历史数据转向实施能够预测学生行为的预测系统。它概述了招生预测的两个时间维度：基于漏斗转化的短期模型，以及利用人口统计数据和

📅 2026-03-11 15:38 (03-11 15:38) Pavan Dhanireddy 软件编程 8 分鐘 ★ 82

预测建模高等教育数据科学招生管理