全部 未讀 (21710) ★ 收藏 (0) 🤖 人工智能 (11206) 📊 商业科技 (4475) 💻 软件编程 (1690) 📁 个人成长 (1607) 📁 生活文化 (866) 📁 媒体资讯 (843) 📁 投资财经 (538) 🎨 产品设计 (410) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 数据科学 共 21 篇 ✕ 清除篩選
21712
全部文章
21710
未讀
74
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 08:00)
BestBlogs 精選 (21677)

🏷️ 熱門標籤

AI Agent 2177 AI 编程 994 Anthropic 981 Claude Code 918 AI 智能体 780 OpenAI 745 LLM 689 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 492 开发者工具 434 Codex 416 软件工程 399 具身智能 338 Agent 336 个人成长 334 GitHub 321 生产力 315
如何使用 Python 构建基于持仓分析的原油交易策略 [完整手册]
📌 一句话摘要 本手册详细介绍了利用持仓报告 (COT) 数据和 WTI 价格分析,通过 Python 构建原油交易策略的工程化流程。 📝 详细摘要 本文提供了一份开发原油量化交易策略的全面分步指南。作者摒弃了模糊的市场叙事,转而使用 Python 处理持仓报告 (COT) 数据和 WTI 历史
📅 2026-04-10 23:57 (04-10 23:57) Nikhil Adithyan 软件编程 1 分鐘 ★ 88
Python 量化交易 数据科学 金融工程
对经济数据计算方法的抨击
📌 一句话摘要 马克·安德森对经济和统计图表的构建及操纵方式表示怀疑。 📝 详细摘要 在回应一篇关于美国特定经济数据计算方法的帖子时,马克·安德森对数据可视化和统计报告表达了讽刺的态度,暗示图表经常被用来歪曲事实或服务于特定的叙事。 📊 文章信息 AI 评分:76 来源:Marc Andree
📅 2026-04-10 07:42 (04-10 07:42) Marc Andreessen 🇺🇸 商业科技 1 分鐘 ★ 76
数据科学 经济学 统计学
Python 生存分析指南:利用事件发生时间模型预测客户生命周期
📌 一句话摘要 本指南介绍了如何使用 Python 中的 Kaplan-Meier 和 Cox 比例风险模型进行生存分析,以预测客户流失和生命周期价值。 📝 详细摘要 本文全面介绍了生存分析(SA),这是一个用于预测特定事件发生时间的统计分支。文章解释了为什么传统的回归模型(如 OLS 或逻辑回
📅 2026-04-09 21:30 (04-09 21:30) Gustavo Santos 软件编程 1 分鐘 ★ 86
生存分析 Python 数据科学 客户流失
生产力提升的算术题:为什么“生产力提升 40%”往往名不副实?
📌 一句话摘要 本文解构了生产力声明中的数学谬误,解释了为什么局部任务优化很少能带来全局效率的提升,并提出将认知负荷作为更好的衡量指标。 📝 详细摘要 作者是一位数学家兼顾问,他探讨了为什么营销中承诺的“生产力提升 40%”往往无法在现实中实现。核心问题在于“生产力算术”:针对特定狭窄任务的显著
📅 2026-04-07 20:00 (04-07 20:00) Eirik Berge 个人成长 1 分鐘 ★ 86
生产力 思维模型 认知负荷 数据科学
绘制纽约市交通公平地图 — LessWrong
📌 一句话摘要 本文提出了一种针对纽约市的数据驱动型“公交需求指数”,利用多源交通和人口统计数据,识别出最能从免费公交政策中受益的社区。 📝 详细摘要 作者开发了一个细粒度的数据驱动框架,用于评估纽约市免费公交政策的潜在影响。通过整合 GTFS 交通数据流、美国人口普查收入数据、车辆拥有率统计以
📅 2026-04-07 06:56 (04-07 06:56) hassandawy 商业科技 1 分鐘 ★ 87
数据科学 城市规划 纽约交通 公共政策
揭穿时间序列数据中的统计谬误
📌 一句话摘要 Chollet 批评了对随机时间序列数据中结构化模式的误读,并提供了一个可复现的示例。 📝 详细摘要 此推文针对时间序列中相关性的误读进行了技术性纠正。Chollet 解释说,将两条独立的随机游走序列绘制成散点图,可能会产生误导性的结构化图形。他提供了一个 Google Cola
📅 2026-04-06 00:37 (04-06 00:37) François Chollet 软件编程 3 分鐘 ★ 87
数据科学 统计学 时间序列 数据可视化
一位数据科学家对 599 美元 MacBook Neo 的看法
📌 一句话摘要 一位数据科学家评估了 599 美元的 MacBook Neo,结论是:虽然其 8GB 内存对于专业本地工作负载来说不足,但它对于学生和基于云的学习者来说是一个极佳且经济实惠的入门选择。 📝 详细摘要 本文从数据科学家的视角对 599 美元的 MacBook Neo 进行了专业评估
📅 2026-04-05 21:00 (04-05 21:00) Benjamin Nweke 个人成长 1 分鐘 ★ 82
MacBook Neo 数据科学 硬件选择 内存需求
将 1.27 亿个数据点转化为行业报告
📌 一句话摘要 一篇关于如何将 1.27 亿个安全数据点转化为高影响力行业报告的技术与战略工作流的全面回顾,涵盖了数据工程、基于 LLM 的分类以及受众细分方面的经验教训。 📝 详细摘要 作者是 Semgrep 的高级技术产品营销经理(PMM),详细介绍了制作《大规模修复》(Remediatio
📅 2026-03-31 18:35 (03-31 18:35) Braden Riggs 商业科技 8 分鐘 ★ 86
数据科学 数据工程 行业报告 应用安全
7 个用于特征工程的必备 Python itertools 工具 - MachineLearningMastery.com
📌 一句话摘要 本文展示了如何利用 Python 的 itertools 标准库,为机器学习工作流实现高效、可读且可组合的特征工程模式。 📝 详细摘要 本文提供了关于使用 Python 的 itertools 模块来简化特征工程任务的实用指南。它涵盖了七个特定的函数——combinations、
📅 2026-03-30 19:00 (03-30 19:00) Bala Priya C 软件编程 1 分鐘 ★ 85
Python 特征工程 itertools 数据科学
为什么数据科学家应该关注量子计算
📌 一句话摘要 研究员 Sara A. Metwalli 探讨了量子计算与数据科学的融合,强调了量子算法如何彻底改变优化和机器学习领域。 📝 详细摘要 在本次访谈中,量子计算研究员 Sara A. Metwalli 分享了她的学术历程以及目前在苏格兰量子软件实验室(Quantum Softwar
📅 2026-03-30 20:00 (03-30 20:00) TDS Editors 人工智能 1 分鐘 ★ 84
量子计算 数据科学 机器学习 QML
5 个用于高效特征选择的实用 Python 脚本
📌 一句话摘要 一份提供 5 个可复用 Python 脚本的实用指南,旨在自动化特征选择,帮助数据科学家提升模型性能和流水线效率。 📝 详细摘要 本文介绍了一系列旨在简化机器学习流水线中特征选择过程的 Python 脚本。涵盖的技术范围广泛,包括方差阈值、相关性分析、统计显著性检验、基于模型的特
📅 2026-03-30 20:00 (03-30 20:00) Bala Priya C 人工智能 1 分鐘 ★ 85
机器学习 特征选择 Python 数据科学
超越代码生成:面向完整数据科学工作流的 AI
📌 一句话摘要 本文展示了一个利用 AI (Codex) 和模型上下文协议 (MCP) 实现端到端数据科学工作流的案例,涵盖了数据提取、工程化和分析的自动化,突显了从简单的代码生成向全周期编排的转变。 📝 详细摘要 作者分享了一个利用 Codex 和 MCP 分析多年 Apple Health
📅 2026-03-26 20:00 (03-26 20:00) Yu Dong 人工智能 2 分鐘 ★ 88
数据科学 Codex MCP 工作流自动化
我的模型失败了。这就是我成为一名更优秀数据科学家的原因。
📌 一句话摘要 一位数据科学家分享了他们在医疗建模早期的失败经历(特别是数据泄露和工作流不匹配问题),这些经历揭示了在 AI 时代,领域专业知识和对生产环境的认知比技术编码更为重要。 📝 详细摘要 作者记录了自己从大型医院系统中的初级数据分析师晋升为二级数据科学家的职业历程。通过一系列失败的项目
📅 2026-03-25 17:47 (03-25 17:47) Hayden Kastens 个人成长 9 分鐘 ★ 85
数据科学 医疗 AI 数据泄露 职业发展
4 个悄悄破坏数据流水线的 Pandas 概念
📌 一句话摘要 本文指出了 Pandas 的四个关键行为——数据类型、索引对齐、复制与视图(Copy vs. View)以及防御性编码——它们经常导致生产数据流水线中出现隐蔽的 Bug。 📝 详细摘要 作者认为,尽管大多数 Pandas 教程都专注于 `groupby` 等高级函数,但往往忽略了
📅 2026-03-24 00:30 (03-24 00:30) Ibrahim Salami 软件编程 2 分鐘 ★ 85
Pandas Python 数据工程 数据科学
因果推断正在“吞噬”机器学习
📌 一句话摘要 本文探讨了为何基于相关性的传统机器学习在决策中会失效,以及 DoWhy 等现代因果推断工具如何成为有效部署 AI 的关键。 📝 详细摘要 本文指出了现代 AI 的一个关键缺陷:预测与行动之间的鸿沟。虽然传统的机器学习擅长寻找相关性(关联),但由于无法解释混杂变量,它在用于指导干预
📅 2026-03-23 23:00 (03-23 23:00) Kaushik Rajan 人工智能 2 分鐘 ★ 89
因果推断 机器学习 DoWhy Judea Pearl
可视化解决方案中的模式:数据结构如何影响编码风格
📌 一句话摘要 本文探讨了数据的内在结构如何决定 SQL 和 Pandas 中的最佳编码模式,并为数据分析师提供了一个启发式框架,以提高编码效率和一致性。 📝 详细摘要 作者认为,数据结构是一种自然引导编码风格的约束。通过分析面试类问题中的模式,文章展示了特定的数据形态(如时间序列或实体-事件关
📅 2026-03-18 22:00 (03-18 22:00) Nate Rosidi 软件编程 11 分鐘 ★ 82
数据科学 SQL Pandas 编码模式
你很可能无法实现数据驱动的自我提升 — LessWrong
📌 一句话摘要 本文对数据驱动的自我提升进行了严谨的统计学批判,认为大多数生活方式干预过于微妙,在日常生活的噪音中,若没有数月的追踪,将难以被检测到。 📝 详细摘要 作者挑战了个人可以轻松使用 A/B 测试和数据追踪来优化生活的流行观念。通过应用科恩 d 值(Cohen's d)和 p 值等正式
📅 2026-03-14 02:03 (03-14 02:03) siarshai 人工智能 25 分鐘 ★ 85
统计学 自我提升 数据科学 量化自我
构建像数据科学家一样思考的智能体:我们如何通过可复用工具生成在 DABStep 上取得第一名
📌 一句话摘要 NVIDIA KGMON 团队推出了一种三阶段智能体架构,通过将复杂推理提炼成可复用、优化的 Python 工具,实现了 SOTA 数据分析性能。 📝 详细摘要 本文详细介绍了 NVIDIA KGMON Data Explorer,这是一个基于 NeMo Agent Toolki
📅 2026-03-13 09:02 (03-13 09:02) Jiwei Liu, Maximilian Jeblick, Jack Yu 人工智能 2 分鐘 ★ 91
LLM 智能体 数据科学 NVIDIA NeMo DABStep 基准测试
个人开发者利用 43 年数据构建 85% 准确率的网球预测 AI
📌 一句话摘要 详细拆解了一个利用 43 年 ATP 数据、ELO 评分系统和 XGBoost 算法实现高精度网球胜负预测的 AI 项目。 📝 详细摘要 该推文深度拆解了开发者 @theGreenCoding 的开源项目。该项目通过处理 1985-2024 年超过 9.5 万场网球比赛数据,提取
📅 2026-03-12 00:17 (03-12 00:17) Berryxia.AI 人工智能 1 分鐘 ★ 88
机器学习 XGBoost 特征工程 ELO 算法
机构决策系统中的招生与学生成功系统预测建模
📌 一句话摘要 本文探讨了高等教育从回顾性报告向预测建模的转变,重点关注招生和学生成功所需的统计架构与运营策略。 📝 详细摘要 文章讨论了高等教育领域的一个根本性转变:从分析历史数据转向实施能够预测学生行为的预测系统。它概述了招生预测的两个时间维度:基于漏斗转化的短期模型,以及利用人口统计数据和
📅 2026-03-11 15:38 (03-11 15:38) Pavan Dhanireddy 软件编程 8 分鐘 ★ 82
预测建模 高等教育 数据科学 招生管理