2022.01.17
9种数据科学/统计学偏差（bias）类型

举例：如果你要在网络上发布一个关于“成功的企业家”的调查表，那结果大概率有问题，因为大部分的成功企业家没有闲时间理会你的调查表。

例如，人们倾向于记住好的记忆，而忘掉不好的。

人们倾向于选择对自己有利的统计结果，而忽略了不支持假设的统计结果。耸人听闻的文章（标题党）往往来源于不怎么样的研究。

观测到的样本如果都是“幸存”的样本，则结果可能存在偏差。例如，一台一百年前的机器到现在还能用，你不能说“一百年前的生产的机器的质量比现在的要好”，因为大部分质量不行的都已经报废了。

你的模型中可能忽略了一些比较重要的变量。在预测模型中这一点尤为普遍。

correlation does not imply causation. 关联性不代表因果性

人们倾向于选择产出对赞助者（如果有的话）有利的研究结果。

又可以分为四小类：

你可能会觉得那些重大发现对你来说都微不足道，他们做得都没什么难的。

当一个决策者已经有自己的前提假设、前提预判的时候，他在听别人的建议时只会听那些支持自己的假设的，而忽略那些不支持的。

和前者类似，但你不一定需要前提的经验，你只需要相信某件事情，就会自动忽略那些不支持的研究。

当你跟不同背景的人解释数据科学的时候，要用不同语言。 e.g. “statistically significant” = “pretty damn sure”

参考：基本翻译自 https://data36.com/statistical-bias-types-explained/