Skip to content

2022.01.17
9种数据科学/统计学偏差(bias)类型

1. 选择偏差 Selection bias

image.png

2. 自选择偏差 Self-selection bias

举例:如果你要在网络上发布一个关于“成功的企业家”的调查表,那结果大概率有问题,因为大部分的成功企业家没有闲时间理会你的调查表。

3. 回忆偏差 Recall bias

例如,人们倾向于记住好的记忆,而忘掉不好的。

4. 观测者偏差 Observer bias

人们倾向于选择对自己有利的统计结果,而忽略了不支持假设的统计结果。耸人听闻的文章(标题党)往往来源于不怎么样的研究。

5. 幸存者偏差 Survivorship bias

观测到的样本如果都是“幸存”的样本,则结果可能存在偏差。例如,一台一百年前的机器到现在还能用,你不能说“一百年前的生产的机器的质量比现在的要好”,因为大部分质量不行的都已经报废了。

6. 变量忽略偏差 Omitted variable bias

你的模型中可能忽略了一些比较重要的变量。在预测模型中这一点尤为普遍。

7. 因果效应偏差 Cause-effect bias

correlation does not imply causation. 关联性不代表因果性

8. 赞助者偏差 Funding bias

人们倾向于选择产出对赞助者(如果有的话)有利的研究结果。

9. 认知偏差 Cognitive bias

又可以分为四小类:

9.1 马后炮偏差(Hindsight bias)

你可能会觉得那些重大发现对你来说都微不足道,他们做得都没什么难的。

9.2 确信偏差(confirmation bias)

当一个决策者已经有自己的前提假设、前提预判的时候,他在听别人的建议时只会听那些支持自己的假设的,而忽略那些不支持的。

9.3 相信偏差 (Belief bias)

和前者类似,但你不一定需要前提的经验,你只需要相信某件事情,就会自动忽略那些不支持的研究。

9.4 专业背景偏差

当你跟不同背景的人解释数据科学的时候,要用不同语言。 e.g. “statistically significant” = “pretty damn sure”

参考: 基本翻译自 https://data36.com/statistical-bias-types-explained/