2022.01.17
9种数据科学/统计学偏差(bias)类型
1. 选择偏差 Selection bias
2. 自选择偏差 Self-selection bias
举例:如果你要在网络上发布一个关于“成功的企业家”的调查表,那结果大概率有问题,因为大部分的成功企业家没有闲时间理会你的调查表。
3. 回忆偏差 Recall bias
例如,人们倾向于记住好的记忆,而忘掉不好的。
4. 观测者偏差 Observer bias
人们倾向于选择对自己有利的统计结果,而忽略了不支持假设的统计结果。耸人听闻的文章(标题党)往往来源于不怎么样的研究。
5. 幸存者偏差 Survivorship bias
观测到的样本如果都是“幸存”的样本,则结果可能存在偏差。例如,一台一百年前的机器到现在还能用,你不能说“一百年前的生产的机器的质量比现在的要好”,因为大部分质量不行的都已经报废了。
6. 变量忽略偏差 Omitted variable bias
你的模型中可能忽略了一些比较重要的变量。在预测模型中这一点尤为普遍。
7. 因果效应偏差 Cause-effect bias
correlation does not imply causation. 关联性不代表因果性
8. 赞助者偏差 Funding bias
人们倾向于选择产出对赞助者(如果有的话)有利的研究结果。
9. 认知偏差 Cognitive bias
又可以分为四小类:
9.1 马后炮偏差(Hindsight bias)
你可能会觉得那些重大发现对你来说都微不足道,他们做得都没什么难的。
9.2 确信偏差(confirmation bias)
当一个决策者已经有自己的前提假设、前提预判的时候,他在听别人的建议时只会听那些支持自己的假设的,而忽略那些不支持的。
9.3 相信偏差 (Belief bias)
和前者类似,但你不一定需要前提的经验,你只需要相信某件事情,就会自动忽略那些不支持的研究。
9.4 专业背景偏差
当你跟不同背景的人解释数据科学的时候,要用不同语言。 e.g. “statistically significant” = “pretty damn sure”
参考: 基本翻译自 https://data36.com/statistical-bias-types-explained/