我的学长学姐找到了工作,是不是因为ta所就读的项目更好?
相比于其他项目,项目A是否提高了我找到工作的概率?
人们常常问关于原因和结果的问题。比如,某人死于肺癌,是不是因为他常常吸烟?我的感冒症状减轻了,是不是因为服用了维生素 C ?
类似的问题,充满了我们的日常生活。
“相关性并不意味着因果关系”,和统计多少打交道的伙伴们都明白这个道理。 但是,这些看似直接了当的问题,却不容易回答。.
.
同样的问题,在我们选校选offer时甚至很难被意识到:
从经验中,我们可能观察到,项目A的就业率更高。但是,这统计上的 “相关关系” 是否就代表了 “因果关系” 呢?.
为了更好的解释这个问题,或许我们可以借助有向无环图 (directed acyclic graph ;DAG) 来表示变量的生成机制,并使用DAG来进行因果关系的解释。
第一层:相关性
这张图表示了我们通常所用来衡量项目优劣的重要因素,通俗理解来说:就是往届的placement情况。这是很多人自以为“观察”得到的内容。
第二层:observed factual实际可观测到的事实(internvention)
实际上,申请者的自身背景是一个非常重要的混淆变量 (Confounding Variable)。.--
申请者BG同时影响着项目录取和找工结果,导致“项目质量”和“找工结果”,直接可能产生虚假的关系。
对于一些录取非常卷的项目来说,如果录取标准动辄 GRE 330, GPA 3.9;那么我相信几乎所有毕业生都能拿到全职offer,不论项目对学生的帮助是什么样的。对于这样的项目,录取时 GPA 就高的同学,真的能从中获取最大化收益吗?
这样的一个项目来说,是每个申请者最好的选择吗?
第三层:如果我选了另一个项目,会怎么样?(Counterfactuals)
我们无从获得平行世界中自己的选择,现实条件也很难允许真的去“建模”分析每个项目的优劣。但我们仍可以尝试在已知事实下,做出更为合理的判断,而非局限于观察到的“相关关系”。
但当我们选校时,真正需要问自己的问题是这样的 —— “鉴于我了解自己的BG和其他情况,那么我想知道:就读这个项目,会多大程度上有助于获得我想要的工作?”
辛普森悖论的toy example.
这是一个辛普森悖论的toy example。如果以GRE分数作为分组条件,我们可以发现 —— 项目B的学生,在两个分数段都有更好的就业率。然而在总体结果中,项目B的整体offer比率反而比项目A更低。背后的原因就在于,项目A录取的学生GRE分数更高。
上述的例子说明,在存在混淆变量时,简单的观察性数据不能带来任何“因果性”的结论。
.--
当录取标准畸高时,一个项目对找工的帮助到底有多少,是值得打上问号的。根据我个人的经验和观察,这样依靠高bar来营造高placement的假象,是许多名校在开设项目初期惯用的手段。
但很遗憾,我想这样的选校偏见,对于普通的申请者来说,又是非常普遍的。