如何快速准确地解读统计回归系数?
2019-04-19 09:50
2149浏览
2回答
如何快速准确地解读统计回归系数?:如何快速准确的解读回归系数?我们平常在课堂、组会或者学术会议上,难免会被师友突然叫起来评价一下某个研究。在这种情况下,快:-回归系数,解读,准确,统计
转载请联系作者获得授权,并标注“文章作者”。
转载请联系作者获得授权,并标注“文章作者”。
如何快速准确的解读回归系数?
我们平常在课堂、组会或者学术会议上,难免会被师友突然叫起来评价一下某个研究。在这种情况下,快速、准确的解读研究结果就显得非常重要。
大部分的定量研究都是基于频率主义的统计学,其分析结果最容易被错误的解读。因此对于定量发现,我们需要先学会分辨,然后再作判断。
1.系数是否有意义?
我们在解读回归系数时,不光要看它方向是否符合预期、p值是否显著,更要看它的现实意义是否足够重大 (例如选举制度对一个国家GDP的影响在统计上即使有三颗星星,但系数是1 年1美元,那么这个研究理论和研究发现就容易被批评太trivial。
这也说明在解读系数时,需要注意变量的单位,是百分比、标准差、0-1变量,还是被缩放了一百万?
2.何为P值和置信区间?
P值既非原假设正确的概率,更非备择假设错误的概率。P值是假定原假设正确的情况下,获得比当前更为极端的数据的概率 (类似地,不要把95%置信区间错误地理解成真值掉入该区间的概率是95%。置信区间描述的是一套程序,与系数无直接关系。以95%置信区间为例,它是指在重复抽取样本后,生成的95%的置信区间会覆盖真实参数 (在理解上述基本概念后,还要确定p值是基于单尾检验还是双尾检验得出。双尾检验的原假设是b=0,单尾检验的原假设是b>=0或者b<=0。 单尾p值只是双尾p值的一半,因而单尾检验更容易通过。这并不是说我们不应使用单尾检验,但偶尔确实会出现故意用单尾检验来提高回归表格中星星数的研究 (另外,p值不显著并不代表自变量对因变量没有影响,它只说明研究者还没有找到足够的证据来支持他们的理论假设 (“absence of evidence is not evidence of absence”)。
3.模型之间如何比较?
通常一张回归表格中会并列多个回归模型,由于自变量的增减和因变量的变化容易造成样本量的变化,这时对模型作对比就需非常小心。比如,在同一个因变量的情况下,如果关键变量的系数在第一栏的全样本中显著为正,在第二栏子样本中不仅显著,而且非常大。这时关键变量在其补集样本中的系数很有可能不显著,甚至处于相反的方向,从而挑战了原有理论假设的可推广性。
有时研究者会先放一栏没有关键自变量的模型,再放一栏有关键自变量的模型。这时可以通过模型整体参数来判断该变量对模型整体是否有贡献。例如 (Adjusted/ pseudo) R2评价的是模型的解释力,在0和1 之间,越大越好;
AICBICDIC评价的是模型的样本外预测偏差,只有相对意义,越小越好。
最后,统计解读中应该避免使用“证明”或者“证伪”之类的词,因为我们只有无数样本中的一个样本,得到的永远只是一个从0到1之间的概率,而“证明”或者“证伪”要求的都是100%。反过来说,如果我们有能力以100%的概率来说明某件事情,我们也就不会选择使用统计模型来进行估测了。
所以,下次忽然被人叫起来解读某个定量研究时,准备好来一段带对节奏的free style了吗?
在这种情况下,快速、准确的解读研究结果就显得非常重要。
大部分的定量研究都是基于频率主义的统计学,其分析结果最容易被错误的解读。因此对于定量发现,我们需要先学会分辨,然后再作判断。