为什么有人说北京协和医学院怎么样分低,而有人说分高?

见识数据分析的「独孤九剑」 | 说人话的统计学·协和八_协和八-爱微帮
&& &&& 见识数据分析的「独孤九剑」 | 说人话的…
数据分析的独孤九剑——贝 叶 斯 统 计 学 在上一集里,我们展示了一个也许有些吓人的事实:即便你的科学假说经受住了p&0.05的考验,它真的成立的概率却是一个跟p值没太大关系的数字。它可能很大,也可能很小,具体会是多大的一个数取决于一些其他因素。然而,很多时候情况并不乐观(上一集的例子就是一个相当具有一般性的情形),你引以为豪的科学发现也许只是个假阳性结果,也就是俗称的“诈和”了。更糟糕的是,当今学术界的文化、科学文献的审查和出版机制存在着种种弊端,这些都会给鱼龙混杂的文献注入更多的水分,使得假阳性结果进一步增多。这也是为什么有人虽有些危言耸听却又不无根据地疾呼:绝大多数科研成果都是假的!()看完了上一集,你也许会说:好吧,学术界自己的这些问题咱们就先不说了,可是那些个统计学家干嘛一上来就把事情搞得那么纠结呢?什么p值啊、原假设啊、功效啊,一个个定义都绕得要死,弄得我们头都大了,为什么不发明一些统计检验直接算出假设成立的可能性呢?答案是,那样的统计学方法是有的!而且值得一提的是,那一套由贝叶斯(Bayes)、拉普拉斯(Laplace)两位数学大神在18世纪就发展起来的统计学理论,相比起近几十年来才流行起来的由p值唱主角儿的“频率学派”假设检验方法,历史要悠久得多。于是你更奇怪了:那既然贝叶斯学派资格老,还容易理解,为什么统计学家后来还要另辟蹊径弄出一套完全不同的东西?为什么现在似乎大多数人学的、用的不是贝叶斯统计学?为了解答这个问题,我们今天就来研究一下贝叶斯统计学到底是怎么一回事,看看我们是不是也能玩得转这统计学中的“独门秘器”。 条件概率 与 贝叶斯定理 环顾各式各样的概率论和统计学入门书,你会发现满眼都是t检验、方差分析、线性回归等等“频率学派”的统计学方法。然而有意思的是,这些书几乎都会用不少的篇幅来讲一个叫做贝叶斯定理的东西,可是讲完之后似乎又再没什么下文了。这个定理和我们今天要讲的主题都被冠上了贝叶斯的大名,这可不是出于巧合——贝叶斯定理恰恰就是整个贝叶斯统计学的理论基础,我们在上一集的例子中计算得到显著结果的药物到底有多大可能真的有效,实际上用的也是它(如果你在阅读上一集时就已经反应过来,“哎哟我去,这不就是贝叶斯定理嘛!”,那么不妨直接跳到下一节)。贝叶斯定理是一条关于条件概率的定理。所谓概率,就是用0和1之间的数来表示某件事情发生的可能性大小,如果我们感兴趣的事件用A表示,那么它的概率就写成P(A)。概率为0就是不可能事件,概率为1就是必然事件,而在这两者之间,概率越大则可能性越大。(其实“频率派”和“贝叶斯派”在概率的定义上就开始吵了,这也是两者最根本的分歧,我们暂时按下不表,只采用比较笼统的理解。)条件概率指的是,在某件事情A发生的前提下,另一件事情B发生的概率,用P(B | A)表示(注意在竖线后面的是条件,前面的是我们感兴趣的事件)。比如说,东单某著名医学院一共有1000个学生,其中400个男生,600个女生。我们知道女生里头有一半穿裙子,一半穿裤子,而在男生中,不知道出于什么原因也有40个穿裙子,剩下的男生则都是穿裤子。如果我们想知道男生中穿裙子的比例,那么这就是条件概率P(裙|男)。这个条件概率怎么算呢?这好办,我们就数数在所有人里有多少个穿裙子的男生,然后除以男生的总数就行了。根据上述条件,有:用类似的方法我们可以算出P(裤 | 男) = 0.9,P(裙 | 女) = P(裤 | 女) = 0.5。因此,?条件概率的一般公式是:简单来说,就是条件A之下B发生的概率等于A和B同时发生的概率除以B发生的概率。如果等式两边同时乘以P(B),我们还可以得到:现在问题来了,某一天,重度近视的你忘了戴眼镜,朦朦胧胧间你看见一个穿裙子的身影翩然而至,可是你怎么也看不清来人到底是男是女。那么,眼前这人是男生的概率是多少?用数学的语言来说,现在你想知道的是,在已知眼前这人穿裙子的前提下,此人是男生的条件概率,也就是P(男 | 裙)。可是,我们之前算过的只是把性别作为条件、穿着作为事件的概率,比如说P(裙 | 男)。怎样能把这个次序翻过来呢?根据条件概率的定义((2)式),我们可以写出:先看右边的分子,P(男 & 裙)是“一个人是男生”和“一个人穿裙子”这两个事件同时发生的概率,根据(3)式我们可以把它改写成含有条件概率的形式。记住,我们已经知道条件概率P(裙 | 男)的值,因此,我们套用(3)式把右边的分子拆开:现在你会发现,等式右边分子上相乘的两项都是已知的了,所以我们只剩下分母P(裙)了。它实际上就是在所有学生里穿裙子的人的比例。怎么算呢?你一定很快就能想到,根据男女生的人数和各自穿裙子的比例,算出穿裙子的男生人数和穿裙子的女生人数,然后除以总人数不就行了?没错!如果把这个思路写成数学式子,实际上就是把P(裙)拆成P(男&裙)与P(女&裙)之和,然后再分别套用一次(3)式:如果我们把(6)代入(5),所有的项就都是已知的了,由此我们就能算出眼前这个穿裙子的同学是男生的概率:抛开这个具体的例子,把前面得到的(5)式写成一般的形式:这就是大名鼎鼎的贝叶斯定理了!推导出了贝叶斯定理,我们立刻就来用它验证一下上一集药物有效性的例子。如果我们把一个药物实际有效和无效分别用√和X表示,而实验结果有无统计学显著性分别用+和-表示,那么当我们得到显著结果时药物真正有效的可能性就是条件概率P(√ | +)。回顾显著性和功效的定义,显著性是原假设成立(即药物无效)时错误地得到显著结果的概率,即P(+ | X) = 0.05;功效是假设的效应真实存在(即药物有效)时正确地得到显著结果的概率,即P(+ | √)=0.8。而且,在我们的例子里,100种被测试药物中只有5种实际有效,也就是P(√) = 5/100 = 0.05,P(X)=95/100=0.95。用贝叶斯公式我们可以写出:把已知条件代入,我们会算出45.7%,和上一集我们用数格子的办法得到的结果相同(算出来的数值有细微的差别是因为上一集我们把4.75种假阳性药物四舍五入成了5种)。 从 贝叶斯定理 到 贝叶斯统计学 你也许要说:So what?从小到大,什么定理我没见过?英国的牛顿、美国的爱因斯坦,比贝叶斯不知道有名多少倍,我在中学课堂上就跟他们谈笑风生了,这定理有啥了不起?贝叶斯定理牛掰的地方,不仅在于它独力撑起了一整个统计学流派,也不只因为它是现在最火热的“大数据”机器学习的核心,还在于它与我们人类的思维方法十分贴近。在日常生活中,我们总是在不断观察周围的环境,然后把观察到的现象用某种假说来解释。我们如何知道这种假说有多大可能成立呢?注意到在(7)式中,A和B只是抽象的符号,可以代表任何的事物。因此,我们把“假说”和“现象”分别代替A和B,就能得到:于是,贝叶斯定理就摇身一变,从一条关于条件概率的定理变成了描述人们认知规律的工具。它告诉我们,在观察到某个现象之后,某一假说成立的概率(即等式左边的P(假说 | 现象),又称为“后验概率”)由三个因素决定:一、在这个假说成立的前提下产生这么一个现象的可能性P(现象 | 假说),或者说是现象有多符合假说的预测,我们称为“似然”(likelihood);二、这个假说本身成立的可能性大小,由于这是对观察到现象之前来说的,因此我们称为“先验概率”(prior probability);三、在万事万物中出现这一现象本身的可能性P(现象),我们称为“证据”(evidence)。假设我们只考虑两种解释,分别称为“假说1”和“假说2”。于是我们把两种解释分别套进上面的(9)式里,就写出了两条式子:注意到两式右边的分母都是一样的,所以我们实际上是要比较P(现象 | 假说1)*P(假说1)和P(现象 | 假说2)*P(假说2)这两个乘积哪个大。比如说,我们看到数列 -1, 3, 7, 11,你说它是一个以4为公差的等差数列呢,还是-X3 / 11 + 9/11*X2 + 23/11每项把前项作为 X 代入后算出来的数列?我们稍微计算一下,就会发现这两个假说都可以完美地解释看到的数列(也就是说观察到的数列在两个假说之下的似然分别都是1)。但是你一定会说,虽然数字上都说得通,可是这后一种说法简直太扯了,谁没事折腾一这么复杂的多项式呢?在这时,你实际上就是在比较这两种假说的先验概率P(假说1)和P(假说2)。所以,贝叶斯定理只不过是把我们习惯的思考方式用数学语言表达出来而已。在这里我们也可以回想上一集说过的“基数谬误”,为什么在具有显著结果的药物中真正有效的比例并不高呢?这恰恰就是因为药物有效的先验概率(100种里只有5种)太低了,尽管得到的显著结果与药物有效这个假说看起来十分符合(即“似然”很大),得到的后验概率仍然不大。说了这么多,我们离贝叶斯统计学只有一步之遥了。我们刚刚讲过,贝叶斯定理可以描述现象与假说之间的关系。那么在统计学的眼里,现象是什么呢?自然是我们做研究得到的数据了。那么假说呢?既然统计学是一门定量的学问,我们同样需要量化的方法来描述我们的假说。比如说,你想研究一个区域的人均期望寿命, 或者不同干预手段对病人存活率的影响,又或者是家庭收入与某种疾病发病年龄的相关关系,所有这些假说都需要有特定的数量来表述,这些数量我们称为“参数”。统计学的目的,就是考察在既有的数据之下,以某些参数来表示的假说成立的可能性。因此,我们再把贝叶斯定理改头换面一下:这就是贝叶斯统计学所有方法追根溯源的核心了!通过这样的分析,我们可以算出在给定我们当前已有数据的前提下,某个假说(由一系列参数表示)成立的概率。了解了贝叶斯统计学的思想方法,它和当今主流的频率学派统计学的区别在哪里?既然说是“独孤九剑”,为何它又曾沉寂多时?我们能在自己的数据分析中运用贝叶斯统计学吗?所有这些问题,诸位看官请听下回分解。?回复「说人话的统计学」查看本系列全部文章。参考文献:1. Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Academic Press.2. 刘未鹏 《平凡而又神奇的贝叶斯方法》3. MacKay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge university press.4. Carlin, B. P., & Louis, T. A. (2008). Bayesian methods for data analysis. CRC Press.作者:张之昊编辑:灯盏细辛
点击展开全文
悄悄告诉你
更多同类文章
还可知道有多少人阅读过此篇文章哦
阅读原文和更多同类文章
可微信扫描右侧二维码关注后
还可知道有多少人阅读过此篇文章哦
协和八,小医生的大世界!源自协和的品牌,让临床妙趣横生,让思考更真诚,让生活更奇妙。
您的【关注和订阅】是作者不断前行的动力
本站文章来自网友的提交收录,如需删除可进入
删除,或发送邮件到 bang@ 联系我们,
(C)2014&&版权所有&&&|&&&
京ICP备号-2&&&&京公网安备34声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  回复「统计学」可查看「说人话的统计学」系列合辑
  在上一集《算术平均数:简单背后有乾坤》(如果你错过了这一集,或者已经忘记了我们讲了啥,强烈建议你)中,我们问了这么一个问题:
  多少年来人们最熟悉、最常用、最符合直觉的算术平均数,它到底好在哪里?
  为了回答这个问题,我们引入了随机误差的概念,并且介绍了频率主义统计学中一种重要的方法――极大似然估计。
  那么,算术平均数是不是对真值的极大似然估计呢?
  要证明这一点,我们需要了解随机误差在概率上的分布是怎样的(也就是说,它的概率密度函数是什么)――这恰恰是两三百年前引无数英雄竞折腰的问题。而高斯在这里头做了一件事,他证明了如下结论:
  如果算术平均数是对真值的极大似然估计,那么随机误差的分布就只可能是我们现在熟知的正态分布(也称高斯分布):
  正如我们在上一集的末尾指出的那样,高斯的这个证明有点儿蛋生鸡鸡生蛋的意思,到底有没有意义,取决于“算术平均数是对真值的最大似然估计”这个假设到底对不对,高斯本人当时并不知道,我们说过,他是靠猜的。
  而接下来的剧情估计你也想得到
  ――他猜对了。
  今天,我们就来捋一捋正态分布究竟是怎么来的。
  &&& 拉普拉斯与高斯的殊途同归
  让我们回到1809年。
  这一年,高斯发表了我们上面提到的这个证明。不久以后,同时代的法国大数学家拉普拉斯读到了高斯的论文。他当时也掺和到了寻找随机误差的分布性质的热潮之中,可是一直以来都没有得到像样的进展。此时,他惊讶地发现,高斯推出的概率密度函数
  很面熟!
  这个概率密度函数在拉普拉斯自己的研究中曾经出现过,然而奇怪的是,拉普拉斯是在一个听起来似乎与随机误差风马牛不相及的问题中搞出这个概率密度函数的。
  拉普拉斯之前是在研究什么问题呢?
  我们来设想以下情形:如果有一枚钢G儿,它抛出正面的概率是 p(p可以是0到1之间的任何数),如果我们把这枚钢G儿连续抛n次,那么我们得到0, 1, 2, …, n个正面的概率分别是多少?
  这个问题本质上是个二项分布(binomial distribution)的问题,大家也许还记得,在高中那会儿学习排列组合的时候就遇到过,有现成的公式可以算抛出m个正面的概率:
  m = 1, 2, ... , n
  这个公式不难理解,其中
  是n选m的组合数,也就是抛n次钢G儿中具体哪m次出现了正面(剩下的n-m次自然就是反面)有多少种不同的可能,而
  则是m次正面和n-m次反面的概率的乘积。下图就是当正面概率p分别为0.1, 0.25, 0.5, 0.75时,抛18次钢G儿得到0到18次正面的概率。
  (图片来源:/HTML/index.html?binomial.html)
  然而,当n变得越来越大时,组合数
  里面的一堆阶乘很不好算。拉普拉斯在前人棣莫弗的工作的基础上,找到了另外一个易于计算的分布,可以在n比较大的时候相当好地近似上面的二项分布。我们就用上图的其中一种情况(n=18, p=0.5),来瞅瞅这个近似的效果怎么样:
  (图片来源:/HTML/index.html?binomial.html)
  图中蓝色的柱形图依然是按二项分布的公式算出的从0到18次正面的精确概率,而红色的曲线则是拉普拉斯用于近似计算的分布。可以看到,哪怕像n=18这样n并没有很大的情形,这个近似都已经非常好了。上面只画出了p=0.5的情况,而p取其它数值的时候情况也是类似的。
  实际上,在理论上可以证明,当n趋向无穷大时,红色的这个分布就完完全全是二项分布的概率(另一位数学家棣莫弗对此发现也有重要贡献,因而这个结论称为棣莫弗-拉普拉斯中心极限定理,De Moivre-Laplace Central LimitTheorem)。
  拉普拉斯找出的这个分布是什么呢?出于一些理论上的考虑,我们需要先对抛出正面的次数X作个简单的变换:
  这个变换没什么复杂的道道,因为n和p都是确定的数,把X减去np(一个常数)后再除以(另一个常数)无非就是把X平移和压缩一下而已。
  经过这个变化之后,Z的概率密度函数长这个样子:
  如果我们把这个函数和之前高斯的那个概率密度函数
  对照一下,不难发现,它们其实是同一类分布――只需要把σ2换成1,我们就会得到拉普拉斯用来近似二项分布的那个概率密度函数了。
  可是可是,这里的抛钢G儿和高斯那边在研究的随机误差听起来好像八竿子打不着啊?两边都弄出来同一个概率分布,天底下有这么巧的事情吗?
  &&& 随机误差与中心极限定理
  拉普拉斯敏锐地意识到,这很可能不是一种巧合。
  为了理解拉普拉斯是如何把两者联系起来的,让我们来回头再看一看棣莫弗-拉普拉斯中心极限定理。
  如果我们把第i次掷钢G儿的结果记为Xi,如果得到正面则Xi =1,反面则Xi =0。因此,Xi 这个随机变量的分布很简单,它取1的概率是p,取0的概率是1-p(如下图)。
  (图片来源:https://universe-review.ca/R15-30-stat.htm)
  此时,抛n次钢G儿后得到正面的次数就是每次结果之和:
  于是棣莫弗-拉普拉斯中心极限定理说了些啥呢?如果我们有n个独立的、分布相同的以概率p取1、以概率1-p取0的随机变量,如果n足够大,它们加起来的和稍作变换之后就会服从正态分布。一个很不严谨但是更简单的说法就是,一堆足够多的0/1取值的变量加起来会变成一个正态分布。
  这和随机误差有什么关系?拉普拉斯想到,虽然我们并不一定知道随机误差究竟是什么引起的,但是如果误差也可以看成许多微小量(拉普拉斯称之为“元误差”)叠加起来的总和,那么根据中心极限定理,随机误差也就该服从正态分布了。
  当然,棣莫弗-拉普拉斯中心极限定理针对的只是一种相当特殊的情况,光靠它还不足以充分支持拉普拉斯的论断。但是,拉普拉斯以他的洞察力看到了随机误差服从正态分布的最根本的原因,进而启发和引导了他自己和后来许多数学家、统计学家在中心极限定理上的探索,最终树立了概率论与统计学最雄奇的一座高峰。
  如果我们把上面棣莫弗-拉普拉斯的结论看成是中心极限定理的1.0版的话,那么在拉普拉斯的启示下,几代数学家在19、20世纪的百余年间共同努力,迅速将中心极限定理不断升级。这里头涉及到许多数学家的贡献以及相当高深的概率论知识,我们这里无法一一叙述,就只简单说说两项最重要的突破。
  中心极限定理2.0版(Lindelberg-Levy中心极限定理):如果我们有n个独立、同分布的随机变量,而且它们的均值和方差都是有限的,那么当n趋于无穷大时,这n个随机变量之和的一个简单变换(类似于之前棣莫弗-拉普拉斯中心极限定理中的变换)服从正态分布。
  相比其1.0版,这2.0版迈出了巨大的一步:被叠加的随机变量不再需要是0或1取值离散分布的了。现在, 在一个很宽松的前提(均值和方差有限)下,无论它们本身是怎样形状的分布,当它们被叠加起来时,和都会服从正态分布。
  仔细想想这是一个多奇妙的定理!不管你一开始是从一个什么样的概率分布中来的,只要个数足够多,加起来都会被收拢到正态分布那钟形曲线之下!
  中心极限定理3.x版:很多时候,即使随机变量并不独立,或者并非来自同样的概率分布,它们的和(或者均值――由于n是个确定的数,因此求和与求均值是等价的)在n足够大时仍然服从正态分布。
  这一下可就更厉害了。之前,我们还要求被叠加的随机变量是独立、同分布的,现在连这个条件都可以不要了。也就是说,哪怕是一堆纷繁复杂、形状各异的随机变量,加起来还是逃不过正态分布的网罗!
  (图片来源:http://www.value-at-risk.net/central-limit-theorem/)
  到了这里,两三百年来数学家们不断探寻的随机误差的分布终于可以尘埃落定了。由于中心极限定理,自然界中说不清、道不明、看不见、摸不着的种种芜杂都会最终统一到正态分布之中。因而,随机误差服从正态分布也就有了必然性。
  如果这么说还有些抽象的话,我们不妨最后来看一个例子。
  比如,从人类学的角度出发,我们对人类身高的共同特性感兴趣。由于我们的研究对象是全人类,这就包括了目前存在、以前曾经存在以及将来可能存在的所有人类的集合,这在统计学中称为“总体”。在频率主义统计学的思想中,对于人类这么一个抽象性的概念,其身高会有一个真值,它代表了人类这个物种身高的总体趋势。当然了,我们除了知道这个身高比蚂蚁大、比长颈鹿小以外,并不知道它到底是多少。
  而我们遇到的每一个人(包括我们自己),都是人类这个总体吐出的一个“样本”。自然,每个人的身高都是千差万别的,每一个样本与那个未知真值的差,便是这个样本的随机误差。
  为什么会有误差呢?我们可以想象千百种缘由:性别、种族、生活在哪个国家、城市还是农村、家庭收入、某些基因的基因型、饮食习惯、体育锻炼的情况……显然,最终的误差是由所有这些不同来源的微小误差叠加起来的,而这些微小误差的分布有些是离散的(比如性别、种族),有些是连续的(比如家庭收入),而且还可能是互相联系的(比如所在国家和饮食习惯)。我们上面提到的中心极限定理3.x版告诉我们,在这样的条件下,最后总的随机误差应该服从正态分布。因此,如果我们随机选取足够多的人测量其身高,频率直方图就会呈现正态分布的钟形曲线。而根据这样的数据,怎样能作出对真值的最好(极大似然的意义下)估计呢?自然是取样本的算术平均数了。
  &&& 正态分布为什么重要?
  自从「说人话的统计学」系列开播以来,这一集和上一集也许是最抽象、最有不像人话危险的两集了。我也许应该交代一下,为什么花了这么多笔墨来说正态分布呢?
  首先,中心极限定理是概率论和统计学最重要的定理(没有之一),而且在许多科学家心目中与牛顿定律、相对论等同样重要、揭示宇宙最基本规律的少数定理之一(希望你读到这里会同意这个说法)。但由于它涉及到一些相对艰深的理论,即便许多概率论或统计学课程都有所提及,但可能还是让人得其形而不解其意。我希望这两集文章能给大家一点更感性的认识,进而更了解为什么正态分布那奇妙的钟形曲线如此无处不在。某种意义上说,也是对这个世界一点点更深的领悟不是吗?
  其次,我们接下来要讲到的许多统计学方法――如t检验、方差分析、多元线性回归等――都会对数据的正态性有要求,这也是许多人在使用这些统计学方法时很容易忽略的方面。之所以有这样的要求,其原因归根结底也是我们这一集所讲的内容,清楚了正态分布的来龙去脉,对于这些方法的正态性假设也就很容易理解了。与此同时,我们也会更容易明白,在怎样的情况下数据会违背正态性,以及在正态性假设不能满足时应该怎样处理。
  要是这两集没完全看懂怎么办?
  没有关系,不妨在未来读到我们后续的文章时,再不时回来重温一下,相信你一定会得到新的领悟,发现新的精彩。
  参考文献:
  1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.
  2. 靳志辉:《正态分布的前世今生》http://www.med.mcgill.ca/epidemiology/hanley/bios601/Mean-Quantile/intro-normal-distribution-2.pdf
  作者:张之昊
  编辑:灯盏细辛
  人赞赏
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
协和八,小医生的大世界!让临床妙趣横生,让思考更真诚,让生...我想知道北医 首医 协和 这3年内的考研分数线_百度知道┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊
电话:177-
电话:177-
电话:177-
您现在的位置:
北京协和医学院()
高校类型:医药
隶属于:卫生部
国家重点学科:18个
院士:25人
博士:49人
硕士:52人
北京协和医学院各省市录取分数线(北京→理科)
&&招生地区
&&文理分科
正在浏览...
大家正在搜...
高考最新更新为什么高考网上查到的北京协和医学院的分数线是500多?_百度知道

我要回帖

更多关于 北京协和医学院图书馆 的文章

 

随机推荐