《真理相遇统计》可作为高等院校所有专业的本(专)科生、硕士生、中学智优生、中学数学教师,具有一定数学与统计基础的高校教师以及各行各业的行政管理人员的数学与统计文化修养提高读本,也可作为高等院校本(专1科各个专业的选修课教材或教学参考书,9787030435064
《真理相遇统计》从统计学科的特色、人文欣赏的视野着手,运用通俗生动的语言、精彩有趣的故事、丰富典型的案例,介绍统计文化的常识及统计在现实世界中的广泛应用.主要内容包括为何学统计、统计应用概说、统计陷阱概说、统计学与相关学科的关系、统计历史人物故事精选、统计数据概说、统计数据的收集、统计数据的组织、统计数据的概括、统计指数概说、时间序列概说、随机抽样与抽样分布、参数估计、假设检验、z2检验与方差分析及其相关分析与回归分析.
第一章
统计启蒙
本章作为全书的开篇语,伴随统计启蒙的梦想,试图回答下述问题.
(1)为什么学习统计?
(2)统计有哪些具体应用?
(3)统计应用有哪些常见陷阱?
(4)统计与数学有什么关系?
(5)统计与相关学科有什么关系?
(6)有哪些伟大统计学家贡献出重要的统计思想方法?
I.I为何学统计
学习统计的理由有千百条,每个人都有各自的独特答案,学生学习统计的首要理由是要取得好的课程成绩,教师学习统计的理由是不断提高自己的教学水平,统计研究人员学习统计的理由是为了努力提高自己的研究水平,管理人员学习统计的理由是更好地提高管理服务水平,我们作为统计文化普及的一员,学习统计的理由是力求写出通俗易懂的统计科普文化著作,为启蒙普通百姓的统计意识更好地尽自己的微薄之力 .
I.I.I从两个典型案例看统计
例1.1.1(敏感问题调查) 大家知道,统计调查中调查者往往要通过问卷或口头问答的方式从被调查者处获取某些数据,这里有些问题的数据是易于得到的.例如,人们的年龄、性别、职业、出生地等,一般情况下可以期望回答是如实准确的,但对某些敏感的社会问题则不然,例如:
问~个成年人:您吸毒吗?您是同性恋者吗?
问一个商人:您曾偷税漏税吗?
问一个学生:您考试时作过弊吗?
问一个职员:您觉得您的直接上司称职吗?
显而易见,很难指望被调整查者会坦率如实地回答这些问题,这时直接调查得到的资料将是极其不可靠的,通过这种资料作出的判断将导致错误的结论.然而鉴于此类问题的重要性,我们必须获得如实回答的数据.很幸运,利用简单概率论的知识,统计学家已经帮助人们找到了此类问题的处理方式.下面通过一个具体问题的调查说明其原理,
校方想了解该校学生在某次考试中作弊的情况,通常做法是选定一个或几个有代表性的班级进行问卷调查.问卷设计包含两个问题:
第一个问题是希望得到真实回答的敏感问题,此处就是“您在考试中作过弊吗?”; 第二个问题是一个普通问题,任何人都不会回避给出真实答案,例如,“您的学号是偶数吗?”或者“您喜欢读武侠小说吗?”,
明确告诉被调查者,每人只需回答其中一个问题,至于具体为哪一个,则由他们自己抛掷一枚硬币来决定,当硬币上的国徽向上时回答第一个问题,否则回答第二个问题;不论回答哪一个问题,都只选择一个字的答案,即“是”或“否”,而且不用注明回答的是第一个问题还是第二个问题,这样的问卷设计使被调查者完全打消了顾虑,因为使对一份回答“是”的问卷也无法证实回答者承认在考试中怍弊,这一答案完全可以是针对第二个问题的,但是这样的问卷对调查目的而言已经足够了,从得到的数据中我们已经可以推断作弊学生的比例,其方法如下.
假设被调查对象总数为Ⅳ,回答“是”的人数为Ⅳ1.又假设考试中作弊学生的比例为A,也就是当一个被调查者选定回答第一个问题时,回答“是”的概率是入将被调查者选定回答第二个问题时回答“是”的概率记为口.请注意可以认为序是已知的,对此仍以上面的例子来说明.如果问卷中的第二个问题是“您的学号是偶数吗?”,显然,当被调查的学生人数足够多时,回答“是”的概率,即B,应该很接
近1/2;如果第二个问题是“您喜欢读武侠小说吗?”,事情会复杂一些,但这是一个普通非敏感问题,可以通过另一次独立调查来解决.
实际上,统计学家已经设计出了很有效的问卷方式,将所需要的独立调查合并在上述敏感问题调查之中,对此不再详述,但无论如何,都可以认为p是一个已知数.由上面所规定的回答第一个问题还是第二个问题的选择方式,可以知道每个问题各有一半学生作答,由此上述各个量之间有以下关系:
A2+∥鲁=Ⅳ..
从中不难得到
入=等一卢,
上述方法可用于各种各样的敏感问题调查,这里作为引例,仅提供一个简单介绍,针对更一般的情况,统计学家已经设计了多种更为完善的方案.关于这一方面,想了解更多的读者可到更深入的统计学著作中寻找答案,
例1.1.2(色盲遗传问题) 色盲虽然不是什么严重疾病,但却也是一种生理缺陷,大约在20世纪初,有人发现色盲是可以遗传的,于是人们提出了一个令人担忧的问题:
色盲既然能遗传给下一代,那么将来会不会有一天使全世界的人都成为色盲呢?
如果真是这样,那么这个世界真是太可怕了!要解决这个问题,首先要弄清楚色盲是怎么回事.为此,先得弄明白人们为什么能看到颜色,这就要研究视网膜的复杂构造及其性质,还得了解不同的光波所能引起的光化学反应等,因为眼睛是人体很复杂的器官,只从解剖学的角度来考虑,就已经十分困难了,何况还与遗传因素有关.当时,人们还不了解遗传基因的结构,根本没法了解色盲与遗传基因方面的关系.因此,从生理学上来讲,当时这是一个无法解决的难题.生理学家请英国大数学家哈代(G.H.Hardy,1877~1947)帮助解决这个难题,哈代出手不凡,他以概率统计的观点,仅用初等代数知识,便非常巧妙且彻底地解决了这个难题,
哈代首先从大量临床统计资料中了解到以下三种情况:
(l)色盲中男性运多于女性;
(2)色盲父亲与正常母亲不会有色盲孩子;
(3)正常父亲和色盲母亲的儿子是色盲,女儿则不是,
据此,哈代判断色盲的遗传与性别有关,当时的生理学已经搞清楚男女性别的差异,与遗传基因中的性染色体有关.每个人的体内有23对染色体,一半来自父亲,一半来自母亲;女性性染色体是XX.在遗传给下一代时,母亲赋予XX,给予子女的总是X,父亲赋予XY,随机地选择-X或者Y给子女,其比例是21:22.若为前者,则是女性;若为后者,则是男性.所以男、女出生的比例是22:21(注:这里实际上已经回答了统计资料中为什么说男性比例略高于女性的问题).
既然色盲与性别有关,所以色盲者一定是性染色体出了问题,那么究竟是X出了问题,还是Y出了问题呢?一定是X,而且这个异常染色体会世代遗传下去,为什么能肯定病态染色体是X呢?这可用反证法证明,
假如病态染色体是Y,女性就不会有色盲,因为女性性染色体中没有Y.但是,女性有色盲存在,只是比男性色盲少而已.
很自然,人们必须弄明白为什么男性色盲比女性多.这是因为女性有两个X,如果其中有一个异常、一个正常,仍然可以维持正常视力.这种女性,不妨称其为“次正常”,这样,男性分为两类:正常和色盲;女性分为三类:正常、次正常和色盲.
在基本生理常识分析的基础上,哈代运用非常简单的概率统计方法估计出下一代人中的色盲比例,他首先根据概率统计中的随机原则作了如下假设:
(l)在两类男子和三类女子之间,夫妇配对的机会是随机的;(2)异常染色体(记作又),在所有染色体X中所占比例为p,在男、女染色体中保持不变;
(3)父、母和子女中男女出生比例假设为I:I.
在上述假设的基础上,不难推知,若男性中正常和色盲两类分别以F和S表示;女性中正常、次正常和色盲三类分别以Z,C和K表示,则F,S在男性中所占比例分别为q,p(q=1- p);Z,C,K在女性中的比例分别为q2,2qp,p2.易见男、女配对有6种夫妇类型.各种配对类型的夫妇所生子女为色盲的比例可通过下述列表的方式计算:
第一类(F,Z)配对,即丈夫、妻子均为正常,发生这种类型的概率为q3,子女中不会有色盲,如表I.I.I所示.将以上6类(实际只有4类)夫妇的子女为色盲的比例相加并把q=l-p代
入得
2pq2+ 2Lp2q+p2q+p3
=去pq(p+q)+p2(q+p)=去(p+p2)(
于是,由此即可推知子女代的色盲比例要小于父母代的色盲比例.这就是说从遗传的角度上看,色盲呈下降趋势.
典型案例启迪从上述两个典型案例中可以看到,运用简单的统计思维能够有效地帮助人们解决表面看起来很困难的实际问题,由此可见,统计的作用有多大!
实际上,我们今天生活在大数据统领天下的信息时代,树立基本的数据意识、具备基本的数据解读能力无疑成为现代公民不可或缺的必备素养.统计学作为一门关于数据的方法论学科,已广泛应用到所有领域,统计的“灵魂”一直出现在世界各地的每一个角落以及人生的每一个瞬间,
亲爱的读者朋友,或许您从未在意过统计学是什么样的学科,也从未意识到这门专业性看似很强的学问跟您的日常生活有着这样密不可分的联系,但在如今的大数据时代,您已经无法否认数据(信息)已经全面掌控了您的日常生活,如果想要一眼看穿您所见到的数据背后的真相,那么您必须了解一些统计学的常识.如果您要相信科学反对迷信,那么在您的智慧行囊里,必须装备统计这门强有力的学问.
迷信基本上是基于对小概率事件的错误理解或对无任何根据的错误相关性假设的过分依赖,而催生出来的一种不健康认识或行为,一种迷信认识或行为,一旦被很多人仿效或坚持,就会形成一种愚昧无知的迷信文化,改革开放几十年来,在古老的中华大地上,在科教兴国的雄壮号角声中,一直混杂着一些不和谐的声音,愚昧无知的迷信活动在沉寂多年之后又泛滥开来,并渗透到社会的各个层面.
尤其在文化水平相对不高的农村边远地区,迷信活动的猖獗实在令人惊讶!结婚前要测八字,生孩子要算男女,盖房、选坟地要看风水,婚丧嫁娶要择吉日,遇病逢灾、升学求官、祈福招财要进香拜佛,更有甚者,把什么供奉活佛的香灰甚至大仙的污物,视为治病的良药或祛灾避邪的法盅,社会上有一些人特别是有些贪污腐败官员在这方面所表现出来的愚昧程度,简直到了无以复加的地步,甚至有些地方政府建造行政大楼也大肆宣扬迷信之风,不能不说更令人心痛!
在种种汹涌的迷信暗流活动中,显而易见的是,除了一少部分属于封建迷信沉渣泛起和为了达到某种目的(如敛财)而恶意行骗的活动易于识别外,有许多活动是打着科学的甚至是最新科学的幌子进行的.它们不断变换着花样,具有很大的欺骗性,一时间科学算命、信息水、意念移物、水变油之类荒诞不经的事情风靡市井,如果有人不相信,骗子还会与不相信者争得面红耳赤,并信誓旦旦地表示是亲眼所见,甚至搬出著名人物作为见证人等,
总之,科学与愚昧迷信现象在我国同时共存的僵局短期内难以打破,这种局面有点令人无奈,也令人深思,如果说一些人因为无知而表现出一定的迷信思想和行为还情有可原,那么通过几十年的努力,谁也不能否认我国的受教育人数和比例都在增加,科学普及的程度也在提高,特别是当许多有相当知识水平和知名度的专家也相信那些东西并在其中推波助澜的时候,这种现象就不能不引起大家的高度重视了.试问:除去一少部分愚昧的因素外,迷信和伪科学泛滥的社会根源到底在哪里?究其根源,可以认力就是我国国民的统计意识太薄弱,统计文化修养水平太低的缘故,如果我们的社会形成一种尊重科学、尊重事实、懂得用数据说话的风气,那么目前这种愚昧无知的迷信现象就有可能逐渐被消除.
在工业化时代,“科学技术是第一生产力”,国家的经济发展无疑依靠高度发达的高科技的大力进步.在大数据时代,国家的繁荣富强在很大程度上却依赖于谁能