您现在的位置：Fun书 > 教育测量与评估（原书第二版）

教育测量与评估（原书第二版）

作　　者：（美）Cecil R.Reynolds等著；霍黎，霍舟译

出版社：科学出版社

出版时间：2015年11月

定　　价：158.00

I S B N ：9787030459916

所属分类：教育学习 > 教育学

购买这本书可以去

价格报错

标　　签：教育社会科学

TOP好评推荐 [展开]

TOP内容简介

《教育测量与评估（原书第二版）》的主要内容包括：（1）在对学生以专业的方式进行评估的时候，教师所应该掌握的必要知识与技能；（2）教育评估研究的意义。《教育测量与评估（原书第二版）》介绍了在评估中经常采用的必要的基本数学概念和知识；扩展了传统的教育评估的内容，介绍了近几年使用比较广泛的表现性评估和成长记录袋评估；完整介绍了对残疾学生评估所必须进行的评估调整；还讨论了教育评估中的**实践。

TOP作者简介

（美）Cecil R.Reynolds等著；霍黎，霍舟译

TOP目录

目录译者序原书第二版前言原书前言第1章教育评估简介11.1评估语言21.测验、测量和评估22.测验类型43.分数解释的类型81.2教育评估的假设91.心理与教育结构是存在的92.心理与教育结构是可以测量的93.虽然可以测量结构，但测量并不完美104.存在不同的方法来测量任何给定的结构105.所有评估方法都有其自身的优势和弱点106.信息的多种来源应该是评估过程的组成部分107.测验中的表现可以推广到非测验行为118.评估可以提供信息用来帮助教育工作者制定更好的教育决策119.可以用公平的方式进行评估1110.测验和评估可以使教育机构乃至整个社会受益121.3评估过程中的参与者131.开发测验的人132.使用测验的人143.参加测验的人144.评估过程中的其他参与人员151.4教育评估与相关法律151.不让一个孩子掉队法案（NCLB，2001）152.残疾人教育改进法案2004（IDEA，2004）163.1973年《康复法案》的第504条款（504条款）174.保护学生权利法案（PPRA）185.家庭教育权利和隐私权法案（FERPA）191.5教育评估的常见应用191.学生评价192.教学决策203.选拔、安置和分类决策204.政策决策215.咨询和指导决策211.6关于评估，教师需要了解什么211.教师应该有能力选择适合做教学决策的、专业开发的评估方法222.教师应该有能力开发适合做教学决策的评估方法223.教师应该有能力管理、评阅和解释专业开发的和自己编制的评估方法224.在做教育决策时，教师应该有能力使用评估结果235.教师应该有能力开发包含评估信息的有效的评分方法236.教师应该有能力交流评估结果237.教师应该有能力识别不道德、非法和其他不恰当使用评估的方法或信息231.721世纪的教育评估241.计算机自适应测验（CAT）和其他技术进步242.“真实的”或复杂的表现性评估253.教育问责和高风险测验264.对残疾学生评估的趋势271.8总结281.9关键术语和概念301.10推荐阅读311.11感兴趣的互联网网站32第2章测量中的数学基础332.1数学在评估中的作用332.2测量量表341.什么是测量？342.称名量表343.顺序量表354.等距量表355.比率量表362.3测验成绩的描述391.分布392.集中趋势测量423.变异性测量462.4相关系数491.散点图502.相关和预测523.相关系数的类型524.相关性与因果性542.5总结552.6关键术语和概念562.7推荐读物572.8感兴趣的互联网网站572.9练习题58第3章测验得分的意义603.1常模参照和标准参照得分的解释611.常模参照解释622.用于常模参照解释的派生分数673.标准参照解释763.2常模参照，参照标准，或两者的结合803.3得分的定性描述823.4总结823.5关键术语和概念843.6推荐读物853.7感兴趣的网站853.8练习题86第4章教师的信度874.1测量误差881.测量误差的来源904.2估计信度的方法921.重测信度932.复本信度943.内部一致性信度954.评分者之间信度985.总评成绩的信度996.选择信度系数1007.评价信度系数1028.如何提高信度1049.估计信度的特殊问题1054.3测量的标准误1071.评价测量的标准误1084.4信度：教师的实践策略1104.5总结1134.6关键术语和概念1144.7推荐读物1154.8练习题115第5章教师的效度1175.1效度威胁1185.2信度和效度1195.3“效度类型”与“效度证据类型”1205.4效度证据类型1221.基于测验内容的证据1222.基于与其他变量之间关系的效度证据1253.基于内部结构的证据1324.基于反应过程的证据1335.基于测验后果的证据1336.整合效度证据1345.5效度：教师的实践策略1355.6总结1375.7关键术语和概念1385.8推荐读物139第6章教师的试题分析1416.1试题难度指标（或试题难度水平）1421.特殊评估情况和试题难度1446.2试题区分度1451.区分度指标1452.试题整体测验相关系数1483.掌握测验的试题区分度1494.速度测验的试题分析1506.3干扰项分析1501.干扰项如何影响试题难度和区分度1526.4试题分析：教师的实践策略1536.5使用试题分析来改善试题1546.6表现性评估的试题分析1576.7定性试题分析1586.8使用试题分析改进课堂教学1606.9总结1606.10关键术语和概念1616.11推荐读物162第7章开发课堂测验的基本步骤1637.1教育目标的特点1641.范围1647.2教育目标的分类1651.认知领域1662.情感领域1683.动作技能领域1697.3行为与非行为教育目标1697.4编写教育目标1707.5开发测验提纲（或测验蓝图）1727.6按照测验提纲来开发测验1731.常模参照和标准参照得分的解释1697.7在全州范围内开发课堂测验1741.选择使用哪种类型的试题1742.装配评估1787.8让学生为评估做准备和管理评估1807.9总结1837.10关键术语和概念1847.11推荐读物185第8章选择类试题的开发和使用1868.1选择题1871.开发选择题的准则1882.选择题的优势1983.选择题的弱点2018.2判断题2021.开发判断题的准则2032.判断题的优势2053.判断题的弱点2058.3匹配题2061.开发匹配题的准则2072.匹配题的优势2093.匹配题的弱点2098.4总结2108.5关键术语和概念2118.6推荐读物212第9章构造类试题的开发和使用2139.1口试：作为构造类试题先驱的口头论述2149.2论述题2151.论述题测验的目的2152.不同复杂程度的论述题2163.限制型论述题与扩展型论述题2184.开发论述题的准则2195.论述题的优势2206.论述题的弱点2217.评分论述题的准则2239.3简答题2261.开发简答题的准则2282.简答题的优势2293.简答题的弱点2309.4*后注意：构造类试题与选择类试题2319.5总结2319.6关键术语和概念2329.7推荐读物233第10章表现性评估和成长记录袋23410.1什么是表现性评估？23510.2开发有效表现性评估的准则2401.选择合适的表现性任务2402.开发测验说明2433.开发评分答案的办法2444.减少评分误差的实施步骤2485.表现性评估的优势2536.表现性评估的弱点25410.3成长记录袋2561.开发成长记录袋评估的准则2562.成长记录袋评估的优势2583.成长记录袋评估的弱点25810.4总结25910.5关键术语和概念26210.6推荐读物26310.7感兴趣的网站263第11章基于课堂评估来评定成绩26411.1反馈与评价2651.正式和非正式评价2672.在终结性评价中使用形成性评价26811.2报告学生的进步：使用什么符号26911.3评定成绩的基础27111.4参考框架2721.常模参照评分（相对评分）2722.标准参照评分（**评分）2743.成就与改善或努力的关系2754.成就与能力的关系2755.建议27611.5将各类得分合并成总评成绩27611.6告知学生评分系统和获得的成绩28111.7家长会28311.8总结28311.9关键术语和概念28411.10推荐读物285第12章高风险评估时代的标准化成就测验28612.1高风险评估时代28812.2集体成就测验2901.商业开发的集体成就测验2912.各州开发的成就测验2963.增值评估：一个教育问责的新方法3024.在学校中使用标准化成就测验的**实践30312.3个体成就测验30812.4选择成就测验套装31112.5总结31212.6关键术语和概念31312.7推荐读物313第13章在学校中使用资质测验31413.1智力测验的简要历史31713.2在学校中使用的资质和智力测验3191.资质成就的差异32113.3特殊学习障碍的一个新的评估策略：干预反应（RTI）32313.4主要的资质/智力测验3241.集体资质/智力测验3242.个体资质/智力测验3303.选择资质/智力测验3354.理解智力评估报告33613.5大学入学考试35013.6总结35113.7关键术语和概念35213.8推荐读物353第14章行为和人格评估35414.1评估行为和人格3551.反应定势3562.在学校中的行为和人格评估35814.2行为评定量表3591.儿童行为评估系统第二版——教师和家长评定量表（TRS和PRS）3602.Conners评定量表修订版（CRS-R）3653.儿童行为检核表和教师报告表（CBCL和TRF）36614.3自陈测量3671.儿童行为评估系统第二版——人格自陈（SRP）3682.青少年自陈量表（YSR）37214.4投射技术3721.投射画3742.完成语句测验3753.统觉测验3754.墨渍技术37614.5总结37714.6关键术语和概念37814.7推荐读物379第15章评估调整38015.1影响残疾学生评估的重大立法38115.2残疾人教育法案（IDEA）3821.IDEA的残疾分类38315.3第504条款38715.4评估

TOP书摘

第1章教育评估简介为什么要了解测验与评估？本章强调评估语言教育评估的常见应用教育评估的假设教师需要了解的评估内容评估过程中的参与者21世纪的教育评估教育评估与相关法律学习目标阅读和学习本章后，学生应该能够：(1) 定义测验、测量和评估。(2) 解释和列举不同类型的测验。(3) 描述和列举对不同类型得分的解释。(4) 描述和解释教育评估的假设。(5) 解释评估过程中的主要参与者。(6) 描述和解释评估在学校中的主要应用。(7) 解释影响评估的主要联邦教育法律。(8) 描述和解释教师在教育评估中应该掌握的能力。(9) 解释评估的主要趋势。评估是教学过程不可分割的组成部分。评估可以而且应该为加强施教和促进学习提供信息。对教师来讲，学生主要是受教育的对象。在高校从教60多年的经验告诉我们，他们一般不会对测验和评估感兴趣。的确，虽然学生知道他们要参加测验，但测验并没有导致他们选择从事教师这个职业。教师热爱学生，也热爱教育，但对于测验，他们经常采用负面或充其量是中立的态度。这种倾向并不局限于教育学生。主修心理学的大学生通常喜欢心理学，因为他们想从事这方面的工作并在这方面给人们提供帮助。他们渴望成为咨询师或心理治疗师，但想专门从事评估的相对较少。在给本科生讲授教育或心理测验和测量课程的时候，我们觉得花些时间向学生解释为什么需要了解测验和评估是重要的。这是本章的主要目的之一。我们想解释为什么需要了解测验与评估，并希望这些努力是值得的。教学往往被概念化为教师施教而学生学习的简单过程。按照这种观点，教学被看成一个教与学的过程。但在实践中，更实际的看法是，评估是教学过程不可分割的组成部分。事实上，据统计，教师至少投入1/3的时间用于与评估有关的活动（Stiggins and Conklin，1992）。评估可以而且应该为加强施教和促进学习提供信息。换句话说，施教、学习和评估之间有着密切的关系。按照这种扩展后的教学概念，施教和评估是密切相关的，评估提供了一些客观反馈，如学生学到了什么，他们学得怎么样，施教是否有效，以及什么样的信息、概念和目标需要更多关注。将教学仅限定在施教和学习过程上是有局限性的，教学过程更准确的概念应该包括施教、学习和评估。在这个模型中，评估的目标就像施教的目标一样，用于促进学生的成长（Gronlund，1998）。在现实的教育世界中，很难想象有效的教学不涉及某种形式的评估。对学生学习的评估做得越好，教师的教学效果也就越好。下面引用Stiggins和Conklin（1992）的话来说明，在教育评估的整个过程中，教师发挥着重要作用。作为一个国家，花费数十亿美元用在教育评估上，包括数百万美元用于国际和国内的评估，以及另外的数百万美元用于州际的测验项目。*重要的是，以地区性的测验项目为基础的标准化测验形成了数十亿美元的产业。如果将所有这些花费加起来，很明显，在政治上占有重要地位的评估，竟然占不到实施美国学校评估的1％。而另外99%的费用是用在教师每时每刻、日复一日、周而复始的课堂评估上。总之，如果你想成为一个好教师，你需要了解一些与测验和评估有关的知识。施教和评估都是教学过程的组成部分，并且评估是教师日常工作的一个重要组成部分。通过这一章的学习，希望你对教育评估的作用会有一个更好的了解，尽管你可能不想专门从事与测验和评估有关的工作，但你会领会到评估对整个教育过程的重要作用。1.1评估语言在前言中，已经使用了一些比较常见但有些技术性的术语。这里介绍一些对进一步阅读有益的术语定义。1.测验、测量和评估测验是一个过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA et al.，1999）。(1) 测验：测验（test）是一个工具或过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA，APA and NCME，1999）。这是一个相当宽泛或一般的定义，但在本书中将采用这个定义。当然，对不同类型的测验，我们会提供更具体的信息。然而，在继续学习之前需要注意的是，应该提一提我们所定义的测验的一个特殊方面。因为测验仅是行为的样本，所以至关重要的是，测验反映的是你有兴趣知道的具有代表性行为的样本。你的评估应该评定这样的内容，即与你分配给它们的相对重要性要一致。在我们对测验和评估进行研究的时候，代表性样本概念的重要性将变得更加明显；在后面章节中介绍测验的技术性能的时候，将会更详细地涉及这一点。测量是给对象、特征、属性或行为分配数值的一套规则。(2) 测量：测量（measurement）可以定义为给对象、特征、属性或行为来分配数值的一套规则。教育测验是测量工具，涉及给一个人的表现分配得分的规则（如管理指南和评分标准）。反过来，对这些得分的解释又用来反映考生的特征。例如，在拼写测验中，拼写正确的单词数量可以反映一个学生的拼写能力。评估是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。(3) 评估：评估（assessment）是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。评估应该导致增加对这些特征的了解。测验显然是一个收集信息的系统方法，因此是一套评估工具。从历史记录、访谈和观察中得到的评论也是合法的评估技术，当把这些信息集成起来的时候，会发挥很大的作用。因此，评估比测验更广泛、更全面。至此，已经定义了这些常见的术语，有一些我们不愿意承认的观点是，在实践中，许多教育专家互换地使用测验、测量和评估这些术语。认识到这一点，Popham （2000）指出，在当代教育界，评估已成为**的术语。当应用于学生时，测量听起来相对死板和枯燥乏味，有避免使用的倾向。测验有其自身的负面含义。例如，几乎每个星期报纸上刊登的有关“应试教育”或“高风险测验”的文章中，测验通常都带有负面的含意。此外，当人们听到测验这个词时，通常认为是纸笔测验。近年来，作为对传统纸笔测验越来越不满的结果，导致其他测验得到了发展（例如，表现性评估和成长记录袋）。因此，测验不再被看成现代教育实践的特殊描述。这导致了将评估作为教育工作者当前使用的流行语。心理测量学是心理测量的科学。信度指的是测验成绩的稳定性或一致性。效度指的是对测验分数解释的准确性。下面，定义一些其他的术语。心理测量学（psychometrics）是心理测量的科学，心理测量学家是专门从事测验、测量和评估的心理或教育专业人员。你可能会听到人们提到测验的心理属性，其实他们说的是测验的测量或统计属性。这些测量属性包括信度和效度。信度（reliability）指的是测验成绩的稳定性或一致性。理论上，信度是指测验分数与测量误差无关的程度（AERA et al.，1999）。与测量误差相对无关的得分是稳定的或一致的（即可靠的）。效度（validity），简单来说，指的是对测验得分解释的适当性或准确性。如果测验得分的解释是为了反映智力，那么它们实际上反映了智力吗？如果测验得分是用来预测工作上的成功，那么它们能准确预测谁将在这份工作上成功吗？2.测验类型我们定义测验是一个工具或过程，在这个过程中，采用标准化方法可以从中获得一个人行为的样本并对其进行评估或评分（AERA，APA and NCME，1999）。也许在你的生活中已经参加过大量的测验，很可能你已经注意到，并不是所有的测验都是一样的。例如，参加学校的测验是为了帮助确定其成绩，参加驾照测验是为了获得驾驶**，填写调查问卷是为了帮助在教育和职业中做决策，在申请大学时要参加入学测验，为了获得专业证书和***也要参加测验，以及参加人格测验是为了获得对人格的理解。这个简单罗列显然没有穷尽所有的测验。Cronbach（1990）指出，测验一般可分为**表现性测验和典型反应测验两种。**表现性测验也常常称为能力测验，但成就测验也包含在其中。在**表现性测验中，试题的评分可以分为“正确”或“不正确”两种，鼓励考生展示他们**的表现。**表现性测验（maximum performance test）的目的是评估考生的知识和能力的上限。例如，**表现性测验可以用来评估学生执行选定任务或掌握指定内容领域的情况。智力测验与课堂成就测验是**表现性测验*常见的例子。相比之下，典型反应测验试图测量考生的典型行为和特质。通常，典型反应测验称为人格测验。在这种情况下，人格用来广泛反映一整套非认知的特征，如态度、行为、情感和兴趣（Anastasi and Urbina，1997）。一些人保留测验这个术语专门用于**表现性测验，而将量表和调查问卷等术语用于典型反应测验（AERA et al.，1999）。在这本书中，术语测验采用的是其更广泛的意义，即包括**表现性测验和典型反应测验。**表现性测验的目的是评估考生的知识和能力的上限。**表现性测验：正如我们提到的，**表现性测验的目的是评估考生的知识和能力的上限。**表现性测验通常还可以划分为一些子类。首先，**表现性测验可以分为成就测验和资质测验。其次，**表现性测验可以分为速度测验和难度测验。*后，**表现性测验还可以分为客观测验和主观测验。这些区别，虽然本质上不是**的，但已有很长的历史基础，并且提供了一些有用的描述性信息。成就测验测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。资质测验测量作为整个生活经历的结果而积累的认知技能和能力（AERA et al.，1999）。成就测验和资质测验：**表现性测验通常分为成就测验和资质测验。成就测验（achievement test）的目的是测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。与此相反，资质测验（aptitude test）的范围更广泛，其目的是用来测量一个人作为整个生活经历的结果而积累的认知技能、能力和知识。换句话说，成就测验与一个特定的教学目标有关，而资质测验反映整个生活经验累积的影响。然而，这种区别并不是**的，实际上仅是程度或强度问题。当今大多数测验专家将成就测验和资质测验概念化了，用来测量认知能力的提高，这个认知能力的提高可以依靠评估的能力与具体学习经验的密切程度而形成一个连续体。成就测验和资质测验的另一个区别是对结果的使用或解释的方式。成就测验通常用来测量一个人在一个特定的时间点上学到或“获得”了什么。与此相反，资质测验通常用来预测未来表现或反映一个人潜在的学术或工作表现。然而，这种区分也不是**的。例如，在高中毕业时用来评估成就的测验也可能用于预测在大学的成功。虽然认识到成就测验和资质测验之间的区别并不是**重要的，但在讨论学生能力的不同类型的时候，成就和资质的区别却很有用。速度测验反映的是速度的差异。难度测验反映的是考生能够正确回答的试题难度。速度测验和难度测验：**表现性测验经常分为速度测验和难度测验。对单纯的速度测验（speed test），表现仅仅反映的是速度的差异。速度测验通常包含相对简单的试题，但有严格的时间限制，目的是限制考生成功做完所有试题。对单纯的难度测验（power test），速度不是要考虑的主要问题。参加难度测验的每个人都有足够的时间来处理这些试题，但试题是根据难易程度排列的，并且测验中包含一些难度非常大的试题，没有考生能试图回答所有的试题。因此，难度测验的表现主要反映考生能够正确回答的试题的难度。在良好的速度测验和难度测验中，没有人会获得一个完美的得分。正是按照完美得分是“不确定的”来设计这些测验。也就是说，如果有人获得一个完美的得分，那么，这个测验就没有评定出这个人能力的上限。为了充分接近能力的上限，测验需要包括测验专家所说的“足够的上限（adequate ceiling）”；也就是说，测验足够困难，没有考生能够获得一个完美的得分。如你所料，速度测验和难度测验之间的差异也是程度上的差别

TOP 其它信息

装　　帧：平装

页　　数：544

开　　本：16开