표준 기준 검정

표준 기준 시험(NRT)은 측정되는 특성과 관련하여 사전 정의된 모집단에서 시험된 개인의 위치에 대한 추정치를 산출하는 시험, 평가 또는 평가의 한 유형이다. 이러한 시험에서 점수를 할당하는 것은 상대적 등급 부여, 곡선의 표시(BrE) 또는 곡선의 등급 부여(AmE, CanE)로 설명될 수 있다(곡선 등급 부여, 벨 커빙 또는 정지 곡선을 사용하는 것으로도 언급). 정규 분포(가우스 분포라고도 함)와 같은 특정한 평균 및 파생 특성을 갖는 이러한 성적의 사전 지정된 분포를 얻거나 접근하는 방식으로, 학급 학생들에게 성적을 할당하는 방법이다.^[1] "곡선"이라는 용어는 정상 분포의 확률 밀도를 그래픽으로 나타낸 종 곡선을 의미하지만, 이 방법을 사용하여 원하는 등급 분포(예: 균일한 분포)를 달성할 수 있다. 추정치는 모집단에서 추출한 표본에서 시험 점수 및 기타 관련 데이터를 분석하여 도출한다. 즉, 이 유형의 시험은 수험자가 주어진 목적에 필요한 것보다 더 많은 것을 알고 있는지 또는 덜 알고 있는지 아닌 다른 수험생보다 더 좋은 성적을 냈는지 나쁜 성적을 냈는지를 식별한다. 규범적 평가라는 용어는 기준 모집단이 시험 응시자의 동료일 때 사용된다.

표준 기준 평가는 기준 기준 기준 평가 및 도입 평가와 대조될 수 있다. 기준 참조 평가에서 점수는 다른 수험생과 비교해서가 아니라 주어진 과제에서 수험생이 잘 했는지 못했는지 여부를 보여준다. 입시제도에서는 수험생을 이전 시험과 비교한다. 각 방법을 사용하여 동일한 시험지를 채점할 수 있다.^[2]

로버트 글레이저는 원래 표준 참조 테스트와 기준 참조 테스트라는 용어를 만들었다.^[3]

공통 용법

많은 대학 입학 시험과 국가적으로 사용되는 학교 시험은 표준 참고 시험을 사용한다. SAT, 대학원 기록 검사(GRE), WISC(Wechsler Intelligence Scale for Children)는 학생 개개인의 성적을 표준 표본의 성과에 비교한다. 각 수험자는 보통 백분위수에 의해 주어지는 시험을 치른 다른 수험생과 비교한 점수를 받기 때문에 표준 기준 시험을 "실패"할 수 없다. 이는 합격점수의 범위가 넓을 때 유용하며, 누가 더 잘하는지 알아내는 것이 목표다.

IQ 테스트는 표준 참조 테스트로, 그들의 목표는 수험생의 지능 순위를 매기는 것이기 때문이다. 중위 IQ는 100으로 설정되어 있고, 모든 수험생은 그 수준에 비해 위아래로 순위가 매겨진다.

기타유형

규범적 시험에 대한 대안으로, 시험은 도입적 평가 또는 기준 참조 평가일 수 있다.

입식성

도입적 평가에서 개인의 성과는 이전의 성과와 비교될 뿐이다.^[4]^[5] 예를 들어 체중감량 다이어트를 하는 사람은 자신의 몸무게가 이상과 비교되거나 다른 사람과 비교되는 것보다 현재의 몸무게가 이전의 몸무게와 어떻게 비교되는가에 의해 판단된다.

기준 참조

성능은 기대되거나 원하는 동작에 따라 판단될 때 테스트가 기준 참조된다. 정해진 표준(예: 모든 사람이 5분 이내에 1km를 달릴 수 있어야 함)에 따라 시험 응시자를 판단하는 시험은 기준 참조 시험이다. 기준 참조 테스트의 목표는 개인이 시험 제공자가 원하는 만큼 빨리 달릴 수 있는지 알아내는 것이지, 개인이 다른 주자에 비해 빠르거나 느리게 달릴 수 있는지를 알아내는 것이 아니다. 표준 기반 교육 개혁은 기준 참조 시험에 초점을 맞춘다.^[6]^[7] 대부분의 국가 성취도 시험과 고등학교 졸업 시험은 물론 학교에서 치르는 대부분의 일상적인 시험과 퀴즈도 기준 참조가 된다. 이 모델에서는 모든 수험생이 합격하거나 모든 수험생이 불합격하는 것이 가능하다.

방법들

곡선에서 정지하는 한 가지 방법은 다음과 같은 세 가지 단계를 사용한다.

숫자 점수(또는 충분히 세밀한 순서형 척도의 점수)가 학생들에게 할당된다. 점수의 순서가 과정 내 각 학생의 상대적 성과에 해당한다면 절대값은 덜 목적적합하다.
이 점수는 백분위수(또는 다른 계량형)로 변환된다.
백분위수 값은 백분위수 척도를 구간으로 나눈 값에 따라 등급으로 변환되며, 각 등급의 구간 폭은 해당 등급에 대해 원하는 상대 빈도를 나타낸다.

For example, if there are five grades in a particular university course, A, B, C, D, and F, where A is reserved for the top 20 % of students, B for the next 30 %, C for the next 30–40 %, and D or F for the remaining 10–20 %, then scores in the percentile interval from 0 % to 10–20 % will receive a grade of D or F, scores from 11–21 % to 50 % will rC등급을 획득하고 51% ~ 80%의 점수는 B등급을 받으며, 81% ~ 100%의 점수는 A등급을 획득한다.

위에서 설명한 예시와 일관되게, 성적 곡선은 학원들이 특정 학년 평균(GPA) 역치에 걸쳐 학생의 분포를 보장할 수 있도록 한다. 많은 교수들이 C학점 평균을 목표로 곡선을 작성하기 때문에 대부분의 북미 대학에서 채용되는 표준 4.0점 만점에 해당하는 등급 평균 2.0점이 될 것이다.^{[clarification needed]}^[1] 마찬가지로, 4.0 척도에서 성적 평균 3.0은 학생이 상위 20% 안에 든다는 것을 나타낼 것이다. 채점 곡선은 이러한 수치들에 추가적인 의미를 부여하는 역할을 하며, 채택된 구체적인 분포는 학회마다 다를 수 있다.^[8]

장점과 한계

표준 기준 테스트의 주요 장점은 테스트에서 개인의 수행이 기준 그룹의 다른 수행과 비교하는 방법에 대한 정보를 제공할 수 있다는 것이다.

표준 기준 검정의 심각한 제한은 기준 그룹이 현재 관심 모집단을 나타내지 않을 수 있다는 것이다. 오리건 연구소의 국제 인성 항목 풀 웹사이트에서 지적한 바와 같이, "사람들은 통조림 '노멀스'를 사용하는 것을 매우 경계해야 한다. 왜냐하면 사람들이 자신의 현재 샘플이 대표적인 하위 집합인 인구를 찾을 수 있다는 것이 분명하지 않기 때문이다. 대부분의 '보통'은 오해의 소지가 있으므로 사용해서는 안 된다. 훨씬 더 방어할 수 있는 것이 지역 규범인데, 그것은 자기 자신을 발전시키는 것이다. 예를 들어, 한 반의 학생들에게 피드백을 주고 싶다면, 각 개인의 점수와 그 수업 자체에서 도출된 수단과 표준 편차를 연관시켜야 한다. 정보화성을 극대화하기 위해 학생들에게 이러한 지역 규범에 기초하여 각 규모에 대한 주파수 분포를 제공할 수 있으며, 그러면 개인은 이러한 관련 분포를 통해 자신의 점수를 찾을 수 있다(^[9]그리고 동그라미 칠 수 있다).

표준 참조는 시험이 유효한지(즉, 측정하고자 하는 구성을 측정하는지)를 보장하지 않는다.

표준 기준 검사의 또 다른 단점은 개인이 전체 범위에 속하는 경우에만 전체 모집단의 진행률을 측정할 수 없다는 것이다. 그보다는, 예를 들어, 모든 학생들의 성취도를 높이려는 교육 개혁 프로그램의 성공을 측정하기 위해, 고정된 목표에 맞서는 측정을 해야 한다.

표준 기준 시험에서 등급 수준은 전통적으로 중간 50% 점수에 의해 설정된 수준으로 설정되었다.^[10] 이와는 대조적으로 국립어린이독서재단은 사실상 모든 아이들이 3학년까지 학년 이상의 책을 읽도록 하는 것이 필수적이라고 믿고 있는데, 이것은 학년 수준의 표준 기준으로는 달성할 수 없는 목표다.^[11]

규범은 자동적으로 표준을 의미하지는 않는다. 표준 기준 시험은 수험자가 알아야 할 사항이나 할 수 있는 사항에 대한 기대를 강제하지 않는다. 또래와 비교해서 수험생의 현재 수준을 측정한다. 등급제도는 평균수준에서 어떤 학생이 더 잘하는지, 어떤 학생이 더 잘하는지, 어떤 학생이 더 못하는지를 알려주는 자료만 생산한다. 그것은 어떤 시험 응시자가 고용이나 추가 교육에 허용되는 수준에서 과제를 올바르게 수행할 수 있는지 식별하지 않는다.

커브를 채점하는 궁극적인 목적은 같은 과정의 서로 다른 강사들 간의 변화의 영향을 최소화하거나 제거하는 것으로, 주어진 수업의 학생들이 또래 학생들과 비교해서 평가될 수 있도록 하는 것이다. 이것은 또한 시험 관리 날짜가 클래스 섹션마다 다른 경우에 종종 사용되는 방법인 특정 시험의 복수 버전을 활용하는 것과 관련된 문제를 우회한다. 난이도의 차이, 실제 또는 인식의 차이와 상관없이, 성적 곡선은 학업 성과의 균형 잡힌 분포를 보장한다.

하지만, 곡선은 학생들 간의 경쟁력을 높이고, 수업에서 그들의 교수진의 공정성에 영향을 줄 수 있다. 학생들은 일반적으로 커브를 사용하지 않을 경우 받을 점수에 비해 커브가 점수를 낮춘 경우 가장 화가 난다. 이러한 일이 발생하지 않도록 하기 위해 교사들은 보통 평균 학생들이 커브에서 평균적으로 사용하려는 점수보다 낮은 원점수를 받을 것으로 예상하여 모든 학생들이 커브에서 혜택을 받을 수 있도록 하기 위해 내신 곡선을 사용하고자 할 때 시험 자체가 충분히 어려운지 확인하려고 노력한다.. 따라서 곡선 등급은 맹목적으로 사용할 수 없으며 기준 참조 등급과 같은 대안들에 비해 신중히 고려하고 심사숙고해야 한다. 또한, 곡선의 지속적인 오용은 잘못 설계된 시험에서 성적을 조정할 수 있는 반면, 평가는 강사가 설정한 학습 목표를 정확하게 반영하도록 설계되어야 한다.^[12]

참고 항목

교육학점수
마카브르 상수
개념재고
교육 평가
사이코메트릭스
표준화된 테스트—모든 개인은 동일한 조건에서 동일한 테스트를 받게 되며, 표준 참조 및 기준 참조 테스트 모두에 사용됨
로스쿨 내신 곡선 목록
등화

참조

^ ^a ^b Roell, Kelly. "What is Grading on a Curve?". About.com. Retrieved November 13, 2013.
^ 크론바흐, L. J. (1970년) 심리 테스트의 필수 사항(3차 개정판) 뉴욕: 하퍼 & 로우.
^ Glaser, R. (1963). "Instructional technology and the measurement of learning outcomes". American Psychologist. 18: 510–522. doi:10.1037/h0049294.
^ 평가
^ "PDF presentation" (PDF). Archived from the original (PDF) on 2015-09-24. Retrieved 2006-07-21.
^ 이야기 5-01.107^{[permanent dead link]} Fairtest.org: Times on Testing "expective reference" tests는 서로 상대하는 것이 아니라 고정된 잣대를 기준으로 학생들을 측정한다.
^ "Archived copy". Archived from the original on 2010-04-14. Retrieved 2010-04-14.{{cite web}}: CS1 maint: 제목(링크)으로 보관된 사본 일리노이 학습 표준
^ Volokh, Eugene (February 9, 2015). "In praise of grading on a curve". Washington Post. Retrieved 18 May 2017. Like democracy, grading on a curve may be the worst possible system — except for all the alternatives.
^ 오리건 연구소, IPIP 웹사이트, http://ipip.ori.org/newNorms.htm
^ [1] NCTM: 뉴스 & 미디어: 평가 문제 (2004년 4월 뉴스불레터) "정의상 전국 학생의 절반이 특정 순간에 학년 이하"
^ [2] Wayback Machine National Children's Reading Foundation 웹 사이트에 2007-03-11 보관
^ Reese, Michael (May 13, 2013). "To Curve or Not to Curve". The Innovative Instructor Blog. Johns Hopkins University. Retrieved May 13, 2013.

외부 링크

[roell-1] Roell, Kelly. "What is Grading on a Curve?". About.com. Retrieved November 13, 2013.

[Cronbach-2] 크론바흐, L. J. (1970년) 심리 테스트의 필수 사항(3차 개정판) 뉴욕: 하퍼 & 로우.

[Glaser-3] Glaser, R. (1963). "Instructional technology and the measurement of learning outcomes". American Psychologist. 18: 510–522. doi:10.1037/h0049294.

[teach-4] 평가

[role-5] "PDF presentation" (PDF). Archived from the original (PDF) on 2015-09-24. Retrieved 2006-07-21.

[6] 이야기 5-01.107^{[permanent dead link]} Fairtest.org: Times on Testing "expective reference" tests는 서로 상대하는 것이 아니라 고정된 잣대를 기준으로 학생들을 측정한다.

[7] "Archived copy". Archived from the original on 2010-04-14. Retrieved 2010-04-14.{{cite web}}: CS1 maint: 제목(링크)으로 보관된 사본 일리노이 학습 표준

[8] Volokh, Eugene (February 9, 2015). "In praise of grading on a curve". Washington Post. Retrieved 18 May 2017. Like democracy, grading on a curve may be the worst possible system — except for all the alternatives.

[9] 오리건 연구소, IPIP 웹사이트, http://ipip.ori.org/newNorms.htm

[10] [1] NCTM: 뉴스 & 미디어: 평가 문제 (2004년 4월 뉴스불레터) "정의상 전국 학생의 절반이 특정 순간에 학년 이하"

[11] [2] Wayback Machine National Children's Reading Foundation 웹 사이트에 2007-03-11 보관

[12] Reese, Michael (May 13, 2013). "To Curve or Not to Curve". The Innovative Instructor Blog. Johns Hopkins University. Retrieved May 13, 2013.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Search