시험점수
Test score시험 점수는 시험에서 수험자의 성적을 전달하는 정보, 보통 숫자다. 한 가지 공식적 정의는 "측정하는 시공사나 시공사 관련 시험 항목에 대한 수험자의 응답에 포함된 증거의 요약"[1]이라는 것이다.
시험 점수는 표준 참조 또는 기준 참조 해석으로 해석되거나 때때로 둘 다로 해석된다. 표준참조 해석은 점수가 수험생에 대한 의미를 다른 수험생들 사이에서 차지하는 위상에 대해 전달한다는 것을 의미한다. 기준기준해석이란 다른 수험생의 점수에 관계없이 점수가 특정 과목과 관련한 수험생 정보를 전달하는 것을 말한다.[2]
종류들
시험 점수는 원점수와 척도 점수의 두 종류가 있다. 원점수는 단순한 문제 수만큼 정답을 맞춘 문제처럼 어떠한 조정이나 변형이 없는 점수다. 점수 척도는 상대 등급과 같이 원시 점수에 적용된 일부 변환의 결과물이다.
모든 수험생의 성적을 일관된 규모로 보고하는 것이 점수 척도의 목적이다. 시험에는 두 가지 형태가 있고, 한 가지 형태는 다른 형태보다 더 어렵다고 가정해 보자. 양식 1에서 65%의 점수는 양식 2에서 68%의 점수와 동일시하여 결정되었다. 두 가지 형태의 점수는 척도로 변환하여 이 두 개의 등가 점수는 보고된 점수와 동일하도록 할 수 있다. 예를 들어, 둘 다 100에서 500점 만점에 350점이 될 수 있다.
미국에서 스케일링된 두 가지 유명한 테스트는 ACT와 SAT이다. ACT의 척도는 0~36, SAT는 200~800(섹션당) 표면적으로는 이 두 척도가 18과 6(ACT), 500과 100의 평균 및 표준 편차를 나타내기 위해 선택되었다. 표준 편차 ± 3의 구간이 모집단의 99% 이상을 포함하기 때문에 상한과 하한을 선택했다. 그 범위를 벗어난 점수는 측정하기 어렵고 실질적인 가치가 거의 없다.
스케일링은 테스트의 정신계 특성에 영향을 주지 않으며, 평가 프로세스가 완료된 후(그리고 존재하는 경우 동일) 발생하는 것이다. 그러므로 그것은 정신측정학의 문제가 아니라 해석능력의 문제다.
점수 정보 손실
시험이 우로 채점될 때, 학습에 대한 중요한 가정이 만들어졌다. 정답 수 또는 항목 점수의 합계(부분 크레딧이 주어지는 경우)는 현재 수행 상태의 적절하고 충분한 척도로 가정한다. 또 오답에 유의미한 정보가 없다는 이차적 가정을 한다.
애당초, 암기를 이용하여 문제의 근본적인 내용이나 개념 구조에 대한 깊은 이해 없이 정답을 얻을 수 있다. 둘째, 해결책을 위한 한 단계 이상의 단계가 필요할 때, 정확한 결과를 이끌어낼 다양한 답변 접근법이 종종 있다. 정답이 맞다고 해서 몇 가지 가능한 절차 중 어떤 절차를 사용했는지는 알 수 없다. 학생이 답안을 제공할 때(또는 작업을 보여줄 때) 이 정보는 원본 문서로부터 쉽게 구할 수 있다.
둘째, 틀린 답이 맹목적인 추측이었다면, 이 답들 중에서 찾아낼 정보가 없을 것이다. 반면에, 틀린 답에 예상한 답으로부터의 해석을 반영한다면, 이러한 답은 전체 시험이 측정되는 것과 순서가 정해진 관계를 보여야 한다. 이 출발은 시험을 치르는 국어에서 학생이 선택하거나 답을 주는 심리 언어적 성숙도에 따라 달라져야 한다.
이 두 번째 경우에는 시험 항목에 대한 반응에서 이 순서를 추출할 수 있어야 한다.[3] 예를 들어 Rasch 모델과 같은 추출 프로세스는 전문가들 사이에서 아이템 개발을 위한 표준 관행이다. 그러나 채점 과정에서 오답은 폐기되기 때문에 이러한 오답에 대한 분석은 거의 수행되지 않는다.
셋째, 주제 기반 하위 테스트 점수가 제공되기도 하지만, 더 일반적인 관행은 총 점수 또는 재조정된 버전을 보고하는 것이다. 이 리스케일링은 이 점수들을 어떤 종류의 표준과 비교하기 위한 것이다. 시험결과의 추가적인 붕괴는 어떤 특정 항목이 누락되었는지에 대한 모든 정보를 체계적으로 제거한다.
따라서, 시험의 우열을 가리는 점수는 1) 학생들이 정답을 어떻게 달성했는지, 2) 용납할 수 없는 정답을 향해 빗나갔는지, 3) 시험의 본체 내에서 이러한 예상에서 벗어난 부분이 무엇인지 상실한다.
이 해설은 현재의 채점 절차가 시험 출제 과정의 역학을 은폐하고 평가 대상 학생들의 역량을 흐리게 한다는 것을 시사한다. 현재의 채점 관행은 초기 채점 단계에서 이러한 데이터를 지나치게 단순화한다. 이러한 절차상의 오류의 결과는 교사들이 학생들에게 더 나은 서비스를 제공하는 데 도움이 될 수 있는 진단 정보를 모호하게 하는 것이다. 또한 이러한 시험을 부지런히 준비하는 사람들이 그렇지 않았다면 이 오류의 존재를 그들에게 경고했을 정보를 관찰할 수 없게 한다.
응답 스펙트럼 평가(RSE)라고 알려진 이 문제에 대한 해결책은 현재 개발 중에 있으며, 이 세 가지 형태의 정보 손실을 모두 복구할 수 있는 것으로 보이는 동시에, 현재 성능 상태를 설정하고 성능 변화를 추적할 수 있는 수치적 척도를 제공하고 있다.[4]
이 RSE 접근방식은 옳든 그르든 시험 응시자가 사용할 수 있는 사고 과정을 나타내는 모든 대답에 대한 해석을 제공한다.[5] 이 장에서는 다른 결과들 중에서 회수가능 정보가 정답만을 고려하는 것보다 시험 변동성의 두 배에서 세 배 정도 더 많은 것을 설명한다고 보고한다. 이러한 엄청난 정보 손실은 채점 과정에서 수집되는 정보에서 "잘못된" 답변이 제거되고 더 이상 우전적 채점에 내재된 절차적 오류를 밝힐 수 없다는 사실로 설명될 수 있다. 이 절차는 시험 데이터에 내재된 선형 종속성에 의해 생성된 한계를 우회한다.
참고 항목
참조
- ^ Thissen, D, & Wainer, H. (2001) 테스트 스코어링. 마화, 뉴저지: 얼바움. 1페이지, 1문장.
- ^ 테스트 점수 해석을 위한 Iowa Testing Programs Guide 2008-02-12 Wayback Machine에 보관됨
- ^ Powell, J. C.와 Shklov, N. (1992년) The Journal of Educational and Sychical Measurement, 52, 847–865
- ^ "Welcome to the Frontpage". Archived from the original on 30 April 2015. Retrieved 2 May 2015.
- ^ Powell, Jay C. (2010) Testing as 피드백 to Information Teaching. 제3장 디지털 시대의 학습 및 교육, 제1부. 학습과 교육에 대한 인지적 접근. (J. Michael Spector, Dirk Ifentaler, Pedro Isaias, Kinshuk and Demetrios Sampson, Eds.) 뉴욕: 스프링거. ISBN 978-1-4419-1551-1, doi:10.1007/978-1-4419-1551-1