전산 적응 시험

Computerized adaptive testing

컴퓨터 적응시험(CAT)은 수험생의 능력 수준에 맞는 컴퓨터 기반 시험의 한 형태다. 이 때문에 맞춤형 시험이라고도 불린다. 즉, 관리 대상으로 선정된 다음 항목이나 항목 집합이 가장 최근에 관리된 항목에 대한 수험자의 응답의 정확성에 따라 달라지는 컴퓨터 관리형 시험의 형태라고 할 수 있다.[1]

작동 방식

CAT는 기출문제에서 수험생에 대해 알려진 것을 바탕으로 시험의 정밀도를 극대화할 목적으로 연속적으로 문제를 선정한다.[2] 수험생 입장에서는 수능의 난이도가 실력 수준에 맞춰진 것 같다. 예를 들어, 수험생이 중간 난이도의 항목에서 좋은 성적을 거두면, 그들은 더 어려운 질문을 받게 될 것이다. 혹은, 만약 그들이 형편없이 수행한다면, 그들은 더 간단한 질문을 받게 될 것이다. 정적 다중 선택에 비해 거의 모든 사람들, 항목은 모든 수험생들에의 고정된 집합과 경험한 과정computer-adaptive 시험 더 적은 시험 품목이 동등하게 정확한 점수에 도착할 것을 요구한다.[2](물론 거기에는, 항목을 객관식이 되는 데 필요한 CAT방법론에 대해 아무것도; 없지만 대부분의 시험이다. 객관식이고,[citation needed] 대부분의 CAT 시험도 이 형식을 사용한다.)

기본적인 컴퓨터 적응 시험 방법은 다음과 같은 단계를 가진 반복 알고리즘이다.[3]

  1. 현재 수험생의 능력 추정치를 기준으로, 이용 가능한 항목 풀을 검색하여 최적의 아이템을 찾는다.
  2. 선택한 항목이 수험자에게 제시되고, 수험자는 정답이 정확하거나 잘못 답한다.
  3. 모든 사전 답변에 기초하여 역량 견적이 업데이트됨
  4. 종료 기준을 충족할 때까지 1~3단계를 반복한다.

첫 번째 항목을 관리하기 전에는 수험생에 대해 알려진 것이 없으므로 일반적으로 중간, 중간 정도의 난이도의 항목을 첫 번째 항목으로[citation needed] 선택하여 알고리즘을 시작한다.

적응형 행정의 결과로, 다른 수험생들은 꽤 다른 시험을 받는다.[4] 전형적으로 다른 시험을 치르지만, 그들의 능력 점수는 서로 비교가 된다. (즉, 고전적인 시험 이론을 사용하여 고안된 시험에서 흔히 그렇듯이, 같은 시험을 받은 것처럼) 서로 다른 항목 집합에 걸쳐 평등한 점수를 계산할 수 있는 정신계량 기술은 항목 반응 이론(IRT)이다. 또한 IRT는 일반적으로 난이도가 아닌 정보에 기초하여 선택하는 최적의 항목을 선택하기 위한 방법론이다.[3]

미국에서는 현재 주로 컴퓨터 적응형 시험으로 대학원 관리 입학 시험을 시행하고 있다. 현재 CAT 연구 프로그램 목록 및 출판된 모든 CAT 연구에 대한 거의 포괄적인 참고 문헌 목록과 함께 국제 전산 적응 시험 협회(International Association for Computed Adaptive Testing)에서 CAT 프로그램 목록이 발견된다.

복수 연령 시험(MST) 또는 CAST라고 하는 관련 방법론이 통일 공인 회계사 시험에서 사용된다. MST는 아래와 같이 CAT의 일부 단점을 피하거나 감소시킨다. MST에 대한 자세한 내용은 2006년 특별호 "Epplication Measurement in Education[permanent dead link]"을 참조하십시오.

이점

적응형 시험은 대부분의 수험생들에게 한결같이 정밀한 점수를 제공할 수 있다.[3] 이와는 대조적으로, 표준 고정 시험은 중간 정도의 능력을 가진 수험생들에게 항상 최고의 정밀도를 제공하고, 시험 점수가 더 높은 수험생들에게는 점점 더 낮은 정밀도를 제공한다.

적응형 시험은 일반적으로 50% 단축될 수 있지만 여전히 고정형 버전보다 높은 정밀도를 유지할 수 있다.[2] 이것은 시험 응시자에게 시간 절약으로 해석된다. 수험생들은 너무 어렵거나 사소한 것에도 시간을 낭비하지 않는다. 또한, 시험 기관은 시간 절약으로부터 이익을 얻는다. 시험 응시자의 좌석 시간 비용은 상당히 감소한다. 그러나 CAT의 개발은 표준 고정형식 시험보다 훨씬 더 많은 비용을 수반하기 때문에, CAT 시험 프로그램이 재정적으로 결실을 거두기 위해서는 많은 인구가 필요하다.

대규모의 목표인구는 일반적으로 과학 및 연구 기반 분야에서 전시될 수 있다. 이러한 측면에서의 CAT 시험은 장애나 질병의 조기 발병을 위해 사용될 수 있다. 이들 분야에서 CAT 테스트의 성장은 지난 10년간 크게 증가했다. 일단 의료 시설과 실험실에서 받아들여지지 않으면, 이제는 진단 범위에서 CAT 시험이 권장된다.

다른 컴퓨터 기반 시험과 마찬가지로, 적응형 시험은 시험 직후 결과를 보여줄 수 있다.

항목 선택 알고리즘에 따라 적응형 시험은 전형적으로 전체 모집단이 단일 집합을 관리하는 것이 아니라 다른 항목 집합을 받기 때문에 일부 항목의 노출을 줄일 수 있다. 단, 다른 사람의 노출도를 증가시킬 수 있다(즉, 시험 시작 시 대부분의 수험생에게 제시되는 중간 또는 중간/편한 항목).[3]

단점들

CAT에서 가장 먼저 발생하는 문제는 항목 풀의 보정이다. 항목의 특성을 모형화하려면(예: 최적 품목을 선택하기 위해) 시험의 모든 품목을 상당한 양의 표본에 미리 관리한 후 분석해야 한다. 이를 위해서는 '시범시험', '사전시험', '시딩'[3]이라 불리는 시험운영 항목(응답은 기록되지만 수험생 점수에 기여하지 않는다)에 새로운 항목이 섞여 있어야 한다. 이것은 물류, 윤리적, 보안상의 문제를 제시한다. 예를 들어, 새롭고 눈에 띄지 않는 품목으로 작동 적응형 시험을 실시하는 것은 불가능하다.[5] 모든 품목은 안정적인 품목 통계를 얻기 위해 충분히 큰 표본으로 사전 시험을 거쳐야 한다. 이 견본은 1,000명의 수험생에게 요구될 수 있다.[5] 각 프로그램은 관리되지 않은 파일럿 시험 항목으로 합리적으로 구성될 수 있는 시험 비율을 결정해야 한다.

적응형 시험은 몇 가지 항목의 남용을 방지하기 위한 노출 제어 알고리즘을 가지고 있지만,[3] 능력에 따라 조건화된 노출은 종종 제어되지 않고 쉽게 1에 가까워질 수 있다. 즉, 같은 능력을 가진 사람들을 위한 시험에서 어떤 항목들은 매우 흔해지는 것이 일반적이다. 항목을 공유하는 그룹들의 기능 능력 수준이 비슷할 수 있기 때문에 이는 심각한 보안 우려 사항이다. 사실, 완전히 무작위화된 시험은 가장 안전하지만 효율적이지도 않다.

과거 항목에 대한 검토는 일반적으로 허용되지 않는다. 적응형 시험은 사람이 오답한 후에 더 쉬운 항목을 관리하는 경향이 있다. 아마도, 빈틈없는 시험 출제자는 그러한 단서들을 이용하여 오답들을 탐지하고 수정할 수 있을 것이다. 또는, 수험생들에게 의도적으로 틀린 답을 고르도록 지도하여, 점점 더 쉬운 시험으로 이어질 수도 있다. 적응 시험을 속여 최대한 쉬운 시험을 만든 후, 그들은 항목을 검토하고 정답을 맞출 수 있으며, 아마도 매우 높은 점수를 받을 것이다. 수험생들은 복습 불능에 대해 자주 불평한다.[6]

정교함 때문에, CAT의 개발은 여러 가지 전제조건이 있다.[7] IRT 교정에 필요한 큰 표본 크기(일반적으로 수백 명의 수험생)가 있어야 한다. 새로운 아이템을 즉시 선택하려면 실시간으로 아이템을 태울 수 있어야 한다. IRT 교정 및 CAT 시뮬레이션 연구에 경험이 있는 정신측정학자는 유효성 문서를 제공하기 위해 필요하다. 마지막으로, 진정한 IRT 기반 CAT가 가능한 소프트웨어 시스템을 이용할 수 있어야 한다.

시간 제한이 있는 CAT에서는 수험생이 각 시험 항목에 사용할 수 있는 시간을 정확히 예산하고, 시간 제한 시험 구간을 완료하기 위해 페이스가 맞는지 판단하는 것은 불가능하다. 따라서 시험 응시자는 한 섹션의 초기에 제시된 어려운 문제에 너무 많은 시간을 할애한 다음 시험되지 않은 영역에서의 자신의 실력을 정확하게 측정할 수 있을 만큼 충분한 문제를 완료하지 못한 경우 불이익을 받을 수 있다.[8] 맞춤화되지 않은 CAT는 후속 지침을 안내하는 형태 형성적 평가를 위한 훌륭한 도구지만, 시간 지정 CAT는 직업 및 교육 프로그램의 적성을 측정하는 데 사용되는 중요한 종합 평가에는 적합하지 않다.

구성 요소들

CAT 구축에는 5가지 기술적 요소가 있다(Weiss & Kingsbury, 1984[2]). 이 목록에는 항목 사전 테스트 또는 실시간 현장 공개와 같은 실제적인 문제는 포함되지 않는다.

  1. 보정 항목 풀
  2. 시작점 또는 입력 레벨
  3. 품목선택알고리즘
  4. 채점 절차
  5. 종료 기준

보정 항목 풀

CAT가 선택할 수 있는 항목 풀이 있어야 한다.[2] 이러한 항목은 전통적인 방법(즉, 수동으로) 또는 자동 항목 생성을 통해 생성될 수 있다. 풀은 나머지 네 가지 구성 요소의 기초로 사용되는 정신측정학 모델로 보정해야 한다. 전형적으로 아이템 반응 이론은 심리학 모델로 채택된다.[2] 아이템 응답 이론이 인기 있는 이유 중 하나는 사람과 아이템을 같은 메트릭(그리스 문자 세타로 표기)에 배치하기 때문에 아이템 선택 시 이슈에 도움이 된다(아래 참조).

시작점

CAT에서는 시험에서 일정 지점까지의 수험생의 성적을 기준으로 항목을 선택한다. 그러나 CAT는 어떤 항목도 관리되지 않은 상황에서 수험생의 능력을 구체적으로 추정할 수 없는 것은 분명하다. 그래서 수험생의 능력에 대한 다른 초기 추정치가 필요하다. 수험생과 관련된 이전 정보가 알려지면 사용할 수 있지만 [2]CAT는 수험생이 평균 능력이라고 가정하기 때문에 첫 번째 항목은 중간 난이도인 경우가 많다.

품목선택알고리즘

앞서 언급한 바와 같이 아이템 응답 이론은 수험생과 아이템을 같은 지표에 배치한다. 따라서 CAT가 수험생 능력 추정치를 가지고 있다면 그 추정치에 가장 적합한 항목을 선택할 수 있다.[5] 기술적으로, 이것은 그 시점에서 가장 큰 정보가 있는 항목을 선택함으로써 이루어진다.[2] 정보는 조건부 분산과 가성비 매개변수(사용되는 경우)뿐만 아니라 항목의 차별 매개변수의 함수다.

채점 절차

항목이 관리되면 CAT는 수험자의 능력 수준에 대한 추정치를 업데이트한다. 수험생이 해당 항목에 정확히 답했다면 CAT는 다소 높은 능력을 갖출 것으로 추정하며, 그 반대의 경우도 마찬가지일 것으로 보인다. 이것은 수험자의 능력의 우도함수를 얻기 위해 항목 응답 이론의 항목 응답 함수를 이용하여 이루어진다. 이를 위한 두 가지 방법을 최대우도 추정베이지안 추정이라고 한다. 후자는 수험자 능력의 선분포를 가정하며, 일반적으로 사용되는 추정치 두 가지를 가지고 있다: 기대 후행최대 후행이다. 최대우도는 균일(f(x)=1) 이전이 가정된 경우 베이지스 최대 후방 추정치와 동일하다.[5] 최대 가능성은 점증적으로 편향되지 않지만 혼합되지 않은(모든 정확하거나 부정확한) 반응 벡터에 대한 세타 추정치를 제공할 수 없으며, 이 경우 베이시안 방법을 일시적으로 사용해야 할 수 있다.[2]

종료 기준

CAT 알고리즘은 반복적으로 항목을 관리하고 수험생 능력의 추정치를 갱신하도록 설계되었다. 이는 종료 기준이 CAT에 통합되지 않는 한 항목 풀이 소진될 때까지 계속된다. 흔히 시험 응시자의 표준 측정 오류가 특정 사용자 지정 값 아래로 떨어지면 시험이 종료되며, 따라서 위의 진술은 수험자의 점수가 균일하게 정확하거나 "같다"는 것이다.[2] 시험의 다른 목적을 위해 시험의 다른 종료 기준이 존재하는데, 예를 들어 시험 응시자가 시험 능력의 정확한 추정치를 얻는 것이 아니라 시험을 "합격"해야 하는지 또는 "실패"해야 하는지를 판단하기 위한 것이다.[2][9]

기타 이슈

통과 실패

많은 상황에서, 시험의 목적은 수험생을 둘 이상상호 배타적이고 철저한 범주로 분류하는 것이다. 여기에는 두 분류가 "통과"와 "실패"인 공통의 "마스터리 테스트"가 포함되지만, "미흡", "기본", "고급" 수준의 지식이나 역량과 같이 세 가지 이상의 분류가 있는 상황도 포함된다. 이 기사에서 설명하는 "항목 수준 적응형" CAT의 종류는 "통과/실패"가 아닌 시험이나 좋은 피드백을 제공하는 것이 매우 중요한 합격/실패 테스트에 가장 적합하다. 컴퓨터 분류 시험(CCT)이라고도 하는 합격/불합격 CAT에 일부 수정이 필요하다.[9] 실제 점수가 합격점에 매우 가까운 수험생의 경우 컴퓨터 분류 시험은 긴 시험으로 이어지는 반면, 실제 점수가 합격 점수보다 훨씬 높거나 낮은 수험생은 가장 짧은 시험을 치르게 된다.

예를 들어, 능력의 점 추정치를 제공하기보다는 수험생을 범주로 분류하는 새로운 종료 기준과 점수 알고리즘을 적용해야 한다. 이것을 위해 이용할 수 있는 두 가지 주요 방법론이 있다. 둘 중 더 두드러지는 것은 순차 확률비 시험(SPRT)이다.[10][11] 이것은 수험자의 능력이 컷스코어 위의 특정 지점 또는 컷스코어 아래의 다른 특정 지점과 같다는 가설 시험으로 수험자 분류 문제를 공식화한다. 이는 개념적으로 더 적절한 복합 가설 공식보다는[12] 점 가설 공식이라는 점에 유의하십시오. 복합 가설의 공식은 수험자의 능력이 컷스코어 위의 영역 또는 컷스코어 아래의 영역에 있다는 것이다.

신뢰 구간 접근법도 사용되는데, 각 항목을 관리한 후, 알고리즘은 수험자의 참 점수가 합격점수보다 높거나 낮을 확률을 결정한다.[13][14] 예를 들어, 알고리즘은 참 점수에 대한 95% 신뢰 구간이 더 이상 합격 점수를 포함하지 않을 때까지 계속될 수 있다. 그 시점에서, 적응형 시험의 기초가 되는 심리측정학 모델이 수험자와 시험에 적합하다고 가정할 때, 합격-불합격 결정은 이미 95% 정확하기 때문에 더 이상의 항목은 필요하지 않다. 이 접근방식은 원래 "적응적 마스터티 테스트"[13]라고 불렸지만 둘 이상의 컷스코어의 비적응적 품목 선택 및 분류 상황에 적용할 수 있다(일반적인 마스터리 테스트에는 단일 컷스코어가 있다).[14]

실제적인 문제로서 알고리즘은 일반적으로 최소 및 최대 시험 길이(또는 최소 및 최대 관리 시간)를 갖도록 프로그램되어 있다. 그렇지 않으면, 커트스코어에 매우 가까운 능력을 가진 수험생을 알고리즘이 결정하지 않고도 은행의 모든 항목을 관리할 수 있을 것이다.

이용되는 항목 선택 알고리즘은 종료 기준에 따라 달라진다. 컷스코어에서 정보를 최대화하는 것은 우도비에서 사용되는 확률의 차이를 최대화하기 때문에 SPRT에 더 적합하다.[15] 능력 추정치에서 정보를 최대화하는 것은 측정의 조건부 표준 오차를 최소화하기 때문에 신뢰 구간 접근법에 더 적합하며, 이는 분류에 필요한 신뢰 구간의 폭을 감소시킨다.[14]

적응성의 실질적인 제약

ETS 연구원인 마사 스타킹은 실제로 대부분의 적응형 시험이 거의 적응형 시험(BAT)이라고 지적했다. 왜냐하면 실제로 많은 제약조건이 품목 선택에 부과되기 때문이다. 예를 들어, CAT 시험은 일반적으로 내용 사양을 충족해야 한다.[3] 구두 시험은 유사 항목, 빈칸 채우기 및 동의어 항목 유형과 동일한 수로 구성되어야 할 수 있다. CAT는 일반적으로 가장 유용한 항목이 과도하게 노출되는 것을 방지하기 위해 어떤 형태의 항목 노출 제약조건을 가지고 있다.[3] 또한, 일부 시험에서는, 항목에 있는 사람의 성별이나 이름에 의해 암시되는 민족성과 같은 항목의 표면적 특성 균형을 맞추려고 시도한다. 따라서 CAT 시험은 어떤 항목을 선택할 수 있는지, 그리고 일부 시험의 경우 제약조건이 상당할 수 있으며 적합한 항목을 찾기 위해 복잡한 검색 전략(예: 선형 프로그래밍)을 필요로 하는 경우가 많다.

항목 노출을 제어하는 간단한 방법은 "랜덤에스크(randomesque)" 또는 층류(straata) 방법이다. 알고리즘은 시험의 각 지점에서 가장 유용한 항목을 선택하는 대신 다음 5개 또는 10개의 가장 유용한 항목 중에서 무작위로 다음 항목을 선택한다. 이것은 시험 기간 내내 또는 시작 시에만 사용될 수 있다.[3] 또 다른 방법은 Commonson-Hetter 방법인데, U(0,1)에서 무작위 번호를 뽑아 시험 사용자가 각 항목에 대해 결정한 k 매개변수i 비교한다.[16] 무작위 번호가 k보다i 크면 다음으로 가장 유용한 항목이 고려된다.[3]

윔 반 데어 린덴과[17] 동료들은 항목을 선택하는 것의 일부로 전체 그림자 테스트를 만드는 것을 포함하는 섀도 테스트라고 불리는 대안적인 접근법을 발전시켰다. 섀도 테스트에서 항목을 선택하는 것은 적응형 테스트가 (특정 항목에 가장 적합한 선택과는 달리) 글로벌 최적 선택에 초점을 맞춰 선택 기준을 충족시키는 데 도움이 된다.

다차원

항목 세트를 부여하면 다차원 컴퓨터 적응시험(MCAT)이 해당 항목을 학생의 추정 능력에 따라 은행에서 선택하게 돼 개별화된 시험이 이뤄진다. MCATs는 이전에 답한 항목의 순서를 이용하여 복수의 동시 시험 능력(컴퓨터 적응 시험 - 단일 능력을 평가하는 CAT와 달리)을 바탕으로 시험의 정확도를 극대화하고자 한다(Pitton-Gonsalves 및 Aluisio, 2012).

참고 항목

참조

  1. ^ 전국교육측정위원회 http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA 웨이백머신에 2017-07-22 보관
  2. ^ a b c d e f g h i j k Weiss, D. J.; Kingsbury, G. G. (1984). "Application of computerized adaptive testing to educational problems". Journal of Educational Measurement. 21 (4): 361–375. doi:10.1111/j.1745-3984.1984.tb01040.x.
  3. ^ a b c d e f g h i j Thissen, D, & Mislevy, R.J. (2000) 테스트 알고리즘. Wainer, H. (Ed.) Computerated Adaptive Testing: A Primer. 마화, NJ: 로렌스 얼바움 어소시에이츠.
  4. ^ 그린, B.F. (2000년) 시스템 설계 및 작동. Wainer, H. (Ed.) Computerated Adaptive Testing: A Primer. 마화, NJ: 로렌스 얼바움 어소시에이츠.
  5. ^ a b c d Wainer, H.; Mislevy, R.J. (2000). Wainer, H. (ed.). Item response theory, calibration, and estimation. Computerized Adaptive Testing: A Primer. Mahwah, NJ: Lawrence Erlbaum Associates.
  6. ^ Lawrence M. Rudner. "An On-line, Interactive, Computer Adaptive Testing Tutorial". EdRes.org/scripts/cat.
  7. ^ "Requirements of Computerized Adaptive Testing" (PDF). FastTEST Web. Archived from the original (PDF) on April 25, 2012.
  8. ^ "GMAT Tip: Adapting to a Computer-Adaptive Test". Bloomberg. April 3, 2013.
  9. ^ a b 린, C.J. & 스프레이, J.A. (2000) 항목 선택 기준이 순차 확률비 시험에 미치는 영향. (연구보고서 2000-8) 아이오와 시티, IA: ACT, Inc.
  10. ^ 월드, A. (1947) 순차 분석. 뉴욕: 와일리.
  11. ^ 셈세, M. D. (1983). 맞춤형 테스트를 사용하여 의사 결정을 내리는 절차. D. J. Weiss (Ed.)에서는 시험의 새로운 지평: 잠재 특성 이론과 컴퓨터화된 적응 시험 (pp. 237-254)을 참조한다. 뉴욕: 아카데미 프레스.
  12. ^ Weitzman, R. A. (1982). "Sequential testing for selection". Applied Psychological Measurement. 6 (3): 337–351. CiteSeerX 10.1.1.1030.6828. doi:10.1177/014662168200600310.
  13. ^ a b G.G.의 킹스베리 & Weiss, D.J. (1983) IRT 기반 적응형 마스터리 시험과 순차 마스터리 시험 절차의 비교. D. J. Weiss (Ed.)에서는 시험의 새로운 지평: 잠재 특성 이론과 컴퓨터화된 적응 시험 (pp. 237-254)을 참조한다. 뉴욕: 아카데미 프레스.
  14. ^ a b c Eggen, T. J. H. M; Straetmans, G. J. J. M. (2000). "Computerized adaptive testing for classifying examinees into three categories". Educational and Psychological Measurement. 60 (5): 713–734. doi:10.1177/00131640021970862.
  15. ^ 스프레이, J. A. & Leccase, M. D. (1994년) 전산화된 적응형 시험으로 의사결정을 위한 시험항목 선정. 전국교육측량협의회(National Council for Education in Education, LA, 1994년 4월 5~7일) 연차총회에서 제시된 논문.
  16. ^ D.D. (1985년) B.J.&Hetter. 전산화된 적응형 시험에서 항목 노출률 제어. 샌디에이고 군사시험협회 연례회의에서 발표한 논문.
  17. ^ van der Linden, W. J.; Veldkamp, B. P. (2004). "Constraining item exposure in computerized adaptive testing with shadow tests". Journal of Educational and Behavioral Statistics. 29 (3): 273–291. doi:10.3102/10769986029003273.

추가 출처

추가 읽기

외부 링크