품목응답이론
Item response theory심리측정학에서 항목응답이론(IRT) (잠재적 특성 이론, 강한 참 점수 이론 또는 현대적 정신시험 이론으로도 알려져 있음)은 시험, 설문지, 그리고 유사한 측정 능력, 태도 또는 다른 변수의 설계, 분석 및 채점을 위한 패러다임이다. 그것은 시험 항목에 대한 개인의 수행과 시험 항목의 측정 능력에 대한 전반적인 척도에 대한 수험자의 수행 정도 사이의 관계를 바탕으로 한 시험 이론이다. 항목과 수험생 특성을 모두 나타내기 위해 여러 가지 다른 통계 모델이 사용된다.[1] 척도 작성과 앙케이트 응답을 평가하는 간단한 대안과는 달리, 각 항목이 똑같이 어렵다고 가정하지는 않는다. 이는 예를 들어, IRT를 "모든 항목이 서로 복제된 것으로 가정하거나 다른 말로 하면 병렬 계측기로 간주되는"[2] 리커트 스케일링과 구별한다(p. 197). 대조적으로 항목 응답 이론은 각 항목(항목 특성 곡선 또는 ICC)의 난이도를 스케일링 항목에 통합해야 할 정보로 취급한다.
시험 데이터에 관련 수학적 모델을 적용한 것에 기초한다. 흔히 고전적인 시험 이론보다 우월한 것으로 여겨지기 때문에,[3] 특히 소위 고득점 시험(GRE)이나 대학원 관리 입학 시험(GMAT)과 같이 최적의 결정이 요구될 때 미국에서 [citation needed]척도 개발을 위해 선호되는 방법이다.
명칭 항목 반응 이론은 고전적인 시험 이론의 시험 수준 초점과는 반대로, 항목에 이론이 집중되어 있기 때문이다. 따라서 IRT는 시험의 각 항목에 대해 주어진 능력의 각 수험자의 반응을 모델링한다. 용어 항목은 일반적이며, 모든 종류의 유익한 항목을 포괄한다. 답안은 정확하지 않고 정확한 객관식 문제일 수 있지만 응답자가 일치 수준(등급 또는 리커트 척도)을 나타낼 수 있도록 하는 설문지 또는 환자 증상(현재/부재 또는 복잡한 시스템에서 진단 정보)에 대한 일반적인 문장이기도 하다.
IRT는 어떤 항목에 대한 정확한/키드 응답의 확률은 사람과 항목 매개변수의 수학적 함수라는 생각에 근거한다.(인간과 항목 매개변수의 수학적 함수라는 표현은 그 환경에서 행동이 사람의 함수라고 주장하는 커트 르윈의 방정식 B = f(P, E)와 유사하다.) 개인 매개변수는 (일반적으로) 단일 잠재적 특성 또는 차원으로 해석된다. 예로는 일반적인 지능이나 태도의 강인함이 있다. 항목이 특징인 매개변수에는 난이도(난이도 범위의 위치에 대한 "위치"로 알려져 있음), 개인의 성공률이 능력에 따라 얼마나 가파르게 변화하는지 나타내는 차별(경사 또는 상관 관계) 및 (하위) 점근상(하위)을 특징으로 하는 유사 평가 매개변수가 포함된다.동쪽 능력자는 추측으로 점수를 얻는다(예를 들어, 4개의 가능한 응답으로 객관식 항목에 대해 순수 확률 25%).
같은 방법으로, IRT는 온라인 소셜 네트워크에서 인간의 행동을 측정하는 데 사용될 수 있다. 다른 사람들이 표현하는 관점은 IRT를 이용하여 연구하기 위해 통합될 수 있다. 정보를 오보나 참정보로 분류하는 데 사용하는 것도 평가되었다.
개요
이 섹션은 검증을 위해 추가 인용구가 필요하다. (2015년 12월) (이 과 시기 |
아이템 대응 기능의 개념은 1950년 이전이었다. 이론으로서의 IRT의 선구적인 연구는 1950년대와 1960년대에 일어났다. 그 선구자 중 세 명은 교육 시험 서비스 심리학자인 프레데릭 M. 로드,[4] 덴마크 수학자 게오르크 라쉬, 오스트리아의 사회학자 폴 라자스펠드였다. IRT의 진행을 방해한 주요 인물로는 벤자민 드레이크 라이트, 데이비드 앤드리히 등이 있다. IRT는 1970년대 후반과 1980년대에 이르러서야 널리 쓰이게 되었는데, 그 당시 실무자들은 한편으로는 IRT의 '사용성'과 '장점'을 들었고, 한편으론 개인용 컴퓨터가 많은 연구자들에게 IRT에 필요한 계산력을 접할 수 있게 했다.
무엇보다도 IRT의 목적은 평가가 얼마나 잘 작동하는지, 평가의 개별 항목이 얼마나 잘 작동하는지 평가하는 프레임워크를 제공하는 것이다. IRT의 가장 일반적인 적용 분야는 교육인데, 정신측정학자들이 시험 개발 및 설계, 시험 항목의 은행 유지, 연속적인 시험 버전에 대한 항목의 어려움 동일화(예를 들어, 시간 경과에 따른 결과 간 비교를 허용)에 사용한다.[5]
IRT 모델은 흔히 잠재적 특성 모델이라고 불린다. 잠재된 용어는 개별 항목 응답이 귀무 가설의 특성, 구성 또는 속성의 관측 가능한 발현으로 취해지고, 직접 관찰되는 것이 아니라, 발현된 반응으로부터 유추되어야 한다는 것을 강조하기 위해 사용된다. 잠재적 특성 모델은 사회학 분야에서 개발되었지만, IRT 모델과 사실상 동일하다.
IRT는 일반적으로 고전적 시험 이론(CTT)보다 개선된 것으로 주장되고 있다. CTT를 사용하여 달성할 수 있는 작업의 경우, IRT는 일반적으로 더 큰 유연성을 가져오고 더 정교한 정보를 제공한다. 컴퓨터화된 적응형 시험과 같은 일부 애플리케이션은 IRT에 의해 활성화되며 고전적인 시험 이론만을 사용하여 합리적으로 수행될 수 없다. CTT에 비해 IRT의 또 다른 장점은 IRT가 제공하는 정보가 더 정교할수록 연구자가 평가의 신뢰성을 향상시킬 수 있다는 것이다.
IRT에는 다음과 같은 세 가지 가정이 수반된다.
- 로 표시된 일차원적 특성;
- 품목의 국부적 독립성
- 어떤 항목에 대한 사람의 반응은 수학적 항목 응답 함수(IRF)에 의해 모델링될 수 있다.
이 특성은 일반적으로 0.0의 평균과 1.0의 표준 편차를 갖는 표준 척도로 설정되는 척도(시험의 존재만으로 이를 가정함)에서 추가로 측정할 수 있는 것으로 가정한다. 단일성(unidimensionality)은 주어진 목적이나 용도와 관련하여 정의되거나 경험적으로 입증되어야 하는 품질인 동질성으로 해석되어야 하지만 측정할 수 있는 수량은 해석되어서는 안 된다. '지역적 독립성'은 ⑴ 한 항목이 사용될 확률은 다른 항목과 관련이 없으며, ⑵ 어떤 항목에 대한 반응이 각 시험자의 독립적 결정, 즉 부정행위나 짝짓기 또는 집단 작업이 없다는 것을 의미한다. 차원성의 주제는 종종 요소 분석으로 조사되는 반면, IRF는 IRT의 기본 구성 요소로서 많은 연구와 문헌의 중심이다.
품목응답함수
IRF는 주어진 능력 수준을 가진 사람이 정확하게 대답할 확률을 제공한다. 낮은 능력을 가진 사람들은 기회가 적은 반면, 높은 능력을 가진 사람들은 정확하게 대답할 가능성이 매우 높다. 예를 들어, 더 높은 수학 능력을 가진 학생들은 수학 항목을 더 정확하게 맞출 가능성이 더 높다. 확률의 정확한 값은 능력 외에 IRF에 대한 항목 매개변수 집합에 따라 달라진다.
세 모수 로지스틱 모형
예를 들어, 세 모수 로지스틱 모델(3PL)에서, 이분법적 항목 i에 대한 정확한 응답의 확률은, 일반적으로 객관식 질문이다.
여기서 는 품종 모수를 추정할 목적으로 정상 분포에서 표본으로 개인의 능력이 모델링되었음을 나타낸다. 항목 매개변수가 추정된 후, 보고 목적을 위해 개인의 능력을 추정한다. c 등이 항목 매개변수다. 항목 매개변수는 IRF의 모양을 결정한다. 그림 1은 이상적인 3PL ICC를 그리고 있다.
항목 매개변수는 표준 로지스틱 함수의 모양을 변경하는 것으로 해석할 수 있다.
간단히 말해서 매개변수는 다음과 같이 해석된다(가독성을 위해 첨자를 떨어뜨림). b는 가장 기본적이므로 먼저 열거한다.
- b – 난이도, 항목 : p( )=( + )/ 2, )=(1+c, i min)}(max) 사이의 중간 지점 기울기가 최대화되는 지점도 있다.
- a – 구별, 척도, 경사: 최대 p ( )= ( - c)/ 4. p
- c – 의사-증상, 우연, 점증상 p(- )= . p
If then these simplify to and meaning that b equals the 50% success level (difficulty), and a (divided by four) is the maximum slope (discrimination), which occurs at the 50% success level. Further, the logit (log odds) of a correct response is (assuming ): in particular if ability θ equals difficulty b, there are even odds (1:1, so logit 0) of a correct answer, the greater the ability is above (or below) the difficulty the more (or less) likely a correct반응(ct response)을 통해 능력에 따라 승산이 얼마나 빠르게 증가 또는 감소하는지 결정한다.
In other words, the standard logistic function has an asymptotic minimum of 0 (), is centered around 0 (, ), and has maximum slope 변수는 수평 스케일을 확장하고, {\} 매개 변수는 수평 스케일을 이동하며 c 에서로 수직 스케일을 압축한다 이것은 아래에 상세히 기술되어 있다.
매개변수 는 달성 시험의 경우 항목 난이도로 언급되는 항목 위치를 나타낸다. 에 IRF의 최대 기울기가 있고, 값이 c {\의 최소값과 최대값 1의 중간값인 지점이다. 예시 항목은 분포의 중심에 i =0.0이므로 중간 난이도의 항목이다. 이 모델은 아이템의 난이도와 인물의 특성을 동일한 연속체로 스케일링한다는 점에 유의한다. 따라서, 어떤 항목에 관련된 업무의 성공적인 수행은 특정한 수준의 능력을 반영한다는 의미에서, 어떤 항목이 A의 특성 수준만큼 단단하거나 또는 사람의 특성 수준이 Y 항목의 난이도와 거의 동일하다고 말하는 것이 타당하다.
매개 변수 는 항목의 차별, 즉 항목이 잠재 연속체에서 서로 다른 영역에 있는 사람을 차별하는 정도를 나타낸다. 이 매개변수는 경사가 최대값인 IRF의 기울기를 특징으로 한다. 예제 에는 i =1.0이 , 이는 상당히 잘 구별된다. 능력이 낮은 사람은 실제로 능력이 높은 사람보다 올바르게 반응할 확률이 훨씬 적다. 이 차별화 매개변수는 표준 가중 선형(일반 최소 제곱, OLS) 회귀 분석에서 각 항목 또는 지표의 가중 계수에 해당하므로, 기본 잠재 개념의 무감독 측정을 위한 가중 지표를 작성하는 데 사용할 수 있다.
객관식 항목과 같은 항목의 경우 정확한 반응 확률에 대한 추측 효과를 설명하기 위해 매개변수 i 를 사용한다. 이것은 수학적으로 낮은 점근법으로 표현되는 매우 낮은 능력 개인이 우연히 이 항목을 수정하게 될 확률을 나타낸다. 4-옵션 객관식 항목은 예제 항목과 같은 IRF를 가질 수 있다. 매우 낮은 능력 후보가 정답을 추측할 확률은 1/4이므로 는 약 0.25이다. 이 접근방식은 모든 옵션이 동등하게 타당하다고 가정하는데, 한 가지 옵션이 타당하지 않을 경우 가장 낮은 능력자라도 이를 폐기할 수 있기 때문이다. 따라서 IRT 매개변수 추정 방법은 이를 고려하여 관측된 데이터를 으로 c i {i를 추정한다.[6]
IRT 모델
대체로 IRT 모델은 일차원적 모델과 다차원적 모델의 두 가지 패밀리로 나눌 수 있다. 단차원 모델에는 단일 특성(능력) 차원 이가) 필요하다. 다차원 IRT 모델 반응 데이터는 여러 특성에서 발생하도록 가정한다. 그러나, 복잡성이 크게 증가하기 때문에, IRT 연구와 응용의 대부분은 일차원 모델을 이용한다.
IRT 모델도 점수가 매겨진 응답 수에 따라 분류할 수 있다. 전형적인 객관식 항목은 이분법적이다. 4개 또는 5개의 옵션이 있을 수 있지만, 여전히 정답/잘못된 항목(오른쪽/잘못된 항목)으로만 점수가 매겨진다. 또 다른 등급의 모델은 각 반응이 다른 점수 값을 갖는 다항성 결과에 적용된다.[7][8] 이에 대한 일반적인 예로는 리커트형 아이템(예: "1~5등급으로 등급 매기기")이 있다.
IRT 매개변수 수
이분법적 IRT 모델은 그들이 사용하는 매개변수의 수로 설명된다.[9] 3PL은 3개의 항목 매개변수를 사용하기 때문에 이름이 붙여졌다. 2-모수 모델(2PL)은 데이터에 추측이 없다고 가정하지만, 항목은 위치( i 와 차별( 에 따라 다를 수 있다. 1-모수 모델(1PL)은 추측이 능력의 일부라고 가정하고, 모델에 적합한 모든 항목은 동등한 차별성을 가지고 있기 때문에 항목이 단일 매개변수( i 로만 설명된다고 가정한다. 이는 특정 객관성의 속성을 갖는 1-모수 모델이 되는데, 이는 능력과는 무관한 모든 응답자에게 항목 난이도의 등급이 동일하고, 난이도와는 독립적으로 항목별로 개인 능력 등급이 동일하다는 것을 의미한다. 따라서 1개의 모수 모델은 표본 독립적이며, 2-모수 및 3-모수 모형에 대해 보유하지 않는 속성이다. 또한 이론적으로 4-모수 모델(4PL)이 있으며, 상부 무증상 증세가 로 표시되며, 여기서 3PL의 - 는 -로 대체되지만, 이는 거의 사용되지 않는다. 항목 매개변수의 알파벳 순서가 실용적 또는 심리학적 중요도와 일치하지 않는다는 점에 유의하십시오. 위치/난해성( 매개변수는 세 가지 모델에 모두 포함되기 때문에 분명히 가장 중요하다. 1PL은 은 은 i 4PL은 i 만 사용한다
2PL은 c = 0 을(를) 가진 3PL 모델과 동등하며, 빈칸 채우기 항목("121의 제곱근은 무엇인가?")과 같이 정답을 추측할 가능성이 매우 낮거나 성격, 태도, 관심 항목(e)과 같이 추측하는 개념이 적용되지 않는 항목(e)에 적합하다.g. "나는 브로드웨이 뮤지컬을 좋아해. 동의/거부").
1PL은 추측이 존재하지 않을 뿐만 아니라(또는 무관하다고) 모든 항목이 차별 측면에서 동등하다고 가정하며, 이는 모든 항목에 대해 동일한 적재를 갖는 공통 인자 분석과 유사하다. 개별 항목이나 개인은 이차적 요인이 있을 수 있으나, 상호 독립적이고 집합적으로 직교하는 것으로 가정한다.
로지스틱 및 일반 IRT 모델
대체 제형은 정규 확률 분포에 기초하여 IRF를 구성한다. 이를 정규 오기 모델이라고도 한다. 예를 들어, 2-모수 정규 관측 IRF의 공식은 다음과 같다.
여기서 φ은 표준 정규 분포의 누적 분포 함수(CDF)이다.
정상-감지 모델은 정규 분포 측정 오차의 가정으로부터 파생되며, 이론적으로 그러한 기준에 따라 매력적이다. 여기서 는 다시 난이도 매개변수다. 차별 파라미터는 항목 i의 측정 오류의 표준 편차인 i 이며, 1/ 에 상당한다
항목 간 사차 상관 행렬을 인자 분석하여 정상-감지 잠재 특성 모델을 추정할 수 있다.[10] 이는 범용 통계 소프트웨어를 사용하여 단순한 IRT 모델을 추정하는 것이 기술적으로 가능하다는 것을 의미한다.
능력 매개변수의 재스케일링을 사용하면 2PL 로지스틱 모델을 누적 정규 오기와 가깝게 만들 수 있다. 일반적으로 2PL 로지스틱 IRF와 정상-감지 IRF는 함수의 범위에 걸쳐 0.01 이하의 확률로 차이가 난다. 그러나 분포 꼬리에서 차이가 가장 크므로 결과에 더 큰 영향을 미치는 경향이 있다.
잠재 특성/IRT 모델은 원래 정상적인 오기를 사용하여 개발되었지만, 이것은 당시(1960년대) 컴퓨터에 대해 너무 계산적으로 요구된 것으로 간주되었다. 로지스틱 모델은 보다 단순한 대안으로 제안되었고, 그 이후로 널리 사용되어 왔다. 그러나 최근에는 일반 CDF에 대한 표준 다항식 근사치를 사용하여 [11]정상-감지 모델은 로지스틱 모델보다 더 계산적으로 요구되지 않는다는 것이 입증되었다.[12]
더 래쉬 모델
Rasch 모델은 종종 1PL IRT 모델로 간주된다. 그러나 Rasch 모델링을 지지하는 사람들은 데이터와 이론의 관계를 개념화하는 데 있어 완전히 다른 접근법으로 보는 것을 선호한다.[13] 반면 라쉬 모형,으로 적절한data-model 적합한 중요하지만 부차적 요구 사항은 시험이나 연구 악기 이전에 만날 나에게 청구하기도 한다 근본적인 측정을 위해 요건의 탁월함을 강조한다 다른 통계 모델링 접근법처럼, IRT 관찰 data,[14] 주는 모델에 적합의 탁월함을 강조한다.로특성을 [15]고려하다 운용상, 이것은 IRT 접근방식이 데이터에서 관찰된 패턴을 반영하기 위한 추가 모델 매개변수를 포함한다는 것을 의미한다(예를 들어, 항목들이 잠재된 특성과 상관관계가 다를 수 있도록 허용). 반면, Rasch 접근방식에서, 잠재된 특성의 존재에 관한 주장은 (a) 데이터가 모두 Ras에 적합할 때에만 유효한 것으로 간주될 수 있다.ch 모델, 그리고 (b) 시험 항목과 수험자는 그 모델에 따른다. 따라서 Rasch 모델에서 잘못된 대응은 부적합한 이유에 대한 진단이 필요하며, 잠재된 특성을 다루지 않는 이유를 실증적으로 설명할 수 있는 경우 데이터 집합에서 제외될 수 있다.[16] 따라서 Rasch 접근방식은 관측된 데이터를 모형화하려는 탐색적 접근방식과 반대로 확인 접근방식으로 볼 수 있다.
추측이나 사이비-찬스 매개변수의 유무는 중요하고 때로는 논쟁의 여지가 있는 구별이다. IRT 접근방식은 객관식 검사에서 추측을 설명하기 위해 왼쪽 무증상 파라미터를 포함하지만, Rasch 모델은 추측이 데이터에 무작위로 분포된 노이즈를 추가한다고 가정하기 때문에 그러하지 않는다. 소음이 무작위로 분포하기 때문에, 충분한 항목을 시험할 경우, 원시 점수에 의한 잠재 형질을 따라 사람의 순위 순서는 변경되지 않고 단순히 선형 재조정 과정을 거치게 될 것으로 가정한다. 이와는 대조적으로, 3-모수 IRT는 특정 객관성의 희생을 감수하고 데이터에 적합한 모델을 선택함으로써 데이터 모델 적합성을 달성한다.[17]
실제로 Rasch 모델은 IRT 접근법에 비해 적어도 두 가지 주요한 이점을 가지고 있다. 첫 번째 장점은 라쉬의 특정 요구사항의 프라이머리티인데,[18] (만족 시) 기본적인 사람 없는 측정(사람과 품목을 동일한 불변 척도로 매핑할 수 있는 위치)을 제공한다.[19] Rasch 접근법의 또 다른 이점은 충분한 통계가 있기 때문에 Rasch 모델에서 매개변수 추정이 더 간단하다는 것이다. 이 적용에서 Rasch 추정치에 대한 일대일 매핑을 의미한다.[20]
모형 적합성 분석
수학적 모형의 사용과 마찬가지로 모형에 대한 데이터의 적합성을 평가하는 것이 중요하다. 객관식 시험에서 산만함을 혼동하는 등, 품목의 품질이 나쁘다고 판단되는 경우, 해당 품목을 해당 시험 양식에서 제거하고 향후 시험 양식에서 다시 작성하거나 교체할 수 있다. 그러나, 부적합한 항목들이 많은 경우, 명백한 이유 없이, 시험의 구성 타당성을 재고해야 하며 시험 명세서를 다시 작성해야 할 수 있다. 따라서 미스핏은 시험 개발자에게 귀중한 진단 도구를 제공하여 시험 규격이 데이터에 대해 실증적으로 시험될 가설을 세울 수 있게 한다.
적합성을 평가하는 방법에는 카이-제곱 통계량 또는 표준화된 통계량과 같은 여러 가지가 있다. 2개의 파라미터와 3개의 파라미터 IRT 모델은 항목 차별을 조정하여 데이터 모델 적합도를 향상시키므로 적합 통계량은 이상화된 모델이 미리 지정된 1개의 파라미터 모델에서 찾을 수 있는 확인 진단 값이 부족하다.
모형에 맞지 않는다는 이유로 데이터를 삭제해서는 안 되며, 오히려 영어가 모국어가 아닌 사람이 영어로 쓰여진 과학 시험을 치르는 등 부적응의 관련성이 진단되었기 때문이다. 그러한 후보자는 시험의 치수성에 따라 동일한 모집단에 속하지 않는다고 주장할 수 있으며, 하나의 매개변수 IRT 측정치가 표본에 독립적이라고 주장되지만 모집단 독립적이지 않기 때문에 이와 같은 부적합한 적합성은 관련성이 있으며 시험이나 모형을 무효화하지 않는다. 그러한 접근법은 계측기 검증에 필수적인 도구다. 데이터에 맞게 심리측정학 모델을 조정하는 2-모수 및 3-모수 모델에서, 각 행정에서 다른 행정으로 점수화하는 가설을 확인하기 위해, 시험의 향후 행정은 초기 검증에서 사용한 것과 동일한 모델에 적합한지 확인해야 한다. 데이터 모델 적합을 달성하기 위해 관리마다 다른 모델을 지정하면 다른 잠재적 특성이 측정되고 있으며 시험 점수가 관리마다 비교 가능하다고 주장할 수 없다.
정보
항목 반응 이론의 주요 기여 중 하나는 신뢰성의 개념의 확장이다. 전통적으로 신뢰도는 측정 정밀도(즉, 측정의 오차가 없는 정도)를 가리킨다. 전통적으로 참 점수 분산과 관측 점수 분산 비율 등 다양한 방법으로 정의된 단일 지수를 사용하여 측정한다. 이 지수는 예를 들어 두 시험을 비교하기 위해 시험의 평균 신뢰도를 특성화하는 데 유용하다. 그러나 IRT는 정밀도가 시험 점수의 전체 범위에 걸쳐 균일하지 않다는 것을 분명히 한다. 예를 들어, 시험 범위 가장자리의 점수는 일반적으로 범위 가운데에 가까운 점수보다 오차가 더 많다.
아이템 응답 이론은 신뢰도를 대체하기 위해 아이템과 테스트 정보의 개념을 발전시킨다. 정보도 모델 매개변수의 함수다. 예를 들어, Fisher 정보 이론에 따르면, 이분법 반응 데이터에 대해 1PL의 경우에 제공되는 항목 정보는 단순히 정확한 반응 확률에 잘못된 반응의 확률을 곱한 것이다.
추정의 표준 오차(SE)는 주어진 특성 수준에서 의 시험 정보의 역수 값이다.
따라서 더 많은 정보는 측정 오차가 적다는 것을 의미한다.
2개 및 3개 매개변수 모델과 같은 다른 모델의 경우 구별 매개변수는 기능에 중요한 역할을 한다. 두 파라미터 모델의 항목 정보 함수는
3개의 파라미터 모델에 대한 항목 정보 함수는
일반적으로 아이템 정보 기능은 종 모양으로 보이는 경향이 있다. 차별성이 높은 항목은 높고 좁은 정보 기능을 가지고 있다; 그것들은 크게 기여하지만 좁은 범위에 걸쳐 있다. 덜 차별적인 항목은 적은 정보를 제공하지만 더 넓은 범위에 걸쳐 제공한다.
항목 정보의 플롯을 사용하여 항목이 얼마나 많은 정보를 기여하는지, 척도 점수 범위의 어느 부분에 기여하는지 확인할 수 있다. 지역적 독립성 때문에 항목 정보 기능이 부가적이다. 따라서 시험정보기능은 단순히 시험항목의 정보기능을 합한 것이다. 이 속성을 큰 아이템 뱅크와 함께 사용하면 시험 정보 기능을 매우 정밀하게 조절할 수 있다.
시험 점수의 정확성을 특징짓는 것은 아마도 정신측정학 이론의 중심 문제일 것이고 IRT와 CTT의 주요한 차이점이다. IRT 연구결과는 신뢰성에 대한 CTT 개념이 단순하다는 것을 보여준다. 신뢰도 대신 IRT는 teta의 서로 다른 값인 θ에서의 정밀도를 보여주는 시험 정보 기능을 제공한다.
이러한 결과는 정신측정학자들이 신중하게 선택한 항목을 포함시킴으로써 다양한 능력 범위에 대한 신뢰도 수준을 신중하게 형성할 수 있게 해준다. 예를 들어 시험만 합격하거나 불합격할 수 있는 인증 상황에서 '컷스코어'가 단 한 개뿐이고, 실제 합격점수가 중요하지 않은 경우 컷스코어 근처에서 정보가 높은 항목만 선택하여 매우 효율적인 시험을 개발할 수 있다. 이 항목들은 일반적으로 컷스코어 항목과 난이도가 거의 같은 항목에 해당한다.
점수 매기기
개인 매개변수 는 개인의 잠재적 특성의 크기를 나타내며, 이는 시험에 의해 측정된 인간의 능력이나 속성이다.[22] 인지 능력, 신체 능력, 기술, 지식, 태도, 성격 특성 등이 될 수 있다.
IRT를 사용한 시험의 "점수"인 사람 매개변수의 추정치는 정확한 숫자 또는 백분율과 같은 전통적인 점수와 비교하여 매우 다른 방식으로 계산되고 해석된다. 개인의 총수 정답 점수는 실제 점수가 아니라 IRF에 기반한 점수로, 모델에 품목 차별 파라미터가 포함되어 있을 때 가중 점수를 받게 된다. 실제로 우도함수를 얻기 위해 각 항목에 대한 항목 응답함수를 곱하여 얻는데, 그 중 가장 높은 점은 의 최대우도 추정치. 이 최고점은 일반적으로 뉴턴-Raphson 방법을 사용하여 IRT 소프트웨어로 추정한다[23] IRT로 점수를 매기는 것이 훨씬 더 정교하지만, 대부분의 테스트의 경우, 세타 추정치와 전통적인 점수 사이의 상관관계가 매우 높으며, 종종 0.95 이상이다. 전통적인 점수에 대한 IRT 점수의 그래프는 IRT가 중간보다 더 많은 범위의 경계에서 개별 개인을 추정한다는 것을 암시하는 오기적인 모양을 보여준다.
CTT와 IRT의 중요한 차이는 측정의 표준 오차에 의해 지수화된 측정 오차의 처리다. 모든 시험, 설문지, 그리고 재고품들은 부정확한 도구들이다; 우리는 결코 한 사람의 실제 점수를 알 수 없고 오히려 관찰된 점수인 추정치만 가지고 있다. 관측된 점수를 실제 점수보다 높거나 낮출 수 있는 임의의 오차가 있다. CTT는 수험생별로 오차의 양이 동일하다고 가정하지만 IRT는 이를 다양화할 수 있도록 허용한다.[24]
또한 IRT에 관한 어떤 것도 인간의 개발이나 개선을 반박하거나 특성 수준이 고정되어 있다고 가정하지 않는다. 사람은 기술, 지식 또는 심지어 더 높은 참 점수를 얻을 수 있는 소위 "시험 응시 기술"을 배울 수 있다. 실제로 IRT 연구의 일부는 특성 수준의 변화 측정에 초점을 맞추고 있다.[25]
고전적 반응 이론과 항목 반응 이론의 비교
고전적 시험 이론(CTT)과 IRT는 대체로 같은 문제에 대해 관심을 가지지만 이론의 체질이 다르고 다른 방법을 수반한다. 비록 두 패러다임이 일반적으로 일관되고 보완적이지만, 다음과 같은 여러 가지 차이점이 있다.
- IRT는 CTT보다 더 강한 가정을 하고 많은 경우 그에 상응하여 더 강력한 결과를 제공한다. 주로 오류의 특성화. 물론, 이러한 결과는 IRT 모델의 가정이 실제로 충족될 때만 유지된다.
- 비록 CTT 결과가 중요한 실제 결과를 허용했지만, IRT의 모델 기반 특성은 유사한 CTT 결과보다 많은 이점을 제공한다.
- CTT 시험 채점 절차는 계산이 간단하며(그리고 설명하기 쉽다는 장점이 있는 반면, IRT 채점 절차는 일반적으로 비교적 복잡한 추정 절차를 필요로 한다.
- IRT는 품목과 인원을 확장하는데 있어 몇 가지 개선점을 제공한다. 구체적인 내용은 IRT 모델에 따라 다르지만, 대부분의 모델은 항목의 난이도와 사람들의 능력을 동일한 지표로 확장한다. 따라서 항목의 어려움과 사람의 능력을 의미 있게 비교할 수 있다.
- IRT에 의해 제공되는 또 다른 개선사항은 IRT 모델의 매개변수가 일반적으로 샘플 또는 테스트에 의존하지 않는 반면, 실제 점수는 특정 테스트의 맥락에서 CTT에 정의된다는 것이다. 따라서 IRT는 다른 표본이나 시험 형식을 사용하는 상황에서 훨씬 더 큰 유연성을 제공한다. 이러한 IRT 결과는 컴퓨터화된 적응형 시험의 기초가 된다.
또한 개념들 간의 일치성을 이해하는 데 도움이 되는 CTT와 IRT 사이의 특정한 유사점을 언급할 가치가 있다. 첫째로[26], 는 { 이 (가) 정규적으로 분포한다는 가정 하에서 2PL 모델의 차별은 대략 점-이변 상관관계의 단조함수라는 것을 보여주었다. 특히:
여기서 는 항목 i의 점 이위상관이다. 따라서 이러한 가정이 유지된다면, 더 높은 차별이 있는 경우 일반적으로 더 높은 점-이중 상관관계가 있을 것이다.
또 다른 유사점은 IRT가 각 추정치의 표준오차와 정보함수를 제공하지만, 분리지수라 불리는 크론바흐의 알파와 직접 유사한 시험 전체의 지수를 얻을 수도 있다는 점이다. 그러기 위해서는 관찰된 점수를 CTT의 실제 점수 및 오류로 분해하는 것과 유사하게 IRT 추정치를 실제 위치와 오류로 분해하는 것으로 시작할 필요가 있다. 내버려두다
여기서 이 (가) 실제 위치이고, {{\이 (가) 추정치와 오류 연결이다. 그 후 ( ) 는 주어진 가중 점수를 가진 사람에 대한 }의 표준 편차를 추정하는 것으로 다음과 같이 구분 지수를 구한다.
사람 추정치의 평균 제곱 표준 오차는 사람마다 오류의 분산에 대한 추정치를 제공한다({} n 표준 오차는 일반적으로 추정 과정의 부산물로 생산된다. 분리 지수는 일반적으로 크론바흐의 알파에 매우 가까운 값이다.[27]
IRT는 좀 더 최근의 이론의 몸통이고 CTT 내에 내포되어 있는 가설을 더욱 분명히 하기 때문에 때로는 강한 참 점수 이론 또는 현대 정신 시험 이론이라고 불린다.
참고 항목
참조
- ^ "Glossary of Important Assessment and Measurement Terms". National Council on Measurement in Education. Archived from the original on 2017-07-22.
- ^ A. 반 알펜, R. 하프엔스, A. Hasman과 T. 임보스. (1994년) 리커트? 래쉬? 좋은 이론보다 더 적합한 것은 없다. 고등 간호학 저널. 20, 196-201
- ^ Embretson, Susan E.; Reise, Steven P. (2000). Item Response Theory for Psychologists. Psychology Press. ISBN 9780805828191.
- ^ ETS 연구 개요
- ^ Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991) 항목 응답 이론의 기초. 뉴베리 파크, CA: 세이지 프레스.
- ^ Bock, R.D.; Aitkin, M. (1981). "Marginal maximum likelihood estimation of item parameters: application of an EM algorithm". Psychometrika. 46 (4): 443–459. doi:10.1007/BF02293801. S2CID 122123206.
- ^ Ostini, Remo; Nering, Michael L. (2005). Polytomous Item Response Theory Models. Quantitative Applications in the Social Sciences. 144. SAGE. ISBN 978-0-7619-3068-6.
- ^ Nering, Michael L.; Ostini, Remo, eds. (2010). Handbook of polytomous item response theory models. Taylor & Francis. ISBN 978-0-8058-5992-8.
- ^ 테센, D. & 올랜도, M. (2001) 두 가지 카테고리에서 점수가 매겨진 항목에 대한 항목 반응 이론. D. Thissen & Wainer, H. (Eds.)에서, 테스트 스코어링 (pp. 73-140). 마화, NJ: 로렌스 엘바움 어소시에이츠, 주식회사.
- ^ K. G. 요레스코그와 D. 소르봄(1988) 원장님 1 사용 설명서 버전 1. 시카고: 사이언티픽 소프트웨어 주식회사
- ^ 아브라모위츠 M, 스테건 I.A.(1972) 수학 기능 안내서. 워싱턴 DC: 미국 정부 인쇄소.
- ^ Uebersax, J.S. (December 1999). "Probit latent class analysis with dichotomous or ordered category measures: conditional independence/dependence models". Applied Psychological Measurement. 23 (4): 283–297. doi:10.1177/01466219922031400. S2CID 120497324.
- ^ Andrich, D (1989), 사회과학의 측정 요건과 가정 사이의 구분", 키츠, J.A, Taft, R, 히스, R.A, Lovibond, S(Eds), 수학 및 이론 시스템, Ethervier Science Publishers, 노스 홀랜드, 암스테르담, 페이지 7-16.
- ^ 스타인버그, J(2000년) 테스트 야드스틱을 고안한 프레데릭 로드는 87세에 사망한다. 2000년 2월 10일 뉴욕타임스
- ^ Andrich, D. (January 2004). "Controversy and the Rasch model: a characteristic of incompatible paradigms?". Medical Care. 42 (1): I–7. doi:10.1097/01.mlr.0000103528.48582.7c. PMID 14707751. S2CID 23087904.
- ^ Smith, R.M. (1990). "Theory and practice of fit". Rasch Measurement Transactions. 3 (4): 78.
- ^ Zwick, R.; Thayer, D.T.; Wingersky, M. (December 1995). "Effect of Rasch calibration on ability and DIF estimation in computer-adaptive tests". Journal of Educational Measurement. 32 (4): 341–363. doi:10.1111/j.1745-3984.1995.tb00471.x.
- ^ 래쉬, G. (1960/1980). 일부 인텔리전스 및 달성 테스트에 대한 확률론적 모델. (덴마크 교육 연구소 코펜하겐), B.D.에 의한 서문과 후기를 포함한 확장판(1980년). 장인 시카고: 시카고 대학 출판부.
- ^ Wright, B.D. (1992). "IRT in the 1990s: Which Models Work Best?". Rasch Measurement Transactions. 6 (1): 196–200.
- ^ 피셔, G.H. & Molenaar, I.W. (1995년) Rasch 모델: 기초, 최근 개발 및 적용. 뉴욕: 스프링거.
- ^ R.J.의 데 아얄라(2009) 뉴욕, 뉴욕, 아이템 응답 이론의 이론과 실천: 길포드 프레스 (6.12), 페이지 144
- ^ 라자르펠트 P.F, & Henry N.W. (1968년). 잠재 구조 분석. 보스턴: 호우톤 미플린.
- ^ Thompson, N.A. (2009). "Ability estimation with IRT" (PDF).
- ^ Kolen, Michael J.; Zeng, Lingjia; Hanson, Bradley A. (June 1996). "Conditional Standard Errors of Measurement for Scale Scores Using IRT". Journal of Educational Measurement. 33 (2): 129–140. doi:10.1111/j.1745-3984.1996.tb00485.x.
- ^ Hall, L.A. & McDonald, J.L. (2000) 인력개발이 교단에 미치는 영향에 대한 교사의 인식 변화 측정 미국교육연구협회 연례총회(New Orleans, LA, 2000년 4월 24일–28일)에서 발표한 논문.
- ^ 주님, F.M. (1980년) 실제 시험 문제에 대한 항목 응답 이론의 적용. 마화, NJ: 로렌스 엘바움 어소시에이츠, 주식회사.
- ^ Andrich, D. (1982). "An index of person separation in latent trait theory, the traditional KR.20 index, and the Guttman scale response pattern". Education Research and Perspectives. 9: 95–104.
추가 읽기
아이템 응답 이론을 다루거나 IRT 또는 IRT와 같은 모델을 포함하는 책들이 많이 쓰여져 왔다. 이것은 부분적인 목록으로, 보다 심층적인 내용을 제공하는 텍스트에 초점을 맞춘 것이다.
- 주님, F.M. (1980년) 실제 시험 문제에 대한 항목 응답 이론의 적용. 마화, 뉴저지: 얼바움.
- 이 책에는 IRT와 고전적 방법의 관계, IRT의 기초, 추정, 그리고 몇 가지 고급 주제들에 관한 장 등 로드 IRT 작업의 많은 부분이 요약되어 있다. 그것의 추정 장은 Darrell Bock과 그의 동료들에 의해 구현된 한계 최대우도 방법보다는 공동 최대우도 방법을 주로 논의한다는 점에서 현재 날짜가 정해진다.
- Embretson, Susan E.; Reise, Steven P. (2000). Item Response Theory for Psychologists. Psychology Press. ISBN 978-0-8058-2819-1.
- 이 책은 IRT에 대한 접근 가능한 소개로, 제목에 따르면, 심리학자들을 대상으로 한다.
- 베이커, 프랭크(2001) 항목 응답 이론의 기본 사항. ERIC Clearinghouse on Assessment and Evaluation, Maryland, College Park, MD.
- 이 입문서는 이 분야의 선구자 중 한 사람에 의해 출판되었으며 [1]에서 온라인으로 볼 수 있다.
- Baker, Frank B.; Kim, Seock-Ho (2004). Item Response Theory: Parameter Estimation Techniques (2nd ed.). Marcel Dekker. ISBN 978-0-8247-5825-7.
- 이 책은 다양한 항목 반응 이론 모델을 설명하고 항목 및 능력 매개변수를 추정하는 데 사용할 수 있는 알고리즘에 대한 상세한 설명을 제공한다. 이 책의 일부분은 구글 북스에서 제한적인 예고편으로 온라인에서 볼 수 있다.
- van der Linden, Wim J.; Hambleton, Ronald K., eds. (1996). Handbook of Modern Item Response Theory. Springer. ISBN 978-0-387-94661-0.
- 이 책은 다양한 인기 IRT 모델에 대한 포괄적인 개요를 제공한다. 그것은 이미 IRT에 대한 기본적인 이해를 얻은 사람들에게 매우 적합하다.
- de Boeck, Paul; Wilson, Mark (2004). Explanatory Item Response Models: A Generalized Linear and Nonlinear Approach. Springer. ISBN 978-0-387-40275-8.
- 이 책은 주로 실무자, 연구자, 대학원생을 대상으로 한 항목 대응 모델에 대한 통합적인 소개를 보여준다.
- Fox, Jean-Paul (2010). Bayesian Item Response Modeling: Theory and Applications. Springer. ISBN 978-1-4419-0741-7.
- 이 책은 아이템 응답 모델링을 위한 베이시안 접근법에 대해 논한다. 이 책은 (IRT에 익숙한) 베이지안 관점에서 항목 응답 데이터를 분석하는 데 관심이 있는 사람들에게 유용할 것이다.