차등품 기능

Differential item functioning

DIF(Differential Item function, Diff)는 항목이 개별 하위그룹의 구성원에 대해 서로 다른 능력을 측정하는 정도를 나타내는 항목의 통계적 특성이다. 시험에서 전체 점수가 동일한 부분군의 평균 항목 점수를 비교하여 모든 부분군에 대해 기본적으로 동일한 방식으로 측정하는지 여부를 결정한다. DIF의 존재는 검토와 판단을 필요로 하며, 반드시 편향의 존재를 나타내는 것은 아니다.[1] DIF 분석은 시험 항목의 예상치 못한 행동을 나타낸다. 항목은 서로 다른 그룹의 사람들이 특정한 반응을 줄 확률을 가지고 있다면 DIF를 표시하지 않는다. 그것은 동일한 진정한 능력을 가진 다른 그룹의 사람들이 특정한 반응을 줄 확률을 가지고 있는 경우에만 DIF를 표시한다. DIF 평가를 위한 일반적인 절차는 맨텔-헨젤, IRT(항목반응이론) 기반 방법, 로지스틱 회귀법이다.[2]

설명

DIF는 그룹 간, 종종 인구통계학적 항목들의 기능상 차이를 말하며, 잠재적 특성이나 항목 또는 시험으로 측정되는 속성에 일치한다.[3][4] DIF 항목을 검사할 때 측정된 속성에 대해 그룹이 일치해야 하며 그렇지 않을 경우 DIF가 부정확하게 검출될 수 있다는 점에 유의해야 한다. DIF 또는 측정 편향에 대한 일반적인 이해를 창출하기 위해 Osterlind와 Everson(2009)이 제시한 다음 예를 고려한다.[5] 이 경우 Y는 측정되는 잠재적 구조물에 의해 결정되는 특정 시험 항목에 대한 반응을 말한다. 관심의 잠재적 구성을 teta( ()라고 하는데 여기서 Y는 f(Y) θ의 표현으로 θ에 대한 Y의 확률 분포 관점에서 배열할 수 있는 θ의 지표다. 따라서 반응 Y는 잠재 특성(θ性)을 조건으로 한다. DIF는 그룹 간 Y의 조건부 확률의 차이를 조사하기 때문에 그룹에 "참조"와 "초점" 그룹으로 레이블을 붙이도록 한다. 지정은 문제가 되지 않지만, 문헌상 전형적인 관행은 참고 집단을 유리하다고 의심받는 집단으로 지정하는 것이고, 초점 집단은 시험에 의해 불이익을 받을 것으로 예상되는 집단을 가리킨다.[3] 따라서 기능적 f( ) f}을(를) 감안하고 기준 및 초점 그룹에 대해 동일한 측정 오차 분포가 있다는 가정 하에 귀무 가설에서 다음과 같이 결론을 내릴 수 있다.

그룹화 변수에 해당하는 G, 기준 그룹 "r" 및 초점 그룹 "f"를 사용한다. 이 방정식은 DIF가 존재하지 않는 경우를 나타낸다. 이 경우 DIF의 부재는 Y의 조건부 확률 분포가 그룹 멤버십에 의존하지 않는다는 사실에 의해 결정된다. 예를 들어, 반응 옵션이 0과 1인 항목을 고려하십시오. 여기서 Y = 0은 잘못된 반응을 나타내고 Y = 1은 올바른 반응을 나타낸다. 어떤 항목에 올바르게 응답할 확률은 어느 그룹의 구성원에 대해서도 동일하다. 이는 동일한 기초 능력이나 속성을 가진 참조 및 초점 그룹의 구성원이 정확하게 반응할 확률은 같기 때문에 DIF나 항목 편향이 없음을 나타낸다. 따라서 한 집단에 대한 편향이나 불이익이 다른 집단에 비해 전혀 없다. Y의 조건부 확률이 기준 그룹과 초점 그룹에 대해 같지 않은 경우를 생각해 보십시오. 즉, 동일한 특성이나 능력 수준을 가진 서로 다른 그룹의 구성원은 Y에 대해 동일한 확률 분포를 가지고 있다. 일단 θ에 대해 제어하면, 그룹 멤버쉽과 아이템에 대한 성능 사이에 분명한 종속성이 있다. 이분법 항목의 경우, 이는 초점과 참조 그룹이 groups의 동일한 위치에 있을 때, 정확한 응답을 얻거나 항목을 승인할 확률은 서로 다르다는 것을 시사한다. 따라서 어떤 항목에 정확하게 응답할 수 있는 조건부 확률이 높은 집단은 시험항목에서 유리한 집단이 된다. 이는 시험 항목이 편향되어 있고 그룹에 따라 다르게 기능하므로 DIF가 있음을 시사한다. DIF나 측정편향과 일반적인 그룹차이의 구분을 그리는 것이 중요하다. 그룹 차이는 Y에 대한 점수 분포를 다르게 나타내지만, DIF는 명시적으로 θ에 대한 조건화를 포함한다. 예를 들어 다음 방정식을 생각해 보십시오.

이것은 수험생의 점수가 그룹 멤버십에 대한 정보를 갖는 것이 정확한 응답의 확률을 변화시킬 수 있도록 그룹화에 조건부라는 것을 나타낸다. 따라서 θ에 따라 집단이 다르고, θ에 따라 수행이 달라지면 DIF가 없어도 위의 방정식은 항목 편향을 시사한다. 이러한 이유로, 그룹 멤버십만을 조건으로 하는 Y에 대한 차이는 편향성 확립에 불충분하다는 것이 측정 문헌에 일반적으로 합의되어 있다.[6][7][8] 실제로 θ이나 능력에 대한 차이는 집단간에 공통적으로 나타나며 많은 연구의 기초를 확립한다. 편향 또는 DIF를 설정해야 하며, 그룹은 θ에서 일치해야 하며, 그룹 멤버십 함수로서 Y에서 미분 확률을 입증해야 한다.

양식

균일 DIF는 조건부 의존성의 크기가 잠재 특성 연속체(sensitive continuum)에 걸쳐 상대적으로 불변하는 DIF의 가장 단순한 유형이다. 관심 항목은 모든 수준의 능력 θ에 걸쳐 하나의 그룹을 일관되게 유리하게 한다.[9] 항목 반응 이론(IRT) 프레임워크 내에서 이는 두 항목 특성 곡선(ICC)이 동일하게 구별되지만 그림 1에서 설명한 난이도 매개변수(r: a = a fr b < bf)에서 차이를 보일 때 입증될 수 있다.[10] 그러나 통일된 DIF는 흥미로운 사례를 제시한다. 능력 연속체 전체에 걸쳐 기준 그룹에 주어지는 일관된 우위보다는 조건부 의존성이 moves 연속체의 서로 다른 위치에서 움직이고 방향을 바꾼다.[11] 예를 들어, 항목은 연속체 하단에서 참조그룹에게 사소한 이점을 주는 반면 상위에서는 주요한 이점을 줄 수 있다. 또한, 통일된 DIF와는 달리, 한 항목은 두 그룹에 대한 차별성이 동시에 다양할 수 있다(r, ≠ afr b < bf). 더 복잡한 것은 균일하지 않은 DIF를 "교차"하는 것이다. 그림 2에서 보듯이, 이것은 어떤 항목이 continu 연속체의 한쪽 끝에서 기준 그룹에 유리하게 작용하는 반면 다른 쪽 끝에서는 초점 그룹을 선호할 때 발생한다. ICC의 차이는 능력 수준이 동일한 두 그룹의 수험생들이 어떤 항목에 정확하게 반응할 확률은 같지 않다는 것을 나타낸다. 곡선이 서로 다르지만 교차하지 않는 경우 이는 균일한 DIF의 증거다. 단, ICC가 θ 눈금을 따라 임의의 지점에서 교차하는 경우, 균일하지 않은 DIF의 증거가 있다.

Uniform DIF curve.png Nonuni DIF ICC.png

DIF 검출 절차

만텔하엔젤

DIF를 검출하는 일반적인 절차는 맨텔-헨젤(MH) 접근법이다.[12] MH 절차는 시험의 모든 항목에 대한 기준 그룹과 초점 그룹 사이의 차이를 하나씩 검사하는 카이-제곱 분할표 기반 접근법이다.[13] 총 시험 점수로 정의되는 능력 연속체는 k 간격으로 나뉘며, 이는 두 그룹의 멤버를 일치시키는 기초가 된다.[14] 개별 항목의 두 그룹을 비교하는 k의 각 간격마다 2 x 2 분할표를 사용한다. 분할표의 행은 그룹 구성원 자격(참조 또는 초점)에 해당하는 반면, 열은 정확하거나 부정확한 응답에 해당한다. 다음 표는 k번째 능력 간격에서 단일 항목에 대한 일반 양식을 나타낸다.

MHDIFTable.png

오즈비

MH 통계량 계산의 다음 단계는 분할표의 데이터를 사용하여 특정 k 간격에서 관심 항목의 두 그룹에 대한 승산비를 구하는 것이다. 이는 pq 단위로 표현된다. 여기서 p는 기준(R)과 초점(F) 그룹 모두에 대해 정확한 비율을 나타내고 q는 부정확한 비율을 나타낸다. MH 절차의 경우, 획득된 승산비는 α로 표시되며, 가능한 값은 0 ~ ∞이다. α 값이 1.0이면 DIF가 없기 때문에 두 그룹의 성능이 유사하다는 것을 의미한다. 1.0보다 큰 값은 기준 그룹이 초점 그룹보다 항목을 능가하거나 덜 어려운 것으로 나타났음을 나타낸다. 한편, 획득한 값이 1.0 미만이면, 초점군에게는 해당 항목이 덜 어려웠음을 나타낸다.[8] 로:α).mw-parser-output .frac{white-space:nowrap}.mw-parser-output.frac.num,.mw-parser-output.frac .den{:80%;line-height:0;vertical-align:슈퍼 font-size}.mw-parser-output.frac .den{vertical-align:서브}.mw-parser-output .sr-only{다음과 같이 분할 표 위에서 변수를 사용하여 계산이다.국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}(pRk/qRk)⁄(pFk/qFk))(Ak/(Ak+Bk))/(Bk/(Ak+Bk))⁄(Ck/(Ck+아))/(아/(Ck+아))=(Ak/Bk)⁄(Ck/아)= AkDk⁄BkCk 위의 계산과 관계가 있는 개별 항목에 단 한번 능력 시간입니다. 모집단 추정치 α는 특정 항목에 대한 모든 능력 간격 k에 걸친 공통 승산비를 반영하도록 확장할 수 있다. 공통 승산비 추정기는 αMH 표시되며 αMH = =(ADkk/Nk⁄(BCkk/Nk) ½(N)로 계산될 수 있다.
k의 모든 값과 여기서 N은k k번째 간격의 총 표본 크기를 나타낸다. 얻어진 αMH 종종 0을 중심으로 하여 로그 변환을 통해 표준화된다.[15] 새로운 변환 추정기 MH는D-DIF 다음과 같이 계산된다: MHD-DIF = -2.35ln(αMH) 따라서 얻은 값이 0이면 DIF가 없음을 나타낸다. 이 방정식을 조사할 때 마이너스 부호는 0보다 작거나 큰 값의 해석을 변화시킨다는 점에 유의해야 한다. 0보다 작으면 기준 그룹의 이점을 나타내는 반면 0보다 큰 값은 초점 그룹의 장점을 나타낸다.

품목응답이론

항목 반응 이론(IRT)은 DIF 평가를 위해 널리 사용되는 또 다른 방법이다. IRT는 시험이나 측정에서 특정 항목에 대한 반응의 중요한 검사를 허용한다. 앞에서 언급한 바와 같이, DIF는 잠재적 특성이나 능력에 대해 조건화된 항목에 올바르게 대응하거나 보증할 확률을 조사한다. IRT는 반응과 잠재적 특성 또는 능력 사이의 단조로운 관계를 조사하기 때문에 DIF를 조사하는데 적합한 접근법이다.[16] DIF 검출에서 IRT를 사용할 경우의 3가지 주요 이점은 다음과 같다.[17]

  • 고전적인 시험 이론과 비교하여 IRT 모수 추정치는 표본 특성에 의해 교락되지 않는다.
  • 항목의 통계적 특성은 두 그룹 간의 DIF 해석 정확도를 높이는 더 큰 정밀도로 표현할 수 있다.
  • 항목의 이러한 통계적 특성은 그래픽으로 표현될 수 있으며, 해석성과 항목들이 그룹 간에 어떻게 다르게 기능하는지에 대한 이해를 개선할 수 있다.

DIF와 관련하여 항목 모수 추정치는 추적선 또는 항목 반응 함수(IRF)라고도 하는 항목 특성 곡선(ICC)을 통해 계산되고 그래픽으로 검사된다. ICC의 검토와 DIF의 후속 의심 후, 모수 추정치 간의 차이를 시험하기 위해 통계적 절차를 수행한다. ICC는 잠재적 특성 연속체에 대한 위치 결정과 특정 반응을 줄 확률 사이의 관계에 대한 수학적인 함수를 나타낸다.[18] 그림 3은 이러한 관계를 로지스틱 함수로 보여준다. 잠재 특성이나 능력이 낮은 개인은 특히 난이도가 높아짐에 따라 정확한 응답을 받거나 항목을 승인할 확률이 낮다. 그러므로 잠재적 특성이나 능력이 더 높은 사람들은 올바른 반응이나 항목을 지지할 가능성이 더 크다. 예를 들어, 우울증 재고량에서, 매우 우울한 개인은 우울증이 낮은 개인보다 항목을 지지할 확률이 더 높을 것이다. 마찬가지로, 수학 능력이 더 높은 개인은 더 적은 능력을 가진 개인에 비해 수학 항목을 정확하게 맞출 확률이 더 높다. ICC의 또 다른 중요한 측면은 변곡점에 관련된다. 이것은 특정 반응의 확률이 .5인 곡선상의 점이며 또한 기울기의 최대값을 나타낸다.[19] 변곡점은 c 매개변수가 0보다 크면 변곡점이 1 + c/2(아래 설명에 따라 설명됨)에 배치되는 경우를 제외하고, 올바른 반응 또는 항목 승인 확률이 50% 이상 되는 경우를 나타낸다. 변곡점은 능력 또는 잠재적 특성 연속체의 값에 해당하는 항목의 난이도에 의해 결정된다.[20] 따라서 쉬운 항목의 경우 이 변곡점은 능력 연속체에서 더 낮을 수 있고 어려운 항목의 경우 동일한 척도로 더 높을 수 있다.

ICC slope ip.png

항목 모수의 차이를 검정하기 위한 통계적 절차를 제시하기 전에 먼저 여러 모수 추정 모델과 관련 모수에 대한 일반적인 이해를 제공하는 것이 중요하다. 여기에는 1-모수, 2-모수 및 3-모수 로지스틱(PL) 모델이 포함된다. 이 모든 모델은 하나의 내재된 잠재적 특성이나 능력을 가정한다. 이 세 가지 모델 모두 b로 표시된 항목 난이도 매개변수를 가지고 있다. 1PL 및 2PL 모델의 경우, 에서 언급한 바와 같이 b 매개변수는 능력 척도의 변곡점에 해당한다. 3PL 모델의 경우 변형은 1 + c/2에 해당하며, 여기서 c는 낮은 점증상(아래에서 설명)이다. 난이도 값은 이론적으로는 -192부터 +193까지 범위가 될 수 있지만, 실제로는 ±3을 초과하지 않는다. 값이 높을수록 더 어려운 시험 항목을 나타낸다. b 매개변수가 낮은 항목은 쉬운 시험 항목이다.[21] 추정된 또 다른 매개변수는 a로 지정된 차별 매개변수 입니다. 이 매개변수는 개인을 구별할 수 있는 항목의 능력과 관련이 있다. 매개변수는 2PL 및 3PL 모델에서 추정한다. 1PL 모델의 경우, 이 매개변수는 그룹 간에 동일하도록 제한된다. ICC와 관련하여 매개변수는 변곡점의 기울기다. 앞서 언급했듯이, 변곡점에서 경사는 최대다. b 매개변수와 유사한 매개변수의 범위는 -module ~ +module 사이일 수 있지만, 일반적인 값은 2보다 작다. 이 경우 가치가 높으면 개인 간 차별이 더 크다는 것을 의미한다.[22] 3PL 모델은 추측 또는 가성 매개변수로 언급되는 추가 매개변수를 가지고 있으며 c로 표시된다. 이는 능력이 낮더라도 개인이 중간 또는 어려운 항목을 정확하게 맞출 수 있도록 하는 낮은 점근법에 해당한다. c에 대한 값은 0과 1 사이의 범위지만 일반적으로 .3보다 낮다.[23] DIF를 평가하기 위해 통계적 절차를 적용할 때, a와 b 매개변수(차별 및 난이도)는 특히 관심이 많다. 그러나 1PL 모델을 사용했다고 가정하고, 여기서 모수b 모수의 추정만 남겨두고 두 그룹에 대해 동일하도록 제한된다. ICC를 검사한 후, 두 그룹에 대해 b 매개변수에 분명한 차이가 있다. 학생의 t-검사와 유사한 방법을 사용하여 다음 단계는 난이도 차이가 통계적으로 유의한지 판단하는 것이다. 귀무r 가설 H0: b = b Lordf (1980)는 쉽게 계산되고 정규 분포된 시험 통계를 제공한다. d = (br - bf) / SE(br - bf) b 매개변수 차이의 표준 오차√[SE(br)]2 + √[SE(bf)]2로 계산한다.

발트 통계량

단, 2PL 또는 3PL 모델은 데이터에 1PL 모델을 적합시키는 것보다 더 적합하므로 a와 b 매개변수 모두를 DIF에 대해 시험해야 한다. Lord(1980)는 c 매개변수가 그룹 전체에서 동일하도록 제약되는 a와 b 매개변수 모두의 차이를 시험하기 위한 다른 방법을 제안했다. 이 검정은 카이-제곱 분포를 따르는 월드 통계량을 산출한다. 이 경우 시험 중인 귀무 가설은 H0r: a = a, bf = b이다r f. 첫째, 모수 추정치의 2 x 2 공분산 행렬은 기준 및 초점 그룹에 대해 S와r Sf 표현되는 각 그룹에 대해 계산된다. 이러한 공분산 행렬은 획득한 정보 행렬을 뒤집어 계산한다. 다음으로, 추정된 매개변수들 간의 차이는 2 x 1 벡터에 넣고 V' = (arr - af, b - bf) 다음으로 공분산 행렬 SS와r Sf 합하여 추정한다. 이 정보를 이용하여 월드 통계량을 다음과 같이 계산한다: χ2 = V'SV는 자유도 2도에서 평가된다.

우도-비율 검정

우도-비율 테스트는 DIF 평가를 위한 또 다른 IRT 기반 방법이다. 이 절차에는 두 모델의 비율을 비교하는 것이 포함된다. 모델(Mc)에서 항목 매개변수는 기준 그룹과 초점 그룹 사이에 동일하거나 불변하도록 제한된다. 모델(Mv)에서는 품목 매개변수를 자유롭게 변경할 수 있다.[24] M에cv 의한 우도함수는 (Lc)로 표기되는 반면, M에 의한 우도함수는 (Lv)로 지정된다. DIF로 의심되는 항목은 자유롭게 변동할 수 있는 반면, 동일하도록 제약된 항목은 이 절차의 앵커 항목으로 사용된다. 앵커아이템을 사용하고 나머지 아이템 파라미터가 변동할 수 있도록 함으로써 DIF에 대한 복수의 아이템을 동시에 평가할 수 있다.[25] 그러나 우도비율이 잠재적 DIF를 나타내는 경우, 전부는 아닐지라도 어떤 항목이 DIF를 포함하는지 결정하는 데 항목별 분석이 적절할 것이다. 두 모델의 우도비는 G2 = 2ln[Lv/Lc]로 계산하거나, L2v L을c 반전시킨 다음 -2ln으로 곱한 G = -2ln[Lc/Lv]로 표현할 수 있다. G는2 특히 표본이 큰 키 제곱 분포를 근사적으로 따른다. 따라서 자유롭게 변화하는 모델에서 제약된 모델을 도출하는 데 필요한 제약조건의 수에 해당하는 자유도로 평가된다.[26] 예를 들어, 2PL 모델을 사용하고 a와 b 매개변수 모두 M에서v 자유롭게 변화할 수 있으며 이 두 매개변수가 M에서c 구속되는 경우, 그 비율은 2도 자유도에서 평가된다.

로지스틱 회귀 분석

DIF 검출에 대한 로지스틱 회귀 접근법에는 각 항목에 대해 별도의 분석을 실행하는 것이 포함된다. 분석에 포함된 독립 변수는 그룹 멤버십, 능력 일치 변수 일반적으로 총점 및 둘 사이의 상호작용 항이다. 관심의 종속변수는 올바른 반응을 얻거나 항목을 승인할 확률 또는 가능성이다. 관심의 결과는 확률로 표현되기 때문에 최대우도 추정이 적절한 절차다.[27] 이 변수 집합은 다음과 같은 회귀 방정식으로 표현할 수 있다.

Y = β0 + β1M + β2G + β3MG

여기서 β는0 각 독립 변수에 대한 중량 계수에 해당하는 나머지 β로s M과 G가 0일 때 반응의 절편 또는 확률에 해당한다. 첫 번째 독립 변수인 M은 능력에 대해 개인을 연결하는데 사용되는 일치 변수인데, 이 경우 맨텔-헨젤 절차에 의해 채택된 것과 유사한 총 시험 점수다. 그룹 멤버쉽 변수는 G로 표시되며, 회귀 분석의 경우 더미 코드화된 변수를 통해 표현된다. 최종 용어 MG는 위에서 언급한 두 변수 사이의 교호작용에 해당한다. 이 절차의 경우 변수가 계층적으로 입력된다. 위에서 제공한 회귀 방정식의 구조에 따라 일치하는 변수 M, 그룹화 변수 G, 상호작용 변수 MG의 순서로 변수를 입력한다. DIF의 결정은 얻은 카이-제곱 통계량을 자유도 2도로 평가하여 이루어진다. 또한 모수 추정의 유의성을 시험한다. 로지스틱 회귀 분석의 결과에서 능력에 따라 일치하는 개체가 항목에 반응할 확률은 유의적으로 다르고 따라서 로지스틱 회귀 곡선이 다른 경우 DIF가 표시된다. 반대로 두 그룹의 곡선이 같으면 항목이 편향되지 않아 DIF가 존재하지 않는다. 균일 및 균일 DIF의 관점에서, 두 그룹의 절편과 일치하는 변수 매개변수가 같지 않으면 균일한 DIF의 증거가 있다. 단, 0이 아닌 교호작용 매개변수가 있는 경우 이는 불균일 DIF를 나타낸다.[28]

고려 사항.

표본크기

첫 번째 고려사항은 특히 참조 그룹과 초점 그룹에 관련된 표본 크기의 문제와 관련된다. 분석하기 전에, 각 그룹의 인구 수에 대한 정보는 일반적으로 남성/여성 또는 민족/인종 집단의 구성원 수와 같이 알려져 있다. 그러나 이 문제는 그룹당 인구수가 DIF를 식별하기에 충분한 통계적 힘을 갖기에 충분한지 여부에 더 밀접하게 논의된다. 민족성과 같은 일부 사례에서는 백인이 나타내는 각 개별 민족보다 훨씬 큰 집단 표본을 나타내는 등 불평등한 집단 크기의 증거가 있을 수 있다. 따라서 그러한 경우 DIF에 비교되는 집단의 크기가 실제로 같거나 더 가까울 수 있도록 데이터를 수정하거나 조정하는 것이 적절할 수 있다. 더미 코딩 또는 리코딩은 기준 및 초점 그룹의 크기 차이를 조정하기 위해 사용되는 일반적인 관행이다. 이 경우 참조 그룹과 초점 그룹에 대해 비교적 동일한 표본 크기를 가지기 위해 모든 비백인 민족 그룹을 함께 그룹화할 수 있다. 이것은 항목 기능에 대한 "주요/소수" 비교를 허용할 것이다. 수정이 이루어지지 않고 DIF 절차를 수행하는 경우 그룹 간에 DIF가 존재하더라도 DIF를 식별할 수 있는 통계적 힘이 충분하지 않을 수 있다. 표본 크기와 관련된 또 다른 문제는 DIF 탐지에 사용되는 통계적 절차와 직접적으로 관련된다. 기준 및 초점 그룹의 표본 크기 고려와는 별도로, DIF 검출에 사용되는 각 통계 시험의 가정을 준수하기 위해 표본 자체의 특정 특성을 충족해야 한다. 예를 들어 IRT 접근법을 사용하는 경우 맨텔-헨젤 절차에 필요한 것보다 더 큰 표본이 필요할 수 있다. 그룹 규모에 대한 조사가 한 가지 절차를 다른 절차로 사용하게 할 수 있기 때문에 이것은 중요하다. 로지스틱 회귀 분석 접근법에서는 레버리지 값과 특이치가 특히 중요하므로 DIF 검출에 앞서 조사해야 한다. 또한 모든 분석과 마찬가지로 통계적 시험 가정을 충족해야 한다. 일부 절차는 사소한 위반에 더 강하지만 다른 절차들은 그렇지 않다. 따라서 DIF 절차를 구현하기 전에 표본 응답의 분포 특성을 조사해야 한다.

항목들

DIF 검출에 사용되는 항목의 수를 결정하는 것을 고려해야 한다. 이것이 스터디에서 스터디로 바뀌기 때문에 DIF 검출에 얼마나 많은 항목을 사용해야 하는지에 대한 표준은 존재하지 않는다. 어떤 경우에는 DIF를 위해 모든 항목을 테스트하는 것이 적절할 수 있지만, 다른 경우에는 필요하지 않을 수 있다. 특정 항목만 적절한 추론을 통해 DIF로 의심되는 경우 전체 세트가 아닌 해당 항목을 테스트하는 것이 더 적절할 수 있다. 그러나 어떤 항목이 문제가 될 수 있는지 단순히 추측하기 어려운 경우가 많다. 이 때문에 DIF의 모든 시험항목을 동시에 검사하는 것이 권장되는 경우가 많다. 이는 모든 항목에 대한 정보를 제공하여 기준 그룹과 초점 그룹 모두에서 유사하게 기능하는 항목뿐만 아니라 문제가 있는 항목에 대한 정보를 제공할 것이다. 통계적 시험과 관련하여 IRT 우도 비율 시험과 같은 일부 절차는 앵커 항목의 사용을 요구한다. DIF로 의심되는 품목은 자유롭게 변동할 수 있는 반면 일부 품목은 그룹 전체에서 동일하도록 제한된다. 이 경우 하위 집합만 DIF 항목으로 식별되고 나머지는 DIF 검출에 대한 비교 그룹 역할을 한다. DIF 항목이 확인되면, 원래 DIF 항목을 구속하고 원래의 앵커 항목이 자유롭게 변화할 수 있도록 함으로써 앵커 항목도 분석할 수 있다. 따라서 모든 항목을 동시에 시험하는 것이 더 효율적인 절차일 수 있다. 단, 지적한 바와 같이 DIF 항목을 선정하기 위해 구현된 절차에 따라 다른 방법을 사용한다. DIF 검출에 사용되는 항목의 수를 식별하는 것 이외에도 전체 시험 또는 측정 자체에서 항목 수를 결정하는 것이 중요하다. 줌보(1999년)가 지적한 대표적인 권고사항은 최소 20개 항목이다. 최소 20개 항목에 대한 추론은 일치 기준의 형성과 직결된다. 앞 절에서 언급한 바와 같이, 총 시험 점수는 일반적으로 능력에서 개인을 매칭하는 방법으로 사용된다. 총 시험 점수는 일반적으로 3–5 능력 수준(k)으로 나뉜다. 이 능력 수준은 DIF 분석 절차에 앞서 개인과 능력을 일치시키기 위해 사용된다. 최소 20개 항목을 사용하면 점수 분포에 더 큰 차이가 발생하여 더 의미 있는 능력 수준 그룹을 만들 수 있다. 계측기의 정신측정학적 특성을 이용하기 전에 평가했어야 하지만 계측기의 유효성신뢰성이 적절한지 여부가 중요하다. 시험 항목은 의미 있는 능력 수준 그룹을 도출하기 위해 관심의 구성을 정확하게 두드려야 한다. 물론 중복 항목만 추가하면 신뢰도 계수가 부풀어 오르는 것을 원하지 않는다. 의미 있는 일치단체를 개발하기에 충분한 아이템을 가진 유효하고 신뢰할 수 있는 대책을 마련하는 것이 핵심이다. Gadermann 외 연구진([29]2012), Revelle 및 Zinbarg(2009),[30][31] John과 Soto(2007)는 구조 유효성 검사에 대한 현대적 접근방법에 대한 더 많은 정보와 신뢰도 평가를 위한 더 정확하고 적절한 방법을 제공한다.

통계 대 추론

모든 심리학적 연구와 심리학적 평가와 마찬가지로, 통계는 필수적인 역할을 하지만 결코 도달한 결정과 결론의 유일한 근거가 되어서는 안 된다. DIF 항목을 평가할 때 타당성 있는 판단은 매우 중요하다. 예를 들어 DIF 검출에 사용되는 통계적 절차에 따라 다른 결과가 나올 수 있다. 어떤 절차들은 더 정확하고 다른 절차들은 덜 정확하다. 예를 들어, 맨텔-헨젤 절차는 연구자가 총 시험 점수에 기초하여 능력 수준을 구성하도록 요구하는 반면 IRT는 잠재 특성이나 능력 연속체를 따라 개인을 더 효과적으로 배치한다. 따라서 한 절차는 특정 항목에 대해 DIF를 나타내지만 다른 절차는 그렇지 않을 수 있다. 또 다른 문제는 DIF를 표시할 수 있지만 DIF가 존재하는 명확한 이유가 없다는 것이다. 바로 여기서 이성적인 판단이 작용하게 된다. 연구자는 DIF 분석에서 의미를 도출하기 위해 상식을 사용해야 한다. 항목들이 그룹별로 다르게 기능한다고 보고하는 것만으로는 부족하며, 왜 발생하는지에 대한 이론적 이유가 있어야 한다. 더욱이 DIF의 증거는 시험에서 직접적으로 불공평하게 해석되지는 않는다. DIF 연구에서 DIF를 제안하는 일부 항목을 식별하는 것이 일반적이다. 이것은 수정하거나 생략할 필요가 있는 문제 항목의 표시일 수 있으며, 반드시 불공정한 시험의 표시일 필요는 없다. 따라서 DIF 분석은 항목 분석에 유용한 도구로 간주될 수 있지만 이론적 추론과 결합할 때 더욱 효과적이다.

통계 소프트웨어

다음은 여기에서 논의된 절차를 수행할 수 있는 일반적인 통계 프로그램이다. 통계 패키지 목록을 클릭하면 오픈 소스, 공용 도메인, 프리웨어 및 독점 통계 소프트웨어의 포괄적인 목록으로 이동한다. 맨텔-헨젤 절차

  • SPSS
  • SAS
  • 스타타
  • R(예: 'differentR'[32] 패키지)
  • 시스타트
  • 레르타프 5

IRT 기반 절차

  • 빌로그-MG
  • 멀티로그
  • 파스케일
  • 테스트 팩트
  • 이큐셔트
  • R(예: 'differentR'[32] 또는 'mirt'[33] 패키지)
  • IRTPRO

로지스틱 회귀 분석

  • SPSS
  • SAS
  • 스타타
  • R(예: 'differentR'[32] 패키지)
  • 시스타트

참고 항목

참조

  1. ^ 전국교육측정위원회 http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorD 웨이백머신에 2017-07-22 보관
  2. ^ B.D. Zumbo(2007년) 3세대 DIF(Differential Item Function) 분석: 그 동안 어디에 있었는지, 지금 어디에 있는지, 어디로 가고 있는지 등을 고려해 볼 때. 분기별 언어 평가, 4,223–233.
  3. ^ 카밀리, G. (2006년) 공정성 검정: R. L. (Ed.)에서 교육적 측정(4번째 에드, 220–256쪽). 웨스트포트, CT: 미국 교육 위원회
  4. ^ 네덜란드, P. W. & Wainer, H. (1993) 디퍼렌셜 항목 작동 중. 뉴저지 힐스데일: 로렌스 얼바움.
  5. ^ 오스터린드, S. J. & Everson, H. T. (2009) 디퍼렌셜 항목 작동 중. 오크 수 천명, CA: 세이지 출판사
  6. ^ 애커맨, T. (1992) 다차원적 관점에서 항목 편향, 항목 영향 및 항목 유효성에 대한 교훈적 설명. Journal of Educational Measurement, 29, 674–691.
  7. ^ 주님, F. M. (1980) 실제 시험 문제에 대한 항목 응답 이론의 적용. 뉴저지 힐스데일: 로렌스 얼바움.
  8. ^ 밀사프, R. E., & Everson, H. T. (1993) 방법론적 검토: 측정 편향 평가를 위한 통계적 접근법. 응용 심리 측정, 17(4), 297–334.
  9. ^ 워커, C. (2011년) DIF가 뭐야? 차등 항목 기능 분석이 계측기 개발 및 검증의 중요한 부분인 이유. 정신교육평가학회지, 29, 364–376
  10. ^ Mellenbergh, G. J. (1982) 항목 치우침 평가를 위한 분할표 모델. 교육 통계학 저널 7, 105–118.
  11. ^ Walker, C. M., Berretvas, S. N, Ackerman, T. A. (2001) DIF에 대한 컴퓨터 적응형 시험에 사용되는 조건화 변수의 검사. 적용 측정 교육, 14, 3–16.
  12. ^ 맨텔, 엔앤헨젤, W.(1959년). 질병에 대한 소급 연구에서 얻은 데이터 분석의 통계적 측면. 국립연구소의 저널, 22, 719–748.
  13. ^ 마라스쿨리오, L. A., & 도살장, R. E. (1981) 2 x 2 통계량에 기초한 항목 편향의 가능한 원인을 식별하기 위한 통계 절차. Journal of Educational Measurement, 18, 229–248.
  14. ^ 홀랜드, P. W. & Tayer, D. T. (1988) 차등 품목 성능 및 맨텔-핸젤 절차. H. Wainer & H. I. Braun (Eds.)에서 시험 유효성 (pp. 129–145)을 나타낸다. 힐스데일, 뉴저지 주: 얼바움.
  15. ^ 도란스, N. J. & 홀랜드, P. W. (1993) DIF 탐지 및 설명: Mantel-Haenszel과 표준화. P. W. 홀랜드 & H. 와이너(Eds.)에서 차동품목 기능(pp. 35–66)이 발휘된다. 힐스데일, 뉴저지 주: 얼바움.
  16. ^ Steinberg, L, & Thissen, D.(2006). 연구보고를 위한 효과 크기 사용: 항목 반응 이론을 사용하여 차등 항목 기능을 분석하는 예 심리학적 방법, 11(4), 402–415.
  17. ^ 카밀리, G, & 셰퍼드, L. (1994년) 편향된 시험 항목을 식별하는 방법. 오크 천스, 크리스 앤더슨:
  18. ^ Reise, S. P., & Ainsworth, A. T., & Haviland, M. G. (2005) 항목 반응 이론: 심리 연구에서의 기초, 응용, 약속. 현재 심리과학의 방향, 14, 95-101
  19. ^ 에델렌, 엠 오, 리브, B. B. (2007) 설문지 개발, 평가, 세분화에 IRT(항목 응답 이론) 모델 적용. Quality of Life Research, 16, 5–18.
  20. ^ 데마르스, C. (2010) 항목 반응 이론. 뉴욕: 옥스퍼드 프레스.
  21. ^ 해리스, D. (1989년) 1-모수, 2-모수, 3-모수 IRT 모델 비교 교육적 측정: 문제실행, 8, 35-41.
  22. ^ 베이커, F. B.(2001) 항목 반응 이론의 기본. 평가 및 평가에 대한 ERIC 클리닝하우스.
  23. ^ 버른바움, A. (1968년) 일부 잠재적 특성 모델과 시험 응시자의 능력을 추론하는 데 사용되는 모델. F. M. Lord와 M. R. Novick의 5부. 정신 테스트 점수의 통계적 이론. 독서, MA: 애디슨 웨슬리
  24. ^ Thissen, D, Steinberg, L, Gerrard, M. (1986) 그룹 차이 이상: 편견의 개념. 심리학 게시판, 99, 118–128.
  25. ^ IRTPRO: 사용 설명서(2011). 링컨우드, 일리노이주: 사이언티픽 소프트웨어 인터내셔널, Inc.
  26. ^ Thissen, D, Steinberg, L, & Wainer, H. (1993년) 항목 응답 모델의 파라미터를 사용하여 기능하는 차동 항목의 검출. P. W. Holland와 & H. Wainer (Eds.)에서는 차동품목이 기능한다(pp. 67–113). 뉴저지 힐스데일: 로렌스 얼바움.
  27. ^ Bock, R. D. (1975) 다변량 통계 방법. 뉴욕: 맥그로우 힐.
  28. ^ Swaminathan, H, & Rogers, H. J. (1990) 로지스틱 회귀 분석 절차를 사용하여 차등 항목 기능 탐지 Journal of Educational Measurement, 27, 361–370.
  29. ^ Gadermann, A, M, Guhn, M, & Zumbo, B. D. (2012) 리커트 유형 및 순서형 항목 반응 데이터에 대한 순서 신뢰도 추정: 개념적, 경험적, 실용적인 지침. 실무 평가, 연구 평가, 17(3), 1–13.
  30. ^ Revelle, W, & Zinbarg, R. E. (2009) 계수 알파, 베타, 오메가 및 GLB: 시츠마에 대한 주석. 사이코메트리카 74(1), 145–154.
  31. ^ 존, O. P. & 소토 C. J. (2007) 유효성의 중요성: 안정성 및 구성 검증 프로세스. R. W. 로빈스, R. C. 프랄리, & R. F. 크루거(Eds.)에서 성격 심리학 연구 방법 핸드북(461–494). 뉴욕, 뉴욕: 케임브리지 대학 출판부.
  32. ^ a b c Magis, David; Béland, Sébastien; Tuerlinckx, Francis; De Boeck, Paul (2010). "A general framework and an R package for the detection of dichotomous differential item functioning". Behavior Research Methods. 42 (3): 847–862. doi:10.3758/BRM.42.3.847. PMID 20805607.
  33. ^ Chalmers, R. P. (2012). "mirt: A Multidimensional Item Response Theory Package for the R Environment". Journal of Statistical Software. 48 (6): 1–29. doi:10.18637/jss.v048.i06.