라우터 간 신뢰성

Inter-rater reliability

통계학에서 라우터신뢰성(라우터 간 합의, 라우터일치, 서버신뢰성, 코드신뢰성 등 다양한 유사한 이름으로 불리기도 함)은 동일한 현상을 평가, 평가 또는 평가하는 독립 옵서버 간의 일치도입니다.

등급에 의존하는 평가 도구는 등급 간 신뢰성이 우수해야 합니다. 그렇지 않으면 유효한 테스트가 아닙니다.

라우터 간 신뢰성을 확인하는 데 사용할 수 있는 통계량이 많이 있습니다.측정 유형에 따라 서로 다른 통계량이 적합합니다.Cohen의 카파, Scott의 파이Fleiss의 카파와 같은 일부 옵션은 결합-합치 확률 또는 군간 상관 관계, 일치 상관 계수, 클래스상관 관계 및 Krippendorff의 알파입니다.

개념.

평가자 [1]간에 신뢰할 수 있는 합의가 무엇인지에 대한 다양한 관점을 반영하여 "평가자 간 신뢰성"에 대한 몇 가지 운영 정의가 있습니다.합의에는 다음의 3가지 운용상의 정의가 있습니다.

  1. 신뢰할 수 있는 평가자는 성과에 대한 "공식" 등급에 동의합니다.
  2. 신뢰할 수 있는 평가자들은 부여되는 정확한 등급에 대해 서로 동의한다.
  3. 신뢰할 수 있는 평가자들은 어느 쪽이 더 나은지, 어느 쪽이 더 나쁜지에 대해 동의한다.

이것들은 동작의 2개의 동작 정의와 조합됩니다.

  1. 신뢰할 수 있는 평가자는 오토마톤으로, 「레이팅 머신」처럼 동작합니다.이 범주는 컴퓨터에 의한[2] 에세이의 평가를 포함한다.이 행동은 일반화 이론으로 평가될 수 있다.
  2. 신뢰할 수 있는 평가자들은 독립적인 증인처럼 행동한다.그들은 약간의 의견 대립을 통해 그들의 독립성을 증명한다.이 동작은 Rasch 모델로 평가할 수 있습니다.

통계 정보

공동합치확률

합의의 공동 확률은 가장 단순하고 덜 견고한 척도이다.명목 또는 범주형 등급 시스템에서 평가자가 동의한 시간의 백분율로 추정됩니다.우연에 의해서만 합의가 이루어질 수 있다는 사실은 고려하지 않는다.우연의 일치에 대해 '수정'할 필요가 있는지에 대한 의문이 있다. 어떤 경우든 그러한 조정은 기회와 오류가 평가자의 [3]결정에 어떻게 영향을 미치는지에 대한 명시적 모델에 기초해야 한다고 제안한다.

사용되는 범주의 수가 작을 경우(예: 2 또는 3), 2명의 평가자가 순전히 우연에 의해 합의할 가능성이 크게 증가한다.이는 두 평가자 모두 이용 가능한 선택지의 수에 제한적이어야 하며, 이는 전체 합의율에 영향을 미치며, 반드시 "내부적" 합의에 대한 성향이 아닌 경우 "내부적"으로 간주되지 않기 때문이다.

따라서, 평가자들 사이에 "내적" 합의가 없는 경우에도, 공동 합의 가능성은 높게 유지될 것이다.유용한 층간 신뢰성 계수는 (a) "내부" 합치가 없을 때 0에 가깝고 (b) "내부" 합치율이 개선될 때 증가할 것으로 예상된다.대부분의 확률 보정 합치 계수는 첫 번째 목표를 달성합니다.그러나 두 번째 목표는 알려진 많은 기회 [4]보정 조치로는 달성되지 않는다.

카파 통계량

위원회 간 합의 수준을 해석하기 위한 4가지 권장 사항 세트

카파는 일치 또는 신뢰성을 측정하는 방법으로, 우연히 등급이 일치할 수 있는 빈도를 보정합니다.두 명의 평가자에게 적용되는 Cohen의 카파와 [5]고정된 수의 평가자에게 적용되는 적응인 Fleiss의 카파는 우연히 [6]발생할 것으로 예상되는 합의의 양을 고려한다는 점에서 결합 확률을 개선한다.원본 버전은 데이터를 명목형으로 취급하고 등급에 자연적인 순서가 없다고 가정한다는 점에서 공동 확률과 동일한 문제가 있었다. 데이터에 실제로 순위(정상 측정 수준)가 있는 경우 해당 정보는 측정에서 완전히 고려되지 않는다.

이후 이 접근법의 확장에는 "부분신용"과 순서형 [7]척도를 다룰 수 있는 버전이 포함되었다.이러한 확장은 클래스 내 상관 관계(ICC) 제품군과 수렴되므로 명목(카파)에서 서수(서수 카파 또는 ICC—연장 가정), 간격(ICC, 또는 서수 카파—간격 척도를 서수로 처리) 및 비율(ICC)에 이르기까지 각 측정 수준에 대한 신뢰성을 추정하는 개념적으로 관련된 방법이 있다.또한 일련의 항목에 대한 평가자의 합의를 볼 수 있는 변형(예를 들어, 두 명의 면접관이 한 사례에 대해 동일한 반구조적 인터뷰의 모든 항목에 대해 우울증 점수를 합의하는가?)과 평가자 x 사례(예를 들어, 두 명 이상의 평가자가 30건의 우울증 진단이 있는지 여부에 대해 얼마나 잘 합의하는가, 예/아니오)도 있다.공칭 변수).

카파는 +1.0보다 크거나 -1.0보다 작을 수 없다는 점에서 상관 계수와 유사합니다.합의의 척도로 사용되기 때문에 대부분의 상황에서는 양의 값만 예상되며 음의 값은 체계적인 불일치를 나타냅니다.카파는 두 합치도가 양호하고 목표 조건의 비율이 50%에 가까운 경우에만 매우 높은 값을 얻을 수 있습니다(연결 확률 계산에 기준 비율을 포함하기 때문입니다).몇몇 당국자들은 합의의 수준을 해석하기 위해 "경험 규칙"을 제시했는데, 그 중 상당수는 단어들이 [8][9][10][11]동일하지는 않지만 요지에서는 일치한다.

상관 계수

Pearson의 displaystyle Kendall, Spearman의 {\\하나 사용하여 주문된 척도를 사용하여 평가자 간의 쌍별 상관 관계를 측정할 수 있습니다.Pearson은 등급 척도가 연속적이라고 가정합니다. Kendall과 Spearman 통계는 등급 척도가 순서형이라고 가정합니다.3개 이상의 평가자가 관찰된 경우 그룹의 평균 일치 수준은 가능한 각 평가자 에서r\r, or 또는\displaystyle \rho값의 평균으로 계산할 수 있습니다.

클래스 내 상관 계수

신뢰성 테스트를 수행하는 또 다른 방법은 클래스 내 상관 계수(ICC)[12]를 사용하는 것입니다.여기에는 여러 가지 유형이 있으며 하나는 "참 점수의 [13]피험자 간 변동으로 인한 관측치의 분산 비율"로 정의됩니다.ICC의 범위는 0.0과 1.0 사이일 수 있습니다(ICC의 초기 정의는 -1과 +1 사이일 수 있습니다).ICC는 모든 평가자가 각 항목에 동일하거나 유사한 점수를 부여하는 등 평가자가 각 항목에 부여한 점수 사이에 변동이 거의 없을 때 높을 것이다.ICC는 Pearson의 과 Spearman의 보다 개선된 것으로 평가자 간의 상관관계와 더불어 개별 부문의 등급 차이를 고려하기 때문이다.

계약한도

블랜드-알트만 그림

합의에 대한 또 다른 접근법(평가자가 두 명이고 척도가 연속적일 때 유용)은 두 평가자의 관측치 쌍 사이의 차이를 계산하는 것이다.이러한 차이의 평균을 바이어스라고 하며 기준 간격(평균 ± 1.96 × 표준 편차)을 합치 한계라고 한다.합치 한계를 통해 랜덤 변동이 등급에 얼마나 영향을 미칠 수 있는지 알 수 있습니다.

만약 평가자들이 동의하는 경향이 있다면, 평가자들의 관측치 사이의 차이는 거의 0에 가까워질 것이다.일반적으로 한 래터가 다른 래터보다 일정한 양만큼 높거나 낮으면 치우침이 0과 다릅니다.평가자들이 동의하지 않는 경향이 있지만, 한 등급이 다른 등급보다 높은 일관된 패턴이 없다면, 평균은 거의 0이 될 것입니다.신뢰 한계(일반적으로 95%)는 치우침과 각 합치 한계 모두에 대해 계산할 수 있습니다.

합치 한계를 계산하는 데 사용할 수 있는 몇 가지 공식이 있습니다.이전 단락에서 주어진 간단한 공식은 [14]60개 이상의 표본 크기에서 잘 작동한다.

표본 크기가 작은 경우, 또 다른 일반적인[15] 단순화는 다음과 같습니다.

그러나 가장 정확한 공식(모든 샘플 [14]크기에 적용 가능)은 다음과 같습니다.

Bland와 Altman은[15] 각 점의 차이, 평균 차이, 그리고 수평의 두 등급의 평균에 대한 수직의 합치 한계를 그래프로 나타내면서 이 아이디어를 확장했습니다.결과 Bland-Altman 그림은 전반적인 합의 정도뿐만 아니라 합의가 항목의 기본 가치와 관련이 있는지 여부도 보여준다.예를 들어, 두 평가자는 작은 항목의 크기를 추정하는 데는 거의 동의하지만 큰 항목에 대해서는 동의하지 않을 수 있다.

두 가지 측정 방법을 비교할 때, 두 가지 방법 사이의 일치 한계와 치우침을 모두 추정하는 것뿐만 아니라(당사자 간 합의) 각 방법에 대한 이러한 특성도 평가하는 것이 흥미롭다.단순히 두 방법 중 하나는 합의의 범위가 넓은 반면 다른 하나는 협소하기 때문에 두 방법 간의 합의가 빈약할 수 있다.이 경우, 합의 한도가 좁은 방법이 통계적 관점에서 더 우수할 것이며, 실무적 또는 그 밖의 고려사항으로 인해 이러한 인식이 바뀔 수 있다.협소하거나 광범위한 합의 한계 또는 크고 작은 편향을 구성하는 것은 각각의 경우에 대한 실질적인 평가의 문제이다.

크리펜도르프 알파

크리펜도르프의 알파[16][17] 주어진 개체 집합을 변수의 값으로 분류, 평가 또는 측정하는 관찰자 간에 달성된 합치를 평가하는 다목적 통계량입니다.여기에는 임의의 수의 관측자를 수용하고, 명목, 서수, 간격 및 비율 측정 수준에 적용 가능하며, 결측 데이터를 처리할 수 있으며, 작은 표본 크기에 대해 수정됨으로써 몇 가지 특수 합치 계수가 일반화됩니다.

알파는 텍스트 단위가 훈련된 코더에 의해 분류되는 콘텐츠 분석에서 등장했으며 전문가들이 분석 가능한 용어로 개방형 인터뷰 데이터를 코드화하는 상담 및 조사 연구, 여러 가지 방법으로 개별 속성이 테스트되는 심리 측정학, 구조화되지 않은 사건이 기록되는 관찰 연구에서 사용된다.후속 분석 및 텍스트가 다양한 구문 및 의미적 품질에 대해 주석을 다는 컴퓨터 언어학에서.

불일치

여러 평가자가 유용한 작업의 경우 평가자는 관찰된 표적에 대해 동의하지 않을 것으로 예상된다.이와는 대조적으로, 단순 계산 작업(예: 가게에 진입하는 잠재적 고객 수)과 같은 명확한 측정과 관련된 상황은 종종 측정을 수행하는 한 명 이상의 사람이 필요하지 않다.

등급 목표의 관심 특성의 모호성을 포함하는 측정은 일반적으로 여러 명의 훈련된 평가자를 통해 개선된다.그러한 측정 작업은 종종 품질에 대한 주관적인 판단을 수반한다.예로는 의사의 '침대 옆 매너' 평가, 배심원들에 의한 증인 신뢰도 평가, 연설자의 프레젠테이션 기술 등이 있다.

측정 절차의 평가자 간 변동과 측정 결과 해석의 변동은 등급 측정의 오차 변동의 두 가지 예이다.애매하거나 어려운 측정 시나리오에서 신뢰성을 위해 등급 렌더링에 대한 명확한 지침이 필요합니다.

채점 지침이 없으면 등급은 실험자의 편견, 즉 등급 값이 평가자가 예상하는 쪽으로 표류하는 경향에 의해 점점 더 영향을 받습니다.반복 측정이 수반되는 프로세스 중에는 평가자가 지침과 측정 목표를 이해하도록 주기적인 재교육을 통해 래터 드리프트의 보정을 다룰 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 살, F.E., 다우니, R. G. & Lahey, M. A. (1980).등급 평가:평가 데이터의 심리 측정 품질 평가.심리학 게시판, 88(2), 413.
  2. ^ 페이지, E.B., & Petersen, N.S.(1995년)컴퓨터가 논술 채점을 시작합니다: 고대 시험을 갱신합니다.파이 델타 카판, 76(7), 561
  3. ^ Uebersax, J. S.(1987년).의사결정 모델의 다양성과 당국간 합의의 측정.심리학 게시판, 101(1), 140.
  4. ^ "Correcting Inter-Rater Reliability for Chance Agreement: Why?". www.agreestat.com. Retrieved 2018-12-26.
  5. ^ 코헨, J.(1960).명목 척도에 대한 합치 계수입니다.교육심리 측정, 20(1), 37-46.
  6. ^ 플리스, J. L.(1971년).많은 평가자 간의 명목 규모 일치 측정.심리학 게시판, 76(5), 378.
  7. ^ Landis, J. Richard; Koch, Gary G. (1977). "The Measurement of Observer Agreement for Categorical Data". Biometrics. 33 (1): 159–74. doi:10.2307/2529310. ISSN 0006-341X. JSTOR 2529310. PMID 843571.
  8. ^ Landis, J. Richard; Koch, Gary G. (1977). "An Application of Hierarchical Kappa-type Statistics in the Assessment of Majority Agreement among Multiple Observers". Biometrics. 33 (2): 363–74. doi:10.2307/2529786. ISSN 0006-341X. JSTOR 2529786. PMID 884196.
  9. ^ Cicchetti, D. V.; Sparrow, S. A. (1981). "Developing criteria for establishing interrater reliability of specific items: applications to assessment of adaptive behavior". American Journal of Mental Deficiency. 86 (2): 127–137. ISSN 0002-9351. PMID 7315877.
  10. ^ Fleiss, J. L. (1981-04-21). Statistical methods for rates and proportions. 2nd ed. ISBN 0-471-06428-9. OCLC 926949980.
  11. ^ Regier, Darrel A.; Narrow, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). "DSM-5 Field Trials in the United States and Canada, Part II: Test-Retest Reliability of Selected Categorical Diagnoses". American Journal of Psychiatry. 170 (1): 59–70. doi:10.1176/appi.ajp.2012.12070999. ISSN 0002-953X. PMID 23111466.
  12. ^ 샤우트, P.E., & Fleiss, J. L.(1979)클래스 내 상관관계: Rater의 신뢰성을 평가할 때 사용합니다.Psychological Bulletin, 86(2), 420.
  13. ^ Everitt, B.S. (1996년)심리학 통계의 의미:제2레벨 코스입니다.뉴욕, 뉴욕: 옥스포드 대학 출판부.
  14. ^ a b 루드브룩, J. (2010년)Altman-Bland 그림에 대한 신뢰도: 차이 방법에 대한 비판적 검토.임상실험 약리 및 생리학, 37(2), 143-149.
  15. ^ a b 블랜드, J.M., & Altman, D. (1986)두 임상 측정 방법 간의 일치 여부를 평가하기 위한 통계적 방법.랜싯, 327(8476), 307-310.
  16. ^ Krippendorff, Klaus. Content analysis : an introduction to its methodology (Fourth ed.). Los Angeles. ISBN 9781506395661. OCLC 1019840156.
  17. ^ Hayes, A.F., & Krippendorff, K. (2007)데이터 코딩에 대한 표준 신뢰성 측정 요구에 응답합니다.통신 방법측정, 1(1), 77-89.

추가 정보

외부 링크