신뢰성(통계)

Reliability (statistics)

통계심리측정학에서 신뢰성은 측정의 전반적인 일관성이다.[1] 일관된 조건에서 유사한 결과를 낼 경우 신뢰성이 높다고 한다.

"점수에 포함될 수 있는 측정 프로세스의 랜덤 오차 양과 관련된 것은 시험 점수 집합의 특성이다. 신뢰성이 높은 점수는 정확하고 재현 가능하며 시험 시마다 일관성이 있다. 즉, 시험과정이 수험생 집단과 반복된다면 본질적으로 동일한 결과를 얻을 수 있을 것이다. 다양한 종류의 신뢰도 계수는 0.00 (much error)에서 1.00 (error 없음) 사이의 값으로 보통 점수에 오차의 양을 나타내기 위해 사용된다."[2]

예를 들어, 사람들의 키와 몸무게의 측정은 종종 매우 신뢰할 수 있다.[3][4]

종류들

신뢰성 추정에는 몇 가지 일반적인 등급이 있다.

  • 평가자신뢰성은 평가에서 둘 이상의 측정자 사이의 일치 정도를 평가한다. 예를 들어, 사람은 배가 아프고 다른 의사들은 모두 같은 진단을 내린다.[5]: 71
  • 시험-검정 신뢰도는 시험 점수가 한 시험 관리에서 다음 시험 관리까지 어느 정도 일치하는지 평가한다. 측정은 동일한 방법이나 계측기와 동일한 시험 조건을 사용하는 단일 레이터에서 수집한다.[4] 여기에는 경내 신뢰성이 포함된다.
  • 방법신뢰성은 사용하는 방법이나 기기에 변동이 있을 때 시험 점수가 어느 정도 일치하는지 평가한다. 이를 통해 사업자간 신뢰성이 배제될 수 있다. 양식을 다룰 때, 그것은 병렬형식 신뢰도라고 불릴 수 있다.[6]
  • 내부 일관성 신뢰성, 테스트 내 항목 간에 결과의 일관성을 평가한다.[6]

유효성과의 차이

신뢰성은 타당성을 의미하지 않는다. 즉, 무언가를 일관성 있게 측정하는 신뢰할 수 있는 척도가 반드시 측정되고 싶은 것을 측정하는 것은 아니다. 예를 들어, 특정 능력에 대한 신뢰할 수 있는 테스트가 많지만, 모든 테스트가 예를 들어, 직무 성과를 예측하는 데 유효한 것은 아니다.

신뢰성이 유효성을 의미하는 것은 아니지만, 신뢰성은 시험의 전체 유효성에 제한을 둔다. 완벽히 신뢰할 수 없는 시험은 사람의 속성을 측정하는 수단으로서 또는 기준에 대한 점수를 예측하는 수단으로서 완벽하게 유효할 수 없다. 신뢰할 수 있는 시험은 유용한 유효한 정보를 제공할 수 있지만 신뢰할 수 없는 시험은 유효할 수 없다.[7]

예를 들어, 무게 척도 집합이 물체의 무게를 실제 무게보다 500그램으로 일관되게 측정했다면, 그 척도는 매우 신뢰할 수 있지만 (반환된 무게가 실제 무게가 아니기 때문에) 유효하지 않을 것이다. 저울이 유효하려면 물체의 실제 무게를 반환해야 한다. 이 사례는 완벽하게 신뢰할 수 있는 조치가 반드시 유효한 것이 아니라, 유효한 조치가 반드시 신뢰할 수 있어야 함을 보여준다.

일반 모델

실제로 시험 방법은 완벽히 일관성이 있는 것은 결코 아니다. 시험 신뢰성 이론은 비일관성이 측정 정확도에 미치는 영향을 추정하기 위해 개발되었다. 거의 모든 시험 신뢰도 이론의 기본 출발점은 시험 점수가 다음의 두 가지 요인의 영향을 반영한다는 생각이다.[7]

1. 일관성에 기여하는 요소: 개인의 안정적인 특성이나 측정하고자 하는 속성.

2. 불일치의 원인이 되는 요인: 개인의 특징이나 시험 점수에 영향을 미칠 수 있지만 측정되는 속성과 무관한 상황.

이러한 요소에는 다음이 포함된다.[7]

  • 개인의 일시적이지만 일반적인 특징: 건강, 피로, 동기, 정서적 긴장
  • 개인의 일시적이고 특정한 특성: 특정 시험 과제의 이해, 특정 시험 자료를 다루는 특정 기술 또는 기법, 기억력의 변동, 주의력 또는 정확성
  • 시험 상황의 측면: 산만함으로부터의 자유, 지시의 명확성, 성격 상호 작용 등.
  • 우연 요인: 순전히 추측을 통해 답을 선택하는 행운, 순간적인 산만함

신뢰도 추정의 목적은 측정 오류로 인한 시험 점수의 변동성 및 실제 점수의 변동성으로 인한 변동성의 정도를 결정하는 것이다.[7]

실제 점수는 측정되는 개념의 반복 가능한 특성이다. 오차가 없을 때 서로 다른 측정 횟수에 걸쳐 반복되는 관측 점수 부분이다.

측정 오류무작위 오류체계적 오류로 구성된다. 그것은 시험에서 얻은 점수와 그에 상응하는 실제 점수 사이의 불일치를 나타낸다.

이러한 개념적 분석은 일반적으로 다음과 같은 간단한 방정식으로 표현된다.

관측된 시험 점수 = 실제 점수 + 측정 오류

고전 시험 이론

신뢰성 이론의 목표는 측정의 오류를 추정하고 오류를 최소화하도록 시험을 개선하는 방법을 제안하는 것이다.

신뢰성 이론의 중심 가정은 측정 오류는 본질적으로 무작위라는 것이다. 이것은 오류가 무작위 프로세스에서 발생한다는 것을 의미하지 않는다. 어떤 개인에게 측정의 오차는 완전히 무작위 사건이 아니다. 그러나 다수의 개인에 걸쳐 측정 오차의 원인은 측정 오차가 무작위 변수로 작용할 정도로 다양하다고 가정한다.[7]

오차가 랜덤 변수의 본질적 특성을 가지고 있다면 오차는 양수 또는 음수일 가능성이 동등하며, 실제 점수 또는 다른 시험의 오차와 상관관계가 없다고 가정하는 것이 합리적이다.

다음과 같이 가정한다.[8]

1. 측정의 평균 오차 = 0

2. 참된 점수와 오류는 상관관계가 없다.

3. 상이한 조치의 오류는 상관관계가 없다.

신뢰도 이론은 획득한 점수의 분산이 단순히점수의 분산과 측정 오차의 분산의 합이라는 것을 보여준다.[7]

이 방정식은 다음 두 요인의 결과에 따라 시험 점수가 달라진다는 것을 시사한다.

1. 실제 점수의 변동성

2. 측정 오류로 인한 변동성

신뢰도계수 {xx은 획득한 시험 점수에 대한 참 및 오류 점수의 상대적 영향 지수를 제공한다. 그 일반적인 형태에서 신뢰도 계수는 시험 점수의 총 분산에 대한 실제 점수 분산 비율로 정의된다. 또는 1에서 오차 점수의 변동과 관측 점수의 변동 비율을 뺀 값:

아쉽게도 실제 점수를 직접 관찰하거나 계산할 수 있는 방법이 없어 시험의 신뢰도를 추정하기 위해 다양한 방법을 사용한다.

신뢰성 추정 방법의 일부 예로는 시험-검정 신뢰도, 내부 일관성 신뢰도 및 병행시험 신뢰성이 있다. 각 방법은 시험에서 다소 다른 오차의 원인을 알아내는 문제에 있다.

품목응답이론

측정 정밀도가 측정 규모에 걸쳐 균일하지 않다는 것은 고전적인 시험 이론가들에게 잘 알려져 있었다. 시험은 중간 정도의 특성 수준을 가진 수험생에게 더 잘 구별되는 경향이 있고 점수가 높은 수험생과 낮은 수험생 사이에서 더 나쁜 수험생에게 더 잘 구분되는 경향이 있다. 아이템 응답 이론은 신뢰성의 개념을 단일 지수에서 정보 함수라는 함수로 확장한다. IRT 정보 함수는 주어진 시험 점수에서 조건부 관측 점수 표준 오차의 역순이다.

추정

신뢰도 추정의 목적은 측정 오류로 인한 시험 점수의 변동성 및 실제 점수의 변동성으로 인한 변동성의 정도를 결정하는 것이다.

시험 신뢰도를 추정할 수 있는 실행 가능한 방법을 제공하는 네 가지 실천 전략이 개발되었다.[7]

1. 시험-재시험 신뢰도 방법: 시험점수가 한 시험 관리에서 다음 시험 관리까지 어느 정도 일치하는지 직접 평가한다.

여기에는 다음이 포함된다.

  • 개인 그룹에 테스트 관리
  • 나중에 동일한 그룹에 동일한 테스트 재조정
  • 첫 번째 점수 집합과 두 번째 점수 집합의 상관 관계 분석

첫 번째 테스트의 점수와 재테스트의 점수 사이의 상관관계는 Pearson 제품 순간 상관 계수를 사용하여 테스트의 신뢰성을 추정하는 데 사용된다. 항목-총 상관관계도 참조한다.

2. 병렬형식 방법:

이 방법의 핵심은 내용, 대응 프로세스 및 통계적 특성 면에서 동등한 대체 시험 형식의 개발이다. 예를 들어 대체 형태는 일반 지능의 몇 가지 시험에 대해 존재하며, 이러한 시험들은 일반적으로 동등하게 보인다.[7]

병렬 시험 모델을 사용하면 A형에서 한 개인의 실제 점수가 B형에서 그들의 실제 점수와 동일하다는 점에서 동등한 두 가지 형태의 시험을 개발할 수 있다. 두 가지 형태의 시험이 모두 다수의 사람들에게 시행된 경우, A형과 B형의 점수 차이는 측정상의 오류 때문일 수 있다.[7]

여기에는 다음이 포함된다.

  • 한 가지 형태의 테스트를 개인 그룹에 관리
  • 나중에 동일한 그룹의 사람들에게 동일한 테스트의 대체 형식을 적용하는 것
  • A양식의 점수와 B양식의 점수의 상관관계 분석

두 가지 대체 형태에서의 점수 사이의 상관관계는 시험의 신뢰도를 추정하는 데 사용된다.

이 방법은 시험-검정 신뢰도 방법에 내재된 많은 문제에 부분적인 해결책을 제공한다. 예를 들어, 시험의 두 형태가 다르기 때문에, 이월 효과는 덜 문제가 된다. 반응도 영향도 부분적으로 제어된다. 비록 첫 번째 시험을 치르는 것이 두 번째 시험에 대한 반응을 바꿀 수 있지만 말이다. 그러나 같은 시험의 두 행정부에서처럼 대체 형태의 시험으로 그 효과가 강하지는 않을 것이라고 보는 것이 타당하다.[7]

그러나 이 기법에는 다음과 같은 단점이 있다.

  • 여러 가지 대체 형태의 시험을 만드는 것은 매우 어려울 수 있다.
  • 또한 시험의 두 가지 대체 형태가 평행한 측정치임을 보증하는 것이 불가능하지 않다면 어려울 수 있다.

3. 분할 반법:

이 방법은 조치의 두 반쪽을 대체 형태로서 취급한다. 그것은 병렬형식 방법이 직면한 문제에 대한 간단한 해결책을 제공한다: 대체형식 개발의 어려움.[7]

여기에는 다음이 포함된다.

  • 개인 그룹에 테스트 관리
  • 시험을 반으로 나누기
  • 테스트의 절반에 대한 점수와 테스트의 나머지 절반에 대한 점수의 상관 관계 분석

이 두 분할된 반쪽 사이의 상관관계는 시험의 신뢰도를 추정하는 데 사용된다. 이 절반 신뢰도 추정치는 Spearman-Brown 예측 공식을 사용하여 전체 시험 길이로 올라간다.

신뢰도를 추정하기 위해 시험을 분할하는 몇 가지 방법이 있다. 예를 들어 40개 항목의 어휘 시험은 두 개의 하위 테스트로 나눌 수 있는데, 첫 번째 테스트는 1번부터 20번 항목으로 구성되고 두 번째 테스트는 21번부터 40번 항목으로 구성된다. 다만 상반기 대응은 아이템 난이도와 피로도가 높아져 하반기 대응과는 체계적으로 다를 수 있다.[7]

시험을 분할할 때, 두 반쪽은 내용 면에서 그리고 응답자의 가능한 상태 면에서 가능한 한 유사해야 한다. 가장 간단한 방법은 홀수 짝수 항목이 시험의 절반을 이루고 짝수 항목이 다른 항목을 구성하는 홀수 짝수 분할을 채택하는 것이다. 이 약정은 각 반쪽이 원래 시험의 시작, 중간, 끝에서 동일한 수의 항목을 포함할 것을 보장한다.[7]

4. 내부 일관성: 테스트 내 항목에 걸쳐 결과의 일관성을 평가한다. 가장 일반적인 내부 일관성 측정은 크론바흐의 알파로, 일반적으로 가능한 모든 분할 반 계수의 평균으로 해석된다.[9] 크론바흐의 알파는 내부 일관성을 추정하는 초기 형태인 쿠더-리처드슨 포뮬라 20의 일반화다.[9] 가장 많이 쓰이지만 크론바흐의 알파에 대한 오해가 있다.[10][11]

이러한 신뢰성 측정은 서로 다른 오류 발생원에 대한 민감도가 다르므로 동일할 필요는 없다. 또한 신뢰성은 측정 자체보다는 측정 점수의 속성이므로 표본에 의존한다고 한다. 두 번째 모집단의 실제 변동성이 다르기 때문에 두 번째 표본이 다른 모집단에서 추출되는 경우 한 표본의 신뢰도 추정치는 두 번째 표본의 추정치와 다를 수 있다(표본 변동으로 인해 예상되는 표본의 추정치 초과). (이는 모든 유형의 측정에 해당됨—야드스틱은 집을 잘 측정할 수 있지만 곤충의 길이를 측정할 때 신뢰성이 떨어진다.)

신뢰성은 표현의 명확성(서면평가용), 측정치 연장 [9]및 기타 비공식적 수단으로 개선될 수 있다. 그러나 항목 분석이라고 하는 형식적인 정신계 분석은 신뢰도를 높이는 가장 효과적인 방법으로 여겨진다. 이 분석은 항목 난이도항목 차별 지수 계산으로 구성되며, 후자 지표는 항목 간의 상관 관계 및 전체 시험 항목 점수의 합을 계산한다. 너무 어렵거나, 너무 쉽거나, 또는/또는 0에 가깝거나 부정적인 차별이 있는 항목을 더 나은 항목으로 대체하면, 조치의 신뢰성이 높아질 것이다.

  • 여기서 (가) 실패율임)

참고 항목

참조

  1. ^ 윌리엄 M.K. 트로힘, 신뢰성
  2. ^ National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorR
  3. ^ al.], Neil R. Carlson ... [et (2009). Psychology : the science of behaviour (4th Canadian ed.). Toronto: Pearson. ISBN 978-0-205-64524-4.
  4. ^ Jump up to: a b MASB(Marketing Accountability Standards Board)는 이 정의를 진행 중인 공용어의 일부로 승인한다. 2013년 2월 12일 웨이백 머신에 보관된 마케팅 활동메트릭스 프로젝트.
  5. ^ Durand, V. Mark. (2015). Essentials of abnormal psychology. [Place of publication not identified]: Cengage Learning. ISBN 978-1305633681. OCLC 884617637.
  6. ^ Jump up to: a b 신뢰성의 유형 연구 방법 지식 기반. 최종 개정: 2006년 10월 20일
  7. ^ Jump up to: a b c d e f g h i j k l m Davidshofer, Kevin R. Murphy, Charles O. (2005). Psychological testing : principles and applications (6th ed.). Upper Saddle River, N.J.: Pearson/Prentice Hall. ISBN 0-13-189172-3.
  8. ^ Gulliksen, Harold (1987). Theory of mental tests. Hillsdale, N.J.: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.
  9. ^ Jump up to: a b c 코르티나, J.M., (1993) 계수 알파란 무엇인가? 이론과 응용에 대한 고찰. 응용심리학 저널 78(1), 98–104.
  10. ^ 리터, N. (2010) 널리 오해되고 있는 통계를 이해하는 것: 크론바흐의 알파. LA 뉴올리언스에서 열린 2010 SERA(Southwest Education Research Association) 콘퍼런스에서 발표한 논문.
  11. ^ Eisinga, R.; Te Grotenhuis, M.; Pelzer, B. (2012). "The reliability of a two-item scale: Pearson, Cronbach or Spearman-Brown?" (PDF). International Journal of Public Health. 58 (4): 637–642. doi:10.1007/s00038-012-0416-3. hdl:2066/116735. PMID 23089674.

외부 링크