구성 유효성

Construct validity

구성적 타당성(construct validity)은 어떤 조치가 무엇을 반영하는지에 대한 해석을 뒷받침할 수 있는 증거의 축적이다.[1][2][3][4] 현대 유효성 이론은 구성 타당성을 타당성 연구의 중요한 관심사로 정의하며, 내용 타당성기준 타당성과 같은 다른 모든 유형의 타당성 증거를[5][6] 요약한다.[7][8]

구성 유효성(construct validity)은 관측치 또는 측정에 기초하여(흔히 시험 점수), 특히 시험을 의도한 구성을 반영하는 것으로 합리적으로 고려할 수 있는지 여부에 기초하여 이루어진 추론의 적절성이다. 구조는 잠재 변수를 개념화하기 위해 연구자들이 의도적으로 창조한 추상적인 개념으로, 주어진 척도의 점수와 상관관계가 있다(직접 관측할 수 있는 것은 아니지만). 타당성 구성: 질문 검토: 그 척도는 그 구성의 척도가 행동해야 한다는 이론과같이 작용하는가?

구성 타당성은 인식된 시험의 전체 유효성에 필수적이다. 구성적 타당성은 사회과학, 심리학, 심리학, 언어학에서 특히 중요하다.

새뮤얼 메식(1998)과 같은 심리학자들은 "...경험적 증거와 이론적 합리성이 시험 점수에 근거한 추론과 행동의 적절성과 적절성을 뒷받침하는 정도에 대한 통합적 평가적 판단으로 구성 타당성에 대한 통일된 관점을 추진했다.."[9]는 동안 메시크. 미국의 견해를 교육 측정에서 경력에서 시험 업계, 더 근본적인 심리학적 연구와는 라인과 인과 관계 통계 추론을 강조하는 데이터 기반의 경험적 연구에 의해 부축 받으며(Borsboom 것에 의해 주어진 정의의 맥락에서 타당성을 설명하는 주변 대중화되고 있다. 알. , 2004)[10]

구성 타당성의 열쇠는 고려 중인 특성, 즉 성격, 지능 등의 측면을 어떻게 보는가를 구성하는 개념들 이면에 있는 이론적 개념들이다.[11]미흘은 "가장 좋은 건축물은 가장 직접적인 방법으로 가장 많은 추론을 세울 수 있는 건축물이다"[3]라고 말한다.

스케일 정화, 즉 "다품목 척도에서 품목을 제거하는 과정"(Wieland et al., 2017)은 시공 타당성에 영향을 미칠 수 있다. Wieland 외 연구진(2017)이 제시한 프레임워크는 스케일 정화 결정을 내릴 때 통계적 기준과 판단적 기준을 모두 고려할 필요가 있음을 강조한다.[12]


역사

1940년대 내내 과학자들은 그것들을 발표하기 전에 실험들을 검증하는 방법을 생각해내려고 노력해왔다. 그 결과는 다양한 타당성(intrinic validity, face validity, 논리적 타당성, 경험적 타당성 등)의 과잉이었다. 이 때문에 실제로 어떤 것이 같은 것인지, 어떤 것이 전혀 유용하지 않은 것인지 구분하기가 어려웠다. 1950년대 중반까지만 해도 심리실험을 검증하는 방법은 보편적으로 받아들여지는 방법이 거의 없었다. 그 주된 이유는 출판하기 전에 실험의 어떤 특징을 봐야 하는지 아무도 정확히 파악하지 못했기 때문이다. 1950년과 1954년 사이에 APA 심리테스트 위원회는 심리실험의 타당성을 둘러싼 문제들을 논의하였다.[3]

이 무렵 구성 타당성이라는 용어는 폴 미엘과 리 크론바흐가 그들의 세미나의 기사 "심리학적 테스트에서 구성 타당성"에서 처음 만들어 졌다. 그들은 구성적 타당성이 그 시점에서는 새로운 것이 아니라 이론적 개념을 다루는 많은 다른 유형의 타당성들의 조합이라는 생각에 주목하였다. 그들은 건설 타당성을 평가하기 위한 다음의 세 가지 단계를 제안하였다.

  1. 일련의 이론적 개념과 그 상호관계를 명확히 하는 것
  2. 이론에 의해 제안된 가상의 구조를 측정하는 방법 개발
  3. 가설에 입각한[3] 관계를 실증적으로 시험해 보다.

많은 심리학자들은 정신측정학에서 구성 검증의 중요한 역할은 검증과는 반대로 이론에 더 중점을 둔다는 점에 주목했다. 검증의 핵심 쟁점은 시험이 검증될 수 있다는 것이었지만, 그것이 측정하고자 하는 이론적 구조를 측정했다는 것을 반드시 보여주는 것은 아니었다. 구성 유효성에는 실질적인 구성요소, 구조 구성요소 및 외부 구성요소의 세 가지 측면 또는 구성요소가 있다.[13] 시험건설과정의 3단계, 즉 항목풀의 구성, 항목풀의 내부구조의 분석과 선택, 기준 및 기타 변수와 시험점수의 상관관계와 밀접한 관련이 있다.

1970년대에는 보다 통일된 유효성 이론을 지향하는 지배적 모델로 구성적 타당성을 보기 시작한 이론가들과 다중 유효성 프레임워크에서 계속 작업한 이론가들 사이에 논쟁이 커지고 있었다.[14] 많은 심리학자들과 교육 연구원들"본질적으로 애드 혹으로, 동시, 그리고 컨텐츠 예측 validities, 유효성의 유효성은 전체 관점이 과학적 견지에서 건설하다"[13]그 기준 교육, 심리적 시험 시공의 타당성의 세가지 다른 측면의 inter-relatedness의 1974년 버전에서는 보았다. 레인지된: "유효성의 이러한 측면들은 독립적으로 논의될 수 있지만, 편리함을 위해서만 가능하다. 그들은 운영상 그리고 논리적으로 상호 연관되어 있다. 단지 그들 중 하나만이 특정한 상황에서 중요한 것은 드물다.

1989년에 메식스는 통합된 다면 개념으로서 건설 타당성의 새로운 개념화를 제시했다.[15] 이 프레임워크 아래에서, 모든 형태의 타당성은 구성물의 품질에 연결되어 있으며, 이에 따라 달라진다. 그는 통일된 이론은 그 자신의 생각이 아니라 지난 수십 년간 과학계 내부의 토론과 토론의 절정이라고 언급했다. 메식크의 구성 타당성 통일 이론에는 다음과 같은 6가지 측면이 있다.[16]

  1. 결과 – 점수가 유효하지 않거나 부적절하게 해석될 경우 발생할 수 있는 위험은 무엇인가? 위험성을 고려할 때 테스트는 여전히 가치가 있는가?
  2. 내용 – 시험 항목이 관심의 구성을 측정하는 것으로 보입니까?
  3. 실질 – 관심 구성의 기초가 되는 이론적 토대가 건전한가?
  4. 구조 – 시험에 의해 측정된 치수의 상호관계가 관심사 및 시험 점수의 구성과 관련이 있는가?
  5. 외부 – 테스트에 수렴성, 차별성 및 예측성이 있는가?
  6. 일반화 가능성 – 테스트가 다른 그룹, 설정 및 작업에 걸쳐 일반화되었는가?

어떻게 구성적 타당성을 제대로 보아야 하는가는 여전히 타당성 이론가들에게 논쟁의 대상이다. 그 차이의 핵심은 실증주의 이론가와 사후적 이론가 사이의 인식론적 차이에 있다.

평가하기

구성 타당성을 평가하려면 구성과 관련된 것으로 알려진 변수(평가되는 금융상품에 의해 측정되거나 관련될 것으로 예상할 수 있는 이론적 근거가 있는 것으로 알려져 있는 변수)와 관련하여 측정치의 상관관계를 검토해야 한다. 이는 캠벨과 피스크의 랜드마크 논문(1959년)에 기술된 구성 타당성 검토의 MTM(Multitrait-multimethod matrix(Multimethod matrix,[17] MTM). MTMM 외에 시공 타당성을 평가하는 다른 방법이 있다. 다양한 형태의 인자 분석, 구조 방정식 모델링(SEM), 기타 통계적 평가를 통해 평가할 수 있다.[18][19] 단 하나의 연구만으로 구성의 타당성이 입증되지는 않는다는 점에 유의해야 한다. 오히려 평가, 재평가, 정제, 개발의 연속적인 과정이다. 예상 패턴에 맞는 상관관계는 구성 타당성의 증거를 제공한다. 구성 타당성(construct validity)은 평가되는 계측기를 사용하여 수많은 연구에서 얻은 상관관계의 축적을 기초로 한 판단이다.[20]

대부분의 연구자들은 본 연구 전에 시공의 타당성을 시험하려고 한다. 이를 위해 시험 연구를 활용할 수 있다. 시범연구는 본격적인 시험의 실현 가능성을 시험하기 위한 소규모 예비연구다. 이러한 시범 연구는 연구의 강도를 확립하고 필요한 조정을 할 수 있도록 한다. 또 다른 방법은 알려진 그룹 기법인데, 알려진 특성으로 인해 서로 다를 것으로 예상되는 그룹에 측정 기기를 관리하는 것이다. 귀무 가설에서의 관계 테스트는 이론이나 선행 연구에 기초한 논리적 분석을 포함한다.[4] 개입 연구는 구성 타당성을 평가하는 또 다른 방법이다. 구성에서 낮은 점수를 받은 그룹을 테스트하고 구성 요소를 학습한 다음 재측정하는 개입 연구는 테스트의 구성 유효성을 입증할 수 있다. 통계적 시험에 의해 분석되는 사전 시험과 사후 시험의 차이가 유의미한 경우, 이는 양호한 구성 유효성을 증명할 수 있다.[21]

수렴성 및 판별성 유효성

수렴 유효성과 판별 유효성은 구성 유효성 구성의 유효성의 두 가지 하위 유형이다. 수렴 타당성(convergent validity)은 이론적으로 연관되어야 하는 두 가지 구성의 척도가 실제로 어느 정도 관련이 있는지를 가리킨다. 이와는 대조적으로, 판별 유효성 검사는 관련이 없어야 하는 개념이나 측정치가 실제로 관련이 없는지의 여부를 검정한다.[17] 예를 들어, 일반적인 행복의 구조를 들어보자. 일반적인 행복의 척도가 수렴적 타당성을 가지고 있다면 행복과 유사한 구성(만족, 만족, 쾌활 등)은 일반적인 행복의 척도와 긍정적으로 관련되어야 한다. 만약 이 조치가 차별적 타당성을 가지고 있다면, 일반적인 행복(슬픔, 우울, 절망 등)과 긍정적으로 연관되어서는 안 되는 구조는 일반적인 행복의 척도와 관련되지 않아야 한다. 측정은 시공 타당성의 하위 유형 중 하나를 가질 수 있고 다른 유형 중 하나를 가질 수 없다. 일반적인 행복의 예를 이용하여 연구자는 일반적인 행복과 만족도 사이에 매우 높은 양의 상관관계가 있는 재고를 만들 수 있지만, 행복과 우울 사이에 유의적인 양의 상관관계가 있다면, 이 조치의 구성 타당성에 의문이 제기된다. 그 테스트는 수렴 유효성은 있지만 차별적 유효성은 없다.

명목 네트워크

Lee Cronbach와 Paul Mehl(1955)은 [3]명목상의 그물 개발이 시험의 구성 타당성 측정에 필수적이라고 제안했다. 명목 네트워크는 다른 구조와 행동과의 관계를 설명함으로써 구조를 정의한다. 그것은 연구에 대한 관심의 개념(구성)과 그 개념의 관찰 가능한 표현, 그리고 그것들 사이의 상호관계의 표현이다. 유사한 구조들 간의 관계가 관측된 구조들 간의 관계와 고려되는지 여부를 검토한다. 서로에 대한 구성 관계를 철저히 관찰하면 새로운 구성을 생성할 수 있다. 예를 들어 지능작업기억은 고도로 관련성이 높은 구조로 간주된다. 심리학자들은 그들의 기본 요소들의 관찰을 통해 통제된 주의와[22] 단기 부하와 같은 새로운 이론적 구조를 개발했다.[23] 명목상의 그물을 만드는 것은 또한 오류를 정확히 지적함으로써 기존 구조의 관찰과 측정을 더 효율적으로 만들 수 있다.[3] 연구원들은 인간의 두개골에 있는 돌기(혈액학)를 연구하는 것이 지능의 지표가 아니라 뇌의 부피라는 사실을 밝혀냈다. 지능의 명목적 그물에서 성상학 이론을 없애고 뇌질량 진화론을 더하면 지능의 구성물은 더욱 효율적이고 강력해진다. 이 모든 상호 관련 개념과 그들의 관찰 가능한 특성의 짜임새는 그들의 이론적 개념을 뒷받침하는 "그물"을 만들어낸다. 예를 들어, 학업성취도를 위한 명목적 네트워크에서, 우리는 학업성취도의 관찰 가능한 특성(즉, GPA, SAT, ACT 점수)이 학업성취도에 대한 관찰 가능한 특성(공부시간, 수업시간에 주의력, 노트 세부사항)과 관련되기를 기대한다. 만약 그렇지 않다면, (학문의 성취나 학업성취도) 측정에 문제가 있거나, 또는 그 소지의 성취 이론에 문제가 있다. 만약 그것들이 서로에 대한 지표라면, 명목상의 네트워크, 그리고 따라서 학문적 성취의 구성 이론이 강화된다. 비록 명목상의 네트워크는 어떻게 건설을 강화할 것인가에 대한 이론을 제안했지만, 그것은 연구에서 어떻게 우리가 구성의 타당성을 평가할 수 있는지 말해주지 않는다.

멀티트라이트-멀티메토드 행렬

멀티트래이트-멀티메토드 매트릭스(MTM)는 캠벨과 피스케(1959년)가 개발한 시공 타당성을 검토하기 위한 접근법이다.[17] 이 모델은 수렴(구조의 서로 다른 측정 방법이 유사한 결과를 준다는 증거)과 판별성(구성을 다른 관련 구조와 구별할 수 있는 능력)을 검토한다. 수렴 유효성 평가, 판별(전원) 유효성 평가, 특성-방법 단위, 다중 방법론, 진정으로 다른 방법론, 특성 특성 특성 등 6가지 특성을 측정한다. 이 설계는 조사자들이 다음과 같이 시험할 수 있도록 한다: "같은 '사물'의 다른 측정치와의 합치성... 그리고 관련되지만 개념적으로 구별되는 '사물'[24][25]의 측정치들 간의 차이성.

유효성 구성 위협

명백한 구성 타당성은 가설 제형과 실험 설계의 문제 범위 때문에 오해의 소지가 있다.

  • 가설 추측: 참가자가 원하는 최종 결과를 알고 있거나 추측하는 경우 참가자의 행동이 바뀔 수 있다.[26] 한 예로 호손 효과(Hawthorne effect)가 있다: 시카고 외곽의 호손 워크스 공장에서 1925년 실시한 산업 인체공학적 연구에서, 실험자들은 주변 조명 수준을 낮추거나 밝게 하는 것 모두가 노동자의 생산성을 향상시킨다고 관찰했다. 그들은 결국 이런 역설적인 결과의 근거를 결정했는데, 관찰을 의식하고 있던 노동자들은 환경의 어떤 변화에도 불구하고 더 열심히 일했다.
  • 실험 설계의 치우침(의도적이거나 의도하지 않은) 이것의 예는 스티븐 제이 굴드의 1981년 책 "인간의 불일치"에서 제공된다.[27] 제1차 세계 대전 무렵 지능 측정에 사용된 배터리에는 "다저스는 어느 도시에서 경기를 하느냐"(당시 브루클린에 근거지를 두고 있었다)는 질문이 있었다. 야구라는 스포츠에 익숙하지 않은 동유럽에서 미국으로 건너온 최근 이민자들이 답을 잘못 알아냈고, 이는 동유럽인들이 지능이 낮다는 추론을 하기 위해 사용되었다. 그 질문은 지능을 측정하지 않았다: 그것은 단지 미국에서 얼마나 오래 살았는지를 측정했을 뿐이고 인기 있는 오락에 익숙해졌다.
  • 연구자의 기대는 의도치 않게 참가자들에게 전달되어 원하는 효과를 이끌어낼 수 있다. 이러한 가능성을 제어하기 위해 가능한 경우 이중 블라인드 실험 설계를 사용해야 한다. 즉, 특정 참가자의 평가자는 특정 참가자에게 어떤 개입이 수행되었는지 알지 못하거나 실험자와 독립적이어야 한다.
  • 예측 결과를 너무 좁게 정의.[28] 예를 들어, 직업 만족도만을 사용하여 행복을 측정하는 것은 관련 정보를 직장 밖에서 제외할 것이다.
  • 교락 변수(공변량): 관측된 효과의 근본 원인은 고려되거나 측정되지 않은 변수 때문일 수 있다.[29]

타당성을 구축하기 위한 위협에 대한 심층적인 탐구가 트로힘에 제시되어 있다.[30]

참고 항목

참조

  1. ^ Kelley, Truman Lee (1927). Interpretation of educational measurements. New York: World Book.
  2. ^ Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.
  3. ^ a b c d e f Cronbach, L. J.; Meehl, P.E. (1955). "Construct Validity in Psychological Tests". Psychological Bulletin. 52 (4): 281–302. doi:10.1037/h0040957. hdl:11299/184279. PMID 13245896.
  4. ^ a b Political DF Beck CT(2012). 간호 연구: 간호 실무에 대한 증거 생성 및 평가, 9차 개정판 미국 필라델피아: Wolters Klower Health, 리핀콧 윌리엄스 & 윌킨스
  5. ^ Messick, S. (1995). "Validity of psychological assessment: Validation of inferences from persons' responses and performances as scientific inquiry into score meaning". American Psychologist. 50 (9): 741–749. doi:10.1037/0003-066x.50.9.741.
  6. ^ Schotte, C. K. W.; Maes, M.; Cluydts, R.; De Doncker, D.; Cosyns, P. (1997). "Construct validity of the Beck Depression Inventory in a depressive population". Journal of Affective Disorders. 46 (2): 115–125. doi:10.1016/s0165-0327(97)00094-3.
  7. ^ Guion, R. M. (1980). "On trinitarian doctrines of validity". Professional Psychology. 11 (3): 385–398. doi:10.1037/0735-7028.11.3.385.
  8. ^ Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.
  9. ^ Messick, Samuel (1998). "Test validity: A matter of consequence". Social Indicators Research. 45 (1–3): 35–44. doi:10.1023/a:1006964925094.
  10. ^ Borsboom, D, Mellenbergh, G. J, & van Heerden, J. (2004). 유효성의 개념. 심리학 리뷰, 111(4), 1061–1071. https://doi.org/10.1037/0033-295X.111.4.1061
  11. ^ Pennington, Donald (2003). Essential Personality. Arnold. ISBN 978-0-340-76118-2.
  12. ^ Wieland, A, Durach, C.F., Kembro, J. & Treiblmaer, H. (2017), 규모 정화에 대한 통계 및 판단 기준, 공급망 관리, 22권, 4, https://doi.org/10.1108/SCM-07-2016-0230
  13. ^ a b Loevinger J (1957). "Objective Tests As Instruments Of Psychological Theory: Monograph Supplement 9". Psychological Reports. 3 (3): 635–694. doi:10.2466/pr0.1957.3.3.635.
  14. ^ Kane, M. T. (2006). "Validation". Educational Measurement. 4: 17–64.
  15. ^ Messick, S. (1989). "Validity.". In R. L. Linn (ed.). Educational Measurement (3rd ed.). New York: American Council on Education/Macmillan. pp. 13–103.
  16. ^ Messick, S. (1995). "Standards of validity and the validity of standards in performance assessment". Educational Measurement: Issues and Practice. 14 (4): 5–8. doi:10.1111/j.1745-3992.1995.tb00881.x.
  17. ^ a b c Campbell D. T. (1959). "Convergent and discriminant validation by the multitrait-multimethod matrix". Psychological Bulletin. 56 (2): 81–105. doi:10.1037/h0046016.
  18. ^ Hammond, K. R., Hamm, & Grassia, J. (1986년). 멀티트래이트 멀티모드 매트릭스와 대표적인 실험 설계(No. CRJP-255A)를 조합하여 조건에 걸쳐 일반화. 콜로라도 대학교 Boulder Center의 판단과 정책에 관한 연구.
  19. ^ Westen Drew; Rosenthal Robert (2003). "Quantifying construct validity: Two simple measures". Journal of Personality and Social Psychology. 84 (3): 608–618. doi:10.1037/0022-3514.84.3.608.
  20. ^ 피터, J. P. (1981년). 구성 타당성: 기본 문제 및 마케팅 관행에 대한 검토. 마케팅 리서치 저널 133-145
  21. ^ Dimitrov D. M.; Rumrill Jr P. D. (2003). "Pretest-posttest designs and measurement of change". Work: A Journal of Prevention, Assessment and Rehabilitation. 20 (2): 159–165.
  22. ^ 엥글, R. W., 케인, M. J., & Tuholski, S. W. (1999년) 작업 메모리 용량과 제어된 주의력, 일반적인 유체 지능, 전두엽 피질의 기능에 대한 개별적인 차이. A. 미야케, & P. 샤 (Eds)에서는, 작업 기억의 모델들 (pp. 102-134)이 있다. 케임브리지: 케임브리지 대학 출판부.
  23. ^ Ackerman P. L.; Beier M. E.; Boyle M. O. (2002). "Individual differences in working memory within a nomological network of cognitive and perceptual speed abilities". Journal of Experimental Psychology: General. 131 (4): 567–589. doi:10.1037/0096-3445.131.4.567.
  24. ^ Cook T. D.; Campbell D. T. (1979). Quasi-experimentation. Boston: Houghton Mifflin.
  25. ^ Edgington, E. S. (1974). "A new tabulation of statistical procedures used in APA journals". American Psychologist. 29: 61. doi:10.1037/h0035846.
  26. ^ 맥크로스키, J. C., 리치몬드, V. P. & McCroskey, L. L. (2006) 강의실 내 커뮤니케이션 소개: 교습과 훈련에서 의사소통의 역할. 보스턴: 앨린 & 베이컨
  27. ^ 굴드, S. J. (1996년) 인간 제2판의 미스매치. 뉴욕: W. W. Norton & Company.
  28. ^ MacKenzie S. B. (2003). "The dangers of poor construct conceptualization". Journal of the Academy of Marketing Science. 31 (3): 323–326. CiteSeerX 10.1.1.417.7311. doi:10.1177/0092070303031003011.
  29. ^ White D.; Hultquist R. A. (1965). "Construction of confounding plans for mixed factorial designs". The Annals of Mathematical Statistics. 36 (4): 1256–1271. doi:10.1214/aoms/1177699997.
  30. ^ 유효성 생성에 대한 위협, 트로침, 윌리엄 M. 연구 방법 지식 기반, 제2판.

외부 링크