다양성 지수
Diversity index다양성 지수는 데이터 집합(공동체)에 얼마나 많은 다양한 유형(종 등)이 있는지 반영하는 정량적 척도로, 풍부함, 다양성 또는 균등성 등 그러한 유형 사이에 분포된 개인들 간의 계통생성 관계를 동시에 고려할 수 있다.[1] 이러한 지수는 다양한 측면(부유성, 균등성, 지배성)에서의 생물 다양성의 통계적 표현이다.
유효 종수 또는 힐 수
생태학에서 다양성 지수를 사용할 때 관심의 종류는 대개 종이지만, 제네랄, 가족, 기능형 또는 하플로타입과 같은 다른 범주가 될 수도 있다. 관심의 실체는 대개 개별 식물이나 동물이며, 풍요의 척도는 예를 들어 개인 수, 바이오매스 또는 커버리지가 될 수 있다. 인구통계학에서 관심의 실체는 사람이 될 수 있고 관심의 유형은 다양한 인구통계학적 집단이 될 수 있다. 정보과학에서 실체는 문자일 수 있고 알파벳의 다른 문자의 유형일 수 있다. 가장 일반적으로 사용되는 다양성 지수는 유효 유형의 수('진정한 다양성'이라고도 함)에 대한 단순한 변환이지만, 각 다양성 지수는 일부 실제 현상(그러나 각 다양성 지수마다 다른 것)에 해당하는 척도로 자체 해석될 수도 있다.[2][3][4][5]
많은 지수는 주제 또는 실체 간의 범주형 다양성만을 설명한다. 그러나 그러한 지표는 범주적 다양성과 질적 다양성을 모두 계산할 때에만 발생하는 대상이나 실체 간에 보유할 수 있는 총 변동(다양성)은 고려하지 않는다.
참된 다양성 또는 유효 유형의 수는 관심 데이터 집합에서 관찰된 유형(모든 유형이 동등하게 풍부하지 않을 수 있는 경우)의 평균 비례적 풍부함에 필요한 균등하게 풍부한 유형의 수를 의미한다. 데이터 집합의 진정한 다양성은 먼저 데이터 집합의 유형별 비례적 분포에 대한 가중 일반화 평균 M을q−1 취한 다음, 이 값의 역수를 취함으로써 계산된다. 방정식은 다음과 같다.[4][5]
분모 M은q−1 q-1 지수를 갖는 가중 일반화 평균으로 계산된 데이터 집합 내 유형의 평균 비례적 풍요도와 같다. 방정식에서 R은 리치(데이터셋의 총 유형 수)이며, ih 유형의 비례적 리큐리티는i p이다. 비례적 여유 그 자체는 명목상의 가중치로 사용된다. 숫자는 힐 번호 of order q 또는 유효 수종의 수라고 불린다.[6]
q = 1이면 위의 방정식이 정의되지 않는다. 단, q가 1에 가까워짐에 따른 수학적 한계는 잘 정의되어 있으며, 해당 다양성은 다음과 같은 방정식으로 계산된다.
이는 자연 로그로 계산된 섀넌 엔트로피의 지수(위 참조)이다. 다른 도메인에서 이 통계는 당혹스러움으로도 알려져 있다.
다양성의 일반적인 방정식은 종종 그 형태로[2][3] 쓰여진다.
그리고 괄호 안의 용어를 기본합이라고 한다. 일부 인기 있는 다양성 지수는 q의 다른 값으로 계산된 기본 합계에 해당한다.[3]
희귀종 대 풍부한 종에 대한 다양성 가치의 민감도
q의 값은 흔히 다양성의 순서라고 한다. 희귀종 대 풍부한 종에 대한 참다양성의 민감도를 종별 비례부존의 가중평균을 산출하는 방법을 수정하여 정의한다. 매개변수 q의 일부 값에서 일반화 평균 M의q−1 값은 친숙한 종류의 가중 평균을 특별한 경우로 가정한다. 특히.
- q = 0은 가중 고조파 평균에 해당한다.
- q = 1 가중 기하 평균에 대한 값
- q = 2 가중 산술 평균에 대한 값.
- q가 무한대에 접근함에 따라 지수 q-1을 갖는 가중 일반화 평균은 최대 p 값에i 접근하며, 이는 데이터 집합에서 가장 풍부한 종의 비례적 풍부함이다.
일반적으로 q의 값을 증가시키면 가장 풍부한 종에 주어지는 유효중량이 증가한다. 이는 q가 증가함에 따라 더 큰 Mq−1 값과 더 작은 진정한 다양성(qD) 값을 얻게 된다.
q = 1일 때 p 값의i 가중 기하 평균이 사용되며, 각 종은 비례적 풍요로 정확히 가중된다(가중 기하 평균에서 가중치는 지수임). q > 1일 때는 풍부한 종에게 주어지는 무게가 과장되고, q < 1일 때는 희귀종에게 주어지는 무게가 과장된다. q = 0일 때, 종 가중치는 종 비례 분포를 정확히 취소하여, 모든i 종이 동등하게 풍부하지 않더라도 p 값의 가중 평균은 1 / R과 같다. q = 0에서 유효종수 D는 따라서 실제 종수 R의 수와 같다. 다양성의 맥락에서 q는 일반적으로 음이 아닌 값으로 제한된다. 이것은 q의 부정적인 값이 희귀한 종들에게 풍부한 종보다 훨씬 더 많은 무게를 주어 D가 R을 초과할 것이기 때문이다.[4][5]
풍요로움
Richness R은 관심 데이터 집합이 얼마나 많은 다른 유형을 포함하는지 단순히 수량화한다. 예를 들어, 데이터 집합의 종 풍부성(일반적으로 주목되는 S)은 해당 종 목록에 있는 종의 수입니다. 풍부함은 단순한 척도여서, 생태학에서 인기 있는 다양성 지수로서, 관심 있는 데이터 집합에 풍부한 데이터를 이용할 수 없는 경우가 많다. 풍요로움은 부류의 풍요를 고려하지 않기 때문에 풍요를 고려하는 다양성과 같은 것이 아니기 때문이다. 그러나 실제 다양성을 q = 0으로 계산할 경우, 유효 유형 수(0D)는 실제 유형 수(R)와 동일하다.[3][5]
섀넌 지수
섀넌 지수는 생태학 문헌에서 인기 있는 다양성 지수였으며, 여기서 섀넌의 다양성 지수인 섀넌–으로도 알려져 있다.Wiener 지수, 그리고 (erronely) Shannon-Weaver 지수.[7] 이 조치는 당초 1948년 클로드 섀넌이 제안했던 것으로, 텍스트 문자열의 엔트로피(헨체 섀넌 엔트로피, 섀넌 정보 콘텐츠와 관련)를 정량화하기 위해서였다.[8] 글자가 많아질수록 관심 문자열에 비례하는 부재가 가까워질수록 다음 문자열이 어떤 문자일지를 정확하게 예측하기 어렵다는 생각이다. 섀넌 엔트로피는 이 예측과 관련된 불확실성(엔트로피 또는 놀라움의 정도)을 정량화한다. 가장 흔히 다음과 같이 계산된다.
여기서 p는i 관심 문자열에 있는 eth 유형의 문자에 속하는 문자의 비율이다. 생태학에서 p는i 종종 관심의 데이터 집합에서 ih 종에 속하는 개인들의 비율이다. 그런 다음 섀넌 엔트로피는 데이터 집합에서 무작위로 추출되는 개인의 종 정체성을 예측하는 불확실성을 계량화한다.
방정식은 여기에 자연 로그로 작성되어 있지만, 섀넌 엔트로피를 계산할 때 사용하는 로그의 밑부분은 자유롭게 선택할 수 있다. 섀넌 본인도 로그 베이스 2, 10, e에 대해 논의했고, 이후 이것들은 섀넌 엔트로피를 사용하는 어플리케이션에서 가장 인기 있는 베이스가 되었다. 각 로그 베이스는 각각 다른 측정 단위에 해당하는데, 이를 베이스 2, 10, e에 대해 각각 이진수(비트), 십진수(십진수), 자연수(나트)라고 한다. 원래 다른 로그 베이스로 계산된 섀넌 엔트로피 값을 비교하려면 동일한 로그 베이스로 변환해야 한다. 베이스 a에서 베이스 b로 변경하면 로그에b 의한 곱셈을 통해 얻는다.[8]
섀넌 지수는 유형의 비례적 분포에 대한 가중 기하 평균과 관련이 있다. 구체적으로, 이는 q = 1:[4]로 계산된 진정한 다양성의 로그와 같다.
이것은 또한 쓰여질 수 있다.
어느 것이 같은가.
pi 값의 합은 정의상 통일과 같기 때문에 분모는 p 값의i 가중 기하 평균과 같으며, p 값i 자체는 가중치로 사용된다(식에서는 예외). 따라서 괄호 안의 용어는 진정한 다양성 D와 같고, H'는 ln(1D)과 같다.[2][4][5]
관심 데이터 집합의 모든 유형이 동일하게 공통적인 경우, 모든 pi 값은 1 / R이며, 따라서 섀넌 지수는 ln(R) 값을 취한다. 부류가 불균등할수록 pi 값의 가중 기하 평균이 크고 그에 상응하는 샤논 엔트로피가 작다. 실질적으로 모든 풍요가 한 종류에 집중되어 있고, 다른 종류는 매우 드물다면(그 종류가 많더라도), 섀넌 엔트로피는 0에 접근한다. 데이터 집합에 한 가지 유형만 있는 경우 섀넌 엔트로피는 정확히 0(다음 무작위로 선택한 엔터티의 유형을 예측하는 데 불확실성은 없다)과 동일하다.
레니 엔트로피
레니 엔트로피는 샤논 엔트로피를 통일성보다 q의 다른 값으로 일반화한 것이다. 다음과 같이 표현할 수 있다.
어느 것이 같은가.
즉, q의 어떤 값에 기초하여 진정한 다양성의 로그(logarithm)를 취하면 q의 동일한 값에 해당하는 레니 엔트로피가 나온다는 뜻이다.
심슨 지수
심슨지수는 1949년 에드워드 H. 심슨에 의해 개인을 유형별로 분류했을 때의 농도 정도를 측정하기 위해 도입되었다.[9] 같은 지수가 오리스 C에 의해 재발견되었다. 1950년 에르핀달.[10] 이 지수의 제곱근은 경제학자 앨버트 오에 의해 1945년에 이미 도입되었다. 허쉬먼.[11] 그 결과, 같은 척도는 보통 생태학에서는 심슨 지수, 경제학에서는 헤르핀달 지수 또는 헤르핀달-히르슈만 지수(HHHI)로 알려져 있다.
이 측정치는 관심 데이터 집합에서 무작위로 추출한 두 개의 실체가 동일한 유형을 나타낼 확률과 동일하다.[9] 이는 다음과 같다.
- = i= 1 i
여기서 R은 리치(데이터셋의 총 유형 수)이다. 이 방정식은 또한 관심 유형의 비례 연산 p의i 가중 산술 평균과 같으며, 비례 연산 자체는 가중치로 사용된다.[2] 비례적 함수는 정의상 0과 통일 사이의 값에 제약을 받지만 가중 산술 평균이므로 모든 유형이 동등하게 풍부할 때 도달하는 reached 1/R이다.
λ 계산에 사용된 방정식과 참 다양성 계산에 사용된 방정식을 비교함으로써 1/4은 D, 즉 q = 2로 계산된 참 다양성과 같다는 것을 알 수 있다. 따라서 원래의 심슨의 지수는 그에 상응하는 기본 총액과 같다.[3]
λ을 관심 데이터 집합에서 무작위로 가져간 두 개의 실체가 동일한 유형을 나타낼 확률로 해석하면 두 번째 실체를 취하기 전에 첫 번째 실체가 데이터 집합으로 대체된다고 가정한다. 데이터 집합이 매우 크면 교체 없이 표본 추출하면 거의 동일한 결과를 얻을 수 있지만 작은 데이터 집합에서는 차이가 클 수 있다. 데이터 집합이 작고 교체 없이 샘플링이 이루어진다고 가정할 경우, 두 랜덤 드로잉에서 동일한 유형을 얻을 확률은 다음과 같다.
여기서 n은i ih 유형에 속하는 엔티티 수이고 N은 데이터 집합의 총 엔티티 수입니다.[9] 심슨 지수의 이러한 형태는 미생물학에서 헌터-가스턴 지수로도 알려져 있다.[12]
타입의 평균 비례적 풍요는 타입의 수가 감소하고 가장 풍부한 타입의 풍요가 증가함에 따라 증가하기 때문에, λ은 다양성이 높은 데이터 집합에서 작은 값을 얻고, 다양성이 낮은 데이터 집합에서 큰 값을 얻는다. 이는 다양성 지수에 대한 직관에 반하는 행동이라 다양성 증가에 따라 증가하는 λ의 변형이 대신 사용되어 온 경우가 많다. 그러한 지수 중 가장 인기 있는 지수는 역심슨 지수(1/1), 지니-심슨 지수(1 - -)[2][3]이다. 이 두 가지 모두 생태문학에서는 심슨지수라고도 불렸기 때문에 서로 다른 지수를 마치 같은 것처럼 우연히 비교하지 않도록 주의가 필요하다.
역심슨지수
역 심슨 지수는 다음과 같다.
이는 순서의 진정한 다양성, 즉 가중 산술 평균이 관심 데이터 집합에서 유형의 평균 비례적 풍요도를 정량화하기 위해 사용될 때 얻어지는 유효 유형의 수와 같다.
이 지수는 유효 당사자 수의 척도로도 사용된다.
지니-심슨 지수
원래의 심슨 지수 λ은 (대체로) 관심 데이터 집합에서 무작위로 추출한 두 실체가 동일한 유형을 나타낼 확률과 같다. 따라서 그것의 변환 1 - λ, 따라서 두 실체가 서로 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서도 PIE(Interspecific eaching, PIE)[13]와 지니-심슨 지수(Gini-Simpson 지수)의 확률로 알려져 있다.[3] 그것은 순서 2의 진정한 다양성의 변화로 표현될 수 있다.
'[14]블라우 지수'로도 알려진 사회학, 심리학, 경영학 등의 깁스-마틴 지수는 지니-심슨 지수(Gini-Simpson 지수)와 같은 척도다.
그 양은 또한 인구유전학에서 예상되는 이질성으로 알려져 있다.
버거-파커 지수
버거-파커[15] 지수는 데이터 집합의 최대 pi 값, 즉 가장 풍부한 유형의 비례적 풍부함과 같다. 이는 q가 무한대에 근접할 때 p 값의i 가중 일반화 평균에 해당하며, 따라서 order infinity의 ∞참 다양성(1/D)의 역순이다.
참고 항목
참조
- ^ Tucker, Caroline M.; Cadotte, Marc W.; Carvalho, Silvia B.; Davies, T. Jonathan; Ferrier, Simon; Fritz, Susanne A.; Grenyer, Rich; Helmus, Matthew R.; Jin, Lanna S. (May 2017). "A guide to phylogenetic metrics for conservation, community ecology and macroecology: A guide to phylogenetic metrics for ecology". Biological Reviews. 92 (2): 698–715. doi:10.1111/brv.12252. PMC 5096690. PMID 26785932.
- ^ Jump up to: a b c d e Hill, M. O. (1973). "Diversity and evenness: a unifying notation and its consequences". Ecology. 54 (2): 427–432. doi:10.2307/1934352. JSTOR 1934352.
- ^ Jump up to: a b c d e f g Jost, L (2006). "Entropy and diversity". Oikos. 113 (2): 363–375. doi:10.1111/j.2006.0030-1299.14714.x.
- ^ Jump up to: a b c d e Tuomisto, H (2010). "A diversity of beta diversities: straightening up a concept gone awry. Part 1. Defining beta diversity as a function of alpha and gamma diversity". Ecography. 33: 2–22. doi:10.1111/j.1600-0587.2009.05880.x.
- ^ Jump up to: a b c d e Tuomisto, H (2010). "A consistent terminology for quantifying species diversity? Yes, it does exist". Oecologia. 164 (4): 853–860. Bibcode:2010Oecol.164..853T. doi:10.1007/s00442-010-1812-0. PMID 20978798.
- ^ Chao, Anne; Chiu, Chun-Huo; Jost, Lou (2016), "Phylogenetic Diversity Measures and Their Decomposition: A Framework Based on Hill Numbers", Biodiversity Conservation and Phylogenetic Systematics, Springer International Publishing, pp. 141–172, doi:10.1007/978-3-319-22461-9_8, ISBN 9783319224602
- ^ 스펠러버그, 이안 F, 피터 J. 페도르. (2003) Claude Shannon(1916–2001)에 대한 찬사와 종족 다양성 및 'Shannon–-'의 좀 더 엄격한 사용에 대한 탄원.비너 인덱스. 지구생태학 및 생물지리학 12.3, 177-179.
- ^ Jump up to: a b 섀넌, C. E. (1948) 수학적 의사소통 이론. Bell System Technical Journal, 27, 379–423 및 623–656.
- ^ Jump up to: a b c Simpson, E. H. (1949). "Measurement of diversity". Nature. 163 (4148): 688. Bibcode:1949Natur.163..688S. doi:10.1038/163688a0.
- ^ Herfindahl, O. C. (1950) 미국 철강산업에 집중. 컬럼비아 대학의 미발표 박사학위 논문.
- ^ 허쉬만, A. O. (1945) 국력과 대외무역의 구조. 버클리
- ^ Hunter, PR; Gaston, MA (1988). "Numerical index of the discriminatory ability of typing systems: an application of Simpson's index of diversity". J Clin Microbiol. 26 (11): 2465–2466. doi:10.1128/JCM.26.11.2465-2466.1988. PMC 266921. PMID 3069867.
- ^ Hurlbert, S.H. (1971). "The nonconcept of species diversity: A critique and alternative parameters". Ecology. 52 (4): 577–586. doi:10.2307/1934145. JSTOR 1934145. PMID 28973811.
- ^ Gibbs, Jack P.; William T. Martin (1962). "Urbanization, technology and the division of labor". American Sociological Review. 27 (5): 667–677. doi:10.2307/2089624. JSTOR 2089624.
- ^ Berger, Wolfgang H.; Parker, Frances L. (June 1970). "Diversity of Planktonic Foraminifera in Deep-Sea Sediments". Science. 168 (3937): 1345–1347. Bibcode:1970Sci...168.1345B. doi:10.1126/science.168.3937.1345. PMID 17731043.
추가 읽기
- Colinvaux, Paul A. (1973). Introduction to Ecology. Wiley. ISBN 0-471-16498-4.
- Cover, Thomas M.; Thomas, Joy A. (1991). Elements of Information Theory. Wiley. ISBN 0-471-06259-6. 위에서 비공식적으로 설명한 코딩 절차에 대한 자세한 내용은 5장을 참조하십시오.
- Chao, A.; Shen, T-J. (2003). "Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample" (PDF). Environmental and Ecological Statistics. 10 (4): 429–443. doi:10.1023/A:1026096204727.
외부 링크
- 심슨의 다양성 지수
- 다양성 지수는 심슨의 실제 생태계에 대한 추정치의 몇 가지 예를 제시한다.