쇠렌센-다이스 계수

Sørensen–Dice coefficient

쇠렌센-다이스 계수(다른 이름은 아래 참조)는 두 표본의 유사성을 측정하는 데 사용되는 통계량이다.1948년과 1945년에 각각 발표한 식물학자 토르발트 쇠렌센[1] 레이몬드 [2]다이스에 의해 독립적으로 개발되었다.

이름.

지수는 특히 쇠렌센-다이스 지수,[3] 쇠렌센 지수, 다이스 계수 등 여러 다른 이름으로 알려져 있다.다른 변형으로는 Dice 유사도 계수(DSC)와 같은 "유사도 계수" 또는 "지수"가 있습니다.쇠렌센의 일반적인 대체 철자는 소렌슨, 소렌슨, 쇠렌슨이며 -sen으로 끝나는 세 가지 모두 볼 수 있다.

기타 이름은 다음과 같습니다.

공식

쇠렌센의 원래 공식은 이산 데이터에 적용하기 위한 것이었다.X와 Y의 2종류가 주어지면 다음과 같이 정의됩니다.

여기서 X와 Y는 두 세트의 기수이다(즉, 각 세트의 요소 수).쇠렌센 지수는 두 집합에 공통되는 요소의 수를 각 집합의 요소 수의 합으로 나눈 값의 두 배와 같다.

부울 데이터에 적용할 경우 True Positive(TP; 참 포지티브), False Positive(FP; 거짓 포지티브) 및 FN(거짓 네거티브)의 정의를 사용하여 다음과 같이 쓸 수 있습니다.

FP입니다

이는 분자와 분모에서 모두 한 번만 참 양수를 세는 자카드 지수와는 다릅니다.DSC는 유사도의 지수이며 범위는 0과 [9]1입니다.이것은 세트에 대한 유사성 측정으로 볼 수 있습니다.

Jaccard 인덱스와 마찬가지로 세트 연산은 바이너리 벡터 a b에 대한 벡터 연산의 관점에서 표현될 수 있습니다.

이는 이진 벡터에 대해 동일한 결과를 제공하며 일반적인 측면에서 벡터에 대한 보다 일반적인 유사성 메트릭을 제공합니다.

정보 검색에서 사용되는 키워드 집합 X 및 Y의 경우,[10] 계수는 기수의 합계에 걸쳐 공유 정보(교차)의 2배로 정의할 수 있습니다.

문자열 유사도 측정으로 취할 경우 다음과 [11]같이 빅램을 사용하여 xy의 두 문자열에 대해 계수를 계산할 수 있습니다.

여기t n은 양쪽 문자열에 있는 큰 글자 수, nx 문자열 x에 있는 큰 글자 y, n은 문자열 y에 있는 큰 글자 수입니다.예를 들어, 다음 사이의 유사도를 계산하려면:

night
nacht

각 단어에서 빅램 세트를 찾을 수 있습니다.

{ni,ig,gh,ht}
{na,ac,ch,ht}

각 세트에는 4개의 요소가 있으며, 이들 2개의 세트의 교차점에는 1개의 요소만 있습니다.ht.

이 숫자를 공식에 삽입하면 s = (2 · 1) / (4 + 4) = 0.25로 계산됩니다.

연속 주사위 계수[12]

이산적인 지상 실측값 및 연속 측정의 경우 다음 공식을 사용할 수 있다.

여기서 c는 다음과 같이 계산할 수 있습니다.

a δ ( b ) { \ _ { }\{ { ( _ { i } =}이면, A와 B 사이에 오버랩이 없음을 의미하며, c는 임의로 1로 설정됩니다.

Jaccard와의 차이점

이 계수는 자카드 지수와 형태가 크게 다르지 않다.실제로 둘 다 쇠렌센-다이스 S(\ S에 대한 값이 주어지면 JS /(-S) (\ J) 하여 값 J(\displaystyle J 계산할 수 있다는 점에서 동등하다.

쇠렌센-다이스 계수는 삼각 부등식을 만족시키지 못하기 때문에 자카드 [4]지수의 반미터 버전으로 간주할 수 있다.

함수는 Jaccard처럼 0과 1 사이입니다.Jaccard와 달리 해당 차분 함수는

는 삼각형 [4]부등식을 만족시키지 못하기 때문에 적절한 거리 측정기준이 아닙니다.이것의 가장 간단한 반례는 첫 번째 두 개의 거리는 1이고 세 번째와 다른 각각의 차이는 1/3인 세 개의 집합 {a}, {b} 및 {a,b}에 의해 제시된다.삼각 부등식을 만족시키려면, 이 세 변 중 어떤 두 의 합이 나머지 변보다 크거나 같아야 합니다.그러나 {a}과(와) {a,b} 사이의 거리에 {b}과(와) {a,b} 사이의 거리는 2/3이므로 {a}과(와) {b} 사이의 거리인 1보다 작습니다.

적용들

쇠렌센-다이스 계수는 생태 공동체 데이터에 유용하다(예: Looman & Campbell, 1960[13]).그 사용에 대한 정당성은 이론적인 것이 아니라 경험적인 것이다(두 퍼지[14] 집합의 교점으로 이론적으로 정당화될 수 있다).유클리드 거리에 비해 쇠렌센 거리는 더 이질적인 데이터 집합에서 민감도를 유지하고 [15]특이치에 더 적은 가중치를 부여한다.최근 Dice 점수(및 그 변형, 예를 들어 로그를 취하는 logDice)는 주어진 [16]두 단어의 어휘 연관 점수를 측정하기 위해 컴퓨터 사전 편찬에서 인기를 끌고 있다.logDice는 또한 게놈 및 메타게놈[17] 거리 추정을 위한 Mash Distance의 일부로 사용됩니다. 마지막으로, Dice는 영상 분할, 특히 의료 애플리케이션에서 [8]알고리즘 출력을 참조 마스크와 비교하는 데 사용됩니다.

풍성 버전

이 표현은 종의 존재/존재 대신 풍부함으로 쉽게 확장된다.이 정량 버전은 여러 이름으로 알려져 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Sørensen, T. (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Kongelige Danske Videnskabernes Selskab. 5 (4): 1–34.
  2. ^ Dice, Lee R. (1945). "Measures of the Amount of Ecologic Association Between Species". Ecology. 26 (3): 297–302. doi:10.2307/1932409. JSTOR 1932409.
  3. ^ a b Carass, A.; Roy, S.; Gherman, A.; Reinhold, J.C.; Jesson, A.; et al. (2020). "Evaluating White Matter Lesion Segmentations with Refined Sørensen-Dice Analysis". Scientific Reports. 10 (1): 8242. Bibcode:2020NatSR..10.8242C. doi:10.1038/s41598-020-64803-w. ISSN 2045-2322. PMC 7237671. PMID 32427874.
  4. ^ a b c d e f g h i j 갤러거, E.D., 1999년보스턴 매사추세츠 대학, COMPAH 문서
  5. ^ Nei, M.; Li, W.H. (1979). "Mathematical model for studying genetic variation in terms of restriction endonucleases". PNAS. 76 (10): 5269–5273. Bibcode:1979PNAS...76.5269N. doi:10.1073/pnas.76.10.5269. PMC 413122. PMID 291943.
  6. ^ Prescott, J.W.; Pennell, M.; Best, T.M.; Swanson, M.S.; Haq, F.; Jackson, R.; Gurcan, M.N. (2009). "An automated method to segment the femur for osteoarthritis research". 2009 Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE. pp. 6364–6367. doi:10.1109/iembs.2009.5333257. PMC 2826829.
  7. ^ Swanson, M.S.; Prescott, J.W.; Best, T.M.; Powell, K.; Jackson, R.D.; Haq, F.; Gurcan, M.N. (2010). "Semi-automated segmentation to assess the lateral meniscus in normal and osteoarthritic knees". Osteoarthritis and Cartilage. 18 (3): 344–353. doi:10.1016/j.joca.2009.10.004. ISSN 1063-4584. PMC 2826568. PMID 19857510.
  8. ^ a b Zijdenbos, A.P.; Dawant, B.M.; Margolin, R.A.; Palmer, A.C. (1994). "Morphometric analysis of white matter lesions in MR images: method and validation". IEEE Transactions on Medical Imaging. 13 (4): 716–724. doi:10.1109/42.363096. ISSN 0278-0062. PMID 18218550.
  9. ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf[베어 URL PDF]
  10. ^ van Rijsbergen, Cornelis Joost (1979). Information Retrieval. London: Butterworths. ISBN 3-642-12274-4.
  11. ^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). "Cognates Can Improve Statistical Translation Models" (PDF). Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. pp. 46–48.
  12. ^ Shamir, Reuben R.; Duchin, Yuval; Kim, Jinyoung; Sapiro, Guillermo; Harel, Noam (2018-04-25). "Continuous Dice Coefficient: a Method for Evaluating Probabilistic Segmentations": 306977. doi:10.1101/306977. S2CID 90993940. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  13. ^ Looman, J.; Campbell, J.B. (1960). "Adaptation of Sorensen's K (1948) for estimating unit affinities in prairie vegetation". Ecology. 41 (3): 409–416. doi:10.2307/1933315. JSTOR 1933315.
  14. ^ Roberts, D.W. (1986). "Ordination on the basis of fuzzy set theory". Vegetatio. 66 (3): 123–131. doi:10.1007/BF00039905. S2CID 12573576.
  15. ^ McCune, Bruce & Grace, James(2002) 생태공동체 분석.Mjm 소프트웨어 설계, ISBN 0-9721290-0-6.
  16. ^ Rychl,, P. (2008) 사전 편찬자 친화적인 협회 점수.제2회 슬라브어 자연언어 처리 RASLAN 2008의 진보에 관한 워크숍의 진행 상황: 6~9
  17. ^ 온도브, 브라이언 D 등"Mash: MinHash를 이용한 빠른 게놈과 메타제놈 거리 추정." 게놈 생물학 17.1 (2016) : 1~14.
  18. ^ Bray, J. Roger; Curtis, J. T. (1957). "An Ordination of the Upland Forest Communities of Southern Wisconsin". Ecological Monographs. 27 (4): 326–349. doi:10.2307/1942268. JSTOR 1942268.
  19. ^ Ayappa, Indu; Norman, Robert G (2000). "Non-Invasive Detection of Respiratory Effort-Related Arousals (RERAs) by a Nasal Cannula/Pressure Transducer System". Sleep. 23 (6): 763–771. doi:10.1093/sleep/23.6.763. PMID 11007443.
  20. ^ John Uebersax. "Raw Agreement Indices".

외부 링크