젠크스 자연 파괴 최적화

Jenks natural breaks optimization

Jenks 자연파괴분류법이라고도 하는 Jenks 최적화법은 다른 등급으로 최적의 값 배열을 결정하기 위해 고안된 데이터 군집화 방법이다. 이는 각 클래스의 평균 편차를 최소화하는 동시에 각 클래스의 평균 편차를 다른 클래스의 평균 편차를 최대화하는 방법으로 이루어진다. 즉, 이 방법은 클래스 내의 분산을 줄이고 클래스 간의 분산을 최대화하려고 한다.[1][2]

젠크스 최적화 방법은 오쓰의 방법피셔의 판별 분석과 직접적인 관련이 있다.

역사

조지 프레더릭 젱스

조지 프레데릭 젱스는 20세기 미국의 지도제작자였다. 1947년 시러큐스 대학에서 농업 지리학 박사 학위를 받은 젠크스는 타임포춘지의 지도제작자인 리처드 해리슨의 지도 아래 그의 경력을 시작했다.[3] 1949년 캔자스 대학의 교수진에 입사하여 지도제작 프로그램을 구축하기 시작했다. 37년간 KU에서 근무한 동안, Jenks는 카토그래피 프로그램을 이 분야의 대학원 교육으로 유명한 세 가지 프로그램 중 하나로 개발했다. 다른 프로그램들은 위스콘신 대학교워싱턴 대학교였다. 그의 시간의 상당 부분은 개선된 지도학 훈련 기법과 프로그램을 개발하고 홍보하는데 사용되었다. 그는 또한 3차원 지도, 눈의 움직임 연구, 주제 지도 통신, 정지 통계학을 연구하는 데 상당한 시간을 보냈다.[2][3][4]

배경과 발전

젠크스는 직업별 지도 제작자였다. 통계와 함께한 그의 작품은 관람자를 위해 초코플 지도를 시각적으로 더 정확하게 만들고 싶은 욕구에서 성장했다. 그는 자신의 논문 '통계적 매핑의 데이터 모델 개념'에서 3차원 모델 지도 제작자로 데이터를 시각화함으로써 "초음파 지도를 작성하기 위한 체계적이고 합리적인 방법"[1]을 고안할 수 있다고 주장한다. Jenks는 데이터를 일반화하기 위해 평균 이외의 요소를 사용해야 하는 필요성을 설명하기 위해 "오차의 빈칸"의 비유를 사용했다. Jenks가 데이터 클래스 간의 차이를 시각화할 수 있도록 돕기 위해 3차원 모델이 만들어졌다. 그의 목표는 가능한 한 적은 평면을 사용하여 데이터를 일반화하고 일정한 "오차의 사각지대"를 유지하는 것이었다.

방법 설명

그 방법은 반복적인 과정을 필요로 한다. 즉, 어떤 휴식 시간이 동급 내 분산이 가장 작은지 결정하기 위해 데이터 집합의 서로 다른 휴식 시간을 사용하여 계산을 반복해야 한다. 순서가 정해진 데이터를 임의로 어떤 식으로든 세분류로 나누면서 프로세스가 시작된다. 반복해야 할 두 가지 단계가 있다.

  1. 클래스 평균(SDCM)에서 편차의 제곱 합계를 계산한다.
  2. 한 클래스에서 다른 클래스로 하나 이상의 데이터 지점을 이동하여 데이터를 클래스로 나누는 새로운 방법을 선택하십시오.

그런 다음 새로운 클래스 편차를 계산하고, 클래스 내 편차의 합계가 최소값에 도달할 때까지 프로세스를 반복한다.[1][5]

또는 모든 브레이크 조합을 검사하고, 각 조합에 대해 SDCM을 계산하며, 선택한 최저 SDCM과의 조합을 검사할 수 있다. 모든 브레이크 조합을 검사하므로 SDCM이 가장 낮은 조합을 찾을 수 있다.

마지막으로 전체 데이터 집합(SDAM)의 평균으로부터 편차 제곱의 합과 분산 재화(GVF)를 계산할 수 있다. GVF는 (SDAM - SDCM)/SDAM으로 정의된다. GVF의 범위는 0(최악의 적합)부터 1(완벽한 적합)까지입니다.

카토그래피에 사용

Jenks가 이 방법을 개발하는 목표는 데이터의 공간 속성의 표현 측면에서 절대적으로 정확한 지도를 만드는 것이었다. 이 과정을 따라가면서, Jenks는 "오차의 블랭킷"이 지도된 표면에 균일하게 분포될 수 있다고 주장한다. 그는 7개 미만의 비교적 적은 데이터 클래스를 사용할 목적으로 이것을 개발했는데, 그것이 초인종 지도에 단색 음영을 사용할 때의 한계였기 때문이다.[1]

Jenks 분류를 사용하는 초인종 지도.

젠크스 분류법은 여러 가지 이용 가능한 분류 방법 중 하나로 주제 지도, 특히 초르졸프 지도에서 많이 사용된다. 초로플레스 맵을 만들 때 데이터 값에 클러스터가 있으면 이를 식별하기 때문에 젠크스 분류법이 유리할 수 있다. 실제로 현재 버전의 에스리의 아크지스 소프트웨어에서는 젠크스가 기본 분류법이다. 그러나 분산이 적은 데이터에는 Jenks 분류가 권장되지 않는다. 데이터에서 Jenks 자연적 단절은 반복 프로세스에 의해 식별된 데이터의 "자연적 단절"에 기초한 지도 데이터의 보다 의미 있는 시각화를 제공하는 데 사용된다.

대체 방법

다른 데이터 분류 방법으로는 머리/꼬리 브레이크, 자연 브레이크(Jenks Optimization 미포함), 등간격, 퀀텀, 표준 편차가 있다.

참고 항목

  • k-평균 군집화, 다변량 데이터에 대한 일반화(Jenks natural breaks 최적화는 1차원 k-평균으로[6] 보인다).

참조

  1. ^ Jump up to: a b c d 젠크스, 조지 F. 1967 Cartography 7 국제 연감 "통계적 매핑에서의 데이터 모델 개념": 186–190.
  2. ^ Jump up to: a b 맥마스터, 로버트 "기억에서: 조지 F. 젠크스(1916–1996)." 지도 및 지리 정보 과학. 24(1) 페이지 56-59.
  3. ^ Jump up to: a b 맥마스터, 로버트와 맥마스터, 수잔나 2002. "20세기 미국 학술 지도학", 지도학 및 지리 정보 과학. 29(3) 페이지 312-315.
  4. ^ CSUN Cartography Specialty Group, Winter 1997 뉴스레터 2010-06-07 Wayback Machine보관
  5. ^ ESRI FAQ, Jenks Optimization method Archived 2007-11-16 Wayback Machine보관된 Jenks Optimization method는 무엇인가?
  6. ^ "Chapter 9".

외부 링크