Iris flower 데이터 세트

Iris flower data set
데이터 집합의 산점도

Iris데이터 세트 또는 Fisher's Iris 데이터 세트는 영국 통계학자이자 생물학자인 Ronald Fisher가 1936년 발표한 선형 판별 [1]분석의 예로서 분류학적 문제에 다중 측정의 사용에서 도입한 다변량 데이터 세트이다.Edgar Anderson이 세 종의 [2]아이리스 꽃의 형태학적 변이를 정량화하기 위해 데이터를 수집했기 때문에 이것은 Anderson's Iris 데이터 세트라고 불리기도 한다.3종 중 2종은 가스페 반도에서 수집됐다. "모두 같은 목초지에서 채취한 것으로,[3] 같은 날 같은 기기로 같은 사람이 동시에 측정했다."

데이터 세트는 세 종의 Iris(Iris setosa, Iris virginicaIris verscolor) 각각에서 50개의 샘플로 구성됩니다. 표본에서 네 가지 특징을 측정했습니다. , 조각과 꽃잎의 길이와 너비(cm)입니다.이 네 가지 특징의 조합을 바탕으로, 피셔는 종을 서로 구별하기 위한 선형 판별 모델을 개발했습니다.

피셔의 논문은 우생학 연보에 발표되었고 골상학 [1]분야에 대한 포함된 기술의 적용에 대한 논의를 포함합니다.이러한 역사로 인해 일부에서는 오늘날 통계 기법을 가르치는 데 Iris 데이터 세트를 사용하는 것을 중단하고 논란이 적은 [4][5]대안으로 대체해야 한다고 제안하고 있습니다.

데이터 집합 k의 사용

만족스럽지 못한 k-평균 군집화(데이터를 알려진 클래스로 군집화할 수 없음) 및 ELKI를 사용하여 시각화된 실제 종
Iris 데이터 세트에[6] 대한 소위 "메트로 맵"의 예로는 Iris-virginica의 극히 일부만 Iris-versolor와 혼합되어 있습니다.다른 Iris 종의 다른 모든 샘플은 다른 노드에 속합니다.

원래 피셔의 선형 판별 분석이 적용된 예제 데이터 세트로 사용되었으며, 지원 벡터 [7]기계와 같은 기계 학습에서 많은 통계 분류 기법의 전형적인 테스트 사례가 되었다.

그러나 데이터 세트에는 분리가 분명한 클러스터가 2개만 포함되어 있기 때문에 클러스터 분석에서 이 데이터 세트를 사용하는 것은 일반적이지 않습니다.성단 중 하나는 홍채 세토사를 포함하고 있고, 다른 성단은 홍채 버진리카와 홍채 버즈컬러를 모두 포함하고 있으며, 피셔가 사용한 종 정보 없이는 분리할 수 없습니다.를 통해 데이터 마이닝에서 감독 기법과 비감독 기법의 차이를 설명할 수 있는 좋은 예가 됩니다.피셔의 선형 판별 모델은 개체 종이 알려진 경우에만 얻을 수 있습니다. 클래스 레이블과 클러스터가 반드시 [8]같지는 않습니다.

그럼에도 불구하고, Iris의 종 모두 비선형 및 분기 주성분 [9]투영에서 분리할 수 있다.데이터 세트는 노드 수 초과, 벤딩 및 스트레칭에 대한 패널티와 함께 가장 가까운 트리로 근사됩니다.그런 다음 소위 "메트로 맵"이 [6]구축됩니다.데이터 포인트는 가장 가까운 노드에 투영됩니다.각 노드에 대해 투영된 점의 원형 다이어그램을 준비한다.파이의 면적은 투영된 점의 수에 비례합니다.그림(왼쪽)을 보면 다양한 Iris 종의 검체 대부분이 서로 다른 노드에 속한다는 것을 알 수 있습니다.Iris-virginica의 극히 일부만이 Iris-verscolor(그림의 혼합 청록색 노드)와 혼합되어 있습니다.따라서 Iris의 3종(Iris setosa, Iris virginica, Iris verscolor)은 비선형 주성분 분석의 감독되지 않는 절차에 의해 분리될 수 있다.이러한 노드를 구별하려면 주 트리에서 해당 노드를 선택하는 것만으로 충분합니다.

데이터 세트

데이터 세트에는 세팔 길이, 세팔 너비, 꽃잎 길이, 꽃잎 너비 및 종의 5가지 속성으로 150개의 레코드 세트가 포함되어 있습니다.

Fisher의 홍채 데이터 집합의 스펙트럼 맵 점도
Fisher's Iris 데이터
데이터 세트 순서 세팔 길이 세팔 폭 꽃잎 길이 꽃잎 폭 종.
1 5.1 3.5 1.4 0.2 세토사
2 4.9 3.0 1.4 0.2 세토사
3 4.7 3.2 1.3 0.2 세토사
4 4.6 3.1 1.5 0.2 세토사
5 5.0 3.6 1.4 0.3 세토사
6 5.4 3.9 1.7 0.4 세토사
7 4.6 3.4 1.4 0.3 세토사
8 5.0 3.4 1.5 0.2 세토사
9 4.4 2.9 1.4 0.2 세토사
10 4.9 3.1 1.5 0.1 세토사
11 5.4 3.7 1.5 0.2 세토사
12 4.8 3.4 1.6 0.2 세토사
13 4.8 3.0 1.4 0.1 세토사
14 4.3 3.0 1.1 0.1 세토사
15 5.8 4.0 1.2 0.2 세토사
16 5.7 4.4 1.5 0.4 세토사
17 5.4 3.9 1.3 0.4 세토사
18 5.1 3.5 1.4 0.3 세토사
19 5.7 3.8 1.7 0.3 세토사
20 5.1 3.8 1.5 0.3 세토사
21 5.4 3.4 1.7 0.2 세토사
22 5.1 3.7 1.5 0.4 세토사
23 4.6 3.6 1.0 0.2 세토사
24 5.1 3.3 1.7 0.5 세토사
25 4.8 3.4 1.9 0.2 세토사
26 5.0 3.0 1.6 0.2 세토사
27 5.0 3.4 1.6 0.4 세토사
28 5.2 3.5 1.5 0.2 세토사
29 5.2 3.4 1.4 0.2 세토사
30 4.7 3.2 1.6 0.2 세토사
31 4.8 3.1 1.6 0.2 세토사
32 5.4 3.4 1.5 0.4 세토사
33 5.2 4.1 1.5 0.1 세토사
34 5.5 4.2 1.4 0.2 세토사
35 4.9 3.1 1.5 0.2 세토사
36 5.0 3.2 1.2 0.2 세토사
37 5.5 3.5 1.3 0.2 세토사
38 4.9 3.6 1.4 0.1 세토사
39 4.4 3.0 1.3 0.2 세토사
40 5.1 3.4 1.5 0.2 세토사
41 5.0 3.5 1.3 0.3 세토사
42 4.5 2.3 1.3 0.3 세토사
43 4.4 3.2 1.3 0.2 세토사
44 5.0 3.5 1.6 0.6 세토사
45 5.1 3.8 1.9 0.4 세토사
46 4.8 3.0 1.4 0.3 세토사
47 5.1 3.8 1.6 0.2 세토사
48 4.6 3.2 1.4 0.2 세토사
49 5.3 3.7 1.5 0.2 세토사
50 5.0 3.3 1.4 0.2 세토사
51 7.0 3.2 4.7 1.4 색채
52 6.4 3.2 4.5 1.5 색채
53 6.9 3.1 4.9 1.5 색채
54 5.5 2.3 4.0 1.3 색채
55 6.5 2.8 4.6 1.5 색채
56 5.7 2.8 4.5 1.3 나 versicolor
57 6.3 3.3 4.7 1.6 나 versicolor
58 4.9 2.4 3.3 1.0 나 versicolor
59 6.6 2.9 4.6 1.3 나 versicolor
60 5.2 2.7 3.9 1.4 나 versicolor
61 5.0 2.0 3.5 1.0 나 versicolor
62 5.9 3.0 4.2 1.5 나 versicolor
63 6.0 2.2 4.0 1.0 나 versicolor
64 6.1 2.9 4.7 1.4 나 versicolor
65 5.6 2.9 3.6 1.3 나 versicolor
66 6.7 3.1 4.4 1.4 나 versicolor
67 5.6 3.0 4.5 1.5 나 versicolor
68 5.8 2.7 4.1 1.0 나 versicolor
69 6.2 2.2 4.5 1.5 나 versicolor
70 5.6 2.5 3.9 1.1 나 versicolor
71 5.9 3.2 4.8 1.8 나 versicolor
72 6.1 2.8 4.0 1.3 색채
73 6.3 2.5 4.9 1.5 색채
74 6.1 2.8 4.7 1.2 색채
75 6.4 2.9 4.3 1.3 색채
76 6.6 3.0 4.4 1.4 색채
77 6.8 2.8 4.8 1.4 색채
78 6.7 3.0 5.0 1.7 색채
79 6.0 2.9 4.5 1.5 색채
80 5.7 2.6 3.5 1.0 색채
81 5.5 2.4 3.8 1.1 색채
82 5.5 2.4 3.7 1.0 색채
83 5.8 2.7 3.9 1.2 색채
84 6.0 2.7 5.1 1.6 색채
85 5.4 3.0 4.5 1.5 색채
86 6.0 3.4 4.5 1.6 색채
87 6.7 3.1 4.7 1.5 색채
88 6.3 2.3 4.4 1.3 색채
89 5.6 3.0 4.1 1.3 색채
90 5.5 2.5 4.0 1.3 색채
91 5.5 2.6 4.4 1.2 색채
92 6.1 3.0 4.6 1.4 색채
93 5.8 2.6 4.0 1.2 색채
94 5.0 2.3 3.3 1.0 색채
95 5.6 2.7 4.2 1.3 색채
96 5.7 3.0 4.2 1.2 색채
97 5.7 2.9 4.2 1.3 색채
98 6.2 2.9 4.3 1.3 색채
99 5.1 2.5 3.0 1.1 색채
100 5.7 2.8 4.1 1.3 색채
101 6.3 3.3 6.0 2.5 버진리카
102 5.8 2.7 5.1 1.9 버진리카
103 7.1 3.0 5.9 2.1 버진리카
104 6.3 2.9 5.6 1.8 버진리카
105 6.5 3.0 5.8 2.2 버진리카
106 7.6 3.0 6.6 2.1 버진리카
107 4.9 2.5 4.5 1.7 버진리카
108 7.3 2.9 6.3 1.8 버진리카
109 6.7 2.5 5.8 1.8 버진리카
110 7.2 3.6 6.1 2.5 버진리카
111 6.5 3.2 5.1 2.0 버진리카
112 6.4 2.7 5.3 1.9 버진리카
113 6.8 3.0 5.5 2.1 버진리카
114 5.7 2.5 5.0 2.0 버진리카
115 5.8 2.8 5.1 2.4 버진리카
116 6.4 3.2 5.3 2.3 버진리카
117 6.5 3.0 5.5 1.8 버진리카
118 7.7 3.8 6.7 2.2 버진리카
119 7.7 2.6 6.9 2.3 버진리카
120 6.0 2.2 5.0 1.5 버진리카
121 6.9 3.2 5.7 2.3 버진리카
122 5.6 2.8 4.9 2.0 버진리카
123 7.7 2.8 6.7 2.0 버진리카
124 6.3 2.7 4.9 1.8 버진리카
125 6.7 3.3 5.7 2.1 버진리카
126 7.2 3.2 6.0 1.8 버진리카
127 6.2 2.8 4.8 1.8 버진리카
128 6.1 3.0 4.9 1.8 버진리카
129 6.4 2.8 5.6 2.1 버진리카
130 7.2 3.0 5.8 1.6 버진리카
131 7.4 2.8 6.1 1.9 버진리카
132 7.9 3.8 6.4 2.0 버진리카
133 6.4 2.8 5.6 2.2 버진리카
134 6.3 2.8 5.1 1.5 버진리카
135 6.1 2.6 5.6 1.4 버진리카
136 7.7 3.0 6.1 2.3 버진리카
137 6.3 3.4 5.6 2.4 버진리카
138 6.4 3.1 5.5 1.8 버진리카
139 6.0 3.0 4.8 1.8 버진리카
140 6.9 3.1 5.4 2.1 버진리카
141 6.7 3.1 5.6 2.4 버진리카
142 6.9 3.1 5.1 2.3 버진리카
143 5.8 2.7 5.1 1.9 버진리카
144 6.8 3.2 5.9 2.3 버진리카
145 6.7 3.3 5.7 2.5 버진리카
146 6.7 3.0 5.2 2.3 버진리카
147 6.3 2.5 5.0 1.9 버진리카
148 6.5 3.0 5.2 2.0 버진리카
149 6.2 3.4 5.4 2.3 버진리카
150 5.9 3.0 5.1 1.8 버진리카

홍채 데이터 세트는 기계 학습을 위한 초보자 데이터 세트로 널리 사용되고 있습니다.데이터 세트는 머신러닝 패키지 Scikit-learn의 R base 및 Python에 포함되어 있기 때문에 사용자는 소스를 찾을 필요 없이 액세스할 수 있습니다.

데이터 집합의 여러 [10]버전이 게시되었습니다.

용도를 나타내는 R코드

아래에 표시된 R 코드 예는 이 문서의 맨 위에 표시된 산점도를 재현한 것입니다.

# 데이터셋 표시 홍채 # 데이터 세트에 대한 정보가 포함된 도움말 페이지 표시 ?홍채  # 데이터셋 내 4개 변수의 모든 쌍별 조합의 산점도 작성 쌍들(홍채[1:4], 주된="Iris Data (빨간색=setosa, 녹색=verscolor, 파란색=classica)",       빠치=21, bg=c("빨간색","녹색 3",'파랑')[수업에서 제외하다(홍채$종.)]) 

용도를 나타내는 Python 코드

부터 sklearn.disples 수입품 load_iris  홍채 = load_iris() 홍채 

이 코드는 다음과 같습니다.

{'데이터': 배열([[5.1, 3.5, 1.4, 0.2],                 [4.9, 3. , 1.4, 0.2],                 [4.7, 3.2, 1.3, 0.2],                 [4.6, 3.1, 1.5, 0.2],... '타깃': 배열([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ... 'target_names': 배열([세토사, '색깔', '시카'], d타입='< U10 >'),  ...} 

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  2. ^ Edgar Anderson (1936). "The species problem in Iris". Annals of the Missouri Botanical Garden. 23 (3): 457–509. doi:10.2307/2394164. JSTOR 2394164.
  3. ^ Edgar Anderson (1935). "The irises of the Gaspé Peninsula". Bulletin of the American Iris Society. 59: 2–5.
  4. ^ "Stop using iris". Megan Stodel. 2020-06-24. Retrieved 2022-02-12.
  5. ^ "Armchair Ecology - It's time to retire the iris dataset". armchairecology.blog. Retrieved 2022-02-12.
  6. ^ a b A. N. 고반, A. 지노프예프실제 주요 다양체그래프: 분자 생물학에서 동적 시스템에 이르기까지, 국제 신경계 저널, 제20권, 제3호(2010) 219–232.
  7. ^ "UCI Machine Learning Repository: Iris Data Set". archive.ics.uci.edu. Retrieved 2017-12-01.
  8. ^ Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). "On Using Class-Labels in Evaluation of Clusterings" (PDF). In Xiaoli Z. Fern; Ian Davidson; Jennifer Dy (eds.). MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD.{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  9. ^ A.N. 고번, N.R. 섬너, A.Y. 지노브예프, 데이터 근사 토폴로지 문법, 응용 수학 편지 제20권, 제4호(2007년), 382-386.
  10. ^ Bezdek, J.C. and Keller, J.M. and Krishnapuram, R. and Kuncheva, L.I. and Pal, N.R. (1999). "Will the real iris data please stand up?". IEEE Transactions on Fuzzy Systems. 7 (3): 368–369. doi:10.1109/91.771092.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)

외부 링크

  • "Fisher's Iris Data". (Contains two errors which are documented). UCI Machine Learning Repository: Iris Data Set.