Iris flower 데이터 세트
Iris flower data set
Iris 꽃 데이터 세트 또는 Fisher's Iris 데이터 세트는 영국 통계학자이자 생물학자인 Ronald Fisher가 1936년 발표한 선형 판별 [1]분석의 예로서 분류학적 문제에 다중 측정의 사용에서 도입한 다변량 데이터 세트이다.Edgar Anderson이 세 종의 [2]아이리스 꽃의 형태학적 변이를 정량화하기 위해 데이터를 수집했기 때문에 이것은 Anderson's Iris 데이터 세트라고 불리기도 한다.3종 중 2종은 가스페 반도에서 수집됐다. "모두 같은 목초지에서 채취한 것으로,[3] 같은 날 같은 기기로 같은 사람이 동시에 측정했다."
데이터 세트는 세 종의 Iris(Iris setosa, Iris virginica 및 Iris verscolor) 각각에서 50개의 샘플로 구성됩니다.각 표본에서 네 가지 특징을 측정했습니다. 즉, 조각과 꽃잎의 길이와 너비(cm)입니다.이 네 가지 특징의 조합을 바탕으로, 피셔는 종을 서로 구별하기 위한 선형 판별 모델을 개발했습니다.
피셔의 논문은 우생학 연보에 발표되었고 골상학 [1]분야에 대한 포함된 기술의 적용에 대한 논의를 포함합니다.이러한 역사로 인해 일부에서는 오늘날 통계 기법을 가르치는 데 Iris 데이터 세트를 사용하는 것을 중단하고 논란이 적은 [4][5]대안으로 대체해야 한다고 제안하고 있습니다.
데이터 집합 k의 사용

원래 피셔의 선형 판별 분석이 적용된 예제 데이터 세트로 사용되었으며, 지원 벡터 [7]기계와 같은 기계 학습에서 많은 통계 분류 기법의 전형적인 테스트 사례가 되었다.
그러나 데이터 세트에는 분리가 분명한 클러스터가 2개만 포함되어 있기 때문에 클러스터 분석에서 이 데이터 세트를 사용하는 것은 일반적이지 않습니다.성단 중 하나는 홍채 세토사를 포함하고 있고, 다른 성단은 홍채 버진리카와 홍채 버즈컬러를 모두 포함하고 있으며, 피셔가 사용한 종 정보 없이는 분리할 수 없습니다.이를 통해 데이터 마이닝에서 감독 기법과 비감독 기법의 차이를 설명할 수 있는 좋은 예가 됩니다.피셔의 선형 판별 모델은 개체 종이 알려진 경우에만 얻을 수 있습니다. 클래스 레이블과 클러스터가 반드시 [8]같지는 않습니다.
그럼에도 불구하고, Iris의 세 종 모두 비선형 및 분기 주성분 [9]투영에서 분리할 수 있다.데이터 세트는 노드 수 초과, 벤딩 및 스트레칭에 대한 패널티와 함께 가장 가까운 트리로 근사됩니다.그런 다음 소위 "메트로 맵"이 [6]구축됩니다.데이터 포인트는 가장 가까운 노드에 투영됩니다.각 노드에 대해 투영된 점의 원형 다이어그램을 준비한다.파이의 면적은 투영된 점의 수에 비례합니다.그림(왼쪽)을 보면 다양한 Iris 종의 검체 대부분이 서로 다른 노드에 속한다는 것을 알 수 있습니다.Iris-virginica의 극히 일부만이 Iris-verscolor(그림의 혼합 청록색 노드)와 혼합되어 있습니다.따라서 Iris의 3종(Iris setosa, Iris virginica, Iris verscolor)은 비선형 주성분 분석의 감독되지 않는 절차에 의해 분리될 수 있다.이러한 노드를 구별하려면 주 트리에서 해당 노드를 선택하는 것만으로 충분합니다.
데이터 세트
데이터 세트에는 세팔 길이, 세팔 너비, 꽃잎 길이, 꽃잎 너비 및 종의 5가지 속성으로 150개의 레코드 세트가 포함되어 있습니다.
데이터 세트 순서 | 세팔 길이 | 세팔 폭 | 꽃잎 길이 | 꽃잎 폭 | 종. |
---|---|---|---|---|---|
1 | 5.1 | 3.5 | 1.4 | 0.2 | 세토사 |
2 | 4.9 | 3.0 | 1.4 | 0.2 | 세토사 |
3 | 4.7 | 3.2 | 1.3 | 0.2 | 세토사 |
4 | 4.6 | 3.1 | 1.5 | 0.2 | 세토사 |
5 | 5.0 | 3.6 | 1.4 | 0.3 | 세토사 |
6 | 5.4 | 3.9 | 1.7 | 0.4 | 세토사 |
7 | 4.6 | 3.4 | 1.4 | 0.3 | 세토사 |
8 | 5.0 | 3.4 | 1.5 | 0.2 | 세토사 |
9 | 4.4 | 2.9 | 1.4 | 0.2 | 세토사 |
10 | 4.9 | 3.1 | 1.5 | 0.1 | 세토사 |
11 | 5.4 | 3.7 | 1.5 | 0.2 | 세토사 |
12 | 4.8 | 3.4 | 1.6 | 0.2 | 세토사 |
13 | 4.8 | 3.0 | 1.4 | 0.1 | 세토사 |
14 | 4.3 | 3.0 | 1.1 | 0.1 | 세토사 |
15 | 5.8 | 4.0 | 1.2 | 0.2 | 세토사 |
16 | 5.7 | 4.4 | 1.5 | 0.4 | 세토사 |
17 | 5.4 | 3.9 | 1.3 | 0.4 | 세토사 |
18 | 5.1 | 3.5 | 1.4 | 0.3 | 세토사 |
19 | 5.7 | 3.8 | 1.7 | 0.3 | 세토사 |
20 | 5.1 | 3.8 | 1.5 | 0.3 | 세토사 |
21 | 5.4 | 3.4 | 1.7 | 0.2 | 세토사 |
22 | 5.1 | 3.7 | 1.5 | 0.4 | 세토사 |
23 | 4.6 | 3.6 | 1.0 | 0.2 | 세토사 |
24 | 5.1 | 3.3 | 1.7 | 0.5 | 세토사 |
25 | 4.8 | 3.4 | 1.9 | 0.2 | 세토사 |
26 | 5.0 | 3.0 | 1.6 | 0.2 | 세토사 |
27 | 5.0 | 3.4 | 1.6 | 0.4 | 세토사 |
28 | 5.2 | 3.5 | 1.5 | 0.2 | 세토사 |
29 | 5.2 | 3.4 | 1.4 | 0.2 | 세토사 |
30 | 4.7 | 3.2 | 1.6 | 0.2 | 세토사 |
31 | 4.8 | 3.1 | 1.6 | 0.2 | 세토사 |
32 | 5.4 | 3.4 | 1.5 | 0.4 | 세토사 |
33 | 5.2 | 4.1 | 1.5 | 0.1 | 세토사 |
34 | 5.5 | 4.2 | 1.4 | 0.2 | 세토사 |
35 | 4.9 | 3.1 | 1.5 | 0.2 | 세토사 |
36 | 5.0 | 3.2 | 1.2 | 0.2 | 세토사 |
37 | 5.5 | 3.5 | 1.3 | 0.2 | 세토사 |
38 | 4.9 | 3.6 | 1.4 | 0.1 | 세토사 |
39 | 4.4 | 3.0 | 1.3 | 0.2 | 세토사 |
40 | 5.1 | 3.4 | 1.5 | 0.2 | 세토사 |
41 | 5.0 | 3.5 | 1.3 | 0.3 | 세토사 |
42 | 4.5 | 2.3 | 1.3 | 0.3 | 세토사 |
43 | 4.4 | 3.2 | 1.3 | 0.2 | 세토사 |
44 | 5.0 | 3.5 | 1.6 | 0.6 | 세토사 |
45 | 5.1 | 3.8 | 1.9 | 0.4 | 세토사 |
46 | 4.8 | 3.0 | 1.4 | 0.3 | 세토사 |
47 | 5.1 | 3.8 | 1.6 | 0.2 | 세토사 |
48 | 4.6 | 3.2 | 1.4 | 0.2 | 세토사 |
49 | 5.3 | 3.7 | 1.5 | 0.2 | 세토사 |
50 | 5.0 | 3.3 | 1.4 | 0.2 | 세토사 |
51 | 7.0 | 3.2 | 4.7 | 1.4 | 색채 |
52 | 6.4 | 3.2 | 4.5 | 1.5 | 색채 |
53 | 6.9 | 3.1 | 4.9 | 1.5 | 색채 |
54 | 5.5 | 2.3 | 4.0 | 1.3 | 색채 |
55 | 6.5 | 2.8 | 4.6 | 1.5 | 색채 |
56 | 5.7 | 2.8 | 4.5 | 1.3 | 나 versicolor |
57 | 6.3 | 3.3 | 4.7 | 1.6 | 나 versicolor |
58 | 4.9 | 2.4 | 3.3 | 1.0 | 나 versicolor |
59 | 6.6 | 2.9 | 4.6 | 1.3 | 나 versicolor |
60 | 5.2 | 2.7 | 3.9 | 1.4 | 나 versicolor |
61 | 5.0 | 2.0 | 3.5 | 1.0 | 나 versicolor |
62 | 5.9 | 3.0 | 4.2 | 1.5 | 나 versicolor |
63 | 6.0 | 2.2 | 4.0 | 1.0 | 나 versicolor |
64 | 6.1 | 2.9 | 4.7 | 1.4 | 나 versicolor |
65 | 5.6 | 2.9 | 3.6 | 1.3 | 나 versicolor |
66 | 6.7 | 3.1 | 4.4 | 1.4 | 나 versicolor |
67 | 5.6 | 3.0 | 4.5 | 1.5 | 나 versicolor |
68 | 5.8 | 2.7 | 4.1 | 1.0 | 나 versicolor |
69 | 6.2 | 2.2 | 4.5 | 1.5 | 나 versicolor |
70 | 5.6 | 2.5 | 3.9 | 1.1 | 나 versicolor |
71 | 5.9 | 3.2 | 4.8 | 1.8 | 나 versicolor |
72 | 6.1 | 2.8 | 4.0 | 1.3 | 색채 |
73 | 6.3 | 2.5 | 4.9 | 1.5 | 색채 |
74 | 6.1 | 2.8 | 4.7 | 1.2 | 색채 |
75 | 6.4 | 2.9 | 4.3 | 1.3 | 색채 |
76 | 6.6 | 3.0 | 4.4 | 1.4 | 색채 |
77 | 6.8 | 2.8 | 4.8 | 1.4 | 색채 |
78 | 6.7 | 3.0 | 5.0 | 1.7 | 색채 |
79 | 6.0 | 2.9 | 4.5 | 1.5 | 색채 |
80 | 5.7 | 2.6 | 3.5 | 1.0 | 색채 |
81 | 5.5 | 2.4 | 3.8 | 1.1 | 색채 |
82 | 5.5 | 2.4 | 3.7 | 1.0 | 색채 |
83 | 5.8 | 2.7 | 3.9 | 1.2 | 색채 |
84 | 6.0 | 2.7 | 5.1 | 1.6 | 색채 |
85 | 5.4 | 3.0 | 4.5 | 1.5 | 색채 |
86 | 6.0 | 3.4 | 4.5 | 1.6 | 색채 |
87 | 6.7 | 3.1 | 4.7 | 1.5 | 색채 |
88 | 6.3 | 2.3 | 4.4 | 1.3 | 색채 |
89 | 5.6 | 3.0 | 4.1 | 1.3 | 색채 |
90 | 5.5 | 2.5 | 4.0 | 1.3 | 색채 |
91 | 5.5 | 2.6 | 4.4 | 1.2 | 색채 |
92 | 6.1 | 3.0 | 4.6 | 1.4 | 색채 |
93 | 5.8 | 2.6 | 4.0 | 1.2 | 색채 |
94 | 5.0 | 2.3 | 3.3 | 1.0 | 색채 |
95 | 5.6 | 2.7 | 4.2 | 1.3 | 색채 |
96 | 5.7 | 3.0 | 4.2 | 1.2 | 색채 |
97 | 5.7 | 2.9 | 4.2 | 1.3 | 색채 |
98 | 6.2 | 2.9 | 4.3 | 1.3 | 색채 |
99 | 5.1 | 2.5 | 3.0 | 1.1 | 색채 |
100 | 5.7 | 2.8 | 4.1 | 1.3 | 색채 |
101 | 6.3 | 3.3 | 6.0 | 2.5 | 버진리카 |
102 | 5.8 | 2.7 | 5.1 | 1.9 | 버진리카 |
103 | 7.1 | 3.0 | 5.9 | 2.1 | 버진리카 |
104 | 6.3 | 2.9 | 5.6 | 1.8 | 버진리카 |
105 | 6.5 | 3.0 | 5.8 | 2.2 | 버진리카 |
106 | 7.6 | 3.0 | 6.6 | 2.1 | 버진리카 |
107 | 4.9 | 2.5 | 4.5 | 1.7 | 버진리카 |
108 | 7.3 | 2.9 | 6.3 | 1.8 | 버진리카 |
109 | 6.7 | 2.5 | 5.8 | 1.8 | 버진리카 |
110 | 7.2 | 3.6 | 6.1 | 2.5 | 버진리카 |
111 | 6.5 | 3.2 | 5.1 | 2.0 | 버진리카 |
112 | 6.4 | 2.7 | 5.3 | 1.9 | 버진리카 |
113 | 6.8 | 3.0 | 5.5 | 2.1 | 버진리카 |
114 | 5.7 | 2.5 | 5.0 | 2.0 | 버진리카 |
115 | 5.8 | 2.8 | 5.1 | 2.4 | 버진리카 |
116 | 6.4 | 3.2 | 5.3 | 2.3 | 버진리카 |
117 | 6.5 | 3.0 | 5.5 | 1.8 | 버진리카 |
118 | 7.7 | 3.8 | 6.7 | 2.2 | 버진리카 |
119 | 7.7 | 2.6 | 6.9 | 2.3 | 버진리카 |
120 | 6.0 | 2.2 | 5.0 | 1.5 | 버진리카 |
121 | 6.9 | 3.2 | 5.7 | 2.3 | 버진리카 |
122 | 5.6 | 2.8 | 4.9 | 2.0 | 버진리카 |
123 | 7.7 | 2.8 | 6.7 | 2.0 | 버진리카 |
124 | 6.3 | 2.7 | 4.9 | 1.8 | 버진리카 |
125 | 6.7 | 3.3 | 5.7 | 2.1 | 버진리카 |
126 | 7.2 | 3.2 | 6.0 | 1.8 | 버진리카 |
127 | 6.2 | 2.8 | 4.8 | 1.8 | 버진리카 |
128 | 6.1 | 3.0 | 4.9 | 1.8 | 버진리카 |
129 | 6.4 | 2.8 | 5.6 | 2.1 | 버진리카 |
130 | 7.2 | 3.0 | 5.8 | 1.6 | 버진리카 |
131 | 7.4 | 2.8 | 6.1 | 1.9 | 버진리카 |
132 | 7.9 | 3.8 | 6.4 | 2.0 | 버진리카 |
133 | 6.4 | 2.8 | 5.6 | 2.2 | 버진리카 |
134 | 6.3 | 2.8 | 5.1 | 1.5 | 버진리카 |
135 | 6.1 | 2.6 | 5.6 | 1.4 | 버진리카 |
136 | 7.7 | 3.0 | 6.1 | 2.3 | 버진리카 |
137 | 6.3 | 3.4 | 5.6 | 2.4 | 버진리카 |
138 | 6.4 | 3.1 | 5.5 | 1.8 | 버진리카 |
139 | 6.0 | 3.0 | 4.8 | 1.8 | 버진리카 |
140 | 6.9 | 3.1 | 5.4 | 2.1 | 버진리카 |
141 | 6.7 | 3.1 | 5.6 | 2.4 | 버진리카 |
142 | 6.9 | 3.1 | 5.1 | 2.3 | 버진리카 |
143 | 5.8 | 2.7 | 5.1 | 1.9 | 버진리카 |
144 | 6.8 | 3.2 | 5.9 | 2.3 | 버진리카 |
145 | 6.7 | 3.3 | 5.7 | 2.5 | 버진리카 |
146 | 6.7 | 3.0 | 5.2 | 2.3 | 버진리카 |
147 | 6.3 | 2.5 | 5.0 | 1.9 | 버진리카 |
148 | 6.5 | 3.0 | 5.2 | 2.0 | 버진리카 |
149 | 6.2 | 3.4 | 5.4 | 2.3 | 버진리카 |
150 | 5.9 | 3.0 | 5.1 | 1.8 | 버진리카 |
홍채 데이터 세트는 기계 학습을 위한 초보자 데이터 세트로 널리 사용되고 있습니다.데이터 세트는 머신러닝 패키지 Scikit-learn의 R base 및 Python에 포함되어 있기 때문에 사용자는 소스를 찾을 필요 없이 액세스할 수 있습니다.
데이터 집합의 여러 [10]버전이 게시되었습니다.
용도를 나타내는 R코드
아래에 표시된 R 코드 예는 이 문서의 맨 위에 표시된 산점도를 재현한 것입니다.
# 데이터셋 표시 홍채 # 데이터 세트에 대한 정보가 포함된 도움말 페이지 표시 ?홍채 # 데이터셋 내 4개 변수의 모든 쌍별 조합의 산점도 작성 쌍들(홍채[1:4], 주된="Iris Data (빨간색=setosa, 녹색=verscolor, 파란색=classica)", 빠치=21, bg=c("빨간색","녹색 3",'파랑')[수업에서 제외하다(홍채$종.)])
용도를 나타내는 Python 코드
부터 sklearn.disples 수입품 load_iris 홍채 = load_iris() 홍채
이 코드는 다음과 같습니다.
{'데이터': 배열([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2],... '타깃': 배열([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ... 'target_names': 배열([세토사, '색깔', '시카'], d타입='< U10 >'), ...}
「 」를 참조해 주세요.
레퍼런스
- ^ a b R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- ^ Edgar Anderson (1936). "The species problem in Iris". Annals of the Missouri Botanical Garden. 23 (3): 457–509. doi:10.2307/2394164. JSTOR 2394164.
- ^ Edgar Anderson (1935). "The irises of the Gaspé Peninsula". Bulletin of the American Iris Society. 59: 2–5.
- ^ "Stop using iris". Megan Stodel. 2020-06-24. Retrieved 2022-02-12.
- ^ "Armchair Ecology - It's time to retire the iris dataset". armchairecology.blog. Retrieved 2022-02-12.
- ^ a b A. N. 고반, A. 지노프예프실제 주요 다양체 및 그래프: 분자 생물학에서 동적 시스템에 이르기까지, 국제 신경계 저널, 제20권, 제3호(2010) 219–232.
- ^ "UCI Machine Learning Repository: Iris Data Set". archive.ics.uci.edu. Retrieved 2017-12-01.
- ^ Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). "On Using Class-Labels in Evaluation of Clusterings" (PDF). In Xiaoli Z. Fern; Ian Davidson; Jennifer Dy (eds.). MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD.
{{cite conference}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ A.N. 고번, N.R. 섬너, A.Y. 지노브예프, 데이터 근사 토폴로지 문법, 응용 수학 편지 제20권, 제4호(2007년), 382-386.
- ^ Bezdek, J.C. and Keller, J.M. and Krishnapuram, R. and Kuncheva, L.I. and Pal, N.R. (1999). "Will the real iris data please stand up?". IEEE Transactions on Fuzzy Systems. 7 (3): 368–369. doi:10.1109/91.771092.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크)
외부 링크
- "Fisher's Iris Data". (Contains two errors which are documented). UCI Machine Learning Repository: Iris Data Set.