기계 학습 연구를 위한 데이터 세트 목록
List of datasets for machine-learning research시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
이러한 데이터 세트는 기계 학습 연구에 적용되며 동료 검토 학술지에 인용되었다.데이터 세트는 기계 학습 분야에서 필수적인 부분입니다.이 분야의 주요 진보는 학습 알고리즘(예: 딥 러닝), 컴퓨터 하드웨어 및 직감적으로 고품질 교육 데이터 [1]세트의 가용성에서 비롯될 수 있습니다.지도 및 반지도 기계 학습 알고리즘을 위한 고품질 라벨링 교육 데이터셋은 데이터에 라벨을 붙이는 데 많은 시간이 필요하기 때문에 일반적으로 제작하기가 어렵고 비용이 많이 듭니다.라벨을 붙일 필요는 없지만, 비지도 학습을 위한 고품질 데이터셋은 [2][3][4][5]생산하기가 어렵고 비용이 많이 들 수 있다.
이미지 데이터
이러한 데이터 세트는 주로 객체 감지, 얼굴 인식 및 다중 레이블 분류와 같은 작업을 위한 이미지 또는 비디오로 구성됩니다.
얼굴인식
컴퓨터 시각에서 얼굴 이미지는 얼굴 인식 시스템, 얼굴 감지 및 얼굴 이미지를 사용하는 많은 다른 프로젝트들을 개발하기 위해 광범위하게 사용되어 왔다.
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 기본 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 200명의 개인으로 구성된 298개의 비디오, 약 1,250,000개의 수동 주석이 달린 이미지: 치수 영향(원자가 각성), 자연 상태 설정, 컬러 데이터베이스, 다양한 해상도(평균 = 640x360)에 대한 주석 달기 | 검출된 얼굴, 얼굴의 표식 및 원자가 각성 주석 | 최대 1,250,000개의 수동 주석이 달린 이미지 | 비디오(시각 + 오디오 모드) | 인식에 영향을 주다(가각성 추정) | 2017 | CVPR[6] IJCV[7] | D. Kollias et al. |
Aff-Wild2 | 458명의 개인 비디오 558개, 약 2,800,000개의 수동 주석이 달린 이미지: i) 범주적 영향(7가지 기본 표현: 중립, 행복, 슬픔, 놀라움, 공포, 혐오, 분노), ii) 차원적 영향(원자가-각성), iiii) 작용 단위(AUs 1,2,4,6,12,15,20,25), 다양한 색상의 야생 환경;= 1030x630) | 탐지된 얼굴, 탐지되고 정렬된 얼굴 및 주석 | 최대 2,800,000개의 수동 주석이 달린 이미지 | 비디오(시각 + 오디오 모드) | 영향 인식(가각성 추정, 기본 발현 분류, 작용 단위 검출) | 2019 | BMVC[8] FG[9] | D. Kollias et al. |
FERET(얼굴인식기술) | 11338개의 이미지 1199명의 다양한 위치 및 시간에 있는 개인. | 없음. | 11,338 | 이미지들 | 분류, 얼굴 인식 | 2003 | [10][11] | 미국 국방부 |
Ryerson AVIDESS(감정적 화법 및 노래) | 24명의 전문 배우의 7,356개의 비디오 및 오디오 녹음.두 가지 강도로 각각 8가지 감정을 표현합니다. | expression으로 라벨이 지정된 파일.319명의 평가자가 제공하는 지각 검증 평가. | 7,356 | 비디오, 사운드 파일 | 분류, 얼굴인식, 음성인식 | 2018 | [12][13] | S.R. 리빙스톤과 F.A.루소 |
SCFace | 다양한 각도로 얼굴의 컬러 이미지. | 이목구비를 추출한 위치.지정된 피쳐의 좌표. | 4,160 | 이미지, 텍스트 | 분류, 얼굴 인식 | 2011 | [14][15] | M. 그릭 외 |
예일 페이스 데이터베이스 | 11개의 다른 표정으로 15명의 얼굴을 표현했습니다. | 식의 라벨. | 165 | 이미지들 | 얼굴인식 | 1997 | [16][17] | J. 양 등 |
Cohn-Kanade AU 코드화 식 데이터베이스 | 표현식에 대한 레이블이 있는 이미지의 대용량 데이터베이스입니다. | 이목구비를 추적하는 것. | 500개 이상의 시퀀스 | 이미지, 텍스트 | 표정 분석 | 2000 | [18][19] | T. 카나데 외 |
JAFFE 표정 데이터베이스 | 일본인 여성 모델 10명이 7개의 표정(기본 표정 6개+중립 표정 1개) 213장의 이미지. | 이미지가 얼굴 영역으로 잘라집니다.감정 라벨에 의미 등급 데이터를 포함합니다. | 213 | 이미지, 텍스트 | 얼굴 표정 인식 | 1998 | [20][21] | 리옹, 가마치, 교바 |
페이스 스크럽 | 이미지 검색에서 삭제된 공인 이미지. | 이름과 m/f 주석. | 107,818 | 이미지, 텍스트 | 얼굴인식 | 2014 | [22][23] | H. Ng 등 |
바이오ID 페이스 데이터베이스 | 눈 위치가 표시된 얼굴 이미지. | 수동으로 눈 위치를 설정합니다. | 1521 | 이미지, 텍스트 | 얼굴인식 | 2001 | [24][25] | 바이오 아이디 |
피부 분할 데이터 세트 | 얼굴 이미지에서 무작위로 샘플링된 색상 값. | B, G, R, 추출된 값. | 245,057 | 본문 | 세그멘테이션, 분류 | 2012 | [26][27] | R. 배트 |
보스포루스 | 3D 얼굴 이미지 데이터베이스. | 34개의 행동 단위와 6개의 표정, 24개의 얼굴 표식. | 4652 | 이미지, 텍스트 | 얼굴인식, 분류 | 2008 | [28][29] | 사브란 등 |
UOY 3D 페이스 | 중립적인 얼굴, 5가지 표정: 분노, 행복, 슬픔, 눈을 감고 눈썹을 치켜올린다. | 라벨을 붙입니다. | 5250 | 이미지, 텍스트 | 얼굴인식, 분류 | 2004 | [30][31] | 요크 대학교 |
CASIA 3D 페이스 데이터베이스 | 식:분노, 미소, 웃음, 놀라움, 감은 눈 | 없음. | 4624 | 이미지, 텍스트 | 얼굴인식, 분류 | 2007 | [32][33] | 중국과학원 자동화연구소 |
카시아니르 | 식:분노 혐오 공포 행복 슬픔 서프라이즈 | 없음. | 480 | 주석이 달린 가시 스펙트럼과 초당 25프레임의 근적외선 비디오 캡처 | 얼굴인식, 분류 | 2011 | [34] | 자오, G. 등 |
BU-3DFE | 중립적인 얼굴, 그리고 6가지 표정: 분노, 행복, 슬픔, 놀라움, 혐오, 두려움(4단계)3D 영상이 추출되었습니다. | 없음. | 2500 | 이미지, 텍스트 | 표정인식, 분류 | 2006 | [35] | 빙엄턴 대학교 |
얼굴 인식 그랜드 챌린지 데이터 세트 | 각 피험자에 대해 최대 22개의 샘플.표현: 분노, 행복, 슬픔, 놀라움, 혐오, 부풀어 오른 3D 데이터. | 없음. | 4007 | 이미지, 텍스트 | 얼굴인식, 분류 | 2004 | [36][37] | 미국 국립표준기술원 |
Gavabdb | 각 피험자에 대해 최대 61개의 샘플이 있습니다.중립적인 얼굴, 미소, 웃음, 정면 강조, 정면 랜덤 제스처, 3D 이미지. | 없음. | 549 | 이미지, 텍스트 | 얼굴인식, 분류 | 2008 | [38][39] | 킹 후안 카를로스 대학교 |
3D-RMA | 최대 100명의 피험자, 표현은 대부분 중립입니다.포즈도 여러 개. | 없음. | 9971 | 이미지, 텍스트 | 얼굴인식, 분류 | 2004 | [40][41] | 왕립 사관학교 (벨기에) |
SoF | 112명(남성 66명, 여성 46명)은 서로 다른 조명 조건에서 안경을 착용한다. | 난이도가 다른 합성 필터 세트(블러, 폐색, 노이즈 및 포스터화). | 42,592 (오리지널 이미지 2,662 × 합성 이미지 16) | 이미지, 매트 파일 | 성별 구분, 얼굴 감지, 얼굴 인식, 연령 추정, 안경 감지 | 2017 | [42][43] | Afifi, M. et al. |
IMDB-WIKI | IMDB와 Wikipedia는 성별과 연령이 표시된 이미지를 마주하고 있습니다. | 없음. | 523,051 | 이미지들 | 성별 구분, 얼굴 감지, 얼굴 인식, 연령 추정 | 2015 | [44] | R. Rothe, R.티모프테 |
동작인식
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
TV 인간 상호 작용 데이터 세트 | 20개의 다른 TV 쇼에서 나온 비디오는 사회적 행동을 예측하기 위한 것입니다: 악수, 하이파이브, 포옹, 키스, 없음. | 없음. | 6,766 비디오 클립 | 비디오 클립 | 행동 예측 | 2013 | [45] | 패트론-페레즈, A. 등 |
버클리 Multimodal Human Action Database(MHAD) | 12가지 작업을 수행하는 한 사람의 기록 | MoCap 전처리 | 660개의 액션샘플 | PhaseSpace 모션 캡처 × 8, 스테레오 카메라 × 2, 쿼드 카메라 × 4, 가속도계 × 6, 마이크 × 4 | 조치구분 | 2013 | [46] | Ofli, F. 등 |
THUMOS 데이터 세트 | 작업 분류를 위한 대용량 비디오 데이터 세트입니다. | 분류 및 라벨 부착 작업. | 4,500만 프레임의 비디오 | 비디오, 이미지, 텍스트 | 분류, 액션 검출 | 2013 | [47][48] | 장 외 |
MEXAction 2 | 액션 현지화 및 특정용 비디오 데이터 세트 | 분류 및 라벨 부착 작업. | 1000 | 비디오 | 액션 검출 | 2014 | [49] | 스토이안 등 |
객체 검출 및 인식
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
시각 게놈 | 이미지와 그 설명 | 108,000 | 이미지, 텍스트 | 이미지 캡션 | 2016 | [50] | R. 크리슈나 외 | |
버클리 3D 객체 데이터 세트 | 75개의 다른 장면에서 849개의 이미지가 촬영되었습니다.약 50개의 다른 오브젝트클래스가 라벨로 표시됩니다. | 객체 경계 상자 및 레이블. | 849 | 라벨이 붙은 이미지, 텍스트 | 객체 인식 | 2014 | [51][52] | A. Janoch 등 |
버클리 세그먼트화 데이터 세트 및 벤치마크 500(BSDS500) | 500개의 자연 이미지, 분리열, 검증 및 테스트 서브셋 + 벤치마크 코드로 명시적으로 구분됩니다.BSDS300을 기반으로 합니다. | 각 이미지는 평균 5개의 다른 피사체에 의해 분할됩니다. | 500 | 분할된 이미지 | 윤곽선 감지 및 계층적 영상 분할 | 2011 | [53] | 캘리포니아 대학교 버클리 |
컨텍스트에서의 Microsoft 공통 객체(COCO) | 자연스러운 맥락에서의 일반적인 사물의 복잡한 일상 장면. | 객체 강조 표시, 라벨 지정 및 91개 객체 유형으로 분류. | 2,500,000 | 라벨이 붙은 이미지, 텍스트 | 객체 인식 | 2015 | [54][55][56] | T. 린 등 |
SUN 데이터베이스 | 매우 큰 장면 및 객체 인식 데이터베이스입니다. | 장소와 객체에 라벨이 부착됩니다.오브젝트는 세그먼트화 됩니다. | 131,067 | 이미지, 텍스트 | 객체 인식, 장면 인식 | 2014 | [57][58] | J. 샤오 등 |
ImageNet(이미지넷) | ImageNet 대규모 시각적 인식 챌린지에 사용되는 라벨이 부착된 객체 이미지 데이터베이스 | 레이블이 지정된 객체, 경계 상자, 설명 단어, SIFT 기능 | 14,197,122 | 이미지, 텍스트 | 객체 인식, 장면 인식 | 2009 (2014) | [59][60][61] | J. 덩 외 |
이미지 열기 | 수천 개의 클래스에 걸친 이미지 레벨의 라벨과 바운딩 박스가 있는 CC BY 2.0 라이선스를 가지는 것으로 리스트 되어 있는 이미지의 큰 세트. | 이미지 레벨 라벨, 경계 상자 | 9,178,275 | 이미지, 텍스트 | 분류, 객체 인식 | 2017 | [62] | |
TV 뉴스 채널 상업 탐지 데이터 세트 | TV 광고와 뉴스 방송. | 정지화면에서 추출한 오디오 및 비디오 기능. | 129,685 | 본문 | 클러스터링, 분류 | 2015 | [63][64] | P. Guha 등 |
Statlog(이미지 세그멘테이션) 데이터 세트 | 인스턴스(instance)는 7개의 야외 영상의 데이터베이스에서 무작위로 그려지고 모든 픽셀에 대한 분류를 만들기 위해 손으로 세그먼트화했습니다. | 다수의 피쳐가 계산되었습니다. | 2310 | 본문 | 분류 | 1990 | [65] | 매사추세츠 대학교 |
칼텍 101 | 사물의 사진 | 상세 객체 윤곽이 표시되었습니다. | 9146 | 이미지들 | 분류, 객체 인식 | 2003 | [66][67] | F. Li 등 |
칼텍-256 | 개체 분류를 위한 대규모 이미지 데이터 세트입니다. | 이미지가 분류되고 손으로 정렬됩니다. | 30,607 | 이미지, 텍스트 | 분류, 객체 검출 | 2007 | [68][69] | G. 그리핀 외 |
SIFT10M 데이터 세트 | Caltech-256 데이터 세트의 SIFT 기능. | 광범위한 SIFT 기능 추출. | 11,164,866 | 본문 | 분류, 객체 검출 | 2016 | [70] | X. Fu 등 |
라벨미 | 장면의 주석이 달린 그림. | 오브젝트 윤곽 | 187,240 | 이미지, 텍스트 | 분류, 객체 검출 | 2005 | [71] | MIT 컴퓨터 사이언스 및 인공지능 연구소 |
도시 경관 데이터 세트 | 거리 장면에 기록된 스테레오 비디오 시퀀스 및 픽셀 수준 주석.메타데이터도 포함되어 있습니다. | 픽셀 레벨 분할 및 라벨링 | 25,000 | 이미지, 텍스트 | 분류, 객체 검출 | 2016 | [72] | 다임러 AG 등 |
PASCAL VOC 데이터 세트 | 분류 태스크에 사용할 수 있는 이미지가 있습니다. | 라벨, 경계 상자 포함 | 500,000 | 이미지, 텍스트 | 분류, 객체 검출 | 2010 | [73][74] | M. 에버링엄 외 |
CIFAR-10 데이터 세트 | 10개 클래스의 작은 저해상도 이미지가 많습니다. | 클래스가 라벨로 표시되어 트레이닝 세트 분할이 작성되었습니다. | 60,000 | 이미지들 | 분류 | 2009 | [60][75] | A. 크리제프스키 외 |
CIFAR-100 데이터 세트 | 위의 CIFAR-10과 마찬가지로 100개의 오브젝트 클래스가 주어집니다. | 클래스가 라벨로 표시되어 트레이닝 세트 분할이 작성되었습니다. | 60,000 | 이미지들 | 분류 | 2009 | [60][75] | A. 크리제프스키 외 |
CINIC-10 데이터 세트 | CIFAR-10과 Imagenet의 통합 기여는 10개의 클래스와 3개의 분할입니다.CIFAR-10보다 큽니다. | 라벨이 붙은 클래스, 트레이닝, 검증, 테스트 세트 분할이 작성되었습니다. | 270,000 | 이미지들 | 분류 | 2018 | [76] | 루크 N. 달로우, 엘리엇 J. 크롤리, 앤트레스 안토니우, 아모스 J. 스토키 |
패션 MNIST | MNIST와 같은 패션 상품 데이터베이스 | 클래스가 라벨로 표시되어 트레이닝 세트 분할이 작성되었습니다. | 60,000 | 이미지들 | 분류 | 2017 | [77] | 잘란도 SE |
하지 않다 | 일부 공개 글꼴은 MNIST와 유사한 데이터 집합을 만들기 위해 글꼴에서 글리프를 추출했습니다.10개의 클래스가 있으며 글자 A~J는 다른 글꼴에서 가져온 것입니다. | 클래스가 라벨로 표시되어 트레이닝 세트 분할이 작성되었습니다. | 500,000 | 이미지들 | 분류 | 2011 | [78] | 야로슬라프 불라토프 |
독일 교통 신호 감지 벤치마크 데이터 세트 | 독일 도로의 교통 표지판 차량 이미지.이 표지판들은 UN의 기준을 준수하기 때문에 다른 나라들과 같다. | 수동 라벨 부착 서명 | 900 | 이미지들 | 분류 | 2013 | [79][80] | 호벤 외 |
KITTI Vision 벤치마크 데이터 세트 | 중형도시를 달리는 자율 주행 차량들은 카메라와 레이저 스캐너를 이용해 다양한 지역의 이미지를 촬영했다. | 많은 벤치마크가 데이터에서 추출되었습니다. | 100 GB 이상의 데이터 | 이미지, 텍스트 | 분류, 객체 검출 | 2012 | [81][82][83] | 가이거 등 |
Linnaeus 5 데이터 세트 | 5가지 오브젝트 클래스의 이미지. | 클래스가 라벨로 표시되어 트레이닝 세트 분할이 작성되었습니다. | 8000 | 이미지들 | 분류 | 2017 | [84] | 칼라지슈빌리 |
필드 세이프 | 농업 분야에서 스테레오 카메라, 열 카메라, 웹 카메라, 360도 카메라, 레이더, 정밀한 위치 파악을 위한 다중 모드 데이터 세트입니다. | 지리적으로 라벨이 붙은 클래스. | 400 GB 이상의 데이터 | 이미지 및 3D 포인트 클라우드 | 분류, 객체 검출, 객체 현지화 | 2017 | [85] | M. Kragh et al. |
11,000 핸드 | 18~75세의 다양한 연령의 190명의 피험자 11,076명의 손 이미지(1,076 x 1,200 픽셀)를 성별 인식 및 생체 인식에 사용합니다. | 없음. | 11,076개의 손 이미지 | 이미지 및 (.mat, .txt 및 .csv) 라벨 파일 | 성별 인식 및 생체 인식 | 2017 | [86] | M Afifi |
CORe50 | Continuous/Lifelong Learning and Object Recognition을 위해 특별히 설계된 이 제품은 10개의 카테고리에 속하는 50개의 국내 객체 500개 이상의 비디오(30fps)를 모은 것입니다. | 라벨이 붙은 클래스, 3방향 멀티런 벤치마크를 기반으로 작성된 트레이닝 세트 분할. | 164,866개의 RBG-D 이미지 | 이미지(.png 또는 .sngl) 및 (.subl, .txt, .tsv) 라벨 파일 | 분류, 객체 인식 | 2017 | [87] | 로모나코와 D.말토니 |
OpenLORIS-객체 | 여러 고해상도 센서를 탑재한 실제 로봇이 수집한 평생/지속적인 Robotic Vision 데이터 세트(OpenLORIS-Object)에는 121개의 객체 인스턴스(데이터셋의 첫 번째 버전, 20장면 이하 40개 카테고리 생필품 객체)가 포함되어 있습니다.데이터 집합은 조명, 폐색, 물체 픽셀 크기 및 난이도 등 다양한 상황에서 4가지 환경 요소를 엄격하게 고려했으며 각 요소의 난이도를 명시적으로 정의했습니다. | 벤치마크 스크립트에 의해 작성된 트레이닝/검증/테스트 세트 분할이라는 라벨이 붙은 클래스. | 1,106,424개의 RBG-D 이미지 | 이미지(.png 및 .sngl) 및 (.label) 라벨 파일 | 분류, 평생 객체 인식, 로보틱 비전 | 2019 | [88] | Q. 그녀 등. |
THz 및 서멀 비디오 데이터 세트 | 이 멀티 스펙트럼 데이터 세트에는 테라헤르츠, 열, 시각, 근적외선, 그리고 사람들의 옷 아래 숨겨진 물체의 3차원 비디오가 포함됩니다. | 영상을 3D 점 구름에 투영할 수 있는 3D 조회 테이블이 제공됩니다. | 20개 이상의 비디오각 비디오의 소요시간은 약 85초(약 345 프레임)입니다. | AP2J | 숨겨진 객체 탐지 실험 | 2019 | [89][90] | 알렉세이 A.모로조프와 올가 S.수시코바 |
필기 및 문자 인식
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
인공 문자 데이터 세트 | 영문 대문자 10개의 구조를 설명한 인위적으로 생성된 데이터. | 정수로 지정된 선의 좌표입니다.기타 다양한 기능 | 6000 | 본문 | 필기 인식, 분류 | 1992 | [91] | H. 구베른 등 |
레터 데이터 세트 | 대문자로 인쇄된 문자. | 모든 이미지에서 17개의 특징이 추출됩니다. | 20,000 | 본문 | OCR, 분류 | 1991 | [92][93] | 라. 슬레이트 등 |
CASIA-HWDB | 오프라인 수기 한자 데이터베이스.GB 2312 문자 집합의 3755 클래스. | 배경 픽셀이 255로 표시된 회색 스케일 이미지. | 1,172,907 | 이미지, 텍스트 | 필기 인식, 분류 | 2009 | [94] | 캐시아 |
CASIA-OLHWDB | 종이 위에 있는 Anoto 펜을 사용하여 수집한 온라인 친필 한자 데이터베이스.GB 2312 문자 집합의 3755 클래스. | 스트로크의 좌표 시퀀스를 제공합니다. | 1,174,364 | 이미지, 텍스트 | 필기 인식, 분류 | 2009 | [95][94] | 캐시아 |
캐릭터 궤적 데이터 세트 | 간단한 문자를 쓰는 사용자를 위한 펜 끝 궤적의 레이블 샘플입니다. | 각 샘플에 대한 3차원 펜 끝 속도 궤적 매트릭스 | 2858 | 본문 | 필기 인식, 분류 | 2008 | [96][97] | B. 윌리엄스 |
Chars74K 데이터 세트 | 영어와 칸나다에서 사용되는 기호의 자연 이미지에서의 문자 인식 | 74,107 | 문자 인식, 필기 인식, OCR, 분류 | 2009 | [98] | T. de 캄포스 | ||
EMNIST 데이터 세트 | 3600명의 투고자가 손으로 쓴 문자 | NIST Special Database 19에서 파생되었습니다.MNIST 데이터 [99]세트와 일치하는 28x28픽셀 이미지로 변환됩니다. | 800,000 | 이미지들 | 문자 인식, 분류, 필기 인식 | 2016 | EMNIST 데이터 세트 문서 | 그레고리 코헨 외 |
UJI 펜 문자 데이터 세트 | 분리된 수기 문자 | 글자로 된 펜 위치의 좌표가 주어졌습니다. | 11,640 | 본문 | 필기 인식, 분류 | 2009 | [102][103] | F. 프라트 등 |
Gisette 데이터 세트 | 자주 혼동되는 4글자와 9글자의 필기 샘플입니다. | 이미지에서 추출하여 열차/테스트로 분할하고 이미지 크기를 정규화한 수기 이미지. | 13,500 | 이미지, 텍스트 | 필기 인식, 분류 | 2003 | [104] | 얀 레쿤 외 |
옴니글롯 데이터 세트 | 1623개의 다른 손으로 쓴 50개의 알파벳 문자. | 핸드라벨 부착. | 38,300 | 이미지, 텍스트, 스트로크 | 분류, 원샷 학습 | 2015 | [105][106] | 미국 과학 진흥 협회 |
MNIST 데이터베이스 | 손으로 쓴 숫자의 데이터베이스. | 핸드라벨 부착. | 60,000 | 이미지, 텍스트 | 분류 | 1998 | [107][108] | 미국 국립표준기술원 |
수기 숫자 데이터 세트의 광학 인식 | 손으로 쓴 데이터의 정규화된 비트맵. | 크기가 정규화되어 비트맵에 매핑됩니다. | 5620 | 이미지, 텍스트 | 필기 인식, 분류 | 1998 | [109] | E. 알페이딘 외 |
손으로 쓴 숫자 데이터 세트의 펜 기반 인식 | 전자 펜 태블릿에 손으로 쓴 숫자입니다. | 추출된 특징 벡터는 균일한 간격으로 배치됩니다. | 10,992 | 이미지, 텍스트 | 필기 인식, 분류 | 1998 | [110][111] | E. 알페이딘 외 |
Semeion 수기 숫자 데이터 세트 | 80명부터 손으로 쓴 숫자야 | 손으로 쓴 모든 숫자가 크기에 대해 정규화되어 동일한 그리드에 매핑되었습니다. | 1593 | 이미지, 텍스트 | 필기 인식, 분류 | 2008 | [112] | T. Srl |
하드 디스크2 | 손으로 쓴 수학 기호 | 모든 기호는 중앙에 배치되며 크기가 32px x 32px입니다. | 168233 | 이미지, 텍스트 | 분류 | 2017 | [113] | 마틴 토마 |
손으로 쓴 Bangla 데이터 세트 소음 | 수기 숫자 데이터 세트(10개 클래스)와 기본 문자 데이터 세트(50개 클래스)를 포함하며, 각 데이터 세트에는 흰색 가우스, 모션 블러, 대비 감소라는 세 가지 유형의 노이즈가 있습니다. | 모든 영상은 중앙에 배치되며 크기가 32x32입니다. | 숫자 데이터 세트: 23330, 문자 데이터 세트: 76000 | 이미지들, 본문 | 필기 인식, 분류 | 2017 | [114][115] | M. Karki et al. |
항공 이미지
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
iSAID: 항공 이미지 데이터 세트의 인스턴스 세그멘테이션 | 전문 주석자가 수행하고, 잘 정의된 지침을 준수하는 전문가 주석자가 교차 확인 및 검증하는 정확한 인스턴스 수준 주석입니다. | 655,451(15클래스) | 이미지, jpg, json | 항공 분류, 객체 감지, 인스턴스 분할 | 2019 | [116][117] | 사이드 와카스 자미르 아 디트 아로라 악시타 굽타 살만 칸 궈레이손 파하드 샤바즈 칸, 판주 링샤오, 구이송샤, 샹바이 | |
항공 이미지 분할 데이터 세트 | 공간 해상도 0.3~1.0 범위의 고해상도 항공 이미지 80개 | 영상을 수동으로 분할합니다. | 80 | 이미지들 | 공중 분류, 물체 감지 | 2013 | [118][119] | J. Yuan 등 |
KIT AIS 데이터 세트 | 군중 항공 이미지의 여러 레이블이 지정된 교육 및 평가 데이터 세트. | 수동으로 라벨이 지정된 이미지는 군중 속을 통과하는 개인의 경로를 보여줍니다. | ~ 150 | 경로가 있는 이미지 | 사람 추적, 공중 추적 | 2012 | [120][121] | M. 부테누스 외 |
Wilt 데이터 세트 | 병든 나무와 다른 육지 커버의 원격 감지 데이터. | 다양한 기능이 추출되었습니다. | 4899 | 이미지들 | 분류, 공중 물체 감지 | 2014 | [122][123] | B. 존슨 |
MASATI 데이터 세트 | 가시 스펙트럼에서 본 광학 항공 이미지의 해상 장면.동적 해양 환경의 컬러 이미지를 포함하며, 각 이미지에는 날씨 및 조명 조건이 다른 하나 이상의 대상이 포함될 수 있습니다. | 객체 경계 상자 및 레이블. | 7389 | 이미지들 | 분류, 공중 물체 감지 | 2018 | [124][125] | A.-J. 갈레고 등 |
포레스트 유형 매핑 데이터 세트 | 일본의 숲 위성 사진 | 영상 파장 대역이 추출되었습니다. | 326 | 본문 | 분류 | 2015 | [126][127] | B. 존슨 |
오버헤드 이미지 리서치 데이터 세트 | 주석이 달린 오버헤드 이미지.여러 개체가 있는 이미지. | 이미지의 컨텍스트 내에서 대상을 설명하는 30개 이상의 주석과 60개 이상의 통계. | 1000 | 이미지, 텍스트 | 분류 | 2009 | [128][129] | F. 태너 등 |
스페이스넷 | SpaceNet은 상용 위성 이미지와 레이블이 지정된 교육 데이터의 말뭉치입니다. | 건물 설치 공간이 포함된 GeoTiff 및 GeoJSON 파일. | 17533 이상 | 이미지들 | 분류, 객체 식별 | 2017 | [130][131][132] | 디지털글로브 주식회사 |
UC Merced 토지 사용 데이터 세트 | 이러한 이미지는 미국 전역의 다양한 도시 지역에 대한 USGS National Map Urban Area Images 컬렉션의 대형 이미지에서 수동으로 추출한 것이다. | 이것은 조사를 목적으로 한 21등급 토지 이용 이미지 데이터 세트입니다.각 클래스에는 100개의 이미지가 있습니다. | 2,100 | 256 x 256, 30 cm (1 피트) GSD 이미지 칩 | 토지표지구분 | 2010 | [133] | 이양과 숀 뉴삼 |
SAT-4 공중 데이터 세트 | 이미지는 NAIP(National Agriculture Images Program) 데이터 세트에서 추출되었다. | SAT-4는 불모지, 나무, 초원 및 상기 3가지 이외의 모든 토지 커버 클래스로 구성된 4가지 넓은 토지 커버 클래스가 있다. | 500,000 | 이미지들 | 분류 | 2015 | [134][135] | S. Basu 등 |
SAT-6 공중 데이터 세트 | 이미지는 NAIP(National Agriculture Images Program) 데이터 세트에서 추출되었다. | SAT-6은 척박한 땅, 나무, 초원, 도로, 건물 및 수역을 포함한 6개의 넓은 토지 커버 클래스가 있다. | 405,000 | 이미지들 | 분류 | 2015 | [134][135] | S. Basu 등 |
기타 이미지
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
NRC-GAMMA | 새로운 벤치마크 가스 미터 이미지 데이터 세트 | 없음. | 28,883 | 이미지, 라벨 | 분류 | 2021 | [136][137] | A. 에바디, P. 폴, S.아우어 & S. 트램블레이 |
SUPATLANTIKE 데이터 세트 | 스캔한 공식 문서 및 Wikipedia 문서 이미지 | 없음. | 4908 | TIFF/pdf | 소스 디바이스 식별, 위조 탐지, 분류.. | 2020 | [138] | 벤 라바 외 |
그래핀의 밀도 함수 이론 양자 시뮬레이션 | 그래핀 시뮬레이션에 대한 원시 입력의 라벨 이미지 | 밀도 함수 이론 양자 시뮬레이션의 원시 데이터(HDF5 형식) 및 출력 레이블 | 60744 테스트 파일 및 501473 트레이닝 파일 | 라벨이 붙은 이미지 | 회귀 | 2019 | [139] | K. Mills & I.탬블린 |
2차원 전위 우물 내 전자의 양자 시뮬레이션 | 2D 양자 역학의 시뮬레이션에 대한 원시 입력의 레이블 이미지 | 양자 시뮬레이션의 원시 데이터(HDF5 형식) 및 출력 라벨 | 130만 이미지 | 라벨이 붙은 이미지 | 회귀 | 2017 | [140] | K. Mills, M.A. 스패너 & I. Tamblyn |
MPII 요리 활동 데이터 세트 | 다양한 요리활동 영상과 이미지. | 활동 경로 및 방향, 라벨, 세밀한 모션 라벨, 활동 클래스, 정지 이미지 추출 및 라벨. | 881,755 프레임 | 라벨이 붙은 비디오, 이미지, 텍스트 | 분류 | 2012 | [141][142] | 로하바흐 외 |
FAMOS 데이터 세트 | 5,000개의 고유한 미세 구조, 두 개의 다른 카메라로 모든 샘플을 3번 획득했습니다. | 카메라별로 정렬된 다음 획득별로 정렬된 원본 PNG 파일입니다.획득당 카메라당 1개의 16384 x 5000 행렬이 포함된 MATLAB 데이터 파일. | 30,000 | 이미지와 .mat 파일 | 인증 | 2012 | [143] | S. 볼로시노브스키 등 |
PharmaPack 데이터 세트 | 클래스당 54개의 이미지로 1,000개의 고유 클래스 | 클래스 라벨, 많은 로컬 기술자(SIFT 및 aKaZE 등), 로컬 기능 애그레이터(Fisher Vector(FV) 등). | 54,000 | 이미지와 .mat 파일 | 세립구분 | 2017 | [144] | O. Taran과 S. Rezaeifar 등 |
Stanford Dogs 데이터 세트 | 전 세계 120여 종의 개 이미지. | 트레인/테스트 분할 및 ImageNet 주석 제공. | 20,580 | 이미지, 텍스트 | 세립구분 | 2011 | [145][146] | A. Khosla 등 |
StanfordExtra 데이터 세트 | Stanford Dogs Dataset의 2D 키포인트 및 세그먼트화. | 2D 키포인트 및 세그먼트화 제공. | 12,035 | 라벨이 붙은 이미지 | 3D 재구성/포즈 추정 | 2020 | [147] | B. Biggs 등 |
Oxford-IIIT 애완동물 데이터 세트 | 각각 약 200개의 이미지를 가진 37개의 카테고리의 애완동물. | 라벨 부착, 엄격한 경계 상자, 전경-배경 세그먼트화. | ~ 7,400 | 이미지, 텍스트 | 분류, 객체 검출 | 2012 | [146][148] | O. Parkhi et al. |
Corel 이미지 기능 데이터 세트 | 피쳐가 추출된 이미지의 데이터베이스입니다. | 색상 히스토그램, 공존 텍스처 및 열량 성분을 포함한 많은 특징, | 68,040 | 본문 | 분류, 객체 검출 | 1999 | [149][150] | M. 오르테가-빈덴버거 외 |
온라인 비디오 특성 및 트랜스코딩 시간 데이터 세트. | 다양한 비디오 및 비디오 속성의 트랜스코딩 시간. | 비디오 기능 제공. | 168,286 | 본문 | 회귀 | 2015 | [151] | T. 데네키 외 |
Microsoft 시퀀셜 이미지 내러티브 데이터 세트(SIND) | 순차적 언어 간 비전 데이터 세트 | 각 사진에 대한 설명 캡션과 스토리텔링, 사진 배열 순서 | 81,743 | 이미지, 텍스트 | 시각적 스토리텔링 | 2016 | [152] | 마이크로소프트 리서치 |
Caltech-UCSD Birds-200-2011 데이터 세트 | 새의 큰 이미지 세트입니다. | 새, 경계 상자, 312개의 이진 속성을 위한 부품 위치 지정 | 11,788 | 이미지, 텍스트 | 분류 | 2011 | [153][154] | C. Wah et al. |
유튜브-8M | 라벨이 붙은 크고 다양한 비디오 데이터 세트 | 4800개의 비주얼 엔티티에 대한 다양한 어휘의 YouTube 비디오 ID 및 관련 라벨 | 800만 | 비디오, 텍스트 | 비디오 분류 | 2016 | [155][156] | S. 아부-엘-하이자 외 |
YFCC100M | 라벨이 붙은 이미지와 비디오 데이터 세트 | Flickr 비디오 및 이미지 및 관련 설명, 제목, 태그 및 기타 메타데이터(EXIF 및 지오태그 등) | 1억 | 비디오, 이미지, 텍스트 | 비디오 및 이미지 분류 | 2016 | [157][158] | B. 토미 등 |
개별 LIRIS-ACCEDE | 원자가와 자극에 대한 주석이 달린 짧은 비디오. | 원자가 및 각성 라벨. | 9800 | 비디오 | 영상 감정 유도 검출 | 2015 | [159] | Y. 바베이 외 |
연속 LIRIS-ACCEDE | 갈바닉 피부 반응을 수집하면서 원자가 및 각성에 대한 주석을 단 긴 비디오. | 원자가 및 각성 라벨. | 30 | 비디오 | 영상 감정 유도 검출 | 2015 | [160] | Y. 바베이 외 |
MediaEval LIRIS-ACCEDE | 영화의 폭력 수준에 대한 주석을 포함한 이산 LIRIS-ACCEDE의 확장. | 폭력, 원자가, 각성표지 | 10900 | 비디오 | 영상 감정 유도 검출 | 2015 | [161] | Y. 바베이 외 |
리즈 스포츠 포즈 | Flickr의 2000개의 자연 스포츠 이미지에서 인간의 자세 주석을 연결했습니다. | 14개의 조인트 레이블이 있는 관심 있는 한 사람 주위에 대략적인 자르기 | 2000 | 이미지와 .mat 파일 라벨 | 인간 자세 추정 | 2010 | [162] | S. Johnson과 M.에버링엄 |
리즈 스포츠 포즈 연장 훈련 | Flickr의 10,000개의 자연 스포츠 이미지에서 인간의 자세 주석을 연결했습니다. | 크라우드소싱을 통한 14개 조인트 라벨 | 10000 | 이미지와 .mat 파일 라벨 | 인간 자세 추정 | 2011 | [163] | S. Johnson과 M.에버링엄 |
MCQ 데이터 세트 | 컴퓨터 비전 기법과 객관식 테스트 평가 시스템용으로 개발된 시스템을 평가하기 위한 6가지 실제 객관식 기반 시험(735개의 답안지와 33,540개의 답안 상자) | 없음. | 735개의 답안지와 33,540개의 답안함 | 이미지와 .mat 파일라벨 | 객관식 시험평가 시스템 개발 | 2017 | [164][165] | Afifi, M. et al. |
보안 감시 비디오 | 실제 보안 감시 비디오는 긴 보안 감시 시간(각각 24시간씩 7일)을 커버합니다. | 없음. | 19개의 보안 감시 비디오 (각각 24시간 7일) | 비디오 | data 압축 | 2016 | [166] | 타즈-에딘, I. A. T. F. 등 |
라일라 BC | '알렉산드리아의 정보 라이브러리: 생물과 보존'이라는 라벨이 붙어 있습니다.생태학 및 환경과학에 관한 기계학습 연구를 지원하는 라벨 이미지. | 없음. | 최대 1,000만 이미지 | 이미지들 | 분류 | 2019 | [167] | LILA 작업 그룹 |
광합성을 볼 수 있을까요? | DC 및 AC 조명 조건 하에서 8개의 라이브 및 8개의 데드 리프 비디오가 녹화됩니다. | 없음. | 32 비디오 | 비디오 | 식물의 활력 검출 | 2017 | [168] | 타즈-에딘, I. A. T. F. 등 |
수학 밈 | 수학에 관한 10,000개의 밈을 모았습니다. | 없음. | ~10,000 | 이미지들 | 시각적 스토리텔링, 물체 감지 | 2021 | [169] | 수학 밈 |
텍스트 데이터
이러한 데이터 세트는 주로 자연어 처리, 감정 분석, 번역 및 클러스터 분석 등의 작업을 위한 텍스트로 구성됩니다.
리뷰
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
아마존 리뷰 | Amazon.com에서 제공하는 미국 제품 리뷰. | 없음. | 2억 3,310만 | 본문 | 분류, 감정 분석 | 2015 (2018) | [170][171] | 맥아울리 등 |
OpinRank 리뷰 데이터 세트 | Edmunds.com 및 TripAdvisor의 자동차 및 호텔 리뷰. | 없음. | 각각 42,230 / 약 259,000 | 본문 | 감정 분석, 클러스터링 | 2011 | [172][173] | K. 가네산 외 |
무비렌즈 | 240,000명의 사용자가 33,000편의 영화에 2,200,000개의 시청률 및 580,000개의 태그를 적용했습니다. | 없음. | 최대 2,200만 | 본문 | 회귀, 클러스터링, 분류 | 2016 | [174] | GroupLens 리서치 |
Yahoo! 음악 아티스트의 음악 사용자 평가 | 야후 유저에 의한 아티스트의 1000만 이상의 평가. | 설명 없음. | 최대 1,000만 | 본문 | 클러스터링, 회귀 | 2004 | [175][176] | 야후! |
차량 평가 데이터 세트 | 자동차 특성 및 전반적인 허용 가능성. | 6개의 범주형 특징이 있습니다. | 1728 | 본문 | 분류 | 1997 | [177][178] | M. Bohanec |
YouTube Comedy Slam 선호 데이터 세트 | YouTube에 표시된 동영상 쌍에 대한 사용자 투표 데이터.이용자들은 더 재미있는 동영상에 투표했다. | 비디오 메타데이터가 지정되었습니다. | 1,138,562 | 본문 | 분류 | 2012 | [179][180] | 구글 |
Skytrax 사용자 리뷰 데이터 세트 | Skytrax의 항공사, 공항, 좌석 및 라운지에 대한 사용자 리뷰. | 등급은 세분화되어 있으며 공항 경험의 많은 측면을 포함합니다. | 41396 | 본문 | 분류, 회귀 | 2015 | [181] | Q. 응웬 |
교육 보조 평가 데이터 세트 | 조교 리뷰. | 클래스, 클래스 크기, 강사 등의 각 인스턴스의 기능이 제공됩니다. | 151 | 본문 | 분류 | 1997 | [182][183] | W. Loh 등 |
베트남 학생 피드백 코퍼스(UIT-VSFC) | 학생의 피드백 | 평. | 16,000 | 본문 | 분류 | 1997 | [184] | 응우옌 외 |
베트남 소셜 미디어 감성 코퍼스(UIT-VSMEC) | 사용자의 Facebook 댓글. | 평. | 6,927 | 본문 | 분류 | 1997 | [185] | 응우옌 외 |
베트남 오픈 도메인 불만 감지 데이터 세트(ViOCD) | 고객님의 제품 리뷰 | 평. | 5,485 | 본문 | 분류 | 2021 | [186] | 응우옌 외 |
뉴스 기사
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
NYSK Dataset | 그 사건에 대해 영어로 뉴스 기사 전 IMF감독 도미니크 스트로스 칸 성추행 의혹에 관련된 것. | 및 XML형식으로 나타나이곳에서는 여과된. | 10,421 | XML텍스트 | 기분이 분석, 주제 추출 | 2013 | [187] | Dermouche, M. 에 알. |
그 로이터 코퍼스 크리스티 1. | 로이터 뉴스들 중 영어로 대형을 취하다. | 범주화와 주제 코드 Fine-grain. | 810,000 | 본문 | 분류, 클러스터링, 요약 | 2002 | [188] | 로이터 통신 |
그 로이터 코퍼스 크리스티 볼륨 2. | 여러 언어로 로이터 뉴스 대형을 취하다. | 범주화와 주제 코드 Fine-grain. | 487,000 | 본문 | 분류, 클러스터링, 요약 | 2005 | [189] | 로이터 통신 |
Thomson Reuters 텍스트 리서치 컬렉션 | 많은 뉴스 기사 말뭉치. | 자세한 내용은 기재되어 있지 않습니다. | 1,800,370 | 본문 | 분류, 클러스터링, 요약 | 2009 | [190] | T. 로즈 등 |
사우디아라비아 신문 코퍼스 | 아랍어 신문 기사 31,030건 | 메타데이터가 추출되었습니다. | 31,030 | JSON | 요약, 클러스터링 | 2015 | [191] | M. 알하그리 |
RE3D(관계 및 엔티티 추출 평가 데이터 세트) | 엔티티와 릴레이션스는 다양한 뉴스와 정부 소식통의 데이터를 표시했다.Dstl 후원 | 베일린 유형을 사용한 필터링, 분류 | 알 수 | JSON | 분류, 실체 및 관계 인식 | 2017 | [192] | Dstl |
검사자 스팸 클릭베이트 카탈로그 | 2010년부터 2015년까지 Clickbait, 스팸, 크라우드 소싱 헤드라인 | 날짜 및 헤드라인 공개 | 3,089,781 | CSV | 클러스터링, 이벤트, 감성 | 2016 | [193] | 쿨카르니 |
ABC 오스트레일리아 뉴스 코퍼스 | 2003년부터 2019년까지 ABC Australia의 전체 뉴스 코퍼스 | 날짜 및 헤드라인 공개 | 1,186,018 | CSV | 클러스터링, 이벤트, 감성 | 2020 | [194] | 쿨카르니 |
월드와이드 뉴스– 총 20,000개의 피드 | 20개 이상의 언어로 된 모든 온라인 헤드라인의 1주일 스냅샷 | 게시 시간, URL 및 헤드라인 | 1,398,431 | CSV | 클러스터링, 이벤트, 언어 검출 | 2018 | [195] | 쿨카르니 |
로이터 뉴스 와이어 헤드라인 | 11년간의 타임스탬프 사건이 뉴스 와이어에 게재되었다. | 게시 시간, 제목 텍스트 | 16,121,310 | CSV | NLP, 컴퓨터 언어학, 이벤트 | 2018 | [196] | 쿨카르니 |
아이리시 타임스 아일랜드 뉴스 코퍼스 | 1996년부터 2019년까지 아일랜드 뉴스 24년 | 게시 시간, 제목 카테고리 및 텍스트 | 1,484,340 | CSV | NLP, 컴퓨터 언어학, 이벤트 | 2020 | [197] | 쿨카르니 |
뉴스 헤드라인 데이터 세트(Sarasm Detection용) | 비꼬는 뉴스 헤드라인과 비사르캐스트 뉴스 헤드라인을 포함한 고품질 데이터 세트. | 정규화된 깨끗한 텍스트 | 26,709 | JSON | NLP, 분류, 언어학 | 2018 | [198] | 리샤브 미스라 |
메시지
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Enron 이메일 데이터 세트 | Enron의 직원들이 보낸 이메일이 폴더로 정리되었습니다. | 첨부 파일이 제거되었습니다. 잘못된 이메일 주소가 user@enron.com 또는 no_address@enron.com으로 변환되었습니다. | ~ 500,000 | 본문 | 네트워크 분석, 감정 분석 | 2004 (2015) | [199][200] | 클림트, B, Y양 |
Ling-Spam 데이터 세트 | 정규 전자 메일과 스팸 전자 메일을 모두 포함하는 말뭉치입니다. | Lemmatiser 또는 중지 목록이 활성화되었는지 여부를 포함하는 말뭉치의 4가지 버전. | 2,412 Ham 481 스팸 | 본문 | 분류 | 2000 | [201][202] | 안드루소풀로스, J. 등 |
SMS 스팸 수집 데이터 세트 | 수집된 SMS 스팸 메시지. | 없음. | 5,574 | 본문 | 분류 | 2011 | [203][204] | T. 알메이다 외 |
20개의 뉴스 그룹 데이터 세트 | 20개의 다른 뉴스 그룹으로부터의 메시지. | 없음. | 20,000 | 본문 | 자연어 처리 | 1999 | [205] | T. 미첼 외 |
스팸 기반 데이터 세트 | 스팸 메일 | 많은 텍스트 피쳐가 추출되었습니다. | 4,601 | 본문 | 스팸 검출, 분류 | 1999 | [206] | M. 홉킨스 외 |
트위터 및 트윗
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
무비 트윗 | 공개된 트윗과 잘 구성된 트윗을 기반으로 한 영화 등급 데이터 세트 | ~710,000 | 본문 | 분류, 회귀 | 2018 | [207] | S. 둠스 | |
트위터 10만 | 이미지와 트윗 쌍 | 100,000 | 텍스트 및 이미지 | 크로스 미디어 검색 | 2017 | [208][209] | Y. Hu 등 | |
센티먼트140 | 원문, 타임 스탬프, 사용자, 감성을 포함한 2009년의 트윗 데이터. | 트윗에 이모티콘이 있는 것과 원격 감시를 사용하여 분류됩니다. | 1,578,627 | 트윗, 쉼표, 구분값 | 감정 분석 | 2009 | [210][211] | A. Go 등 |
ASU 트위터 데이터 세트 | 실제 트윗이 아닌 트위터 네트워크 데이터.다수의 유저간의 접속을 표시합니다. | 없음. | 11,316,811 사용자,85,331,846 연결 | 본문 | 클러스터링, 그래프 분석 | 2009 | [212][213] | R. Zafarani 등 |
SNAP 소셜 서클:트위터 데이터베이스 | 대규모 트위터 네트워크 데이터 | 노드 기능, 서클 및 이기 네트워크 | 1,768,149 | 본문 | 클러스터링, 그래프 분석 | 2012 | [214][215] | J. McAuley 등 |
아랍어 정서 분석을 위한 트위터 데이터 세트 | 아랍어 트윗 | 양 또는 음으로 손으로 라벨링된 검체. | 2000 | 본문 | 분류 | 2014 | [216][217] | N. 압둘라 |
소셜 미디어 데이터 세트의 인기 | Twitter와 Tom's Hardware의 데이터입니다.이 데이터 세트는 이러한 사이트에서 논의되고 있는 특정 화제성에 초점을 맞추고 있습니다. | 사용자가 소셜 미디어 버즈의 원인이 되는 이벤트를 예측할 수 있도록 데이터가 창으로 표시됩니다. | 140,000 | 본문 | 회귀, 분류 | 2013 | [218][219] | F. 카왈라 외 |
트위터(PIT)에서의 패러프레이즈 및 시멘틱 유사성 | 이 데이터 세트는 트윗이 (거의) 동일한 의미/정보를 가지고 있는지 여부에 초점을 맞추고 있습니다.수동 라벨 부착. | 토큰화, part-of-time 및 named 엔티티 태그 지정 | 18,762 | 본문 | 회귀, 분류 | 2015 | [220][221] | 쉬 외 |
Geoparse Twitter 벤치마크 데이터 세트 | 이 데이터 세트에는 다른 국가에서 다른 뉴스 이벤트 중에 트윗이 포함되어 있습니다.수동으로 라벨이 붙은 위치 설명. | 위치 주석, JSON 메타데이터에 추가 | 6,386 | 트윗, JSON | 분류, 정보 추출 | 2014 | [222][223] | S.E. 미들턴 외 |
네덜란드 소셜 미디어 컬렉션 | 이 데이터 세트에는 네덜란드어 사용자 또는 네덜란드 사용자가 만든 COVID-19 트윗이 포함되어 있다.데이터에 레이블이 지정되었습니다. | 감성, 트윗 텍스트 및 사용자 설명에 대해 영어로 번역됩니다.업계의 언급이 추출되다 | 271,342 | JSONL | 감성, 복수 라벨 분류, 기계 번역 | 2020 | [224][225][226] | 코로나주 AAaksh Gupta 왜? |
대화
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
NPS 채팅 코퍼스 | 연령별 온라인 채팅방에서 올라온 게시물입니다. | 핸드 프라이버시 마스크, 말이나 대화 동작의 일부에 태그 부착. | ~ 500,000 | XML | NLP, 프로그래밍, 언어학 | 2007 | [227] | 포사이스, E, 린, J, 마텔, C. |
트위터 트리플 코퍼스 | A-B-A는 트위터에서 세 배로 추출한 것입니다. | 4,232 | 본문 | NLP | 2016 | [228] | 소르디니, A. 등 | |
UseNet 코퍼스 | UseNet 포럼 투고 | 익명화된 전자 메일 및 URL.생략된 문서 길이가 500단어 미만 또는 500,000단어 미만 또는 90% 미만의 영어 문서. | 70억 | 본문 | 2011 | [229] | 샤울, C. & 웨스트베리 C. | |
NUS SMS 말뭉치 | 타이밍 분석을 통해 두 사용자 간에 수집된 SMS 메시지. | ~ 10,000 | XML | NLP | 2011 | [230] | KAN, M | |
Reddit All Comments 코퍼스 | 모든 Reddit 댓글(2015년 기준) | 최대 17억 | JSON | NLP, 조사 | 2015 | [231] | 매트릭스 스택 | |
우분투 대화 말뭉치 | IRC의 Ubuntu 채팅스트림에서 추출한 대화입니다. | 93만 대화, 710만 발언 | CSV | 대화 시스템 조사 | 2015 | [232] | Lowe, R. 등 | |
대화상자 상태 추적 과제 | Dialog State Tracking Challenges 2 & 3 (DSTC2 & 3)은 음성 대화 시스템의 상태를 추적하는 데 있어 최신 기술을 개선하는 데 초점을 맞춘 연구 과제였다. | 라벨 부착 음성 대화상자의 문자 변환 | DSTC2에는 최대 3.2,000 콜이 포함됩니다.DSTC3에는 최대 2.3,000 콜이 포함됩니다. | 제이슨 | 대화 상태 추적 | 2014 | [233] | 헨더슨, 매튜 및 톰슨, 블레이즈 및 윌리엄스, 제이슨 D |
기타 텍스트
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Web of Science 데이터 세트 | 텍스트 분류를 위한 계층 데이터 집합 | 없음. | 46,985 | 본문 | 분류, 분류 | 2017 | [234][235] | K. Kowsari et al. |
법무 케이스 리포트 | 2006년부터 2009년까지 호주 연방법원의 사건. | 없음. | 4,000 | 본문 | 요약, 인용 분석 | 2012 | [236][237] | F. 갈가니 등 |
블로거 제작자 코퍼스 | blogger.com에서 19,320명의 블로그에 응모. | 블로거가 성별, 나이, 근면성, 점성술적 별자리를 스스로 제공했습니다. | 681,288 | 본문 | 감정분석, 요약, 분류 | 2006 | [238][239] | J. 슐러 등 |
페이스북 네트워크의 사회 구조 | Facebook의 사회구조의 큰 데이터 세트. | 없음. | 대상 대학 100개 | 본문 | 네트워크 분석, 클러스터링 | 2012 | [240][241] | A. 트라우드 등 |
텍스트의 기계 이해를 위한 데이터 세트 | 텍스트의 이해도를 테스트하기 위한 스토리 및 관련 질문. | 없음. | 660 | 본문 | 자연어 처리, 기계 이해 | 2013 | [242][243] | 리처드슨 외 |
펜 트리뱅크 프로젝트 | 언어 구조에 대한 주석을 붙인 자연 발생 텍스트. | 텍스트는 의미 트리로 해석됩니다. | 최대 100만 단어 | 본문 | 자연어 처리, 요약 | 1995 | [244][245] | M. Marcus et al. |
DEXTER 데이터 세트 | 주어진 과제는 주어진 기능에서 기업 인수에 관한 기사를 결정하는 것입니다. | 추출된 기능에는 단어 줄기가 포함됩니다.산만기 기능이 포함되어 있습니다. | 2600 | 본문 | 분류 | 2008 | [246] | 로이터 통신 |
구글 북스 N-그램 | 방대한 양의 서적에서 나온 것. | 없음. | 2.2 TB의 텍스트 | 본문 | 분류, 클러스터링, 회귀 | 2011 | [247][248] | 구글 |
Personae 코퍼스 | 저자 속성 및 성격 예측 실험을 위해 수집되었습니다.145개의 네덜란드어로 된 에세이로 구성되어 있습니다. | 통상의 텍스트에 가세해 통사적으로 주석이 붙은 텍스트가 주어집니다. | 145 | 본문 | 분류, 회귀 | 2008 | [249][250] | K. Luyckx 등 |
CNAE-9 데이터 세트 | 브라질 기업에 대한 무료 텍스트 기술 분류 작업. | 단어 빈도가 추출되었습니다. | 1080 | 본문 | 분류 | 2012 | [251][252] | P. 치아렐리 외 연구진 |
감정 레이블이 지정된 문장 데이터 세트 | 3000개의 감정에는 문장이 붙었다. | 각 문장의 감정은 긍정 또는 부정으로 손으로 라벨이 붙여졌다. | 3000 | 본문 | 분류, 감정 분석 | 2015 | [253][254] | 코치아스 |
BlogFeedback 데이터 세트 | 투고 기능에 근거해 투고되는 코멘트수를 예측하는 데이터 세트. | 각 투고마다 많은 특징이 추출되어 있습니다. | 60,021 | 본문 | 회귀 | 2014 | [255][256] | K. 부자 |
스탠포드 자연어 추론(SNLI) 코퍼스 | 이미지 캡션이 새로 구성된 문장과 일치하여 수반, 모순 또는 중립 쌍을 형성합니다. | 수반 클래스 라벨, Stanford PCFG 파서에 의한 구문 해석 | 570,000 | 본문 | 자연어 추론/문장 인식 | 2015 | [257] | S. 보먼 외 |
DSL 코퍼스 컬렉션(DSLCC) | 유사한 언어 및 방언으로 된 저널리즘 텍스트의 짧은 발췌본 모음입니다. | 없음. | 294,000구 | 본문 | 유사한 언어 간의 구별 | 2017 | [258] | 탄, 리링 등 |
Urban Dictionary 데이터 세트 | 단어, 투표 및 정의의 말뭉치 | 익명화된 사용자 이름 | 2,580,925 | CSV | NLP, 기계 이해 | 2016년 5월 | [259] | 익명 |
T-REX | Wikipedia는 Wikidata 엔티티에 맞는 추상화 | Wikidata와 Wikipedia 요약의 3배 정렬 | 1,100만 대에 3배 | JSON 및 NIF [3] | NLP, 관계 추출 | 2018 | [260] | H. 엘사하르 외 |
일반언어이해평가(GLUE) | 9가지 태스크의 벤치마크 | 여러가지 | 최대 100만 문장과 문장 쌍 | NLU | 2018 | [261][262][263] | 왕 외 | |
계약 이해 Atticus Dataset(CUAD)(이전의 Atticus Open Contract Dataset(AOK)) | 풍부한 전문가 주석이 포함된 법률 계약 데이터 세트 | 최대 13,000개의 라벨 | CSV 및 PDF | 자연어 처리, QnA | 2021 | 애티커스 프로젝트 | ||
베트남 이미지 캡션 데이터 세트(UIT-ViIC) | 베트남 이미지 캡션 데이터 세트 | 3,850개의 이미지에 19,250개의 캡션 | CSV 및 PDF | 자연어 처리, 컴퓨터 비전 | 2020 | [264] | 램 등 | |
베트남 이름(성별 주석 포함)(UIT-ViNames | 베트남 이름(성별 주석 포함) | 26,850명의 베트남 풀네임(성별 주석 포함) | CSV | 자연어 처리 | 2020 | [265] | 등 | |
베트남어 건설적 및 독성 음성 검출 데이터 세트(UIT-ViCTSD) | 베트남어 건설적 및 독성 음성 검출 데이터 세트 | 10개 도메인 온라인 신문 1만 명의 베트남 사용자 댓글 | CSV | 자연어 처리 | 2021 | [266] | 응우옌 외 | |
사운드 데이터
이러한 데이터 세트는 음성 인식 및 음성 합성과 같은 작업에 사용되는 소리와 소리 기능으로 구성된다.
연설
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
자원 제로 스피치 챌린지 2015 | 즉흥연설(영어), 읽기연설(시송가). | 없음, 미가공 WAV 파일. | 영어: 5h, 12 스피커, 시송가: 2h30, 24 스피커 | WAV(오디오만) | 음성 기능/서브워드 단위/워드 단위의 감독 없는 검출 | 2015 | [267][268] | Versteeh 등 |
파킨슨 음성 데이터 세트 | 파킨슨병 유무에 대한 여러 기록. | 음성 특징 추출, 통합 파킨슨병 등급 척도를 사용하여 의사가 채점한 질병 | 1,040 | 본문 | 분류, 회귀 | 2013 | [269][270] | B. E. 사카르 외 |
구어 아랍어 숫자 | 아랍어로 된 숫자는 남자 44명, 여자 44명이에요 | 멜-주파수 캡스트럼 계수의 시계열입니다. | 8,800 | 본문 | 분류 | 2010 | [271][272] | M. 베다 외 |
ISOLET 데이터 세트 | 구어체 이름 | 소리에서 추출한 특징. | 7797 | 본문 | 분류 | 1994 | [273][274] | 콜 외 |
일본어 모음 데이터 세트 | 9명의 남성 화자가 두 개의 일본어 모음을 연속해서 발음했다. | 12도 선형 예측 분석을 적용하여 12개의 Cepsstrum 계수를 갖는 이산 시계열을 구했다. | 640 | 본문 | 분류 | 1999 | [275][276] | M. 쿠도 등 |
Parkinson의 원격 모니터링 데이터 세트 | 파킨슨병 유무에 대한 여러 기록. | 사운드 피처 추출 | 5875 | 본문 | 분류 | 2009 | [277][278] | A. 차나스 등 |
시간 | 미국 영어의 8대 방언을 구사하는 630명의 화자가 녹음한 것으로, 각각 10개의 음소가 풍부한 문장을 읽습니다. | 음성은 어휘적, 음성적으로 표기된다. | 6300 | 본문 | 음성 인식, 분류 | 1986 | [279][280] | J. 가로폴로 외 |
아랍어 말뭉치 | 음소 수준에 맞춰 음성 및 맞춤법 문자 변환이 정렬된 단일 스피커의 현대 표준 아랍어(MSA) 음성 말뭉치. | 음성은 강세 표시와 함께 철자법과 음운법으로 표기된다. | ~1900 | 텍스트, WAV | 음성 합성, 음성 인식, 말뭉치 정렬, 음성 치료, 교육. | 2016 | [281] | N. 할라비 |
공통 음성 | 광범위한 방언에 걸쳐 크라우드 소싱된 데이터의 퍼블릭 도메인 데이터베이스입니다. | 다른 사용자에 의한 검증. | 영어: 1,118 시간 | 대응하는 텍스트 파일이 있는 MP3 | 음성 인식 | 2017년 6월(2019년 12월) | [282] | 모질라 |
LJ스피치 | 영어 공용 도메인 오디오북 녹음의 단일 스피커 코퍼스로 구두점 표시 시 짧은 클립으로 분할됩니다. | 품질 확인, 원본과 함께 정규화된 전사. | 13,100 | CSV, WAV | 음성 합성 | 2017 | [283] | 키스 이토, 린다 존슨 |
음악
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
음악 데이터 세트의 지리적 기원 | 다른 장소에서 온 음악 샘플의 오디오 기능. | MARSYAS 소프트웨어를 사용하여 추출된 오디오 기능 | 1,059 | 본문 | 지리적 분류, 클러스터링 | 2014 | [284][285] | F. 저우 등 |
Million Song 데이터 세트 | 100만 곡의 오디오 기능 | 오디오 기능이 추출되었습니다. | 100만 | 본문 | 분류, 클러스터링 | 2011 | [286][287] | T. 베르탱-마히외 |
MUSDB18 | 멀티트랙 대중음악 녹음 | 원시 오디오 | 150 | MP4, WAV | 소스 분리 | 2017 | [288] | Z. 라피 외 |
무료 음악 아카이브 | 161개의 장르, 메타데이터, 사용자 데이터, 자유 형식의 텍스트 계층으로 구성된 10만 곡(343일, 1TiB)의 Creative Commons 아래 오디오. | 원시 오디오 및 오디오 기능 | 106,574 | 텍스트, MP3 | 분류, 권장사항 | 2017 | [289] | M. 데페라드 외 |
Bach Choral Harmony 데이터 세트 | 바흐 코랄 코드. | 오디오 기능이 추출되었습니다. | 5665 | 본문 | 분류 | 2014 | [290][291] | 라. Radicioni 등 |
기타 사운드
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Urban Sound | 에어컨, 자동차 경적 소리, 아이들이 노는 소리와 같은 소리 녹음 라벨이 붙어 있습니다. | 이벤트 클래스별 폴더 및 JSON 파일의 메타데이터 및 CSV 파일의 주석으로 정렬됩니다. | 1,059 | 소리 (WAV) | 분류 | 2014 | [292][293] | J. 살라몬 외 |
오디오 세트 | YouTube 비디오의 10초짜리 사운드 조각과 500개가 넘는 레이블의 온톨로지. | 1초마다 128d PCA'd VGG급 기능 탑재. | 2,084,320 | 텍스트(CSV) 및 TensorFlow 레코드 파일 | 분류 | 2017 | [294] | J. Gemmeke 등, Google |
Bird Audio Detection 과제 | 환경측정소로부터의 오디오 및 크라우드 소스 녹음 | 17,000+ | 분류 | 2016 (2018) | [295][296] | 퀸 메리 대학교와 IEEE 신호 처리 협회 | ||
WSJ0 힙스터 환경 혼합물 | San Francisco Bay Area에서 녹음된 노이즈와 WSJ0으로부터의 음성이 혼재 | WSJ0 클립과 일치하는 노이즈 클립 | 28,000 | 사운드(WAV) | 오디오 소스 분리 | 2019 | [297] | Wichern, G. 등, Whisper 및 MERL |
클로토 | 15~30초 길이의 4,981개의 오디오샘플, 각 오디오샘플에는 8~20단어 길이의 5개의 캡션이 있습니다. | 24,905 | 사운드(WAV) 및 텍스트(CSV) | 자동 오디오 캡션 | 2020 | [298][299] | K. 드로스, S. 리핑, T.비르타넨 |
신호 데이터
추가 분석을 위해 신호 처리를 필요로 하는 전기 신호 정보를 포함하는 데이터 세트.
전기
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
위트 있는 웜 데이터 세트 | 위트 웜과 감염된 컴퓨터의 확산을 자세히 설명하는 데이터 세트입니다. | IP 및 UDP 헤더와 같은 보다 중요한 정보를 포함하는 공개 세트와 제한된 세트로 분할합니다. | 55,909개의 IP 주소 | 본문 | 분류 | 2004 | [300][301] | 응용 인터넷 데이터 분석 센터 |
측정띠 없는 혈압 추정 데이터 세트 | 혈압을 추정하는 데 사용할 수 있는 인간 환자의 활력 신호를 청소했습니다. | 125Hz 활력징후는 청소되었습니다. | 12,000 | 본문 | 분류, 회귀 | 2015 | [302][303] | M. Kachuee 등 |
가스 센서 어레이 드리프트 데이터 세트 | 드리프트 보정을 위한 시뮬레이션에 사용된 16개의 화학 센서로부터의 측정. | 다양한 기능이 제공되고 있습니다. | 13,910 | 본문 | 분류 | 2012 | [304][305] | A. 베르가라 |
서보 데이터 세트 | 서보 앰프 회로에서 관측된 비선형 관계를 포함하는 데이터. | 다른 구성요소의 함수로서 다양한 구성요소의 레벨이 제공됩니다. | 167 | 본문 | 회귀 | 1993 | [306][307] | K. 울리히 |
UJIIndoorLoc-Mag 데이터 세트 | 실내 측위 시스템을 테스트하기 위한 실내 측위 데이터베이스.데이터는 자기장 기반입니다. | 훈련 및 테스트 분할 제공. | 40,000 | 본문 | 분류, 회귀, 클러스터링 | 2015 | [308][309] | D. 람블라 등 |
센서리스 드라이브 진단 데이터 세트 | 결함이 있는 구성 요소를 가진 모터의 전기 신호. | 통계적 특징이 추출되었습니다. | 58,508 | 본문 | 분류 | 2015 | [310][311] | M. 바토르 |
모션 트래킹
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
웨어러블 컴퓨팅:체위 및 동작 분류(PUC-Rio) | 모션 트래커를 착용한 채 5가지 표준 동작을 수행하는 사람들. | 없음. | 165,632 | 본문 | 분류 | 2013 | [312][313] | 리우데자네이루 교황청 가톨릭 대학교 |
제스처 단계 분할 데이터 세트 | 다양한 제스처를 하는 사람들의 비디오에서 추출한 특징. | 추출된 기능은 제스처 위상 분할을 연구하는 것을 목적으로 합니다. | 9900 | 본문 | 분류, 클러스터링 | 2014 | [314][315] | R. Madeo et a |
Vicon 물리 액션 데이터 세트 데이터 세트 | 3D 트래커로 추적되는 인간의 활동을 측정하는 10가지 정상 및 10가지 공격적인 신체 동작. | 3D Tracker에 의해 기록된 많은 파라미터. | 3000 | 본문 | 분류 | 2011 | [316][317] | T. 테오도리디스 |
일상 및 스포츠 활동 데이터 세트 | 19개 일상 및 스포츠 활동에 대한 모터 센서 데이터. | 많은 센서가 제공되지만 신호에 대한 전처리는 이루어지지 않습니다. | 9120 | 본문 | 분류 | 2013 | [318][319] | B. 바르샨 외 |
스마트폰 데이터 세트를 사용한 인간 활동 인식 | 스마트폰을 착용하고 정상 동작을 수행하는 사람들의 자이로스코프 및 가속도계 데이터. | 수행된 작업은 라벨로 표시되며 모든 신호에 노이즈가 사전 처리됩니다. | 10,299 | 본문 | 분류 | 2012 | [320][321] | J. Reyes-Ortiz 등 |
오스트레일리아 수화 수화 | 모션 트래킹 장갑으로 포착된 호주 수화 표시. | 없음. | 2565 | 본문 | 분류 | 2002 | [322][323] | M. 카두스 |
관성 측정 장치로 모니터링하는 역도 운동 | IMU를 통해 모니터링되는 이두근 컬 운동의 5가지 변형. | 일부 통계는 원시 데이터에서 계산됩니다. | 39,242 | 본문 | 분류 | 2013 | [324][325] | W. 우굴리노 외 |
기본 손동작 데이터셋을 위한 sEMG | 6개의 손 움직임에 대한 표면 근전도 신호의 두 데이터베이스. | 없음. | 3000 | 본문 | 분류 | 2014 | [326][327] | C. 삽사니스 외 |
REALDISP 활동 인식 Dataset | 기술 센서 변위의 착용 가능한 활동을 인정 받아 다루는 평가하십시오. | 없음. | 1419 | 본문 | 분류 | 2014 | [327][328] | OBanos(알. |
방법론 활동 인식 Dataset | 여러 다른 스마트 기기에서 인간 다양한 활동 수행에 대한 자료. | 없음. | 43,930,257 | 본문 | 분류, 클러스터링 | 2015 | [329][330] | AStisen(알. |
실내 사용자 운동 예측 RSS데이터에서. | 사람들의 사무실의 움직임을 추적하는 데 사용할 수 있시간 무선 네트워크 데이터입니다. | 없음. | 13,197 | 본문 | 분류 | 2016 | [331][332] | D.Bacciu |
PAMAP2 물리적 활동 모니터링 Dataset. | 신체 활동 18가지의 다른 종류 9과목 3IMUs를 입어서 공연을 했다. | 없음. | 3,850,505 | 본문 | 분류 | 2012 | [333] | A. 리스 |
OPPORTUNITY 활동 인식 Dataset | 인간 활동 인식, 개체 착용 가능한에서, 주위 센서를 부착 데이터 인간의 활동 인식 알고리즘을 벤치마킹하기 위하다. | 없음. | 2551 | 본문 | 분류 | 2012 | [334][335] | D. 로겐(알. |
리얼 월드 활동 인식 Dataset. | 웨어러블 디바이스로부터의 인체 활동 인식.7개의 온바디 디바이스 위치를 구별하고 6개의 다른 종류의 센서를 구성합니다. | 없음. | 3,150,000 (센서당) | 본문 | 분류 | 2016 | [336] | T. 슈틸러 외 |
토론토 재활 스트로크 포즈 데이터 세트 | 뇌졸중 재활 로봇을 사용하여 일련의 작업을 수행하는 뇌졸중 환자와 건강한 참가자의 3D 인체 자세 추정치(Kinect). | 없음. | 건강한 사람 10명, 뇌졸중 생존자 9명(1인당 3500~1500프레임) | CSV | 분류 | 2017 | [337][338][339] | E. 돌라타바디 외 |
소셜 터치 코퍼스(CoST) | 7805 제스처는 31명의 피험자가 실행하는 14가지 소셜 터치 제스처를 캡처한 것입니다.동작은 세 가지 변형으로 수행되었다: 부드럽게, 보통으로, 거칠게, 마네킹 팔을 감싼 압력 센서 격자 위에서. | 수행되는 터치 제스처는 분할되고 라벨이 부착됩니다. | 7805 제스처 캡처 | CSV | 분류 | 2016 | [340][341] | M. Jung et al. |
기타 신호
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
와인 데이터 세트 | 이탈리아에서 같은 지역에서 재배되지만 세 가지 다른 품종에서 파생된 와인의 화학적 분석. | 각 와인의 13가지 특성이 주어집니다. | 178 | 본문 | 분류, 회귀 | 1991 | [342][343] | M. 포리나 외 |
복합 사이클 발전소 데이터 세트 | 6년간 가동되고 있는 발전소내의 각종 센서로부터의 데이터. | 없음. | 9568 | 본문 | 회귀 | 2014 | [344][345] | P. Tufekci 등 |
물리 데이터
물리 시스템의 데이터 세트.
고에너지 물리학
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
HIGGS 데이터 세트 | 입자 가속기 충돌에 대한 몬테카를로 시뮬레이션. | 각 충돌의 28가지 특징이 제공됩니다. | 11M | 본문 | 분류 | 2014 | [346][347][348] | D. 화이트슨 |
HEPMASS 데이터 세트 | 입자 가속기 충돌에 대한 몬테카를로 시뮬레이션.목표는 신호와 노이즈를 분리하는 것입니다. | 각 충돌의 28가지 특징이 제공됩니다. | 10,500,000 | 본문 | 분류 | 2016 | [347][348][349] | D. 화이트슨 |
시스템들
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
요트 유체 역학 데이터 세트 | 치수에 따른 요트 성능. | 각 요트에는 6가지 기능이 있습니다. | 308 | 본문 | 회귀 | 2013 | [350][351] | R. 로페즈 |
로봇 실행 실패 데이터 세트 | 로봇에 의한 일반적인 태스크 실행에 실패하는 것을 중심으로 하는 5개의 데이터 세트. | 토크 및 기타 센서 측정과 같은 정수 값 기능. | 463 | 본문 | 분류 | 1999 | [352] | L. Seabra 등 |
Pittsburgh Bridges 데이터 세트 | 설계설명은 다양한 교량의 몇 가지 특성으로 이루어진다. | 다양한 브리지 기능이 제공됩니다. | 108 | 본문 | 분류 | 1990 | [353][354] | Y. 라이히 등 |
자동차 데이터 세트 | 자동차, 보험 위험 및 정규화된 손실에 대한 데이터입니다. | 자동차 기능이 추출되었습니다. | 205 | 본문 | 회귀 | 1987 | [355][356] | J. 쉬머 외 |
자동 MPG 데이터 세트 | 자동차의 MPG 데이터. | 각 차량마다 8가지 기능이 있습니다. | 398 | 본문 | 회귀 | 1993 | [357] | 카네기 멜론 대학교 |
에너지 효율 데이터 세트 | 건물 매개변수의 함수로 주어진 난방 및 냉방 요건. | 빌딩 매개 변수가 지정되었습니다. | 768 | 본문 | 분류, 회귀 | 2012 | [358][359] | A. 시파라 등 |
에어포일 셀프 노이즈 데이터 세트 | 2차원 및 3차원 날개 부분에 대한 일련의 공기역학 및 음향 테스트입니다. | 빈도, 공격 각도 등에 관한 데이터를 제공한다. | 1503 | 본문 | 회귀 | 2014 | [360] | R. 로페즈 |
챌린저 미국 우주왕복선 O-링 데이터 세트 | 과거 챌린저 데이터에 주어진 O-링 문제를 예측하려고 시도합니다. | 발사 온도와 같은 각 비행의 몇 가지 특징이 제공됩니다. | 23 | 본문 | 회귀 | 1993 | [361][362] | D. 드레이퍼 등 |
Statlog(셔틀) 데이터 세트 | NASA의 우주왕복선 데이터 세트. | 9가지 기능이 있습니다. | 58,000 | 본문 | 분류 | 2002 | [363] | NASA |
천문학
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
금성의 화산 – JARtool 실험 데이터 세트 | 마젤란 우주선이 귀환한 금성 이미지입니다. | 이미지에는 사람이 라벨을 붙입니다. | 주어지지 않다 | 이미지들 | 분류 | 1991 | [364][365] | M. 벌 |
MAGIC 감마 망원경 데이터 세트 | 몬테카를로는 고에너지 감마 입자 이벤트를 생성했다. | 시뮬레이션에서 추출한 수많은 특징. | 19,020 | 본문 | 분류 | 2007 | [365][366] | R. Bock |
Solar Flare 데이터 세트 | 24시간 동안 발생하는 특정 유형의 태양 플레어 이벤트 횟수 측정. | 태양 플레어 특유의 특징들이 많이 제시되어 있다. | 1389 | 본문 | 회귀, 분류 | 1989 | [367] | G. 브래드쇼 |
CAMTA 멀티필드 데이터 세트 | 우주론 및 천체물리학적 파라미터의 가치 측면에서 광범위한 N-body 및 최첨단 유체역학 시뮬레이션에서 얻은 2D 지도와 3D 그리드 | 각 지도와 그리드에는 6개의 우주론적 및 천체물리학적 파라미터가 관련되어 있습니다. | 405,000개의 2D 지도 및 405,000개의 3D 그리드 | 2D 지도 및 3D 그리드 | 회귀 | 2021 | [368] | 프란시스코 비야레스쿠사-나바로 외 |
지구과학
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
세계의 화산 | 지구상의 알려진 모든 화산 사건에 대한 화산 폭발 데이터. | 지역, 하위 지역, 구조 환경, 우성 암석 종류 등의 세부 사항이 제공됩니다. | 1535 | 본문 | 회귀, 분류 | 2013 | [369] | E. 벤츠케 외 |
지진-범프 데이터 세트 | 탄광에서의 지진 활동. | 지진 활동은 위험 또는 위험하지 않은 것으로 분류되었다. | 2584 | 본문 | 분류 | 2013 | [370][371] | M. 시코라 외 |
낙타-미국 | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 671 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2017 | [372][373] | N. Addor 등 / A. Newman 등 |
카멜-칠레 | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 516 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2018 | [374] | C. 알바레즈-가레톤 외 |
낙타-브라질 | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 897 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2020 | [375] | V. 샤가스 외 |
낙타-GB | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 671 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2020 | [376] | G. 콕슨 등 |
낙타-호주 | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 222 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2021 | [377] | K. 파울러 외 |
라마H-CE | 수문 기상학적 시계열과 다양한 속성을 가진 유역 수문학 데이터 세트 | 참조 | 859 | CSV, 텍스트, 쉐이프 파일 | 회귀 | 2021 | [378] | 클링글러 외 |
기타 물리
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
콘크리트 압축 강도 데이터 세트 | 콘크리트 특성 및 압축 강도의 데이터 세트. | 각 샘플에는 9가지 특징이 있습니다. | 1030 | 본문 | 회귀 | 2007 | [379][380] | 이예 |
콘크리트 슬럼프 테스트 데이터 세트 | 특성 측면에서 주어진 콘크리트 슬럼프 플로우. | 비산재, 물 등 콘크리트 특성 | 103 | 본문 | 회귀 | 2009 | [381][382] | 이예 |
머스크 데이터 세트 | 특징에 따라 분자가 사향인지 비머스크인지를 예측합니다. | 각 분자에 대해 168개의 특징이 부여된다. | 6598 | 본문 | 분류 | 1994 | [383] | 아리스 제약 회사 |
강판 결함 데이터 세트 | 7종류의 강판. | 각 샘플에 대해 27개의 기능이 제공됩니다. | 1941 | 본문 | 분류 | 2010 | [384] | 세메이온 연구소 |
생물학적 데이터
생물학적 시스템의 데이터 세트.
인간
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
연령 데이터 세트 | 122만 명의 저명한 사람들의 삶과 일, 죽음에 관한 구조화된 범용 데이터 세트입니다.퍼블릭 도메인 | 커뮤니티가 제출한 데이터에서 Wikipedia 프로젝트의 모든 언어 버전으로 출생 및 사망 연도, 성별 및 직업을 추론하는 5단계 방법입니다. | 1,223,009 | 본문 | 회귀, 분류 | 2022 | 종이 데이터 세트 | 아모라드네자드 외 |
합성 안저 데이터[387] 세트 | 사실적인 망막 영상 및 혈관 분할.퍼블릭 도메인 | 단일 배경에서 정맥 및 동맥을 분할하고 분류하는 데 유용한 1500*1152픽셀의 2,500개의 영상. | 2500 | 이미지들 | 분류, 세그멘테이션 | 2020 | [388] | C. 발렌티 등 |
EEG 데이터베이스 | EEG를 검사하기 위한 연구는 유전적 성향과 알코올 중독의 상관관계를 보여준다. | 두피에 배치된 64개의 전극을 측정하여 256Hz(3.9ms 에폭)에서 1초간 샘플링했습니다. | 122 | 본문 | 분류 | 1999 | [389] | 베글리터 |
P300 인터페이스 데이터 세트 | 장애인을 위한 P300 기반 뇌-컴퓨터 인터페이스를 사용하여 9개 피험자의 데이터를 수집했습니다. | 각 과목별로 4개의 세션으로 나누세요.MATLAB 코드가 지정되었습니다. | 1,224 | 본문 | 분류 | 2008 | [390][391] | U. 호프만 외 |
심장병 데이터 세트 | 심장질환이 있거나 없는 환자에게 귀속됩니다. | 일부 결측값이 있는 각 환자에 대해 75개의 속성이 부여됩니다. | 303 | 본문 | 분류 | 1988 | [392][393] | A. 야노시 등 |
유방암 위스콘신(진단) 데이터 세트 | 유방 종양의 특징 데이터 세트입니다.의사의 진단을 받는다. | 각 샘플에 대해 10가지 특징이 제공됩니다. | 569 | 본문 | 분류 | 1995 | [394][395] | W. 울버그 외 |
약물 사용과 건강에 관한 전국 조사 | 미국의 건강 및 약물 사용에 대한 대규모 조사. | 없음. | 55,268 | 본문 | 분류, 회귀 | 2012 | [396] | 미국 보건복지부 |
폐암 데이터 세트 | 속성 정의가 없는 폐암 데이터 세트 | 케이스별로 56개의 기능이 제공됨 | 32 | 본문 | 분류 | 1992 | [397][398] | Z. 홍 외 |
부정맥 데이터 세트 | 심장 부정맥이 있는 환자 그룹에 대한 데이터입니다. | 인스턴스당 276개의 기능 | 452 | 본문 | 분류 | 1998 | [399][400] | H. 알타이 등 |
1999–2008년 연간 당뇨병 130-미국 병원 데이터 세트 | 미국 130개 병원의 당뇨병 환자에 대한 9년간의 재입원 데이터. | 각 재입학에는 많은 특징이 있습니다. | 100,000 | 본문 | 분류, 클러스터링 | 2014 | [401][402] | J. 클로어 등 |
당뇨병성 망막증 Debrecen 데이터 세트 | 당뇨병 망막증 유무에 관계없이 눈의 이미지에서 추출한 특징. | 특징 추출 및 상태 진단. | 1151 | 본문 | 분류 | 2014 | [403][404] | B. 안탈 등 |
당뇨병 망막증 메시도르 데이터 세트 | 망막안과(MESSIDOR) 분야의 분할 및 색인화 기법을 평가하는 방법 | 망막증 등급과 황반부종의 위험이 특징입니다 | 1200 | 이미지, 텍스트 | 분류, 세그멘테이션 | 2008 | [405][406] | 메시도르 프로젝트 |
간 장애 데이터 세트 | 간질환자에 대한 데이터입니다. | 환자마다 7가지 생물학적 특징이 있습니다. | 345 | 본문 | 분류 | 1990 | [407][408] | 부파의학연구유한공사 |
갑상선 질환 데이터 세트 | 갑상선 질환 환자 데이터 10개 데이터베이스. | 없음. | 7200 | 본문 | 분류 | 1987 | [409][410] | R. 퀸랜 |
중피종 데이터 세트 | 중피종 환자 데이터입니다. | 석면 노출을 포함한 많은 특징들이 제시되어 있다. | 324 | 본문 | 분류 | 2016 | [411][412] | A. 탄리쿨루 외 |
파킨슨병 비전 기반 포즈 추정 데이터 세트 | 다양한 작업을 수행하는 파킨슨 환자의 2D 인체 자세 추정치. | 궤도에서 카메라 흔들림이 제거되었습니다. | 134 | 본문 | 분류, 회귀 | 2017 | [413][414][415] | M. Li 등 |
KEGG 대사 반응 네트워크(무방향) 데이터 세트 | 대사 경로의 네트워크.반응 네트워크 및 관계 네트워크가 제공된다. | 각 네트워크 노드 및 경로에 대한 자세한 기능이 제공됩니다. | 65,554 | 본문 | 분류, 클러스터링, 회귀 | 2011 | [416] | M. Naem et al. |
수정 인간 정자 형태 분석 데이터 세트(MHSMA) | 남성 요인 불임 환자 235명의 인간 정자 이미지. 정상 또는 비정상적인 정자, 머리, 액포 및 꼬리에 대한 라벨이 부착되어 있습니다. | 정자 머리 둘레에 잘려나갔죠배율이 정규화되었습니다.트레이닝, 검증 및 테스트 세트의 분할이 작성되었습니다. | 1,540 | .npy 파일 | 분류 | 2019 | [417][418] | 자바디 및 S.A.미로샨델 |
동물
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
전복 데이터 세트 | 전복의 신체 측정.날씨 패턴과 위치도 제공됩니다. | 없음. | 4177 | 본문 | 회귀 | 1995 | [419] | 해양연구소 – Taroana |
동물원 데이터 세트 | 7개 등급의 동물을 포함하는 인공 데이터 세트입니다. | 동물들은 7개의 범주로 분류되고 각각의 특징들이 주어집니다. | 101 | 본문 | 분류 | 1990 | [420] | 포사이스 |
데모스포지애 데이터 세트 | 해양 스펀지에 대한 데이터입니다. | Demosponge 클래스의 503 스펀지는 다양한 기능으로 설명됩니다. | 503 | 본문 | 분류 | 2010 | [421] | E. 아르멘골 외 |
가축 사육 데이터 | PLF 데이터 인벤토리(소, 돼지, 위치, 가속 등) | 라벨이 붙은 데이터 세트. | 리스트는 항상 갱신됩니다. | 본문 | 분류 | 2020 | [422] | 브이 블로치 |
스플라이스 접합 유전자 배열 데이터 세트 | 영장류 스플라이스 접합 유전자 배열(DNA)과 연관된 불완전한 영역 이론. | 없음. | 3190 | 본문 | 분류 | 1992 | [398] | G. 토웰 외 |
마우스 단백질 발현 데이터 세트 | 생쥐의 대뇌피질에서 측정된 77개의 단백질 발현 수준. | 없음. | 1080 | 본문 | 분류, 클러스터링 | 2015 | [423][424] | 다. 이과라 등 |
곰팡이
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
UCI 버섯 데이터 세트 | 버섯 속성과 분류. | 버섯마다 많은 특성이 있습니다. | 8124 | 본문 | 분류 | 1987 | [425] | J. 슐리머 |
보조 버섯 데이터 세트 | 버섯 속성과 분류 | 더 크고 현실적인 기본 버섯 항목에서 시뮬레이션된 데이터입니다.완전 재현 가능. | 61069 | 본문 | 분류 | 2020 | [426][427] | D. 와그너 외 |
식물.
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
산불 데이터 세트 | 산불과 그 특성들. | 각 화재의 13가지 특징을 추출한다. | 517 | 본문 | 회귀 | 2008 | [428][429] | P. 코르테즈 외 |
Iris 데이터 세트 | 세 종류의 홍채식물은 4가지 속성으로 설명된다. | 없음. | 150 | 본문 | 분류 | 1936 | [430][431] | R. 피셔 |
식물종 Leafs 데이터 세트 | 100종의 식물 각각에 16개의 잎 샘플이 있습니다. | 형상 설명자, 미세 여백 및 텍스처 히스토그램이 제공됩니다. | 1600 | 본문 | 분류 | 2012 | [432][433] | J. 코프 외 |
콩 데이터 세트 | 병든 콩 식물의 데이터베이스. | 각 플랜트에는 35개의 기능이 있습니다.식물은 19개 범주로 분류된다. | 307 | 본문 | 분류 | 1988 | [434] | R. 미할스키 외 |
시드 데이터 세트 | 세 종류의 밀에 속하는 알갱이의 기하학적 특성 측정. | 없음. | 210 | 본문 | 분류, 클러스터링 | 2012 | [435][436] | 샤리타노비치 외 |
커버 타입 데이터 세트 | 지도 변수로부터만 포레스트 커버 유형을 예측하기 위한 데이터입니다. | 여러 가지 지리적 특징이 있습니다. | 581,012 | 본문 | 분류 | 1998 | [437][438] | J. Blackard 등 |
Abscisic Acid Signaling 네트워크 데이터 세트 | 플랜트 시그널링 네트워크의 데이터.목표는 네트워크를 지배하는 일련의 규칙을 결정하는 것입니다. | 없음. | 300 | 본문 | 원인 발견 | 2008 | [439] | J. 젠켄스 외 |
Polio 데이터 세트 | 32종 각각 20장의 잎사귀 사진 | 없음. | 637 | 이미지, 텍스트 | 분류, 클러스터링 | 2015 | [440][441] | T. 무니사미 외 |
옥스퍼드 플라워 데이터 세트 | 17개 카테고리의 꽃 데이터 세트. | 열차/테스트 분할, 이미지 레이블 지정, | 1360 | 이미지, 텍스트 | 분류 | 2006 | [148][442] | M-E 닐스백 외 |
묘목 데이터 세트 | 식물 묘목의 12가지 카테고리 데이터 세트. | 라벨이 붙은 영상, 세그먼트화된 이미지, | 5544 | 이미지들 | 분류, 검출 | 2017 | [443] | 지젤슨 외 |
과일 360 데이터 세트 | 120개의 과일과 야채 이미지를 데이터베이스로 제공합니다. | 100 x 100 픽셀, 흰색 배경. | 82213 | 이미지(jpg) | 분류 | 2017–2019 | [444][445] | 미하이 올텐, 호레아 무레산 |
미생물
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Ecoli 데이터 세트 | 단백질 국재 사이트. | 단백질 국재 부위의 다양한 특징이 제시되어 있다. | 336 | 본문 | 분류 | 1996 | [446][447] | K. 나카이 외 |
마이크로매스 데이터 세트 | 질량분석 데이터에서 미생물의 식별. | 다양한 질량 분석기 기능 | 931 | 본문 | 분류 | 2013 | [448][449] | P. Mahe 등 |
효모 데이터 세트 | 단백질의 세포 국재 부위의 예측. | 인스턴스당 8개의 기능이 제공됩니다. | 1484 | 본문 | 분류 | 1996 | [450][451] | K. 나카이 외 |
약물의 발견
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Tox21 데이터 세트 | 생물학적 분석 결과의 예측. | 분자에 대한 화학적 기술자가 제공된다. | 12707 | 본문 | 분류 | 2016 | [452] | A. Mayr 등 |
이상 데이터
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Numenta 이상 벤치마크(NAB) | 데이터는 순서가 매겨지고 타임스탬프가 찍힌 단일 값 메트릭입니다.특별한 언급이 없는 한 모든 데이터 파일에는 이상이 포함됩니다. | 없음. | 50개 이상의 파일 | 쉼표로 구분된 값 | 이상 검출 | 2016년 (계속 갱신) | [453] | 누멘타 |
Skoltech Anomaly Benchmark (SKAB) | 각 파일은 단일 실험을 나타내며 단일 이상을 포함합니다.데이터 세트는 테스트 베드에 설치된 센서에서 수집된 다변량 시계열을 나타냅니다. | Outlier 검출(포인트 이상)과 Changepoint 검출(집단 이상) 문제에는 두 가지 마크업이 있습니다. | 30개 이상의 파일(v0.9) | 쉼표로 구분된 값 | 이상 검출 | 2020년 (계속 갱신) | 이루리 D.카체르와 비아체슬라프 코지친 | |
비감독 이상 검출 평가:측정값, 데이터 집합 및 경험적 연구 | 대부분의 데이터 파일은 UCI 머신 러닝 저장소 데이터에서 수정되며, 일부는 문헌에서 수집됩니다. | 결측값 처리, 숫자 속성만, 이상 징후 백분율 차이, 레이블 | 1000개 이상의 파일 | ARFF | 이상 검출 | 2016년(새로운 데이터 세트 및/또는 결과로 업데이트됨) | 캄포스 등 |
질의응답 데이터
이 섹션에서는 구조화된 데이터를 다루는 데이터셋에 대해 설명합니다.
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
DBPedia Neural Question Answering(DBNQA) 데이터 세트 | DBpedia Knowledge Base를 통한 Open Domain Neural Question Answering을 위한 Quality to SPARQL 설계 전문 컬렉션입니다. | 이 데이터 세트에는 Open Neural SPARQL 템플릿과 Neural SPARQL 머신 트레이닝을 위한 인스턴스가 다수 포함되어 있습니다.반자동 주석 도구와 SPARQL 전문가 3명이 사전 처리했습니다. | 894,499 | 질문-쿼리 쌍 | 질문에 대한 답변 | 2018 | [457][458] | 하르트만, 소루, 마르크스 등 |
베트남어 질의응답 데이터 세트(UIT-ViQu)AD) | MRC 모델 평가를 위한 베트남어 질문 모음. | 이 데이터 세트는 위키피디아의 베트남어 기사 174개의 5,109개의 구절을 기반으로 인간이 생성한 23,000개 이상의 질문-답변 쌍으로 구성되어 있다. | 23,074 | 질문과 답변의 쌍 | 질문에 대한 답변 | 2020 | [459] | 응우옌 외 |
베트남어 객관식 기계 읽기 이해 말뭉치(ViMMC) | MRC 모델을 평가하기 위한 베트남 선다형 질문 모음입니다. | 이 말뭉치에는 2,783개의 베트남 선다형 문제가 포함되어 있습니다. | 2,783 | 질문과 답변의 쌍 | 질문 응답/기계 판독 이해 | 2020 | [460] | 응우옌 외 |
다변량 데이터
관측치 행과 해당 관측치를 특징짓는 속성 열로 구성된 데이터 집합입니다.일반적으로 회귀 분석 또는 분류에 사용되지만 다른 유형의 알고리즘도 사용할 수 있습니다.이 섹션에는 위의 범주에 맞지 않는 데이터 세트가 포함되어 있습니다.
금융의
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
다우존스 지수 | 2011년 1분기 및 2분기 주식 주간 데이터. | 백분율 변화 및 지연과 같은 계산된 값입니다. | 750 | 쉼표로 구분된 값 | 분류, 회귀, 시계열 | 2014 | [461][462] | M. 브라운 외 |
Statlog(호주 신용 승인) | 신용카드 어플리케이션이 승인 또는 거부된 경우 및 어플리케이션에 관한 속성. | 속성명과 식별 정보가 삭제됩니다.요인의 라벨이 변경되었습니다. | 690 | 쉼표로 구분된 값 | 분류 | 1987 | [463][464] | R. 퀸랜 |
이베이 경매 데이터 | 다양한 길이의 경매에 걸쳐 다양한 eBay.com 객체의 경매 데이터 | 모든 입찰이 포함되어 있습니다, 입찰자아이디, 입찰 시기, 오픈 가격. | ~ 550 | 본문 | 회귀, 분류 | 2012 | [465][466] | G. 슈무엘리 외 |
Statlog(독일 신용 데이터) | 많은 기능을 가진 바이너리 크레딧을 "양호" 또는 "불량"으로 분류 | 개개인의 다양한 재정적인 특징이 제시되어 있다. | 690 | 본문 | 분류 | 1994 | [467] | H. 호프만 |
은행 마케팅 데이터 세트 | 한 대형 은행이 실시한 대규모 마케팅 캠페인의 데이터. | 접속된 클라이언트의 많은 속성이 주어집니다.은행에 가입된 고객도 주어지는 경우. | 45,211 | 본문 | 분류 | 2012 | [468][469] | S. 모로 외 |
이스탄불 증권거래소 데이터 세트 | 몇 개의 주가지수가 거의 2년 동안 추적되었다. | 없음. | 536 | 본문 | 분류, 회귀 | 2013 | [470][471] | O. 아크빌리치 |
신용 카드 클라이언트의 디폴트 | 대만 채권자의 신용부도 데이터. | 각 계정에 대한 다양한 기능이 제공됩니다. | 30,000 | 본문 | 분류 | 2016 | [472][473] | 이예 |
날씨
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
클라우드 데이터 세트 | 1024개의 서로 다른 클라우드에 대한 데이터입니다. | 이미지 피쳐가 추출되었습니다. | 1024 | 본문 | 분류, 클러스터링 | 1989 | [474] | P. 콜라드 |
El Nino 데이터 세트 | 적도 태평양 전역에 위치한 일련의 부표에서 얻은 해양학 및 지표 기상학적 수치. | 각 부표에서 12가지 기상 특성을 측정합니다. | 178080 | 본문 | 회귀 | 1999 | [475] | 태평양 해양 환경 연구소 |
온실가스 감시 네트워크 데이터 세트 | 캘리포니아의 2921 그리드 셀의 온실가스 농도 시계열은 날씨 시뮬레이션을 사용하여 생성되었다. | 없음. | 2921 | 본문 | 회귀 | 2015 | [476] | D. 루카스 |
마우나로아 천문대의 연속 공기 시료 대기 중 CO2 | 미국 하와이의 연속 공기 샘플 44년 기록 | 없음. | 44년 | 본문 | 회귀 | 2001 | [477] | 마우나로아 천문대 |
전리층 데이터 세트 | 전리층의 레이더 데이터입니다과제는 양호한 레이더 리턴과 나쁜 레이더 리턴으로 분류하는 것입니다. | 다양한 레이더 기능이 제공됩니다. | 351 | 본문 | 분류 | 1989 | [410][478] | 존스 홉킨스 대학교 |
오존 레벨 검출 데이터 세트 | 2개의 지상 오존 수준 데이터 세트. | 측정 시점의 기상 조건을 포함하여 많은 특징이 제공됩니다. | 2536 | 본문 | 분류 | 2008 | [479][480] | K. 장 외 |
인구 조사
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
성인 데이터 세트 | 성인의 인구통계학적 특징과 소득을 포함한 1994년의 인구조사 데이터. | 청소 및 익명화 완료. | 48,842 | 쉼표로 구분된 값 | 분류 | 1996 | [481] | 미국 인구 조사국 |
인구조사소득(KDD) | 1994년과 1995년 현재 인구 조사의 가중 인구 조사 데이터. | 교육 및 테스트 세트로 나눕니다. | 299,285 | 쉼표로 구분된 값 | 분류 | 2000 | [482][483] | 미국 인구 조사국 |
IPUMS 센서스 데이터베이스 | 로스앤젤레스 및 롱비치 지역의 인구 조사 데이터. | 없음. | 256,932 | 본문 | 분류, 회귀 | 1999 | [484] | IPUMS |
1990년 미국 인구 조사 데이터 | 1990년 미국 인구 조사 데이터의 일부. | 결과가 랜덤화되고 유용한 속성이 선택되었습니다. | 2,458,285 | 본문 | 분류, 회귀 | 1990 | [485] | 미국 인구 조사국 |
교통편
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
자전거 공유 데이터 세트 | 대도시의 1시간 및 1일 렌탈 바이크 수. | 날씨, 이동 거리 등 많은 특징이 있습니다. | 17,389 | 본문 | 회귀 | 2013 | [486][487] | H. Fanae-T |
뉴욕시 택시 운행 데이터 | 뉴욕시의 노란색과 녹색 택시에 대한 트립 데이터. | 위치, 요금 및 기타 여행 세부 정보를 픽업 및 제공합니다. | 6년 | 본문 | 분류, 클러스터링 | 2015 | [488] | 뉴욕시 택시 및 리무진 위원회 |
택시 서비스 궤도 ECML PKDD | 대도시에 있는 모든 택시의 궤도. | 시작점과 중지점을 포함한 많은 기능이 제공됩니다. | 1,710,671 | 본문 | 클러스터링, 원인 발견 | 2015 | [489][490] | M. 페레이라 외 |
METR-LA | 로스앤젤레스 카운티 고속도로의 루프 감지기에서 나온 속도입니다. | 평균 속도(5분 시간 단위). | 센서 207개 및 타임스텝 34,272개에서 7,094,304개 | 쉼표로 구분된 값 | 회귀 분석, 예측 | 2014 | [491] | Jagadish 등 |
PeMS | 미국 캘리포니아 주 고속도로의 루프 감지기 및 기타 센서로부터의 속도, 흐름, 점유율 및 기타 메트릭. | 보통 평균에서 5분 시간 단계로 집계되는 메트릭입니다. | 39,000개의 개별 검출기, 각각에 년의 시계열 포함 | 쉼표로 구분된 값 | 회귀 분석, 예측, 나우캐스팅, 보간 | (실시간 표시) | [492] | 캘리포니아 교통부 |
인터넷
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
Common Crowl 2012 웹 페이지 | 많은 웹 페이지 모음 및 하이퍼링크를 통한 연결 방법 | 없음. | 3.5B | 본문 | 클러스터링, 분류 | 2013 | [493] | V. 그란빌 |
인터넷 광고 데이터 세트 | 지정된 이미지가 광고인지 여부를 예측하기 위한 데이터 세트입니다. | 기능은 URL에서 발생하는 광고 및 구문의 형상을 인코딩합니다. | 3279 | 본문 | 분류 | 1998 | [494][495] | N. 쿠슈메릭 |
인터넷 사용 데이터 세트 | 인터넷 사용자의 일반 인구 통계입니다. | 없음. | 10,104 | 본문 | 분류, 클러스터링 | 1999 | [496] | D. 쿡 |
URL 데이터 세트 | 대규모 회의로부터의 120일간의 URL 데이터. | 각 URL의 많은 기능이 제공됩니다. | 2,396,130 | 본문 | 분류 | 2009 | [497][498] | J. Ma |
피싱 웹 사이트 데이터 세트 | 피싱 웹 사이트 데이터 세트입니다. | 각 사이트의 많은 기능이 제공됩니다. | 2456 | 본문 | 분류 | 2015 | [499] | R. 무스타파 외 |
온라인 소매 데이터 세트 | 영국 온라인 소매업자의 온라인 거래. | 지정된 각 트랜잭션 세부 정보. | 541,909 | 본문 | 분류, 클러스터링 | 2015 | [500] | D. 첸 |
Freebase 단순 토픽 덤프 | 프리베이스는 모든 인간의 지식을 구축하기 위한 온라인 작업입니다. | Freebase에서 토픽이 추출되었습니다. | 큰. | 본문 | 분류, 클러스터링 | 2011 | [501][502] | 프리베이스 |
팜 광고 데이터 세트 | 웹 사이트의 농장 광고 텍스트입니다.콘텐츠 소유자에 의한 바이너리 승인 또는 승인이 부여됩니다. | SVMlight sparse vectors in ads에서 텍스트 단어의 sparse vectors 계산. | 4143 | 본문 | 분류 | 2011 | [503][504] | 다. 마스터해 등 |
더 파일 | 다양하고 구조화되지 않은 텍스트로 구성된 여러 개의 대규모 데이터 세트 조립 | 다양한 (웹사이트에서 HTML 및 Javascript 삭제, 중복문 삭제) | 825 GiB 영어 텍스트 | JSON[505][506] 회선 | 자연어 처리, 텍스트 예측 | 2021 | [507][505] | 가오 외 |
게임.
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
포커 핸드 데이터 세트 | 표준 52장의 카드 덱에서 5장의 카드 핸드. | 각 손의 속성이 부여됩니다.포커핸드도 포함되어 있습니다. | 1,025,010 | 본문 | 회귀, 분류 | 2007 | [508] | R. 캐트랄 |
Connect-4 데이터 세트 | connect-4 게임에서 어느 쪽도 아직 이기지 못하고 다음 동작이 강제되지 않은 모든 합법적 8단 포지션을 포함합니다. | 없음. | 67,557 | 본문 | 분류 | 1995 | [509] | J. 트롬프 |
체스 (킹루크 vs.킹) 데이터 세트 | 화이트 킹과 루크가 블랙 킹에 대항하는 엔드 게임 데이터베이스. | 없음. | 28,056 | 본문 | 분류 | 1994 | [510][511] | M. 베인 외 연구진 |
체스 (킹루크 vs.King-Pawn) 데이터 세트 | 킹+룩 대 킹+폰 a7. | 없음. | 3196 | 본문 | 분류 | 1989 | [512] | R. 홀테 |
Tic-Tac-Toe 엔드게임 데이터 세트 | tic-tac-toe에서의 윈 조건에 대한 바이너리 분류. | 없음. | 958 | 본문 | 분류 | 1991 | [513] | D. 아하 |
기타 다변량
데이터 세트 이름 | 간단한 설명 | 전처리 | 인스턴스 | 포맷 | 디폴트 태스크 | 작성(갱신) | 언급 | 크리에이터 |
---|---|---|---|---|---|---|---|---|
주택 데이터 세트 | 연관된 주택 및 근린 속성을 사용하여 보스턴의 주택 값을 중앙값으로 합니다. | 없음. | 506 | 본문 | 회귀 | 1993 | [514] | D. 해리슨 외 |
게티 보커스 | 예술 및 기타 물질 문화, 기록 자료, 시각적 대용물 및 참고 자료에 대한 구조화된 용어. | 없음. | 큰. | 본문 | 분류 | 2015 | [515] | 게티 센터 |
Yahoo! 오늘의 1면 모듈 사용자 로그 클릭 | Yahoo!에서 오늘 모듈의 [Featured]탭에 표시되는 뉴스 기사에 대해서는, 유저 클릭 로그를 참조해 주세요.1면 | 쌍선형 모형과 분석을 결합합니다. | 45,811,883 사용자 방문수 | 본문 | 회귀 분석, 클러스터링 | 2009 | [516][517] | Chu 등 |
영국 해양 데이터 센터 | 해양에 대한 생물학적, 화학적, 물리적 및 지구물리학적 데이터.22,000개의 변수가 추적되었습니다. | 여러가지. | 22K 변수, 다수의 인스턴스 | 본문 | 회귀 분석, 클러스터링 | 2015 | [518] | 영국 해양 데이터 센터 |
의회 투표 기록 데이터 세트 | 16개 이슈에 대한 모든 미국 대표들의 투표 데이터. | 원시 투표 데이터 외에도 다양한 기능이 제공됩니다. | 435 | 본문 | 분류 | 1987 | [519] | J. 슐리머 |
Entree Chicago 권장 데이터 세트 | Entree Chicago 추천 시스템과의 사용자 상호 작용 기록. | 앱의 사용자별 사용내역을 상세하게 기록합니다. | 50,672 | 본문 | 회귀, 권장 사항 | 2000 | [520] | R. 버크 |
보험회사 벤치마크(COIL 2000) | 보험회사 고객에 대한 정보입니다. | 각 고객의 다양한 기능과 고객이 사용하는 서비스. | 9,000 | 본문 | 회귀, 분류 | 2000 | [521][522] | P. 판 데르 푸텐 |
보육 데이터 세트 | 지원자의 보육원 데이터 | 지원자 가족 및 기타 다양한 요인에 대한 데이터 포함. | 12,960 | 본문 | 분류 | 1997 | [523][524] | V. 라지코비치 외 |
대학 데이터 세트 | 다수의 대학의 속성을 설명하는 데이터입니다. | 없음. | 285 | 본문 | 클러스터링, 분류 | 1988 | [525] | S. 사운더스 등 |
수혈 서비스 센터 데이터 세트 | 수혈 서비스 센터의 데이터입니다.기증자의 수익률, 빈도 등에 대한 데이터를 제공합니다. | 없음. | 748 | 본문 | 분류 | 2008 | [526][527] | 이예 |
레코드 링크 비교 패턴 데이터 세트 | 대량의 레코드 데이터 세트.작업은 관련 기록을 서로 연결하는 것입니다. | 특정 레코드 쌍만 선택하기 위해 적용되는 차단 절차입니다. | 5,749,132 | 본문 | 분류 | 2011 | [528][529] | 마인츠 대학교 |
Nomao 데이터 세트 | Nomao는 많은 다른 출처로부터 장소에 대한 데이터를 수집합니다.작업은 동일한 장소를 설명하는 항목을 탐지하는 것입니다. | 라벨이 붙은 복제품. | 34,465 | 본문 | 분류 | 2012 | [530][531] | Nomao 연구소 |
동영상 데이터 세트 | 10,000편의 영화 데이터 | 각 영화에는 몇 가지 기능이 있습니다. | 10,000 | 본문 | 클러스터링, 분류 | 1999 | [532] | G. 위더홀드 |
개방형 University 학습 분석 데이터 세트 | 학생과 가상 학습 환경과의 상호 작용에 대한 정보. | 없음. | ~ 30,000 | 본문 | 분류, 클러스터링, 회귀 | 2015 | [533][534] | J. 쿠질렉 외 |
휴대 전화 기록 | 통신 활동 및 상호 작용 | 지리적인 그리드 셀별 및 15분마다 집계됩니다. | 큰. | 본문 | 분류, 클러스터링, 회귀 | 2015 | [535] | G. 바라크치 외 |
데이터셋 저장소 정리
데이터 세트가 무수히 많은 형식으로 제공되고 때로는 사용하기 어려울 수 있기 때문에, 머신 러닝 연구에 사용하기 쉽도록 데이터 세트의 형식을 조정하고 표준화하는 작업이 상당히 진행되어 왔습니다.
- OpenML:[536] Python, R, Java 및 기타 API를 사용하여 수백 개의 머신 러닝 데이터셋을 다운로드하고 데이터셋에 대한 알고리즘을 평가하며 수십 개의 다른 알고리즘에 대한 알고리즘 성능을 벤치마킹할 수 있는 웹 플랫폼입니다.
- PMLB:[537] 관리 대상 머신 러닝 알고리즘을 평가하기 위한 벤치마크 데이터 세트의 대규모 큐레이션 저장소.Python API를 통해 액세스할 수 있는 표준화된 형식으로 분류 및 회귀 데이터 세트를 제공합니다.
- Metatext NLP: 커뮤니티가 관리하는 https://metatext.io/datasets 웹 저장소. 약 1000개의 벤치마크 데이터셋이 포함되어 있으며, 그 수를 계산하고 있습니다.분류에서 QA까지 다양한 작업을 제공하며 영어, 포르투갈어, 아랍어에 이르기까지 다양한 언어를 제공합니다.
- Appen: 회사에서 호스팅 및 유지보수하는 기성 및 오픈 소스 데이터 세트.이러한 생물학적, 이미지, 물리적, 질문에 대한 답변, 신호, 사운드, 텍스트 및 비디오 리소스는 250개가 넘으며 25개 이상의 다른 사용 [538][539]사례에 적용할 수 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Wissner-Gross, A. "Datasets Over Algorithms". Edge.com. Retrieved 8 January 2016.
- ^ Weiss, G. M.; Provost, F. (1 September 2003). "Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction". Journal of Artificial Intelligence Research. AI Access Foundation. 19: 315–354. doi:10.1613/jair.1199. ISSN 1076-9757. S2CID 2344521.
- ^ Turney, Peter (2000). "Types of cost in inductive concept learning". arXiv:cs/0212034.
- ^ Abney, Steven (17 September 2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.
- ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Active Learning with Evolving Streaming Data". Machine Learning and Knowledge Discovery in Databases. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.
- ^ Zafeiriou, S.; Kollias, D.; Nicolaou, M.A.; Papaioannou, A.; Zhao, G.; Kotsia, I. (2017). "Aff-Wild: Valence and Arousal in-the-wild Challenge" (PDF). Computer Vision and Pattern Recognition Workshops (CVPRW), 2017: 1980–1987. doi:10.1109/CVPRW.2017.248. ISBN 978-1-5386-0733-6. S2CID 3107614.
- ^ Kollias, D.; Tzirakis, P.; Nicolaou, M.A.; Papaioannou, A.; Zhao, G.; Schuller, B.; Kotsia, I.; Zafeiriou, S. (2019). "Deep Affect Prediction in-the-wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond". International Journal of Computer Vision (IJCV), 2019. 127 (6–7): 907–929. doi:10.1007/s11263-019-01158-4. S2CID 13679040.
- ^ Kollias, D.; Zafeiriou, S. (2019). "Expression, affect, action unit recognition: Aff-wild2, multi-task learning and arcface" (PDF). British Machine Vision Conference (BMVC), 2019. arXiv:1910.04855.
- ^ Kollias, D.; Schulc, A.; Hajiyev, E.; Zafeiriou, S. (2020). "Analysing affective behavior in the first abaw 2020 competition". IEEE International Conference on Automatic Face and Gesture Recognition (FG), 2020: 637–643. arXiv:2001.11409. doi:10.1109/FG47880.2020.00126. ISBN 978-1-7281-3079-8. S2CID 210966051.
- ^ Phillips, P. Jonathon; et al. (1998). "The FERET database and evaluation procedure for face-recognition algorithms". Image and Vision Computing. 16 (5): 295–306. doi:10.1016/s0262-8856(97)00070-x.
- ^ Wiskott, Laurenz; et al. (1997). "Face recognition by elastic bunch graph matching". IEEE Transactions on Pattern Analysis and Machine Intelligence. 19 (7): 775–779. CiteSeerX 10.1.1.44.2321. doi:10.1109/34.598235. S2CID 30523165.
- ^ Livingstone, Steven R.; Russo, Frank A. (2018). "The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English". PLOS ONE. 13 (5): e0196391. Bibcode:2018PLoSO..1396391L. doi:10.1371/journal.pone.0196391. PMC 5955500. PMID 29768426.
- ^ Livingstone, Steven R.; Russo, Frank A. (2018). "Emotion". The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). doi:10.5281/zenodo.1188976.
- ^ Grgic, Mislav; Delac, Kresimir; Grgic, Sonja (2011). "SCface–surveillance cameras face database". Multimedia Tools and Applications. 51 (3): 863–879. doi:10.1007/s11042-009-0417-2. S2CID 207218990.
- ^ 월리스, 로이 등"세션 간 가변성 모델링 및 얼굴 인증을 위한 공동 인자 분석"바이오메트릭스(IJCB), 2011년 국제합동회의 개최.IEEE, 2011.
- ^ Georghiades, A. "Yale face database". Center For Computational Vision And Control At Yale University, http://CVC.yale.edu/Projects/Yalefaces/Yalefa. 2: 1997.
{{cite journal}}
:외부 링크
(도움말)journal=
- ^ Nguyen, Duy; et al. (2006). "Real-time face detection and lip feature extraction using field-programmable gate arrays". IEEE Transactions on Systems, Man, and Cybernetics – Part B: Cybernetics. 36 (4): 902–912. CiteSeerX 10.1.1.156.9848. doi:10.1109/tsmcb.2005.862728. PMID 16903373. S2CID 7334355.
- ^ 카나데, 다케오, 제프리 F.콘, 그리고 잉리 티안."표정 분석을 위한 포괄적인 데이터베이스"자동 얼굴 및 제스처 인식, 2000. 의사진행동. 제4회 IEEE 국제회의 온.IEEE, 2000.
- ^ Zeng, Zhihong; et al. (2009). "A survey of affect recognition methods: Audio, visual, and spontaneous expressions". IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (1): 39–58. CiteSeerX 10.1.1.144.217. doi:10.1109/tpami.2008.52. PMID 19029545.
- ^ Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (1998). "Facial expression images". The Japanese Female Facial Expression (JAFFE) Database. doi:10.5281/zenodo.3451524.
- ^ 라이온스, 마이클, 아카마츠, 시게루, 카마치, 미유키, 교바, 지로 "가보르의 웨이브렛으로 표정 부호화"얼굴 및 제스처 자동 인식, 1998. 의사진행동. 세 번째 IEEE 국제회의가 열립니다.IEEE, 1998.
- ^ 응, 홍웨이, 스테판 윙클러."대형 페이스 데이터셋을 정리하기 위한 데이터 중심 접근 방식"이미지 처리(ICIP), 2014 IEEE 국제회의 개최.IEEE, 2014.
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2015). "One-to-many face recognition with bilinear CNNs". arXiv:1506.01342 [cs.CV].
- ^ Jesorsky, Oliver, Klaus J. Kirchberg, Robert W.프리슈홀츠.하우스도르프 거리를 이용한 강한 얼굴 감지오디오 및 비디오 기반의 바이오메트릭 사용자 인증.스프링거 베를린 하이델베르크, 2001년
- ^ 황, 게리 B 등야생에서 라벨이 부착된 얼굴: 제약이 없는 환경에서 얼굴 인식을 연구하기 위한 데이터베이스입니다.제1권, 제2권테크니컬 리포트 07-49, 매사추세츠 대학교, Amherst, 2007.
- ^ Bhatt, Rajen B. 등. "저복잡도 퍼지 의사 결정 트리 모델을 사용하여 효율적인 피부 영역 분할"India Conference (INDICON), 2009년 연례 IEEE.IEEE, 2009.
- ^ Lingala, Mounika; et al. (2014). "Fuzzy logic color detection: Blue areas in melanoma dermoscopy images". Computerized Medical Imaging and Graphics. 38 (5): 403–410. doi:10.1016/j.compmedimag.2014.03.007. PMC 4287461. PMID 24786720.
- ^ 메이스, 크리스 등"포즈 정상화와 인식을 위한 3D 얼굴 표면의 특징 감지"바이오메트릭스: 이론 어플리케이션과 시스템(BTAS), 2010년 제4회 IEEE 국제회의 개최.IEEE, 2010.
- ^ 사브란, 아르만 등"3D 얼굴 분석을 위한 보스포루스 데이터베이스"바이오메트릭스와 아이덴티티 관리스프링거 베를린 하이델베르크, 2008. 47-56.
- ^ 헤셀틴, 토마스, 닉 피어스, 짐 오스틴입니다."3차원 얼굴 인식: 아이젠서페이스 어프로치"이미지 처리, 2004. ICIP'04. 2004 국제회의 개최.Vol. 2. IEEE, 2004.
- ^ Ge, Yun; et al. (2011). "3D Novel Face Sample Modeling for Face Recognition". Journal of Multimedia. 6 (5): 467–475. CiteSeerX 10.1.1.461.9710. doi:10.4304/jmm.6.5.467-475.
- ^ Wang, Yueming; Liu, Jianzhuang; Tang, Xiaoou (2010). "Robust 3D face recognition by local shape difference boosting". IEEE Transactions on Pattern Analysis and Machine Intelligence. 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424. doi:10.1109/tpami.2009.200. PMID 20724762. S2CID 15263913.
- ^ 중, 청, 선, 천우탄."학습된 시각적 코드북을 사용하여 강력한 3D 얼굴 인식"Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE 회의 켜짐.IEEE, 2007.
- ^ Zhao, G.; Huang, X.; Taini, M.; Li, S. Z.; Pietikäinen, M. (2011). "Facial expression recognition from near-infrared videos" (PDF). Image and Vision Computing. 29 (9): 607–619. doi:10.1016/j.imavis.2011.07.002.[데드링크]
- ^ 소엘, 하밋, 하산 데미렐."3D 얼굴 특징 거리를 이용한 얼굴 표정 인식"이미지 분석 및 인식.스프링거 베를린 하이델베르크, 2007. 831-838.
- ^ Bowyer, Kevin W.; Chang, Kyong; Flynn, Patrick (2006). "A survey of approaches and challenges in 3D and multi-modal 3D+ 2D face recognition". Computer Vision and Image Understanding. 101 (1): 1–15. CiteSeerX 10.1.1.134.8784. doi:10.1016/j.cviu.2005.05.005.
- ^ Tan, Xiaoyang; Triggs, Bill (2010). "Enhanced local texture feature sets for face recognition under difficult lighting conditions". IEEE Transactions on Image Processing. 19 (6): 1635–1650. Bibcode:2010ITIP...19.1635T. CiteSeerX 10.1.1.105.3355. doi:10.1109/tip.2010.2042645. PMID 20172829. S2CID 4943234.
- ^ 무사비, 미르 하셈, 카림 파에즈, 아민 아스카리."SVM 분류기를 사용한 3차원 얼굴 인식." Computer and Information Science, 2008. ICIS 08. 제7회 IEEE/ACIS 국제회의 개최.IEEE, 2008.
- ^ 앰버그, 브라이언, 라인하르트 노치, 토마스 베터."표현 불변 3D 얼굴 인식, 변형 가능한 모델 사용"얼굴과 제스처 자동 인식, 2008. FG'08. 제8회 IEEE 국제회의 개최.IEEE, 2008.
- ^ Ifrfanolulu, 범행 수법, Berk Gökberk, Lale Akarun."자동 등록된 얼굴 표면을 사용하여 3D 형태 기반 얼굴 인식"패턴 인식, 2004. ICPR 2004. 제17회 국제회의의 진행상황.Vol. 4. IEEE, 2004.
- ^ Beumier, Charles; Acheroy, Marc (2001). "Face verification from 3D and grey level clues". Pattern Recognition Letters. 22 (12): 1321–1329. Bibcode:2001PaReL..22.1321B. doi:10.1016/s0167-8655(01)00077-0.
- ^ Afifi, Mahmoud; Abdelhamed, Abdelrahman (13 June 2017). "AFIF4: Deep Gender Classification based on AdaBoost-based Fusion of Isolated Facial Features and Foggy Faces". arXiv:1706.04277 [cs.CV].
- ^ "SoF dataset". sites.google.com. Retrieved 18 November 2017.
- ^ "IMDB-WIKI". data.vision.ee.ethz.ch. Retrieved 13 March 2018.
- ^ Patron-Perez, A.; Marszalek, M.; Reid, I.; Zisserman, A. (2012). "Structured learning of human interactions in TV shows". IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (12): 2441–2453. doi:10.1109/tpami.2012.24. PMID 23079467. S2CID 6060568.
- ^ Ofli, F., Chaudhry, R., Kuillo, G., Vidal, R. 및 Bajcsy, R. (2013년 1월)버클리 MHAD: 포괄적인 멀티모달 인간 행동 데이터베이스.컴퓨터 비전 응용 프로그램(WACV), 2013 IEEE 워크숍 (53-60페이지)IEEE.
- ^ Jiang, Y. G. 등 "THUMOS 과제:다수의 클래스가 있는 동작 인식.다수의 클래스가 있는 동작 인식에 관한 ICCV 워크숍, http://crcv.ucf.edu/ICCV13-Action-Workshop. 2013.
- ^ 시몬, 캐런, 앤드류 지서맨입니다"동영상에서의 동작 인식을 위한 2스트림 컨볼루션 네트워크"신경 정보 처리 시스템의 발전.2014.
- ^ Stoian, Andrei; Ferecatu, Marin; Benois-Pineau, Jenny; Crucianu, Michel (2016). "Fast Action Localization in Large-Scale Video Archives". IEEE Transactions on Circuits and Systems for Video Technology. 26 (10): 1917–1930. doi:10.1109/TCSVT.2015.2475835. S2CID 31537462.
- ^ Krishna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). "Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations". International Journal of Computer Vision. 123: 32–73. arXiv:1602.07332. doi:10.1007/s11263-016-0981-7. S2CID 4492210.
- ^ 카라예프, S. 등「카테고리 레벨의 3D 오브젝트 데이터 세트: Kinect를 작동시킵니다.」IEEE International Conference on Computer Vision Workshops, 2011.
- ^ 티게, 요셉, 스베틀라나 라제브니크."슈퍼파싱: 슈퍼픽셀을 사용하여 측정할 수 있는 비모수 이미지 해석"컴퓨터 비전 -ECCV 2010.스프링거 베를린 하이델베르크, 2010. 352~365.
- ^ Arbelaez, P.; Maire, M; Fowlkes, C; Malik, J (May 2011). "Contour Detection and Hierarchical Image Segmentation" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 33 (5): 898–916. doi:10.1109/tpami.2010.161. PMID 20733228. S2CID 206764694. Retrieved 27 February 2016.
- ^ 린, 종이 등"마이크로소프트 코코: 컨텍스트에서 공통 객체"컴퓨터 비전 -ECCV 2014.Springer International Publishing, 2014. 740~755.
- ^ Russakovsky, Olga; et al. (2015). "Imagenet large scale visual recognition challenge". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y. hdl:1721.1/104944. S2CID 2930547.
- ^ "COCO – Common Objects in Context". cocodataset.org.
- ^ 샤오, 징슝 등"Sun 데이터베이스:수도원에서 동물원까지 대규모 장면 인식.컴퓨터 비전 및 패턴 인식(CVPR), 2010 IEEE 회의 개최.IEEE, 2010.
- ^ Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). "DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition". arXiv:1310.1531 [cs.CV].
- ^ 덩, 지아 등Imagenet: 대규모 계층형 이미지 데이터베이스입니다."컴퓨터 비전과 패턴 인식, 2009년. CVPR 2009. IEEE 회의 온IEEE, 2009.
- ^ a b c 크리제프스키, 알렉스, 일리야 수츠케버, 제프리 E.힌튼."심층 컨볼루션 뉴럴 네트워크를 이용한 이미지 분류"신경 정보 처리 시스템의 발전. 2012년.
- ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; et al. (11 April 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y. hdl:1721.1/104944. S2CID 2930547.
- ^ Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrarrari, Victor Gomes, Dhinav Gupta, Ghan, Galayan, Galan"열린 이미지:대규모 멀티 라벨 및 멀티 클래스 이미지 분류를 위한 공개 데이터 세트, 2017.https://github.com/openimages 에서 입수할 수 있습니다.
- ^ Vyas, Apoorv 등"브로드캐스트 뉴스 비디오에서 상업적 차단 탐지"2014년 컴퓨터 비전 그래픽스 및 이미지 처리에 관한 인도 회의의 진행.ACM, 2014.
- ^ 하우프트만, 알렉산더 G, 그리고 마이클 J. 위트브록."방송 뉴스 비디오의 스토리 분할 및 광고 탐지"디지털 라이브러리의 연구와 테크놀로지의 진보, 1998.생활 활동 98.논문집.IEEE국제 포럼에.IEEE, 1998.
- ^ Tung, 앤서니 크리스티나, 신, 그리고 Beng 턱 Ooi."Curler:발견 및 비선형 상관 군집을 시각화.".데이터 관리에 관한 2005년 ACMSIGMOD 국제 회의 회보.ACM, 2005년.
- ^ 재럿, 케빈,(알."개체 인정을 위한 최고의 다단계 구조입니까?"컴퓨터 비전, 2009년 IEEE12일 국제 회의에.IEEE, 2009.
- ^ Lazebnik, 스베틀라나, Cordelia 슈미드, 장 폰세."외에 가방의 기능 공간적 피라미드를 일치 시키기 위해 인식하고 자연 경관도 범주이다."컴퓨터 비전과 패턴 인식, 2006년 IEEE컴퓨터 학회 학술 대회.Vol2.IEEE, 2006년.
- ^ 그리핀, G.AHolub, P.Perona.Caltech-256 객체 카테고리 데이터 세트 California Inst.테크놀,기술자, Rep. 7694, 2007.이용가능 : http://authors.library.caltech.edu/7694, 2007
- ^ 배자 예이츠, 리카르도, 베르티에 리베이루 네토.현대적 정보 검색입니다.제463권뉴욕: ACM 프레스, 1999.
- ^ 푸, 쉬핑 등"NOKMeans: 비직교 K-평균 해싱"컴퓨터 비전 -ACCV 2014.Springer International Publishing, 2014. 162~177.
- ^ Heitz, Geremy; et al. (2009). "Shape-based object localization for descriptive classification". International Journal of Computer Vision. 84 (1): 40–62. CiteSeerX 10.1.1.142.280. doi:10.1007/s11263-009-0228-y. S2CID 646320.
- ^ M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth 및 B.쉴레, "The Cityscapes Dataset"CVPR 워크숍, 2015년.
- ^ Everingham, Mark; et al. (2010). "The pascal visual object classes (voc) challenge". International Journal of Computer Vision. 88 (2): 303–338. doi:10.1007/s11263-009-0275-4. hdl:20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6. S2CID 4246903.
- ^ Felzenszwalb, Pedro F.; et al. (2010). "Object detection with discriminatively trained part-based models". IEEE Transactions on Pattern Analysis and Machine Intelligence. 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745. doi:10.1109/tpami.2009.167. PMID 20634557. S2CID 3198903.
- ^ a b 공, 윤차오, 스베틀라나 라제브닉.반복 정량화:바이너리 코드를 학습하기 위한 경직된 접근법입니다."컴퓨터 비전과 패턴 인식(CVPR), 2011 IEEE 컨퍼런스 온.IEEE, 2011.
- ^ "CINIC-10 dataset". Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 is not ImageNet or CIFAR-10. 9 October 2018. Retrieved 13 November 2018.
- ^ fashion-mnist: A MNIST-like fashion product database. Benchmark :point_right, Zalando Research, 7 October 2017, retrieved 7 October 2017
- ^ "notMNIST dataset". Machine Learning, etc. 8 September 2011. Retrieved 13 October 2017.
- ^ 후벤, 세바스찬 등"실제 이미지에서 교통 표지판 감지: 독일 교통 신호 검출 벤치마크"Neural Networks(IJCNN), 2013년 국제 공동 회의.IEEE, 2013.
- ^ Mathias, Mayul 등"교통 표지판 인식--우리는 해결책에서 얼마나 멀리 떨어져 있나요?뉴럴 네트워크(IJCNN), 2013년 국제 공동 회의.IEEE, 2013.
- ^ 가이거, 안드레아스, 필립 렌츠, 라켈 우르타순."자율주행을 할 준비가 되었습니까? Kitti vision 벤치마크 스위트입니다.컴퓨터 비전과 패턴 인식(CVPR), 2012 IEEE 회의 개최.IEEE, 2012.
- ^ 스투름 위르겐 등"RGB-D SLAM 시스템 평가 벤치마크"IROS(Intelligent Robots and Systems), 2012 IEEE/RSJ 국제회의 개최.IEEE, 2012.
- ^ 유튜브의 KITI Vision 벤치마크 스위트
- ^ 샬라제, G., 칼라토지슈빌리, L. (2017년)린네우스 5 데이터 세트Chaladze.com 를 참조해 주세요.http://chaladze.com/l5/에서 2017년 11월 13일 취득
- ^ Kragh, Mikkel F.; et al. (2017). "FieldSAFE – Dataset for Obstacle Detection in Agriculture". Sensors. 17 (11): 2579. arXiv:1709.03526. Bibcode:2017arXiv170903526F. doi:10.3390/s17112579. PMC 5713196. PMID 29120383.
- ^ Afifi, Mahmoud (12 November 2017). "Gender recognition and biometric identification using a large dataset of hand images". arXiv:1711.04322 [cs.CV].
- ^ Lomonaco, Vincenzo; Maltoni, Davide (18 October 2017). "CORe50: a New Dataset and Benchmark for Continuous Object Recognition". arXiv:1705.03550 [cs.CV].
- ^ She, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao; Zhang, Yimin; Qiao, Fei; Chan, Rosa H.M. (15 November 2019). "OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning". arXiv:1911.06487v2 [cs.CV].
- ^ Morozov, Alexei; Sushkova, Olga (13 June 2019). "THz and thermal video data set". Development of the multi-agent logic programming approach to a human behaviour analysis in a multi-channel video surveillance. Moscow: IRE RAS. Retrieved 19 July 2019.
- ^ Morozov, Alexei; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (9 July 2019). "Development of a method of terahertz intelligent video surveillance based on the semantic fusion of terahertz and 3D video images" (PDF). CEUR. 2391: paper19. Retrieved 19 July 2019.
- ^ 보타, M., A. 지오르다나, L. 사이타."퍼지 개념 정의 학습"Fuzzy Systems, 1993. 제2차 IEEE 국제회의 개최.IEEE, 1993.
- ^ Frey, Peter W.; Slate, David J. (1991). "Letter recognition using Holland-style adaptive classifiers". Machine Learning. 6 (2): 161–182. doi:10.1007/bf00114162.
- ^ Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004). "Improved learning of Riemannian metrics for exploratory analysis". Neural Networks. 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865. doi:10.1016/j.neunet.2004.06.008. PMID 15555853.
- ^ a b Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (January 2013). "Online and offline handwritten Chinese character recognition: Benchmarking on new databases". Pattern Recognition. 46 (1): 155–162. Bibcode:2013PatRe..46..155L. doi:10.1016/j.patcog.2012.06.021.
- ^ Wang, D.; Liu, C.; Yu, J.; Zhou, X. (2009). "CASIA-OLHWDB1: A Database of Online Handwritten Chinese Characters". 2009 10th International Conference on Document Analysis and Recognition: 1206–1210. doi:10.1109/ICDAR.2009.163. ISBN 978-1-4244-4500-4. S2CID 5705532.
- ^ 윌리엄스, 벤 H, 마크 투생, 아모스 J. 스토키.자연스러운 필기 데이터에서 모션 프리미티브를 추출합니다.스프링거 베를린 하이델베르크, 2006년
- ^ 마이어, 프란지스카 등"원시 라이브러리를 사용한 이동 분할"IROS(Intelligent Robots and Systems), 2011 IEEE/RSJ 국제회의 개최.IEEE, 2011.
- ^ T. E. de Campos, B. R. Babu and M.Varma. 자연 이미지에서 문자 인식.2009년 2월 포르투갈 리스본, 컴퓨터 비전 이론 및 응용 국제회의(VISAPP) 진행
- ^ Cohen, Gregory; Afshar, Saeed; Tapson, Jonathan; André van Schaik (2017). "EMNIST: An extension of MNIST to handwritten letters". arXiv:1702.05373v1 [cs.CV].
- ^ "The EMNIST Dataset". NIST. 4 April 2017.
- ^ 그레고리 코헨, 사이드 아프샤르, 조나단 탭슨, 안드레 반 샤이크 "1" "EMNIST: MNIST에서 손으로 쓴 편지로의 확장, 2017년 2월 17일" arXiv, 2017년.[v1] 2017년 2월 17일 (금) 15:06:14 UTC (1,860 KB) [v2] 2017년 3월 1일 (수) 08:55:36 UTC (1,860 KB)
- ^ 로렌스, 데이비드 등"UJI펜샤 데이터베이스: 격리된 수기 문자의 펜 기반 데이터베이스." LREC. 2008.
- ^ Calderara, Simone; Prati, Andrea; Cucchiara, Rita (2011). "Mixtures of von mises distributions for people trajectory shape analysis". IEEE Transactions on Circuits and Systems for Video Technology. 21 (4): 457–471. doi:10.1109/tcsvt.2011.2125550. S2CID 1427766.
- ^ 가이온, 이자벨 등"nips 2003 기능 선택 과제 결과 분석"신경 정보 처리 시스템의 진보.2004.
- ^ Lake, B. M.; Salakhutdinov, R.; Tenenbaum, J. B. (11 December 2015). "Human-level concept learning through probabilistic program induction". Science. 350 (6266): 1332–1338. Bibcode:2015Sci...350.1332L. doi:10.1126/science.aab3050. ISSN 0036-8075. PMID 26659050.
- ^ Lake, Brenden (9 November 2019), Omniglot data set for one-shot learning, retrieved 10 November 2019
- ^ LeCun, Yann; et al. (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261.
- ^ Kussul, Ernst; Baidyk, Tatiana (2004). "Improved method of handwritten digit recognition tested on MNIST database". Image and Vision Computing. 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008.
- ^ Xu, Lei; Krzyżak, Adam; Suen, Ching Y. (1992). "Methods of combining multiple classifiers and their applications to handwriting recognition". IEEE Transactions on Systems, Man and Cybernetics. 22 (3): 418–435. doi:10.1109/21.155943. hdl:10338.dmlcz/135217.
- ^ 알리모글루, 페브지 등"펜 기반의 손으로 쓴 숫자 인식을 위한 여러 분류기 조합."(1996)
- ^ Tang, E. Ke; et al. (2005). "Linear dimensionality reduction using relevance weighted LDA". Pattern Recognition. 38 (4): 485–493. Bibcode:2005PatRe..38..485T. doi:10.1016/j.patcog.2004.09.005. S2CID 10580110.
- ^ 홍, 이, 등"분류와 차원 축소를 위한 희박한 거리 메트릭의 혼합 학습"컴퓨터 비전(ICCV), 2011 IEEE 국제회의 개최.IEEE, 2011.
- ^ Thoma, Martin (2017). "The HASYv2 dataset". arXiv:1701.08380 [cs.CV].
- ^ Karki, Manohar; Liu, Qun; DiBiano, Robert; Basu, Saikat; Mukhopadhyay, Supratik (20 June 2018). "Pixel-level Reconstruction and Classification for Noisy Handwritten Bangla Characters". arXiv:1806.08037 [cs.CV].
- ^ Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Progressively Trained Classifier Generative Adversarial Networks for Classification of Noisy Handwritten Bangla Characters", Digital Libraries at the Crossroads of Digital Information for the Future, Springer International Publishing, pp. 3–15, arXiv:1908.08987, doi:10.1007/978-3-030-34058-2_1, ISBN 978-3-030-34057-5, S2CID 201665955
- ^ "iSAID". captain-whu.github.io. Retrieved 30 November 2021.
- ^ Zamir, Syed & Arora, Adita & Gupta & Khan, Salman & Sun, Guolei & Khan, Fahad & Zhu, Fan & Shao, Ling & Xia, Gui-Song & Bai, Xiang.(2019).iSAID: 항공 이미지 인스턴스 분할을 위한 대규모 데이터 세트.웹 사이트
- ^ Yuan, Jiangye; Gleason, Shaun S.; Cheriyadat, Anil M. (2013). "Systematic benchmarking of aerial image segmentation". IEEE Geoscience and Remote Sensing Letters. 10 (6): 1527–1531. Bibcode:2013IGRSL..10.1527Y. doi:10.1109/lgrs.2013.2261453. S2CID 629629.
- ^ 바차바이, 랑가 라주"객체 기반 이미지 분류: 최첨단 및 계산상의 과제"제2회 ACM SIGSPARATIAL 국제 빅 지리공간 데이터 분석 워크숍 진행.ACM, 2013.
- ^ 부테누스, 마티아스 등"군중 분석을 위한 보행자 시뮬레이션, 추적 및 이벤트 감지 통합"컴퓨터 비전 워크숍(ICCV 워크숍), 2011 IEEE 국제회의 개최.IEEE, 2011.
- ^ 프라디, 하지르, 그리고 장 뤽 뒤겔레이."사람을 세는 데 프레임 단위로 정규화된 기능을 사용하여 낮은 수준의 군중 분석"정보과학수사 및 보안(WIFS), 2012 IEEE 국제 워크숍 개최.IEEE, 2012.
- ^ 존슨, 브라이언 앨런, 다테이시 류타로, 응웬탄호안."병든 소나무와 떡갈나무의 매핑을 위한 하이브리드 팬하프닝 접근법과 멀티스케일 객체 기반 이미지 분석입니다.국제 원격감지 저널 34.20 (2013) : 6969 – 6982.
- ^ Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (2015). "A new classification model for a class imbalanced data set using genetic programming and support vector machines: Case study for wilt disease classification". Remote Sensing Letters. 6 (7): 568–577. doi:10.1080/2150704X.2015.1062159. S2CID 58788630.
- ^ 갈레고, A.-J.; A. 퍼투사; 길, P. "컨볼루션 뉴럴 네트워크를 이용한 광학 항공 이미지로부터의 자동 선박 분류"리모트 센싱2018; 10(4):511.
- ^ Gallego, A.-J., A., P., Gil. "MARitime SATellite 이미지 데이터 세트"이용가능 : https://www.iuii.ua.es/datasets/masati/, 2018.
- ^ Johnson, Brian; Tateishi, Ryutaro; Xie, Zhixiao (2012). "Using geographically weighted variables for image classification". Remote Sensing Letters. 3 (6): 491–499. doi:10.1080/01431161.2011.629637. S2CID 122543681.
- ^ 채터지, 생카딥 등"포레스트 유형 분류: 하이브리드 NN-GA 모델 기반 접근법"정보 시스템 설계 및 인텔리전트 애플리케이션.스프링거 인도, 2016. 227~236.
- ^ 디게르트, 칼"모양의 의미론을 사용하여 객체를 추적하는 조합적 방법"Applied Images Pattern Recognition Workshop(AIPR), 2010 IEEE 39회.IEEE, 2010.
- ^ 라자카리보니, 세바스티앙, 프레데릭 쥬리."전경 다지관과 배경 다지관을 결합한 작은 표적 탐지"IAPR 머신비전 어플리케이션 국제회의2013.
- ^ "SpaceNet". explore.digitalglobe.com. Retrieved 13 March 2018.
- ^ Etten, Adam Van (5 January 2017). "Getting Started With SpaceNet Data". The DownLinQ. Retrieved 13 March 2018.
- ^ Vakalopoulou, M.; Bus, N.; Karantzalosa, K.; Paragios, N. (July 2017). Integrating edge/boundary priors with classification scores for building detection in very high resolution data. 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). pp. 3309–3312. doi:10.1109/IGARSS.2017.8127705. ISBN 978-1-5090-4951-6. S2CID 8297433.
- ^ Yang, Yi; Newsam, Shawn (2010). Bag-of-visual-words and spatial extensions for land-use classification. Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems – GIS '10. New York, New York, USA: ACM Press. doi:10.1145/1869790.1869829. ISBN 9781450304283. S2CID 993769.
- ^ a b Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3 November 2015). DeepSat: a learning framework for satellite imagery. ACM. p. 37. doi:10.1145/2820783.2820816. ISBN 9781450339674. S2CID 4387134.
- ^ a b Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (21 November 2019). "DeepSat V2: feature augmented convolutional neural nets for satellite image classification". Remote Sensing Letters. 11 (2): 156–165. arXiv:1911.07747. doi:10.1080/2150704x.2019.1693071. ISSN 2150-704X. S2CID 208138097.
- ^ Ebadi, Ashkan; Paul, Patrick; Auer, Sofia; Tremblay, Stéphane (12 November 2021). "NRC-GAMMA: Introducing a Novel Large Gas Meter Image Dataset". arXiv:2111.06827 [cs.CV].
- ^ Canada, Government of Canada National Research Council (2021). "The gas meter image dataset (NRC-GAMMA) - NRC Digital Repository". nrc-digital-repository.canada.ca. doi:10.4224/3c8s-z290. Retrieved 2 December 2021.
- ^ Rabah, Chaima Ben; Coatrieux, Gouenou; Abdelfattah, Riadh (October 2020). "The Supatlantique Scanned Documents Database for Digital Image Forensics Purposes". 2020 IEEE International Conference on Image Processing (ICIP). IEEE: 2096–2100. doi:10.1109/icip40778.2020.9190665. ISBN 978-1-7281-6395-6. S2CID 224881147.
- ^ Mills, Kyle; Tamblyn, Isaac (16 May 2018), Big graphene dataset, National Research Council of Canada, doi:10.4224/c8sc04578j.data
- ^ Mills, Kyle; Spanner, Michael; Tamblyn, Isaac (16 May 2018). "Quantum simulation". Quantum simulations of an electron in a two dimensional potential well. National Research Council of Canada. doi:10.4224/PhysRevA.96.042113.data.
- ^ Rohrbach, M.; Amin, S.; Andriluka, M.; Schiele, B. (2012). "A database for fine grained activity detection of cooking activities". 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE. pp. 1194–1201. doi:10.1109/cvpr.2012.6247801. ISBN 978-1-4673-1228-8.
- ^ 쿠에네, 힐데, 알리 아르슬란, 토마스 세레.행동 언어: 목표를 지향하는 인간 활동의 구문과 의미론을 회복한다.「컴퓨터 비전과 패턴 인식에 관한 IEEE 회의의 속행.2014.
- ^ 스비아토슬라브, 볼로시노프스키 등「복제할 수 없는 물리적인 기능에 근거하는 인증의 결과를 목표로 합니다. 법의학 인증 마이크로 구조 광학 세트(FAMOS).「Proc. 정보 과학 수사 및 보안에 관한 IEEE 국제 워크숍의 진행.2012년.
- ^ 올가, 타란과 시데, 레자이파르 등"PharmaPack: 모바일로 정밀하게 인식되는 Pharma 패키지."프로세스 유럽 신호 처리 회의(EUSIPCO). 2017년.
- ^ 코슬라, 아디트야 등「이미지의 세밀한 분류를 위한 레벨 데이터 세트: 스탠포드 개들.「프로세스. CVPR 「세밀한 시각 분류(FGVC)에 관한 워크숍.2011년.
- ^ a b 파키, 옴카 M. 등"고양이와 개.「컴퓨터 비전 및 패턴 인식(CVPR), 2012 IEEE 회의 개최.IEEE, 2012.
- ^ 빅스, 벤자민 등"누가 개를 빼냈을까? 3D 동물 재건을 통한 기대 극대화.."Proc. ECCV. 2020.
- ^ a b 라자비안, 알리 등"CNN의 특징은 기성품입니다.인식을 위한 놀라운 기준입니다."컴퓨터 비전 및 패턴 인식 워크샵에 관한 IEEE 회의의 진행. 2014년.
- ^ Ortega, Michael; et al. (1998). "Supporting ranked boolean similarity queries in MARS". IEEE Transactions on Knowledge and Data Engineering. 10 (6): 905–925. CiteSeerX 10.1.1.36.6079. doi:10.1109/69.738357.
- ^ 그와 쉬밍, 리처드 S. 제멜, 그리고 미겔 A.카레이라 페르피냥"이미지 라벨링을 위한 멀티스케일 조건부 랜덤 필드"컴퓨터 비전과 패턴 인식, 2004. CVPR 2004. 2004년 IEEE 컴퓨터 학회 회의의 진행 상황.Vol. 2. IEEE, 2004.
- ^ 데네케, 튜드로스 등비디오 트랜스코딩 시간 예측으로 사전 로드밸런싱이 가능합니다.멀티미디어 및 엑스포(ICME), 2014 IEEE 국제회의 개최.IEEE, 2014.
- ^ Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell (13 April 2016). "Visual Storytelling". arXiv:1604.03968 [cs.CL].
{{cite arxiv}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ 와, 캐서린 등"caltech-ucsd birds-200-2011 데이터 세트." (2011년)
- ^ 단, 쿤 등"세밀한 인식을 위해 현지화된 특성을 발견합니다."컴퓨터 비전과 패턴 인식(CVPR), 2012 IEEE 회의 개최.IEEE, 2012.
- ^ "YouTube-8M Dataset". research.google.com. Retrieved 1 October 2016.
- ^ Abu-El-Haija, Sami; Kothari, Nisarg; Lee, Joonseok; Natsev, Paul; Toderici, George; Varadarajan, Balakrishnan; Vijayanarasimhan, Sudheendra (27 September 2016). "YouTube-8M: A Large-Scale Video Classification Benchmark". arXiv:1609.08675 [cs.CV].
- ^ "YFCC100M Dataset". mmcommons.org. Yahoo-ICSI-LLNL. Retrieved 1 June 2017.
- ^ Bart Thomee; David A Shamma; Gerald Friedland; Benjamin Elizalde; Karl Ni; Douglas Poland; Damian Borth; Li-Jia Li (25 April 2016). "Yfcc100m: The new data in multimedia research". Communications of the ACM. 59 (2): 64–73. arXiv:1503.01817. doi:10.1145/2812802. S2CID 207230134.
- ^ Y. 바베이예, E. 델란드레아, C.카마레와 L.Chen, "LIRIS-ACCEDE: AVideo Database for Affective Content Analysis", IEEE Transactions on Affective Computing, 2015.
- ^ Y. 바베이예, E. 델란드레아, C.카마레와 L.Chen, "심층학습 vs. 커널 방법: 비디오의 감정 예측을 위한 퍼포먼스"(2015년) Humaine Association on Affective Computing and Intelligent Interaction(ACI; 영향 컴퓨팅 및 인텔리전트 인터랙션에 관한 회의), 2015년.
- ^ M. Sjöberg, Y. Baveye, H. Wang, V. L. Quang, B.Ionescu, E. Dellandréa, M. Scedl, C.-H. Demarty 및 L.Chen, "MediaEval 2015 Workshop, 2015"에서 "MediaEval 2015 영화의 정서적 영향 과제"
- ^ S. Johnson과 M.Everingam, 제21회 영국기계비전회의(BMVC2010) 속에서의 "인간 자세 추정을 위한 군집된 자세와 비선형 외관 모델"
- ^ S. Johnson과 M.Everingam, "부정확한 주석을 통한 효과적인 인체 자세 평가 학습", 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 진행 중 (CVPR2011)
- ^ Afifi, Mahmoud; Hussain, Khaled F. (2 November 2017). "The Achievement of Higher Flexibility in Multiple Choice-based Tests Using Image Classification Techniques". arXiv:1711.00972 [cs.CV].
- ^ "MCQ Dataset". sites.google.com. Retrieved 18 November 2017.
- ^ Taj-Eddin, I. A. T. F.; Afifi, M.; Korashy, M.; Hamdy, D.; Nasser, M.; Derbaz, S. (July 2016). A new compression technique for surveillance videos: Evaluation using new dataset. 2016 Sixth International Conference on Digital Information and Communication Technology and Its Applications (DICTAP). pp. 159–164. doi:10.1109/DICTAP.2016.7544020. ISBN 978-1-4673-9609-7. S2CID 8698850.
- ^ Tabak, Michael A.; Norouzzadeh, Mohammad S.; Wolfson, David W.; Sweeney, Steven J.; Vercauteren, Kurt C.; Snow, Nathan P.; Halseth, Joseph M.; Di Salvo, Paul A.; Lewis, Jesse S.; White, Michael D.; Teton, Ben; Beasley, James C.; Schlichting, Peter E.; Boughton, Raoul K.; Wight, Bethany; Newkirk, Eric S.; Ivan, Jacob S.; Odell, Eric A.; Brook, Ryan K.; Lukacs, Paul M.; Moeller, Anna K.; Mandeville, Elizabeth G.; Clune, Jeff; Miller, Ryan S.; Photopoulou, Theoni (2018). "Machine learning to classify animal species in camera trap images: Applications in ecology". Methods in Ecology and Evolution. 10 (4): 585–590. doi:10.1111/2041-210X.13120. ISSN 2041-210X.
- ^ Taj-Eddin, Islam A. T. F.; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H.; Ng, Yoke Cheng; Hernandez, Evelyng; Abdel-Latif, Salma M. (November 2017). "Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification". Journal of Electronic Imaging. 26 (6): 060501. arXiv:1706.03867. Bibcode:2017JEI....26f0501T. doi:10.1117/1.jei.26.6.060501. ISSN 1017-9909. S2CID 12367169.
- ^ "Mathematical Mathematics Memes".
- ^ McAuley, Julian 등"스타일 및 대용품에 대한 이미지 기반 권장 사항"제38회 정보 검색 연구개발 국제 ACM SIGIR 회의의 진행.ACM, 2015
- ^ "Amazon review data". nijianmo.github.io. Retrieved 8 October 2021.
- ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Information Retrieval. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.
- ^ Lv, Yuanhua, Dimitrios Limberopoulos, Chiang Wu. "모바일 로컬 검색 순위 발견의 탐구." 제35회 ACM SIGIR 국제 정보 검색 연구 개발 회의 진행.ACM, 2012.
- ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". ACM Transactions on Interactive Intelligent Systems. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.
- ^ 코닉스타인, 노암, 기디언 드로르, 예후다 코렌입니다"야후! 음악 추천: 시간 역학 및 아이템 분류로 음악 등급을 모델링합니다."추천 시스템에 관한 제5차 ACM 회의의 속행.ACM, 2011.
- ^ McFee, Brian 등"백만 곡의 데이터 집합 과제"월드 와이드 웹에서의 제21회 국제회의 동반자 회의 진행.ACM, 2012.
- ^ 보하넥, 마르코, 블라디슬라브 라즈코비치입니다"다중 속성 의사결정을 위한 지식 습득 및 설명." 제8회 엑스퍼트 시스템과 그 응용 프로그램에 관한 국제 워크숍1988.
- ^ 탄, 피터 J, 데이비드 L.다우지. "다방향 조인이 있는 의사결정 그래프의 MML 추론"인공 지능에 관한 호주 합동 회의2002.
- ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Retrieved 26 October 2020.
- ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Communications in Computer and Information Science. Vol. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
- ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
- ^ Loh, Wei-Yin, Yu-Shan Shih."분류 트리의 분할 선택 방법"Statistica sinica(1997): 815~840.
- ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Machine Learning. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.
- ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tam T. H. Truong, Nguyen, Ngu-Thuy Nguyen."UIT-VSFC: 감정 분석을 위한 베트남 학생들의 피드백 말뭉치
- ^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Emotion Recognition for Vietnamese Social Media Text". Computational Linguistics. Communications in Computer and Information Science. Vol. 1215. pp. 319–333. arXiv:1911.09339. doi:10.1007/978-981-15-6168-9_27. ISBN 978-981-15-6167-2. S2CID 208202333.
- ^ Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 April 2021). "Vietnamese Open-domain Complaint Detection in E-Commerce Websites". arXiv:2104.11969 [cs.CL].
{{cite arxiv}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). "A Joint Model for Topic-Sentiment Evolution over Time". 2014 IEEE International Conference on Data Mining. IEEE. pp. 773–778. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
- ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414. Archived from the original (PDF) on 6 August 2019.
- ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views – an Application to Multilingual Text Categorization". Advances in Neural Information Processing Systems. 22: 28–36.
- ^ Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press.
- ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
- ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". GitHub. 17 December 2018.
- ^ "The Examiner – SpamClickBait Catalogue".
- ^ "A Million News Headlines".
- ^ "One Week of Global News Feeds".
- ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W
- ^ "IrishTimes – the Waxy-Wany News".
- ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Retrieved 27 April 2019.
- ^ 클림트, 브라이언, 이밍 양입니다'엔론 말뭉치 소개' CEAS, 2004.
- ^ 코시네츠, 구오르기, 존 클라인버그, 던컨 왓츠.「소셜 커뮤니케이션 네트워크의 정보 경로 구조」제14회 ACM SIGKDD 지식 발견 및 데이터 마이닝 국제회의의 진행.ACM, 2008.
- ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. Vol. 11. pp. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
- ^ Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
- ^ 알메이다, 티아고 A, 호세 마리아 G.히달고, 아케보 야마카미."SMS 스팸 필터링 연구에 대한 기여: 새로운 수집 및 결과"제11회 ACM 문서공학 심포지엄의 진행.ACM, 2011.
- ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expert Systems with Applications. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053. S2CID 15546924.
- ^ 요아힘스, 토르스텐텍스트 분류를 위한 TFIDF를 이용한 로키오 알고리즘의 확률론적 해석번호: CMU-CS-96-118카네기멜론 대학교 피츠버그 대학 컴퓨터 공학부, 1996년.
- ^ 디미트라카키스, 크리스토스, 그리고 사미 벤조.앙상블 알고리즘에 대한 온라인 정책 적응아니요 EPFL-REPORT-82788IDIAP, 2002.
- ^ Dooms, S. et al."영화 감상: 2013년 twitter에서 수집한 영화 등급 데이터 세트입니다.https://github.com/sidooms/MovieTweetings 에서 입수할 수 있습니다.
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].
- ^ "huyt16/Twitter100k". GitHub. Retrieved 26 March 2018.
- ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
- ^ 치커살, 프레르나, 소자냐 포리아, 에릭 캄브리아."SeNTU: 규칙 기반 분류기와 감독 학습을 결합하여 트윗의 감정 분석"의미평가에 관한 국제 워크숍의 진행, SemEval. 2015.
- ^ 자파라니, 레자, 환류.「ASU의 소셜 컴퓨팅 데이터 저장소」애리조나 주립 대학 컴퓨팅·정보학·의사결정 시스템 공학부(2009년).
- ^ Bisgin, Halil, Nitin Agarwal, Xiaowei Xu. "온라인 소셜[dead link] 네트워크에서의 동종애자 조사"Web Intelligence and Intelligent Agent Technology(WI-IAT), 2010 IEEE/WIC/ACM 국제회의 개최.Vol. 1. IEEE, 2010.
- ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
- ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Scientific Reports. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.
- ^ 압둘라, N. 등아랍 감정 분석:말뭉치 기반과 어휘 기반입니다."Applied Electric Engineering and Computing Technologies(AEECT)에 관한 IEEE 회의의 진행 상황.2013.
- ^ 아부라이그, 래드다드 등아랍어 기사의 정치적 성향에 따른 자동 분류.제3회 정보공학 및 정보과학 국제회의(ICIEIS2014).2014.
- ^ 카왈라, 프랑수아 등"Prédocolutions d'activité les resaux en ligne." 4iéme conférence sur l'modéles et l'analyze des resaux: 산술과 정보학에 접근합니다.2013.
- ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG].
- ^ 쉬 외"SemEval-2015 Task 1: Twitter(PIT)" 제9회 의미평가에 관한 국제 워크숍의 진행.2015.
- ^ Xu 등. "Twitter에서 어휘적으로 다른 패러프레이즈를 추출합니다." TACL(Association for Computational)의 트랜잭션. 2014년.
- ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). IEEE Intelligent Systems. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.
- ^ "geoparsepy". 2016. Python PyPI 라이브러리
- ^ Gupta, Aakash (5 December 2020). "Dutch social media collection". doi:10.5072/FK2/MTPTL7.
{{cite journal}}
: 일기장의 필요성(도움말)을 인용한다.값 확인(도움말) - ^ "Streamlit". huggingface.co. Retrieved 18 December 2020.
- ^ "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.
- ^ Forsyth, E., Lin, J. 및 Martell, C. (2008년, 6월 25일)NPS 채팅 코퍼스http://faculty.nps.edu/cmartell/NPSChat.htm 에서 취득했습니다.
- ^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brokett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao 및 Bill Dolan, 상황에 민감한 대화 응답 세대, 북미 지부 회의HLT 2015) 2015년 6월.
- ^ Shaoul, C. & Westbury C. (2013년) 감소된 중복 USENET 말뭉치(2005-2011년) Edmonton, AB: University of Alberta (http://www.psych.ualberta.ca/ ~ westbury lab / usenetcorpus . https . http . http . http . http . https . https . http )
- ^ KAN, M. (2011년, 1월)NUS Short Message Service(SMS; 단문메시지 서비스) 코퍼스.http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ 에서 취득했습니다.
- ^ Stuck_In_the_Matrix. (2015년 7월 3일).리서치를 위해 모든 레딧 코멘트를 공개하고 있습니다.250 GB의 코멘트에 17억 코멘트를 압축되어 있습니다.관심 있으세요?[오리지널 투고]https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/에 게시된 메시지
- ^ 라이언 로, 닛산 포, 율리안 5세Serban과 Joelle Pineau, "Ubuntu Dialogue Corpus: 구조화되지 않은 멀티턴 대화 시스템의 연구를 위한 대규모 데이터 세트", SIGDial 2015.
- ^ Jason Williams Antoine Raux Matthew Henderson, [2], Dialog & Addression 2016년 4월.
- ^ K. Kowsari, D. E. Brown, M.Heidarysafa, K. Jafari Meimandi, M. S. Gerber 및 L. E. Barnes, "HDLTex: 텍스트 분류를 위한 계층적 딥 러닝", 2017년 제16회 기계학습 및 응용분야 국제회의(ICMLA), 페이지 10-437.do.
- ^ K. Kowsari, D. E. Brown, M.Heidarysafa, K. Jafari Meimandi, M. S. Gerber 및 L. E. Barnes, "Web of Science Dataset", doi: 10.17632/9rw3vkcfy4.6
- ^ 갈가니, 필리포, 폴 콤프턴, 아킴 호프만."법률 텍스트에 대한 다양한 요약 기법 조합"텍스트 데이터 처리에 대한 혁신적인 하이브리드 접근법에 관한 워크숍의 진행.컴퓨터 언어학 협회, 2012.
- ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.
- ^ Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6.
- ^ 아난드, 프라나브 등"믿을 수 있어, 우리는 할 수 있어!블로그 텍스트에서 설득력 있는 행동에 대한 주석 달기."자연 논쟁의 컴퓨터 모델. 2011년.
- ^ 트라우드, 아만다 L., 피터 J. 무차, 메이슨 A.포터."페이스북 네트워크의 사회적 구조"Physica A: Statistical Mechanics and 그 응용 프로그램391.16 (2012): 4165 – 4180.
- ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS].
- ^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
- ^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI].
- ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational Linguistics. 19 (2): 313–330.
- ^ Collins, Michael (2003). "Head-driven statistical models for natural language parsing". Computational Linguistics. 29 (4): 589–637. doi:10.1162/089120103322753356.
- ^ 가이온, 이자벨, 에드 등기능 추출: 기초 및 응용 프로그램.제207권, 스프링거, 2008년
- ^ 린, 유리 등"구글 북스 n그램 코퍼스에 대한 구문 주석"ACL 2012 시스템 데모의 진행.컴퓨터 언어학 협회, 2012.
- ^ Krishnamoorthy, Niveda; et al. (2013). "Generating Natural-Language Video Descriptions Using Text-Mined Knowledge". AAAI. 1.
- ^ 루익스, 킴, 월터 대레만스요"Personae: 텍스트에서[dead link] 저자와 성격을 예측하기 위한 말뭉치." LREC. 2008.
- ^ 솔로리오, 타마르, 라기브 하산, 마이눌 미잔."위키피디아에서 양말개구리 검출 사례 연구"NAACL HLT. 2013 소셜 미디어 언어 분석 워크숍.
- ^ 치아렐리, 패트릭 마르케스, 그리고 엘리아스 올리베이라.차원 축소를 위한 용어집적 및 삭제.Intelligent Systems Design and Applications, 2009. ISDA'09. 제9회 국제회의 개최IEEE, 2009.
- ^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla, James G. Scott."음수 이항 프로세스 제품군에서 파생된 랜덤 카운트 행렬의 우선." 미국 통계 협회 저널이 방금 승인(2015년): 00–00.
- ^ 코치아스, 디미트리오스 등"그룹에서 개별 라벨까지 심층 기능을 사용합니다."제21회 ACM SIGKDD 국제 지식 발견 및 데이터 마이닝 회의 진행.ACM, 2015.
- ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning". arXiv:1602.08033 [cs.SI].
- ^ 부자, 크리스티안"블로그 피드백 예측입니다.「데이터 분석, 머신 러닝, 지식 발견.Springer International Publishing, 2014. 145~152.
- ^ Soysal, Ömer M (2015). "Association rule mining with mostly associated sequential patterns". Expert Systems with Applications. 42 (5): 2582–2592. doi:10.1016/j.eswa.2014.10.049.
- ^ 보먼, 사무엘 등"자연어 추론을 배우기 위한 주석이 달린 큰 말뭉치"2015년 자연언어 처리 경험적 방법에 관한 회의(EMNLP)의 진행.ACL, 2015.
- ^ "DSL Corpus Collection". ttg.uni-saarland.de. Retrieved 22 September 2017.
- ^ "Urban Dictionary Words and Definitions".
- ^ H. Elsahar, P. Bougiouklis, A.Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, "T-REX: 자연어와 지식 기반 트리플의 대규모 얼라인먼트", 제11회 언어 자원 및 평가에 관한 회의 진행(L-REC-2018).
- ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel R. (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv:1804.07461 [cs.CL].
- ^ "Computers Are Learning to Read—But They're Still Not So Smart". Wired. Retrieved 29 December 2019.
- ^ "GLUE Benchmark". gluebenchmark.com. Retrieved 25 February 2019.
- ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning".
- ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh (2020). "Gender Prediction Based on Vietnamese Names with Machine Learning Techniques" (PDF). Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval. pp. 55–60. arXiv:2010.10852. doi:10.1145/3443279.3443309. ISBN 9781450377607. S2CID 224814110.
- ^ Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (18 March 2021). "Constructive and Toxic Speech Detection for Open-Domain Social Media Comments in Vietnamese". Advances and Trends in Artificial Intelligence. Artificial Intelligence Practices. Lecture Notes in Computer Science. Vol. 12798. pp. 572–583. arXiv:2103.10069. doi:10.1007/978-3-030-79457-6_49. ISBN 978-3-030-79456-9. S2CID 232269671.
- ^ M. Versteeh, R.티올리에르, T. 샤츠, X.N. Cao, X. Anguera, A. Jansen, E.Dupoux (2015년)인터스펙-2015의 "자원 제로 스피치 챌린지 2015"입니다.
- ^ M. Versteeh, X. Anguera, A. Jansen, E.Dupoux, (2016).SLTU-2016의 "The Zero Resource Speech Challenge 2015: 제안된 접근법과 결과"
- ^ Sakar, Betul Erdogdu; et al. (2013). "Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings". IEEE Journal of Biomedical and Health Informatics. 17 (4): 828–834. doi:10.1109/jbhi.2013.2245674. PMID 25055311. S2CID 15491516.
- ^ 자오, 슈난 등"파킨슨병에서 표현된 감정의 자동 검출"음향, 음성 및 신호 처리(ICASSP), 2014 IEEE 국제회의 개최.IEEE, 2014.
- ^ 사용처: 함마미, 나세레딘 및 몰디 베다."아랍어 음성 인식을 위한 트리 모델 개선"2010년 제3회 IEEE 국제회의 개최.Vol. 5. IEEE, 2010.
- ^ 마아텐, 로렌스"차별적인 어획자 알맹이 학습"2011년 제28회 기계학습 국제회의(ICML-11)의 속행.
- ^ 콜, 로널드, 그리고 마크 팡티."음성 편지 인식"제3회 DARPA Speech and Natural Language 워크숍(1990년).
- ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.
- ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Pattern Recognition Letters. 20 (11): 1103–1111. Bibcode:1999PaReL..20.1103K. CiteSeerX 10.1.1.46.2515. doi:10.1016/s0167-8655(99)00077-x.
- ^ Jaeger, Herbert; et al. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Neural Networks. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.
- ^ Tsanas, Athanasios; et al. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions on Biomedical Engineering (Submitted manuscript). 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.
- ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.
- ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Speech Communication. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.
- ^ 카파디아, 사딕, 발초 발체프, S. J. 영."TIMIT 데이터베이스에서 음소 인식을 계속하기 위한 MMI 훈련"음향, 음성, 신호 처리, 1993. ICASSP-93., 1993 IEEE 국제회의 on.제2권 IEEE, 1993년
- ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (PhD Thesis). University of Southampton, School of Electronics and Computer Science.
- ^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL].
- ^ "The LJ Speech Dataset". keithito.com. Retrieved 13 April 2022.
- ^ 저우, 방, Q. 클레어, 로스 D.왕. "음악의 지리적 기원을 예측하는 것"데이터 마이닝(ICDM), 2014 IEEE 국제회의 개최.IEEE, 2014.
- ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.
- ^ 베르탱-마히외, 티에리 등"백만 곡의 데이터 세트"ISMIR 2011: 제12회 국제음악정보검색학회 2011년 10월 24~28일 플로리다주 마이애미.마이애미 대학교, 2011.
- ^ Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
- ^ Rafii, Zafar (2017). "Music". MUSDB18 – a corpus for music separation. doi:10.5281/zenodo.1117372.
- ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD].
- ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.
- ^ Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropy. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.
- ^ 살라몬, 저스틴, 자코비, 크리스토퍼, 벨로, 후안 파블로"도시 음향 연구를 위한 데이터 세트와 분류법." ACM 국제 멀티미디어 회의의 진행.ACM, 2014.
- ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML].
- ^ Gemmeke, Jort F. 등"오디오 세트: 오디오 이벤트를 위한 온톨로지 및 인간 레이블 데이터 세트." IEEE 국제 음향, 음성 및 신호 처리 컨퍼런스(ICASSP). 2017년.
- ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Science AAAS. 18 July 2018. Retrieved 22 July 2018.
- ^ "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3 May 2016. Retrieved 22 July 2018.
- ^ Wichern, G. 등. "WHAM!: 음성 분리의 노이즈 환경으로의 확장", Interspeech, 2019, https://arxiv.org/abs/1907.01160
- ^ Drossos, K., Liping, S. 및 Virtanen, T. "Closho:오디오 캡션 데이터 세트"IEEEE 국제 음향, 음성, 신호 처리 회의(ICASSP). 2020.
- ^ Drossos, K., Liping, S. 및 Virtanen, T.(2019).Cloto 데이터 세트(버전 1.0) [데이터 세트]제노도http://doi.org/10.5281/zenodo.3490684
- ^ 위트 웜에 관한 CAIDA UCSD 데이터 세트– 2004년 3월 19일 ~ 24일, http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Chen, Zesheng, Chuanyi Ji. "취약 호스트 배포를 사용하는 최적의 웜 검사 방법"International Journal of Security and Networks (국제보안 및 네트워크 저널) 2.1 ~ 2 (2007) : 71 ~80 。
- ^ 카추이, 모하메드 등"수갑 없이 고정밀 보정, 맥박 전달 시간을 이용한 혈압 추정"회선 및 시스템(ISCAS), 2015 IEEE 국제 심포지엄 on.IEEE, 2015.
- ^ PhysioBank, PhysioToolkit."PhysioNet: 복잡한 생리학적 신호를 위한 새로운 연구 자원의 구성요소입니다."유통. v101 i23. e215-e220.
- ^ Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Sensors and Actuators B: Chemical. 166: 320–329. doi:10.1016/j.snb.2012.01.074.
- ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Sensors and Actuators B: Chemical. 198: 316–341. doi:10.1016/j.snb.2014.03.069.
- ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
- ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Machine Learning. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.
- ^ 토레스-소스페드라, 호아킨 등"UJIIndoorLoc-Mag: 자기장 기반의 현지화 문제에 대한 새로운 데이터베이스입니다."실내 위치 및 실내 내비게이션(IPIN), 2015 국제 컨퍼런스 on.IEEE, 2015.
- ^ 버크벤스, 라파엘, 마텐 웨인, 허버트 페레만스."확률론적 Wi-Fi 지역화의 평균 상호 정보"실내 위치 및 실내 내비게이션(IPIN), 2015 국제 컨퍼런스 on. 캐나다 밴프: IPIN. 2015.
- ^ 파슈케, 파비안 등"센서로스 주스탄드슈베르와충 싱크로모토렌""진행. 23. 워크샵 컴퓨터 인텔리전스, 도르트문트, 5. 6 2013년 12월KIT Scientific Publishing, 2013.
- ^ Lessmeier, Christian 등"전기 기계 구동 시스템의 결함 감지를 위한 측정된 모터 전류로부터의 데이터 수집 및 신호 분석"
- ^ 우굴리노, 월러스 등웨어러블 컴퓨팅: 가속도계의 신체 자세와 움직임에 대한 데이터 분류."인공지능-SB의 진보IA 2012.스프링거 베를린 하이델베르크, 2012, 52-61
- ^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. Bibcode:2015Senso..15.4097S. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
- ^ 마데오, 레나타 CB, 클로달도 AM 리마, 사라제인 M.Peres. "서포트 벡터 머신을 사용한 제스처 유닛 분할: 정지 위치에서 제스처 분할"제28회 ACM 응용컴퓨팅 심포지엄의 진행.ACM, 2013.
- ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
- ^ Theodoridis, Theodoros 및 Huoshung. "이동 로봇 감시에 동적 ANN을 사용한 3D 인간 모델의 동작 분류.「로봇과 생체 모방학, 2007년. ROBIO 2007. IEEE International Conference on.IEEE, 2007.
- ^ 에테마드, 세예드 알리, 알리 아리아."탄력적인 역전파 신경망을 이용한 3D 인체 동작 인식 및 스타일 변환" Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.
- ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. Bibcode:2010PatRe..43.3605A. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
- ^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
- ^ 앙귀타, 다비데 등"멀티클래스 하드웨어 친화적인 서포트 벡터 머신을 사용한 스마트폰에서의 인체 활동 인식"주변 지원 생활 및 재택 관리.스프링거 베를린 하이델베르크, 2012. 216-223.
- ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194. S2CID 62751498.
- ^ 카두스, 모하메드 왈리드시간 분류: 분류 패러다임을 다변량 시계열로 확장합니다.디스 뉴사우스웨일스 대학교, 2002년
- ^ 그레이브스, 알렉스 등"연결주의 시간 분류: 반복 신경망으로 분할되지 않은 시퀀스 데이터에 라벨을 붙입니다."제23회 기계학습 국제회의 진행상황.ACM, 2006.
- ^ 벨로소, 에두아르도 등역도 운동의 정성적 활동 인식."제4차 증강 인간 국제 회의의 진행.ACM, 2013.
- ^ 모타자비, 보박 잭 등"운동 반복 인식을 위한 최적의 단일 축을 결정하고 스마트 워치에 의존합니다."웨어러블 및 이식형 바디 센서 네트워크(BSN), 2014년 제11회 국제 컨퍼런스 개최.IEEE, 2014.
- ^ 삽사니스, 크리스토스 등"EMD를 이용한 EMG 기반 기본 손동작 분류 개선." 의학 및 생물학 학회 엔지니어링(EMBC), 2013년 제35회 IEEE 연례 국제회의.IEEE, 2013.
- ^ a b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.
- ^ Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. Bibcode:2014Senso..14.9995B. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.
- ^ 스티슨, 앨런 등「스마트 디바이스는 다릅니다. 활동 인식을 위한 모바일 감지 이기종 평가 및 완화「임베디드 네트워크 센서 시스템에 관한 제13회 ACM 회의의 속행.ACM, 2015.
- ^ 바타차랴, 수라브, 니콜라스 D.레인. "스마트에서 딥: 딥 러닝을 이용한 스마트 워치의 강력한 활동 인식"
- ^ Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
- ^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. Vol. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
- ^ 레이스, 아틸라, 디디에 스트리커."활동 모니터링을 위한 새로운 벤치마크 데이터 세트 도입"웨어러블 컴퓨터(ISWC), 2012년 제16회 국제 심포지엄 개최일.IEEE, 2012.
- ^ 로겐, 다니엘 등"Opportunity: 기회주의적 활동과 컨텍스트 인식 시스템을 지향합니다."World of Wireless, Mobile and Multimedia Networks & Workshops, 2009. WoWMoM 2009 IEEE에 관한 IEE 국제 심포지엄, 2009.
- ^ 커즈, 마크 등"기회주의적 시스템에서 활동 인식 기능의 동적 수량화"차량 테크놀로지 컨퍼런스(VTC 스프링), 2011년 IEEE 73회.IEEE, 2011.
- ^ 슈틸러, 티모, 하이너 스터켄슈미트."웨어러블 디바이스의 온바디 현지화: 위치 인식 활동 인식 조사"퍼베이시브 컴퓨팅 및 커뮤니케이션(PerCom), 2016 IEEE 국제회의 개최.IEEE, 2016.
- ^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 2100107. doi:10.1109/JTEHM.2017.2780836. ISSN 2168-2372. PMC 5788403. PMID 29404226.
- ^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (23 May 2017). The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy. ACM. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.
- ^ "Toronto Rehab Stroke Pose Dataset".
- ^ Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (1 March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.
- ^ Jung, M.M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Aberhard, S., D. Coomans, O.드 벨"고차원 설정에서의 분류기 비교"학과. 수학. James Cook University, North Queensland, Australia, Tech. 통계과입니다. Rep 92-02(1992)
- ^ 바수, 스가토"백그라운드 지식이 한정되어 있는 준감독 클러스터화"AAAI, 2004년
- ^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016/j.ijepes.2014.02.027.
- ^ 카야, 헤이샘, 피나르 튀페키, 피크렛 S.구르겐"가스와 증기 터빈의 복합 출력을 예측하기 위한 지역 및 글로벌 학습 방법"컴퓨터 및 전자 공학 분야의 새로운 동향에 관한 국제 회의(ICECE'2012), 두바이.2012.
- ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
- ^ a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
- ^ a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
- ^ 피에르 발디, 카일 크랜머, 테일러 포셋, 피터 사도스키, 다니엘 화이트슨.'고에너지 물리학을 위한 매개 변수화된 기계 학습'제출중.
- ^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
- ^ Gerritsma, J., R. Onnink, A.베르슬루아구조, 저항성 및 안정성이 뛰어난 체계적인 요트 선체 시리즈.델프트 공과대학, 1981년
- ^ 류, 환, 모토다 히로시.기능 추출, 구성 및 선택: 데이터 마이닝의 관점.Springer Science & Business Media, 1998.
- ^ 라이히, 요람학습을 통한 이상적인 설계 지식 수렴.[카네기 멜론 대학교], 엔지니어링 디자인 연구 센터, 1989.
- ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1. S2CID 39382993.
- ^ 왕, 용.고차원 공간에서 선형 모델을 적합시키는 새로운 접근 방식입니다.디스. 와이카토 대학, 2000년.
- ^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance‐based prediction of real‐valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
- ^ 파머, 크리스토퍼 R., 크리스토스 팔루토스."전기에 기초한 범주형 속성의 외부 유사성"지식 검색 및 데이터 마이닝의 진보.스프링거 베를린 하이델베르크, 2003. 486~500.
- ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. doi:10.1016/j.enbuild.2012.03.003.
- ^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
- ^ 브룩스, 토마스 F., D. 스튜어트 포프, 그리고 마이클 A.마르콜리니에어포일 자체 소음 및 예측.제1218권미국항공우주국 과학기술정보과 관리국 1989년
- ^ 드레이퍼, 데이비드"모델 불확실성의 평가와 전파"왕립통계학회지 시리즈 B(방법론)(1995): 45~97.
- ^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
- ^ 왕, 준, 베이유, 레스가세르."음영 처리된 유사성 매트릭스를 사용한 개념 트리 기반 클러스터링 시각화"데이터 마이닝, 2002. ICDM 2003. 의사진행동. 2002 IEEE 국제회의 온.IEEE, 2002.
- ^ Pettengill, Gordon H.; Ford, Peter G.; Johnson, William T. K.; Raney, R. Keith; Soderblom, Laurence A. (1991). "Magellan: Radar Performance and Data Products". Science. 252 (5003): 260–265. Bibcode:1991Sci...252..260P. doi:10.1126/science.252.5003.260. PMID 17769272. S2CID 43398343.
- ^ a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
- ^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
- ^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
- ^ Villaescusa-Navarro, Francisco; al., et (2022). "The CAMELS Multifield Data Set: Learning the Universe's Fundamental Parameters with Artificial Intelligence". The Astrophysical Journal Supplement Series. 259 (2): 61. arXiv:2109.10915. Bibcode:2022ApJS..259...61V. doi:10.3847/1538-4365/ac5ab0. S2CID 237604997.
- ^ 시버트, 리, 그리고 톰 심킨."세계의 화산: 홀로세 화산과 그 폭발의 삽화가 그려진 카탈로그." (2014년)
- ^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
- ^ 시코라, 마렉, 베아타 시코라."엄청난 자연재해 감시"러프 세트: 관리 및 엔지니어링에서 선택한 방법과 응용 프로그램.스프링거 런던, 2012. 163~179.
- ^ Addor, Nans; Newman, Andrew J.; Mizukami, Naoki; Clark, Martyn P. (20 October 2017). "The CAMELS data set: catchment attributes and meteorology for large-sample studies". Hydrology and Earth System Sciences. 21 (10): 5293–5313. Bibcode:2017HESS...21.5293A. doi:10.5194/hess-21-5293-2017. ISSN 1607-7938.
- ^ Newman, A. J.; Clark, M. P.; Sampson, K.; Wood, A.; Hay, L. E.; Bock, A.; Viger, R. J.; Blodgett, D.; Brekke, L.; Arnold, J. R.; Hopson, T. (14 January 2015). "Development of a large-sample watershed-scale hydrometeorological data set for the contiguous USA: data set characteristics and assessment of regional variability in hydrologic model performance". Hydrology and Earth System Sciences. 19 (1): 209–223. Bibcode:2015HESS...19..209N. doi:10.5194/hess-19-209-2015. ISSN 1607-7938.
- ^ Alvarez-Garreton, Camila; Mendoza, Pablo A.; Boisier, Juan Pablo; Addor, Nans; Galleguillos, Mauricio; Zambrano-Bigiarini, Mauricio; Lara, Antonio; Puelma, Cristóbal; Cortes, Gonzalo; Garreaud, Rene; McPhee, James (13 November 2018). "The CAMELS-CL dataset: catchment attributes and meteorology for large sample studies – Chile dataset". Hydrology and Earth System Sciences. 22 (11): 5817–5846. Bibcode:2018HESS...22.5817A. doi:10.5194/hess-22-5817-2018. ISSN 1607-7938. S2CID 133955609.
- ^ Chagas, Vinícius B. P.; Chaffe, Pedro L. B.; Addor, Nans; Fan, Fernando M.; Fleischmann, Ayan S.; Paiva, Rodrigo C. D.; Siqueira, Vinícius A. (8 September 2020). "CAMELS-BR: hydrometeorological time series and landscape attributes for 897 catchments in Brazil". Earth System Science Data. 12 (3): 2075–2096. Bibcode:2020ESSD...12.2075C. doi:10.5194/essd-12-2075-2020. ISSN 1866-3516. S2CID 234737197.
- ^ Coxon, Gemma; Addor, Nans; Bloomfield, John P.; Freer, Jim; Fry, Matt; Hannaford, Jamie; Howden, Nicholas J. K.; Lane, Rosanna; Lewis, Melinda; Robinson, Emma L.; Wagener, Thorsten (12 October 2020). "CAMELS-GB: hydrometeorological time series and landscape attributes for 671 catchments in Great Britain". Earth System Science Data. 12 (4): 2459–2483. Bibcode:2020ESSD...12.2459C. doi:10.5194/essd-12-2459-2020. ISSN 1866-3516. S2CID 226192657.
- ^ Fowler, Keirnan J. A.; Acharya, Suwash Chandra; Addor, Nans; Chou, Chihchung; Peel, Murray C. (6 August 2021). "CAMELS-AUS: hydrometeorological time series and landscape attributes for 222 catchments in Australia". Earth System Science Data. 13 (8): 3847–3867. Bibcode:2021ESSD...13.3847F. doi:10.5194/essd-13-3847-2021. ISSN 1866-3516. S2CID 238796784.
- ^ Klingler, Christoph; Schulz, Karsten; Herrnegger, Mathew (16 September 2021). "LamaH-CE: LArge-SaMple DAta for Hydrology and Environmental Sciences for Central Europe". Earth System Science Data. 13 (9): 4529–4565. Bibcode:2021ESSD...13.4529K. doi:10.5194/essd-13-4529-2021. ISSN 1866-3516. S2CID 240533508.
- ^ Yeh, I–C (1998). "Modeling of strength of high-performance concrete using artificial neural networks". Cement and Concrete Research. 28 (12): 1797–1808. doi:10.1016/s0008-8846(98)00165-3.
- ^ Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomial neural networks for approximation of the compressive strength of concrete". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC...8...79S. doi:10.1016/j.asoc.2007.02.010.
- ^ Yeh, I. "플라이 애쉬와 슈퍼 가소성제를 사용한 콘크리트 모델링 슬럼프." 컴퓨터와 콘크리트 5.6(2008) : 559~572.
- ^ Gencel, Osman; et al. (2011). "Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete". Construction and Building Materials. 25 (8): 3486–3494. doi:10.1016/j.conbuildmat.2011.03.040.
- ^ 디에테리히, 토마스 G. 등"약물 활동 예측을 위한 동적 위치 조정과 접선 거리 비교"신경정보처리시스템의 진보(1994년): 216~216.
- ^ 부세마, 마시모, 윌리엄 J.테슬과 스테파노 테르지"Meta net: 새로운 메타 분류기 패밀리입니다."인공 적응 시스템을 사용하는 데이터 마이닝 애플리케이션입니다.스프링거 뉴욕, 2013. 141~182.
- ^ Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). "Age dataset: A structured general-purpose dataset on life, work, and death of 1.22 million distinguished people". Workshop Proceedings of the 16th International AAAI Conference on Web and Social Media (ICWSM). 3: 1–4. doi:10.36190/2022.82.
- ^ "Age Dataset". GitHub. 7 June 2022.
- ^ "Synthetic Fundus Dataset".
- ^ Lo Castro, Dario; et al. (2020). "A visual framework to create photorealistic retinal vessels for diagnosis purposes". Journal of Biomedical Informatics. 108: 103490. doi:10.1016/j.jbi.2020.103490. PMID 32640292. S2CID 220429697.
- ^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
- ^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
- ^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179.
- ^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
- ^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. Bibcode:1997PatRe..30.1145B. doi:10.1016/s0031-3203(96)00142-2.
- ^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. Vol. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.
- ^ 데미르, 시그뎀, 뮐렌트 예너."조직병리학적 이미지에 기초한 자동 암 진단: 체계적인 조사"렌셀라 공과대학입니다 Rep (2005)
- ^ 학대, 물질."정신건강서비스청, 2010년 약물사용 및 건강에 관한 전국조사 결과: NSDUH 시리즈 H-41, HHS 간행물 번호(SMA) 11-4658." Rockville, MD: 약물남용 및 정신건강서비스청(2011년)
- ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. Bibcode:1991PatRe..24..317H. doi:10.1016/0031-3203(91)90074-f.
- ^ a b Li, Jinyan, 그리고 Rimsoon Wong."생물 의학 데이터를 분석하기 위한 규칙 사용: C4.5와 PCL의 비교." Web-Age Information Management의 발전.스프링거 베를린 하이델베르크, 2003. 254~265.
- ^ Güvenle, H. Altay 등부정맥 분석을 위한 기계학습 알고리즘입니다.「1997년, 심장과의 컴퓨터.IEEE, 1997.
- ^ 라구스, 크리스타 등"데이터에 대한 콤팩트한 표현을 학습할 때 독립적인 변수 그룹 분석"적응지식표현및추론에관한국제학문간회의(AKR'05)의진행,T.Honkela,V.Könen,M.Pöllae,O. 시뮬라, 에드, 핀란드 에스푸2005.
- ^ 스트랙, 베아타 등"HbA1c 측정이 병원 재입원율에 미치는 영향: 70,000개의 임상 데이터베이스 환자 기록 분석."BioMed Research International 2014; 2014
- ^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
- ^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
- ^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
- ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.
- ^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.
- ^ Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.
- ^ 펑, 글렌 등"이종 커널을 사용하는 피셔 식별자를 위한 빠른 반복 알고리즘입니다."제21회 기계학습 국제회의의 진행.ACM, 2004.
- ^ 퀸랜, 존 로스 등"유도적인 지식 습득: 사례 연구"제2차 호주 전문가 시스템 적용 회의의 진행.애디슨 웨슬리 롱맨 출판사, 1987년
- ^ a b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.
- ^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
- ^ 어, 오르한, 체틴 타니쿨루, 압두라만 아바카이."악성 흉막 중피종 진단을 위해 인공지능 기술을 사용한다."Dicle Tip Dergisi 42.1 (2015)"
- ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
- ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112. S2CID 13666294.
- ^ "Parkinson's Vision-Based Pose Estimation Dataset Kaggle". kaggle.com. Retrieved 22 August 2018.
- ^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
- ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902. S2CID 146809768.
- ^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
- ^ 클라크, 데이비드, 졸탄 슈레터, 앤서니 애덤스."다이얼과 역전파의 양적 비교"1996년 뉴럴 네트워크 호주 회의의 속행. 1996년.
- ^ 장, 위안, 지화 저우."뉴럴 네트워크 앙상블이 있는 kNN 분류기 훈련 데이터 편집 중"뉴럴 네트워크의 진보-ISN 2004.스프링거 베를린 하이델베르크, 2004. 356-361.
- ^ 온타뇽, 산티아고, 엔릭 플라자."정밀 격자에 기초한 유사성 측정"사례 기반 추론 연구 및 개발스프링거 베를린 하이델베르크, 2009. 240~255.
- ^ "PLF data inventory". GitHub. 5 November 2021.
- ^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
- ^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
- ^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73.
- ^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
- ^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. Bibcode:2021NatSR..11.8134W. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322. PMC 8046754. PMID 33854157.
- ^ 코르테즈, 파울로, 아니발 데 지저스 라이문도 모레."기상 데이터를 사용하여 산불을 예측하는 데이터 마이닝 접근법."(2007)
- ^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
- ^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- ^ Ghahramani, Zoubin, 그리고 Michael I. Jordan."전자파 접근 방식을 통한 불완전한 데이터로부터의 지도 학습"신경 정보 처리 시스템의 진보 6. 1994.
- ^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.
- ^ 야히아우이, 이테리, 올파 음조이, 노자 부제마."나무 종 식별을 위한 잎 모양 설명자"멀티미디어 및 엑스포(ICME), 2012 IEEE 국제회의 개최.IEEE, 2012.
- ^ 탠, 밍, 래리 에설먼이요노이즈가 많은 도메인에서 분류 지식을 나타내기 위해 가중 네트워크를 사용합니다.제5회 기계학습 국제회의의 진행상황.2014.
- ^ 샤리타노비치, 마우고르자타 등"X선 영상의 특징 분석을 위한 완전한 그라데이션 클러스터링 알고리즘"바이오메디컬의 정보기술.스프링거 베를린 하이델베르크, 2010년 15~24세
- ^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
- ^ Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0.
- ^ 요하네스 주, 퓌른크란츠"라운드 로빈 규칙 학습"제18회 국제기계학습회의(ICML-01) 진행: 146~153. 2001.
- ^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
- ^ Munisami, Trishen; et al. (2015). "Plant Leaf Recognition Using Shape Features and Colour Histogram with K-nearest Neighbour Classifiers". Procedia Computer Science. 58: 740–747. doi:10.1016/j.procs.2015.08.095.
- ^ Li, Bai (2016). "Atomic potential matching: An evolutionary target recognition approach based on edge features". Optik. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016/j.ijleo.2015.11.186.
- ^ 닐스백, 마리아-엘레나, 앤드류 지서맨."꽃 분류를 위한 시각적 어휘입니다.「컴퓨터 비전과 패턴 인식, 2006 IEEE 컴퓨터 학회 컨퍼런스가 개최되었습니다.Vol2.IEEE, 2006년.
- ^ Giselsson, Thomas M.; et al. (2017). "A Public Image Database for Benchmark of Plant Seedling Classification Algorithms". arXiv:1711.05458 [cs.CV].
- ^ Muresan, Horea; Oltean, Mihai (2018). "Fruit recognition from images using deep learning". Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. doi:10.2478/ausi-2018-0002.
- ^ Oltean, Mihai; Muresan, Horea (2017). "A dataset with fruit images on Kaggle".
- ^ Nakai, Kenta; Kanehisa, Minoru (1991). "Expert system for predicting protein localization sites in gram‐negative bacteria". Proteins: Structure, Function, and Bioinformatics. 11 (2): 95–110. doi:10.1002/prot.340110203. PMID 1946347. S2CID 27606447.
- ^ 링, 찰스 X 등"최소한의 비용으로 의사 결정 트리"제21회 기계학습 국제회의의 진행.ACM, 2004.
- ^ Mahé, Pierre, et al."MALDI-TOF 질량 스펙트럼에서 혼합 박테리아 종 지문의 자동 식별"생물정보학(2014): btu022.
- ^ Barbano, Duane; et al. (2015). "Rapid characterization of microalgae and microalgae mixtures using matrix-assisted laser desorption ionization time-of-flight mass spectrometry (MALDI-TOF MS)". PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371/journal.pone.0135337. PMC 4536233. PMID 26271045.
- ^ Horton, Paul; Nakai, Kenta (1996). "A probabilistic classification system for predicting the cellular localization sites of proteins" (PDF). ISMB-96 Proceedings. 4: 109–15. PMID 8877510.
- ^ Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). "Reducing multiclass to binary: A unifying approach for margin classifiers" (PDF). The Journal of Machine Learning Research. 1: 113–141.
- ^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). "DeepTox: Toxicity Prediction Using Deep Learning". Frontiers in Environmental Science. 3: 80. doi:10.3389/fenvs.2015.00080.
- ^ Lavin, Alexander; Ahmad, Subutai (12 October 2015). Evaluating Real-time Anomaly Detection Algorithms – the Numenta Anomaly Benchmark. p. 38. arXiv:1510.03336. doi:10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
- ^ Iurii D. Katser; Vyacheslav O. Kozitsin. "SKAB GitHub repository". GitHub. Retrieved 12 January 2021.
- ^ Iurii D. Katser; Vyacheslav O. Kozitsin (2020). "Skoltech Anomaly Benchmark (SKAB)". Kaggle. doi:10.34740/KAGGLE/DSV/1693952. Retrieved 12 January 2021.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ^ 앤 카트린 하르트만, 토마소 소루, 에드가드 마르크스DBpedia 기술 자료를 통해 신경 질문에 대한 대규모 데이터 세트 생성2018.
- ^ 토마소 소루, 에드가드 마르크스디에고 무살렘, 안드레 발데스티하스, 디에고 에스테베스, 시로 바론외국어로서의 SPARQL2018.
- ^ Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Nguyen, Nguy Luuu-Thuy Nguyen.기계 판독 이해도를 평가하기 위한 베트남 데이터 세트입니다.COLING 2020.
- ^ Kiet Van Nguyen, Khiem Vinh Tran, Son T. Luu, Anh Gia-Tuan Nguyen, Nguyen.베트남어 선다형 기계 독해력을 위한 외부 지식을 통한 어휘 기반 접근법 강화.IEEE 액세스2020.
- ^ 브라운, 마이클 스콧, 마이클 J. 펠로시, 헨리 더스카."다우존스 지수[dead link] 주식의 재무 예측을 위한 동적 반지름 보존 유전자 알고리즘"패턴 인식에서의 머신 러닝 및 데이터 마이닝.스프링거 베를린 하이델베르크, 2013. 27-41.
- ^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.
- ^ Quinlan, J. Ross (1987). "Simplifying decision trees". International Journal of Man-machine Studies. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. doi:10.1016/s0020-7373(87)80053-6.
- ^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.
- ^ 쉬뮤엘리, 갤릿, 랄프 P루소, 볼프강 얀크요"바리스타: 온라인 경매에서 입찰에 도착하는 모델입니다."응용통계연보(2007) : 412~441.
- ^ 펑, 지, 한스 게오르크 뮐러입니다"희박하게 관찰된 확률적 프로세스의 거리 기반 클러스터링, 온라인 경매에 적용"응용통계연보(2008) : 1056~1077.
- ^ 에거몬트, 제론, 주스트 N. 콕, 월터 A.Kosters."데이터 분류를 위한 유전자 프로그래밍: 검색 공간을 분할합니다."어플리케이션 컴퓨팅에 관한 2004년 ACM 심포지엄의 진행.ACM, 2004.
- ^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499.
- ^ Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].
- ^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.
- ^ 자빈, 수라이야"피드포워드 인공신경망을 이용한 주식시장 예측." Int. J. Comput. 적용 (IJCA) 99.9 (2014)
- ^ Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020.
- ^ Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.
- ^ Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.
- ^ Bay, Stephen D.; et al. (2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. doi:10.1145/380995.381030. S2CID 534881.
- ^ Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.
- ^ Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.
- ^ 시길리토, 빈센트 G 등"신경망을 이용한 전리층에서의 레이더 귀환 분류." 존스 홉킨스 APL 테크니컬 다이제스트 10.3(1989) : 262~266.
- ^ 장, 쿤, 웨이판. "예보는 편향된 확률적 오존일: 분석, 해법, 그 이상"Knowledge and Information Systems 14.3 (2008) : 299 ~326 。
- ^ 라이히, 브라이언 J. 몬세라트 푸엔테스, 데이비드 B.던슨."베이지안 공간 분위수 회귀." 미국 통계 협회 저널(2012).
- ^ Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.
- ^ 오자, 니쿤지, 스튜어트 러셀."온라인 버전과 배치 버전의 배깅 및 부스팅 실험 비교"지식 발견 및 데이터 마이닝에 관한 제7회 ACM SIGKDD 국제회의의 진행.ACM, 2001.
- ^ Bay, Stephen D (2001). "Multivariate discretization for set mining". Knowledge and Information Systems. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. doi:10.1007/pl00011680. S2CID 10945544.
- ^ Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
- ^ Meek, Christopher, Bo Thiesson, 그리고 David Heckerman."클러스터링에 적용되는 학습곡선법." AISTATS, 2001.
- ^ Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.
- ^ 지오트, 로맹, 라파엘 셰리어."bikeshare 시스템 사용을 하루 전까지 예측합니다."차량 및 교통 시스템(CIVTS), 2014 IEEE 심포지엄:IEEE, 2014.
- ^ Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. doi:10.1016/j.trc.2013.04.001.
- ^ Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. doi:10.1109/tits.2013.2262376. S2CID 14764358.
- ^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.
- ^ H. V. 자가디쉬, 요하네스 게르케, 알렉산드로스 라브리니디스, 야니스 파파콘스탄티누, 지그네쉬 M. 파텔, 라구 라마크리슈난, 사이러스 샤하비.빅데이터와 그 기술적 과제.커뮤니케이션.ACM, 57(7):86~94, 2014년7월
- ^ Caltrans PeMS
- ^ 뮤젤, 로버트 등"웹 그래프 구조 - 다양한 집약 수준에서 분석"Web Science 저널 1.1 (2015).
- ^ 쿠슈메릭, 니콜라스"인터넷 광고 지우는 법 배우는 중"Autonomous Agent에 관한 제3차 연례 회의의 속행.ACM, 1999.
- ^ 프래드킨, 드미트리, 데이비드 마디건."기계 학습을 위한 무작위 투영으로 실험합니다.지식 발견 및 데이터 마이닝에 관한 제9회 ACM SIGKDD 국제회의의 진행.ACM, 2003.
- ^ 이 데이터는 미국 통계 협회 통계 그래픽스 및 컴퓨팅 섹션 1999 데이터 박람회에 사용되었다.
- ^ 엄마, 저스틴 등의심스러운 URL 식별: 대규모 온라인 학습 응용 프로그램.제26회 기계학습 국제회의의 진행.ACM, 2009.
- ^ 레브첸코, Kirill 등"클릭 궤적: 스팸 가치 사슬의 엔드 투 엔드 분석"보안 및 프라이버시(SP), 2011 IEEE 심포지엄 개최.IEEE, 2011.
- ^ 모하마드, 라미 M., 파디 탑타, 리 맥클러스키."자동 기술을 사용하여 피싱 웹 사이트와 관련된 기능을 평가합니다."인터넷 테크놀로지와 안전한 거래, 2012년 국제회의:IEEE, 2012.
- ^ 싱, 아시쉬쿠마르 등"시장 세분화를 위한 대규모 트랜잭션 데이터 클러스터링 실험"2014년 빅데이터 과학 및 컴퓨팅에 관한 국제회의의 진행.ACM, 2014.
- ^ 볼랙커, 커트 등"FreeBase: 인간의 지식을 구축하기 위해 공동으로 만든 그래프 데이터베이스입니다."데이터 관리에 관한 2008년 ACM SIGMOD 국제회의의 진행.ACM, 2008.
- ^ 민츠, 마이크 등"라벨이 부착된 데이터 없이 관계 추출에 대한 원격 감독"제47회 ACL 연차총회 및 제4회 AFNLP 자연언어처리에 관한 국제공동총회: 제2권컴퓨터 언어학 협회, 2009.
- ^ 메스터햄, 크리스, 그리고 마이클 J. 파자니."온라인 알고리즘을 사용한 능동적 학습"지식 발견 및 데이터 마이닝에 관한 제17회 ACM SIGKDD 국제회의 진행.ACM, 2011.
- ^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
- ^ a b "The Pile". pile.eleuther.ai. Retrieved 14 April 2022.
- ^ "JSON Lines". jsonlines.org. Retrieved 14 April 2022.
- ^ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
- ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization" (PDF). Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415. Archived from the original (PDF) on 6 August 2019.
- ^ Burton, Ariel N.; Kelly, Paul H.J. (2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. Elsevier BV. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003. ISSN 0167-739X.
- ^ Bain, Michael; Muggleton, Stephen (1994). "Learning optimal chess strategies". Machine Intelligence. Oxford University Press, Inc. 13.
- ^ Quilan, J. R. (1983). "Learning efficient classification procedures and their application to chess end games". Machine Learning: An Artificial Intelligence Approach. 1: 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
- ^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
- ^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89.[데드링크]
- ^ 벨슬리, 데이비드 A, 에드윈 쿠, 로이 E.좋아.회귀 진단: 영향력 있는 데이터와 공선성의 원천을 특정합니다.권 571. 존 와일리와 아들들, 2005.
- ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. hdl:1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7. S2CID 6667472.
- ^ 리, 리홍 등"문맥 기반 뉴스 기사 추천 알고리즘에 대한 편견 없는 오프라인 평가"웹 검색 및 데이터 마이닝에 관한 제4회 ACM 국제회의의 진행.ACM, 2011.
- ^ Yeung, Kam Fung, Yanyan Yang."프로 액티브한 맞춤형 모바일 뉴스 추천 시스템입니다."E-시스템 엔지니어링(DESE), 2010년.IEEE, 2010.
- ^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
- ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.
- ^ 오브라도비치, 조란, 그리고 슬로보단 부케치.과학 데이터 마이닝의 과제: 이종 표본, 편향 표본 및 대형 표본.테크니컬 리포트, 정보과학기술 템플 대학 센터, 2004.
- ^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
- ^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.
- ^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
- ^ 리조트, 다니엘 J, 오미드 마다니, 러셀 그리너."네일베이 분류기 예산 편성 학습"인공지능의 불확실성에 관한 제19차 회의의 진행.Morgan Kaufmann Publishers Inc, 2002.
- ^ Lebowitz, Michael (1986). Concept learning in a rich input domain: Generalization-based memory. Machine Learning: An Artificial Intelligence Approach. Vol. 2. pp. 193–214. ISBN 9780934613002.
- ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
- ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
- ^ 슈미트만, 아이린 등"Evaluation des Krebsregisters NRW Schwerpunkt Record Linking." Abschlußbericht vom 11(2009).
- ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
- ^ 캔딜리어, 로랑, 빈센트 르메르."Nomao의 디자인과 분석은 현실에서 능동적인 학습에 도전합니다."ALRA 진행: 실제 어플리케이션에서의 액티브 러닝, 워크숍 ECML-PKDD. 2012.
- ^ 마르케즈, 이반 가리도"자체 조정 교육 접근법에 기초한 텍스트 분류를 위한 도메인 적응 방법."(2013).
- ^ 나게시, 하샤 S, 산제이 고일, 알록 엔.샤우하리"대용량 데이터 세트를 클러스터링하기 위한 적응형 그리드." SDM. 2001.
- ^ 쿠질렉, 자쿱 등"OU 분석: The Open University의 위험에 처한 학생들을 분석합니다."Learning Analytics Review (2015): 1 ~16.
- ^ 지멘스, 조지 등Open Learning Analytics : 모듈러형 통합 플랫폼.디스 오픈 유니버시티 프레스, 2011.
- ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2: 150055. Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. ISSN 2052-4463. PMC 4622222. PMID 26528394.
- ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
- ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). "PMLB: a large benchmark suite for machine learning evaluation and comparison". BioData Mining. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186/s13040-017-0154-4. PMC 5725843. PMID 29238404.
- ^ "Off The Shelf Datasets". appen.com. Appen. Retrieved 30 December 2020.
- ^ "Open Source Datasets". appen.com. Appen. Retrieved 30 December 2020.