합성곱 신경망
Convolutional neural network이 기사는 검증을 위해 추가 인용이 필요합니다. " – (2019년 6월) (이 및 |
에 관한 시리즈의 일부 |
머신러닝 데이터 마이닝 |
---|
컨볼루션 신경망(CNN)은 필터(또는 커널) 최적화를 통해 특징 엔지니어링을 스스로 학습하는 정규화된 유형의 피드포워드 신경망입니다. 이전 신경망의 역전파 중에 나타나는 사라지는 그라디언트와 폭발하는 그라디언트는 더 적은 수의 연결에 대해 정규화된 가중치를 사용함으로써 방지됩니다.[1][2] 예를 들어, 완전 연결 계층의 각 뉴런에 대해 100 × 100 픽셀 크기의 이미지를 처리하는 데 10,000개의 가중치가 필요합니다. 그러나 계단식 컨볼루션(또는 교차 상관) 커널을 적용하면 [3][4]5x5 크기의 타일을 처리하는 데 25개의 뉴런만 필요합니다.[5][6] 하위 계층 기능에 비해 상위 계층 기능은 더 넓은 컨텍스트 창에서 추출됩니다.
애플리케이션은 다음과 같습니다.
CNN은 입력 특징을 따라 슬라이딩하고 특징 맵으로 알려진 번역 등가 응답을 제공하는 컨볼루션 커널 또는 필터의 공유 가중치 아키텍처를 기반으로 하는 시프트 불변 또는 공간 불변 인공 신경망(SIANN)으로도 알려져 있습니다.[12][13] 반직관적으로, 대부분의 컨볼루션 신경망은 입력에 적용되는 다운 샘플링 작업으로 인해 번역에 불변하지 않습니다.[14]
피드포워드 신경망은 일반적으로 완전히 연결된 네트워크, 즉 한 층의 각 뉴런이 다음 층의 모든 뉴런에 연결됩니다. 이러한 네트워크의 "완전한 연결"로 인해 데이터가 과적합되기 쉽습니다. 규칙화 또는 과적합을 방지하는 일반적인 방법은 다음과 같습니다. 훈련 중 매개변수에 불이익을 주거나(예: 체중 감소) 연결을 다듬는(스킵된 연결, 드롭아웃 등). 강력한 데이터 세트는 또한 CNN이 제대로 채워지지 않은 세트의 편향보다는 주어진 데이터 세트를 특징짓는 일반화된 원리를 학습할 확률을 높입니다.[15]
컨볼루션 네트워크는 뉴런 간의 연결 패턴이 동물의 시각 피질 조직과 유사하다는 점에서 생물학적 과정에서[16][17][18][19] 영감을 받았습니다. 개별 피질 뉴런은 수용장이라고 알려진 시야의 제한된 영역에서만 자극에 반응합니다. 서로 다른 뉴런의 수용장이 부분적으로 중첩되어 전체 시야를 덮습니다.
CNN은 다른 이미지 분류 알고리즘에 비해 상대적으로 적은 전처리를 사용합니다. 이는 네트워크가 자동화된 학습을 통해 필터(또는 커널)를 최적화하는 방법을 학습하는 반면, 전통적인 알고리즘에서는 이러한 필터가 수작업으로 설계된다는 것을 의미합니다. 이러한 사전 지식으로부터의 독립성과 특징 추출에 대한 인간의 개입은 큰 장점입니다.[to whom?]
건축

(AlexNet 이미지 크기는 224×224×3이 아니라 227×227×3이 되어야 수학이 올바르게 나옵니다. 원래 논문에서는 숫자가 다르다고 했지만, 테슬라의 컴퓨터 비전 책임자인 안드레이 카르파시(Andrej Karpathy)는 227×227×3이어야 한다고 말했습니다(알렉스는 왜 224×224×3을 넣었는지 설명하지 않았다고 말했습니다). 다음 컨볼루션은 스트라이드 4: 55×55×96(54×96 대신)인 11×11이어야 합니다. 예를 들어, 다음과 같이 계산됩니다: [(입력 폭 227 - 커널 폭 11) / 스트라이드 4] + 1 = [(227 - 11) / 4] + 1 = 55. 커널 출력은 폭과 길이가 같으므로 면적은 55×55입니다.)
컨볼루션 신경망은 입력 레이어, 숨겨진 레이어 및 출력 레이어로 구성됩니다. 컨볼루션 신경망에서, 숨겨진 레이어는 컨볼루션을 수행하는 하나 이상의 레이어를 포함합니다. 일반적으로 여기에는 레이어의 입력 행렬로 컨볼루션 커널의 내적을 수행하는 레이어가 포함됩니다. 이 제품은 일반적으로 프로베니우스 내부 제품이며, 활성화 함수는 일반적으로 ReLU입니다. 컨볼루션 커널이 레이어에 대한 입력 행렬을 따라 슬라이딩하면 컨볼루션 연산이 특징 맵을 생성하고, 이는 다음 레이어의 입력에 기여합니다. 풀링 레이어, 완전 연결 레이어, 정규화 레이어와 같은 다른 레이어가 뒤따릅니다. 여기서 컨볼루션 신경망이 일치하는 필터에 얼마나 가까운지 주목해야 합니다.[20]
컨벌루션 레이어
CNN에서 입력은 다음과 같은 모양을 가진 텐서입니다.
(입력횟수) × (입력높이) × (입력폭) × (입력채널)
컨벌루션 레이어를 통과한 후 이미지는 형상이 있는 활성화 맵이라고도 하는 피쳐 맵으로 추상화됩니다.
(입력 횟수) × (피처 맵 높이) × (피처 맵 폭) × (피처 맵 채널)
컨볼루션 레이어는 입력을 컨볼루션하고 그 결과를 다음 레이어로 전달합니다. 이는 특정 자극에 대한 시각 피질의 뉴런의 반응과 유사합니다.[21] 각 컨볼루션 뉴런은 수용 필드에 대해서만 데이터를 처리합니다.

완전히 연결된 피드포워드 신경망을 사용하여 특징을 학습하고 데이터를 분류할 수 있지만, 이 아키텍처는 일반적으로 더 큰 입력(예: 고해상도 이미지)에 대해 비현실적이며, 각 픽셀이 관련 입력 특징이기 때문에 막대한 수의 뉴런이 필요합니다. 100 × 100 크기의 이미지에 대한 완전 연결 레이어는 두 번째 레이어의 각 뉴런에 대해 10,000개의 가중치를 갖습니다. 컨볼루션은 사용 가능한 매개 변수의 수를 줄여 네트워크를 더 깊이 있게 해줍니다.[5] 예를 들어, 각각의 공유 가중치가 동일한 5 × 5 타일링 영역을 사용하면 25개의 뉴런만 필요합니다. 더 적은 수의 매개변수에 대해 정규화된 가중치를 사용하면 이전 신경망에서 역전파하는 동안 나타나는 사라지는 그래디언트와 폭발하는 그래디언트 문제를 피할 수 있습니다.[1][2]
처리 속도를 높이기 위해 표준 컨볼루션 레이어를 깊이별로 분리할 수 있는 컨볼루션 레이어로 대체할 수 있으며,[22] 이는 깊이별 컨볼루션에 이어 포인트별 컨볼루션을 기반으로 합니다. 깊이별 컨볼루션은 입력 텐서의 각 채널에 독립적으로 적용되는 공간 컨볼루션인 반면, 포인트별 컨볼루션은 × 1 커널 사용으로 제한된 표준 컨볼루션입니다.
계층 풀링
컨볼루션 네트워크들은 전통적인 컨볼루션 계층들과 함께 로컬 및/또는 글로벌 풀링 계층들을 포함할 수 있습니다. 풀링 레이어는 한 레이어에 있는 뉴런 클러스터의 출력을 다음 레이어에 있는 단일 뉴런으로 결합하여 데이터의 차원을 줄입니다. 로컬 풀링은 작은 클러스터를 결합하며, 2 × 2와 같은 타일 크기가 일반적으로 사용됩니다. 전역 풀링은 특징 맵의 모든 뉴런에 작용합니다.[23][24] 일반적으로 사용되는 풀링에는 max와 average 두 가지 일반적인 유형이 있습니다. Max pooling은 피쳐맵에서 뉴런의 각 로컬 클러스터의 최대값을 사용하는 반면,[25][26] average pooling은 average 값을 사용합니다.
완전 연결 레이어
완전히 연결된 레이어는 한 레이어의 모든 뉴런을 다른 레이어의 모든 뉴런과 연결합니다. 기존의 다층 퍼셉트론 신경망(MLP)과 동일합니다. 평탄화된 매트릭스는 영상을 분류하기 위해 완전히 연결된 레이어를 거칩니다.
수용 필드
신경망에서 각 뉴런은 이전 레이어의 일부 위치에서 입력을 받습니다. 컨볼루션 레이어에서 각 뉴런은 이전 레이어의 제한된 영역인 뉴런의 수용 필드에서만 입력을 받습니다. 일반적으로 면적은 정사각형(예: 5 x 5 뉴런)입니다. 반면, 완전히 연결된 계층에서는 수용 필드가 이전 계층 전체입니다. 따라서 각 컨볼루션 레이어에서 각 뉴런은 이전 레이어보다 입력의 더 넓은 영역에서 입력을 받습니다. 이것은 픽셀과 주변 픽셀의 값을 고려하는 컨볼루션을 반복적으로 적용하기 때문입니다. 확장된 레이어를 사용할 경우 수용 필드의 픽셀 수는 일정하게 유지되지만 여러 레이어의 효과를 결합할 때 필드의 치수가 증가함에 따라 필드에 더 드문드문 채워집니다.
원하는 대로 수신 필드 크기를 조작하기 위해 표준 컨볼루션 계층에 대한 몇 가지 대안이 있습니다. 예를 들어, 아트라우스 또는 확장 컨볼루션은[27][28] 가시 영역과 블라인드 영역을 인터리빙하여 파라미터 수를 늘리지 않고 수용 필드 크기를 확장합니다. 또한 단일 확장 컨볼루션 레이어는 여러 확장 비율을 가진 필터를 포함할 수 [29]있으므로 다양한 수용 필드 크기를 갖습니다.
무게
신경망의 각 뉴런은 이전 레이어의 수용 필드에서 수신한 입력 값에 특정 함수를 적용하여 출력 값을 계산합니다. 입력 값에 적용되는 함수는 가중치 벡터와 바이어스(일반적으로 실수)에 의해 결정됩니다. 학습은 이러한 편향과 가중치를 반복적으로 조정하는 것으로 구성됩니다.
가중치와 편향의 벡터는 필터라고 불리며 입력의 특정 특징(예: 특정 모양)을 나타냅니다. CNN의 특징은 많은 뉴런이 동일한 필터를 공유할 수 있다는 것입니다. 이는 각 수용 필드가 고유한 바이어스 및 벡터 가중치를 갖는 것과 달리, 단일 바이어스 및 단일 가중치 벡터가 해당 필터를 공유하는 모든 수용 필드에 걸쳐 사용되기 때문에 메모리 사용량을 줄입니다.[30]
역사
CNN은 종종 뇌가 살아있는 유기체에서 시각 처리를 달성하는 방법과 비교됩니다.[31]
시각피질의 수용장
1950년대와 1960년대에 Hubel과 Wiesel의 연구는 고양이 시각 피질이 시각장의 작은 영역에 개별적으로 반응하는 뉴런을 포함한다는 것을 보여주었습니다. 눈이 움직이지 않는다면 시각적 자극이 단일 뉴런의 발화에 영향을 미치는 시각적 공간의 영역을 수용장이라고 합니다.[32] 이웃 셀은 수용 필드가 유사하고 겹칩니다. 수용 필드 크기와 위치는 피질 전체에 걸쳐 체계적으로 변화하여 시각적 공간의 완전한 지도를 형성합니다.[citation needed] 각 반구의 피질은 반대쪽 시야를 나타냅니다.[citation needed]
그들의 1968년 논문은 뇌에서 두 가지 기본적인 시각 세포 유형을 확인했습니다.[17]
Hubel과 Wiesel은 또한 패턴 인식 작업에 사용하기 위해 이 두 가지 유형의 셀의 계단식 모델을 제안했습니다.[33][32]
뉴코그니트론, CNN 건축의 기원
"네오코그니트론"[16]은 1980년 후쿠시마 쿠니히코에 의해 소개되었습니다.[18][26][34] 위에서 언급한 휴벨과 비젤의 작업에서 영감을 얻었습니다. 뉴코그니트론은 CNN에서 두 가지 기본 유형의 레이어를 소개했습니다.
- 수용 필드가 이전 계층의 패치를 덮는 단위를 포함하는 컨볼루션 계층입니다. 이러한 단위의 가중치 벡터(적응 매개변수 집합)는 종종 필터(filter)라고 불립니다. 장치는 필터를 공유할 수 있습니다.
- 수용 필드가 이전 컨볼루션 레이어의 패치를 포함하는 유닛을 포함하는 다운샘플링 레이어. 이러한 단위는 일반적으로 패치에 있는 단위의 활성화 평균을 계산합니다. 이 다운 샘플링은 객체가 이동하는 경우에도 시각적 장면에서 객체를 올바르게 분류하는 데 도움이 됩니다.
1969년 후쿠시마 쿠니히코는 ReLU(rectified linear unit) 활성화 기능도 도입했습니다.[35][36] 정류기는 일반적으로 CNN과 심층 신경망에서 가장 인기 있는 활성화 함수가 되었습니다.[37]
1993년 J. Weng 등은 후쿠시마의 공간 평균화를 사용하는 대신 cresceptron이라고 불리는 네오코그니트론의 변형에서 다운샘플링 단위가 패치에 있는 단위의 활성화의 최대치를 계산하는 max-pooling이라고 불리는 방법을 도입했습니다.[38] Max-pooling은 현대 CNN에서 자주 사용됩니다.[39]
네오코그니트론의 가중치를 훈련하기 위해 수십 년 동안 여러 지도 및 비지도 학습 알고리즘이 제안되었습니다.[16] 그러나 오늘날 CNN 아키텍처는 일반적으로 역전파를 통해 훈련됩니다.
네오코그니트론은 여러 네트워크 위치에 위치한 유닛이 가중치를 공유해야 하는 최초의 CNN입니다.
컨볼루션 신경망은 1987년 신경 정보 처리 워크숍에서 발표되었으며, 학습된 곱셈을 시간 내에 컨볼루션으로 대체하여 시변 신호를 자동으로 분석하고 음성 인식을 위해 시연되었습니다.[40]
시간 지연 신경망
시간 지연 신경망(TDNN)은 1987년 알렉스 와이벨 등이 음소 인식을 위해 도입했으며 시프트 불변성을 달성하면서 최초의 컨볼루션 네트워크 중 하나였습니다.[41] TDNN은 데이터의 시간 축을 따라 컨볼루션이 수행되는 1-D 컨볼루션 신경망입니다. 역전파를 사용하여 기울기 하강에 의한 훈련과 함께 가중치 공유를 사용하는 최초의 CNN입니다.[42] 따라서 네오코그니트론에서와 같은 피라미드 구조를 사용하는 동시에 로컬 대신 가중치의 전역 최적화를 수행했습니다.[41]
TDNN은 시간적 차원을 따라 가중치를 공유하는 컨볼루션 네트워크입니다.[43] 음성 신호를 시간 불변으로 처리할 수 있습니다. 1990년 햄프셔와 와이벨은 2차원 컨볼루션을 수행하는 변형을 도입했습니다.[44] 이러한 TDNN은 스펙트로그램에서 작동했기 때문에 결과적인 음소 인식 시스템은 시간 및 주파수 이동 모두에 불변했습니다. 이는 CNN을 사용한 이미지 처리에서 번역 불변성에 영감을 주었습니다.[42] 뉴런 출력의 타일링은 시간이 지정된 단계를 포함할 수 있습니다.[45]
TDNN은 이제[when?] 원거리 음성 인식에서 최고의 성능을 달성합니다.[46]
최대 풀링
Yamaguchi et al. 은 1990년에 주어진 영역의 최대값을 계산하고 전파하는 고정 필터링 연산인 max pooling의 개념을 도입했습니다. 그들은 TDNN과 최대 풀링을 결합하여 화자 독립적인 고립된 단어 인식 시스템을 구현했습니다.[25] 그들의 시스템에서 그들은 각 음절마다 하나씩 단어당 여러 개의 TDNN을 사용했습니다. 입력 신호에 대한 각 TDNN의 결과를 max pooling을 사용하여 결합한 다음 풀링 레이어의 출력을 실제 단어 분류를 수행하는 네트워크에 전달했습니다.
경사하강법으로 훈련된 CNN을 이용한 영상인식
Denker et al. (1989)은 손으로 쓴 ZIP Code 번호를[47] 인식하기 위한 2-D CNN 시스템을 설계했습니다. 그러나 관련 컨볼루션의 커널 계수를 결정하는 효율적인 훈련 방법이 부족했기 때문에 모든 계수를 손으로 힘들게 설계해야 했습니다.[48]
와이벨 등(1987)이 1-D CNN 훈련을 발전시킨 후 Yann LeCun 등(1989)[48]은 역전파를 사용하여 손으로 쓴 숫자의 이미지에서 컨볼루션 커널 계수를 직접 학습했습니다. 따라서 학습은 완전히 자동화되었고 수동 계수 설계보다 더 잘 수행되었으며 더 광범위한 이미지 인식 문제와 이미지 유형에 적합했습니다. Wei Zhang et al. (1988)[12][13]은 알파벳 인식을 위해 CNN의 컨볼루션 커널을 훈련하기 위해 역전파를 사용했습니다. 이 모델은 1990년대 후반에 CNN이라는 이름이 만들어지기 전에 SHift-Invariant 인공 신경망(SIANN)이라고 불렸습니다. Wei Zhang 등은 또한 의료 이미지 객체 분할(1991)[49]과 유방 촬영에서 유방암 검출(1994)을 위해 마지막으로 완전히 연결된 레이어 없이 동일한 CNN을 적용했습니다.[50]
이 접근 방식은 현대 컴퓨터 비전의 기초가 되었습니다.
르넷-5
1995년 LeCun 등에 의해 숫자를 분류하는 [51]선구적인 7단계 컨볼루션 네트워크인 LeNet-5는 32x32 픽셀 이미지로 디지털화된 수표(British English: checks)에 손으로 쓴 숫자를 인식하기 위해 여러 은행에 의해 적용되었습니다. 고해상도 이미지를 처리하는 능력은 더 크고 더 많은 컨볼루션 신경망 층이 필요하므로 이 기술은 컴퓨팅 리소스의 가용성에 의해 제약을 받습니다.
시프트 불변 신경망
1988년 Wei Zhang 등은 이미지 문자 인식을 위해 시프트 불변 신경망을 제안했습니다.[12][13] 이미지 특징 레이어와 마지막 완전 연결 레이어 사이의 컨볼루션 상호 연결만 유지하여 수정된 네오코그니트론입니다. 모델은 역전파로 훈련되었습니다. 훈련 알고리즘은 일반화 능력을 향상시키기 위해 1991년에[52] 더욱 개선되었습니다. 모델 아키텍처는 마지막으로 완전히 연결된 레이어를 제거하여 수정되었으며 의료 영상 분할(1991)[49] 및 유방 촬영에서 유방암 자동 검출(1994)을 위해 적용되었습니다.[50]
디콘볼루션을 통한 1차원 근전도 컨벌루션 신호의 분해에 적용하기 위해 1988년에[53] 다른 컨벌루션 기반 설계가 제안되었습니다. 이 디자인은 1989년에 다른 디콘볼루션 기반 디자인으로 수정되었습니다.[54][55]
신경추상피라미드

컨볼루션 신경망의 피드포워드 아키텍처는 측면 및 피드백 연결에 의해 신경 추상 피라미드에서[56] 확장되었습니다. 결과적인 순환 컨볼루션 네트워크를 통해 컨텍스트 정보를 유연하게 통합하여 로컬 모호성을 반복적으로 해결할 수 있습니다. 이전 모델과 달리 시맨틱 세분화, 이미지 재구성 및 객체 로컬라이제이션 작업을 위해 가장 높은 해상도의 이미지와 같은 출력이 생성되었습니다.
GPU 구현
CNN은 1980년대에 발명되었지만 2000년대에 획기적인 발전을 이루려면 그래픽 처리 장치(GPU)에서 빠른 구현이 필요했습니다.
2004년에 K.S.에 의해 상영되었습니다. 아 그리고 K. 표준 신경망은 GPU에서 크게 가속화할 수 있습니다. 이들의 구현 속도는 CPU의 동급 구현 속도보다 20배 빠릅니다.[57][39] 2005년에는 또 다른 논문에서도 기계 학습을 위한 GPGPU의 가치를 강조했습니다.[58]
CNN의 첫 번째 GPU 구현은 2006년 K에 의해 설명되었습니다. Chellapilla et al. 그들의 구현은 CPU의 동등한 구현보다 4배 더 빨랐습니다.[59] 그 이후의 작업은 또한 GPU를 사용했는데, 처음에는 다른 유형의 신경망, 특히 감독되지 않은 신경망에 사용되었습니다.[60][61][62][63]
2010년 IDSIA의 Dan Ciresan et al. 은 많은 레이어를 가진 심층 표준 신경망도 역전파라고 알려진 오래된 방법을 통해 지도 학습을 통해 GPU에서 빠르게 훈련할 수 있음을 보여주었습니다. 그들의 네트워크는 MNIST 손으로 쓴 숫자 벤치마크에서 이전의 기계 학습 방법을 능가했습니다.[64] 2011년에는 이 GPU 접근 방식을 CNN으로 확장하여 가속 계수 60을 달성하여 인상적인 결과를 얻었습니다.[23] 2011년, 그들은 GPU에서 이러한 CNN을 사용하여 처음으로 초인적인 성능을 달성한 이미지 인식 대회에서 우승했습니다.[65] 2011년 5월 15일부터 2012년 9월 30일 사이에 CNN은 무려 4개의 이미지 경쟁에서 우승했습니다.[66][39] 2012년에는 MNIST 데이터베이스, NORB 데이터베이스, HWDB1.0 데이터 세트(한자) 및 CIFAR10 데이터 세트(60000 32x32 레이블 RGB 이미지의 데이터 세트)를 포함한 여러 이미지 데이터베이스에 대한 문헌에서 최고의 성능을 크게 향상시켰습니다.[26]
그 후 Alex Krizhevsky 등의 유사한 GPU 기반 CNN이 ImageNet Large Scale Visual Recognition Challenge 2012에서 우승했습니다.[67] 마이크로소프트사의 100개 이상의 레이어를 가진 매우 심층적인 CNN이 ImageNet 2015 콘테스트에서 우승했습니다.[68]
Intel Xeon Phi 구현
GPU를 이용한 CNN의 훈련에 비해 인텔 제온파이 프로세서에 대해서는 큰 관심을 기울이지 않았습니다.[69] 주목할 만한 발전은 인텔 제온 파이에서 컨볼루션 신경망을 훈련하는 병렬화 방법으로, 임의 동기화 순서를 가진 제어된 호그와일드(CHAOS)입니다.[70] 카오스는 인텔 제온 파이에서 사용할 수 있는 스레드 및 SIMD 수준 병렬화를 모두 활용합니다.
특징 구별하기
과거에는 이미지 인식에 전통적인 다층 퍼셉트론(MLP) 모델이 사용되었습니다.[example needed] 그러나 노드 간의 완전한 연결은 차원의 저주를 일으켰고, 더 높은 해상도의 이미지에서는 계산적으로 다루기 어려웠습니다. RGB 컬러 채널이 있는 1000×1000 픽셀 이미지는 완전 연결 뉴런당 300만 개의 가중치를 가지며, 이는 규모에 따라 효율적으로 처리하기에는 너무 높습니다.

예를 들어, CIFAR-10에서 이미지의 크기는 32×32×3(넓이 32, 높이 32, 컬러 채널 3)에 불과하므로 정규 신경망의 첫 번째 은닉층에서 완전히 연결된 단일 뉴런은 32*32*3 = 3,072개의 가중치를 가질 것입니다. 그러나 200×200 이미지는 200*200*3 = 120,000개의 무게를 가진 뉴런으로 이어집니다.
또한 이러한 네트워크 아키텍처는 데이터의 공간 구조를 고려하지 않으며, 멀리 떨어져 있는 입력 픽셀을 서로 가까운 픽셀과 동일한 방식으로 처리합니다. 이는 계산적으로나 의미적으로 그리드 토폴로지(예: 이미지)가 있는 데이터의 참조 지역성을 무시합니다. 따라서 뉴런의 완전한 연결은 공간적으로 로컬 입력 패턴에 의해 지배되는 이미지 인식과 같은 목적에서 낭비됩니다.
컨볼루션 신경망은 시각 피질의 행동을 모방하도록 설계된 다층 퍼셉트론의 변형입니다. 이러한 모델은 자연 이미지에 존재하는 강력한 공간적 국소 상관 관계를 활용하여 MLP 아키텍처가 제기하는 문제를 완화합니다. MLP와 달리 CNN에는 다음과 같은 특징이 있습니다.
- 뉴런의 3D 볼륨. CNN의 레이어에는 너비, 높이 및 깊이의 3차원으로 배열된 뉴런이 있습니다.[71] 컨벌루션 레이어 내부의 각 뉴런이 그 이전 레이어의 작은 영역에만 연결되는 곳, 즉 수용 필드입니다. 로컬 및 완전히 연결된 별개의 유형의 레이어가 적층되어 CNN 아키텍처를 형성합니다.
- 로컬 연결성: 수용 필드의 개념에 따라 CNN은 인접한 레이어의 뉴런 간에 로컬 연결 패턴을 적용하여 공간 로컬성을 활용합니다. 따라서 아키텍처는 학습된 "필터"가 공간적으로 로컬인 입력 패턴에 대해 가장 강력한 응답을 생성하도록 보장합니다. 이러한 레이어를 많이 쌓으면 비선형 필터가 점점 더 글로벌화되어(즉, 픽셀 공간의 더 넓은 영역에 반응함) 네트워크가 먼저 입력의 작은 부분에 대한 표현을 만든 다음, 그로부터 더 큰 영역의 표현을 조립합니다.
- 공유 가중치: CNN에서는 각 필터가 전체 시각 필드에 걸쳐 복제됩니다. 이러한 복제된 단위는 동일한 매개변수화(가중치 벡터 및 편향)를 공유하고 피쳐 맵을 형성합니다. 이는 주어진 컨볼루션 계층의 모든 뉴런이 특정 응답 필드 내에서 동일한 기능에 응답한다는 것을 의미합니다. 이러한 방식으로 유닛을 복제하면 시각적 필드에서 입력 피처의 위치 이동에 따라 결과 활성화 맵이 등분산될 수 있습니다. 즉, 레이어의 보폭이 1이라는 점을 감안할 때 변환 등분산을 부여합니다.[72]
- 풀링: CNN의 풀링 레이어에서 특징 맵은 직사각형의 하위 영역으로 나뉘며, 각 직사각형의 특징은 일반적으로 평균 또는 최대값을 사용하여 단일 값으로 독립적으로 다운 샘플링됩니다. 풀링 작업은 특징 맵의 크기를 줄이는 것 외에도 포함된 특징에 대해 어느 정도의 로컬 번역 불변성을 부여하여 CNN이 위치 변화에 더 강건할 수 있도록 합니다.[14]
이러한 속성을 통해 CNN은 시력 문제에 대해 더 나은 일반화를 달성할 수 있습니다. 가중치 공유는 학습된 자유 매개 변수의 수를 극적으로 줄여 네트워크를 실행하기 위한 메모리 요구 사항을 낮추고 더 크고 강력한 네트워크의 훈련을 가능하게 합니다.
구성요소
이 섹션은 확인을 위해 추가 인용이 필요합니다. (2017년 6월) (이 및 |
CNN 아키텍처는 미분 가능한 함수를 통해 입력 볼륨을 출력 볼륨(예: 클래스 점수 유지)으로 변환하는 별개의 레이어 스택으로 구성됩니다. 몇 가지 다른 유형의 레이어가 일반적으로 사용됩니다. 이것들은 아래에서 더 논의됩니다.

컨벌루션 레이어
컨볼루션 레이어는 CNN의 핵심 구성 요소입니다. 계층의 매개 변수는 작은 수신 필드를 가지지만 입력 볼륨의 전체 깊이를 통해 확장되는 학습 가능한 필터(또는 커널) 세트로 구성됩니다. 순방향 통과 중에 각 필터는 입력 볼륨의 폭과 높이에 걸쳐 회전하며 필터 항목과 입력 사이의 점 곱을 계산하여 해당 필터의 2차원 활성화 맵을 생성합니다. 결과적으로 네트워크는 입력의 특정 공간 위치에서 특정 유형의 기능을 감지할 때 활성화되는 필터를 학습합니다.[73][nb 1]
깊이 차원을 따라 모든 필터에 대한 활성화 맵을 쌓으면 컨볼루션 레이어의 전체 출력 볼륨이 형성됩니다. 따라서 출력 볼륨의 모든 항목은 입력의 작은 영역을 보는 뉴런의 출력으로도 해석될 수 있습니다. 활성화 맵의 각 항목은 필터를 정의하는 동일한 매개 변수 집합을 사용합니다.
자기 지도 학습은 마스크 비율이 높고 글로벌 응답 정규화 계층이 있는 희소 패치를 사용하여 컨볼루션 계층에서 사용할 수 있도록 조정되었습니다.[citation needed]
로컬 연결

이러한 네트워크 아키텍처는 데이터의 공간적 구조를 고려하지 않기 때문에 이미지와 같은 고차원 입력을 처리할 때 이전 볼륨의 모든 뉴런에 뉴런을 연결하는 것은 비현실적입니다. 컨볼루션 네트워크는 인접한 레이어의 뉴런 사이에 희소한 로컬 연결 패턴을 적용하여 공간적으로 로컬 상관 관계를 활용합니다. 각 뉴런은 입력 볼륨의 작은 영역에만 연결됩니다.
이 연결성의 범위는 뉴런의 수용장이라고 불리는 하이퍼파라미터입니다. 연결은 공간적으로 국부적이지만(폭과 높이를 따라) 항상 입력 볼륨의 전체 깊이를 따라 확장됩니다. 이러한 아키텍처는 학습된 (영국 영어: 학습된) 필터가 공간적으로 로컬 입력 패턴에 가장 강력한 반응을 생성하도록 보장합니다.
공간 배치
세 가지 하이퍼파라미터가 컨볼루션 레이어의 출력 볼륨 크기를 제어합니다. 깊이, 스트라이드 및 패딩 크기:
- 출력 볼륨의 깊이는 입력 볼륨의 동일한 영역에 연결되는 레이어의 뉴런 수를 제어합니다. 이 뉴런은 입력의 다양한 기능에 대해 활성화하는 방법을 배웁니다. 예를 들어, 제1 컨볼루션 계층이 원시 이미지를 입력으로 취하는 경우, 깊이 차원을 따라 다른 뉴런이 다양한 배향된 에지 또는 색상의 블롭이 존재하는 상태에서 활성화될 수 있습니다.
- 스트라이드는 너비 및 높이 주변의 깊이 열이 할당되는 방법을 제어합니다. 보폭이 1이면 필터를 한 번에 한 픽셀씩 이동합니다. 이로 인해 열 간에 수신 필드가 매우 중복되고 출력 볼륨이 커집니다. 의 정수 > 0 S > 에 대해 스트라이드 S는 필터가 출력당 한 번에 S 단위로 변환됨을 의미합니다. S ≥ 3 S\geq 3}은(는) 드물습니다. 보폭이 크다는 것은 수신 필드의 중첩이 작고 출력 볼륨의 공간 차원이 작다는 것을 의미합니다.[74]
- 때로는 입력 볼륨의 경계에 0(또는 영역의 평균과 같은 다른 값)으로 입력을 패드하는 것이 편리합니다. 이 패딩의 크기는 세 번째 하이퍼 파라미터입니다. 패딩은 출력 볼륨의 공간 크기를 제어할 수 있습니다. 특히, 때때로 입력 볼륨의 공간 크기를 정확하게 보존하는 것이 바람직하며, 이를 일반적으로 "동일한" 패딩이라고 합니다.
출력 볼륨의 공간 크기는 입력 볼륨 W 컨벌루션 레이어 뉴런들의 커널 필드 K S 및 경계의 제로 패딩 P 의 양의 함수입니다. 주어진 볼륨에서 "적합"되는 뉴런의 수는 다음과 같습니다.
이 숫자가 정수가 아닌 경우 보폭이 잘못되어 뉴런이 대칭적인 방식으로 입력 볼륨에 맞게 타일링될 수 없습니다. 일반적으로 스트라이드가 = S = 일 때 패딩 제로를 =(/ 2 P =(로 설정하면 입력 볼륨과 출력 볼륨의 크기가 공간적으로 동일합니다. 그러나 반드시 이전 레이어의 뉴런을 모두 사용해야 하는 것은 아닙니다. 예를 들어, 신경망 설계자는 패딩의 일부만을 사용하기로 결정할 수 있습니다.
파라미터 공유
파라미터 공유 방식은 컨볼루션 계층에서 자유 파라미터의 수를 제어하는 데 사용됩니다. 패치 기능이 어떤 공간 위치에서 계산하는 데 유용하다면 다른 위치에서도 계산하는 데 유용해야 한다는 가정에 따라 달라집니다. 깊이의 단일 2차원 슬라이스를 깊이 슬라이스로 나타내는 각 깊이 슬라이스의 뉴런은 동일한 가중치와 편향을 사용하도록 제한됩니다.
단일 깊이 슬라이스의 모든 뉴런은 동일한 파라미터를 공유하기 때문에 컨볼루션 레이어의 각 깊이 슬라이스에서 순방향 패스는 입력 볼륨에 대한 뉴런의 가중치의 컨볼루션으로 계산될 수 있습니다.[nb 2] 따라서 가중치 집합을 입력과 관련된 필터(또는 커널)로 지칭하는 것이 일반적입니다. 이 컨볼루션의 결과는 활성화 맵이며, 각각의 다른 필터에 대한 활성화 맵 세트는 출력 볼륨을 생성하기 위해 깊이 차원을 따라 함께 적층됩니다. 파라미터 공유는 CNN 아키텍처의 번역 불변성에 기여합니다.[14]
때로는 매개변수 공유 가정이 의미가 없을 수 있습니다. 특히 CNN에 입력된 이미지가 특정 중심 구조를 가지고 있는 경우에는 더욱 그렇습니다. 이를 위해 서로 다른 공간 위치에서 완전히 다른 기능이 학습될 것으로 예상됩니다. 한 가지 실용적인 예는 입력이 이미지의 중심에 있는 얼굴인 경우입니다. 이미지의 다른 부분에서 다른 눈별 또는 머리카락별 특징이 학습될 것으로 예상할 수 있습니다. 이 경우 매개변수 공유 방식을 완화하고, 대신 계층을 "로컬 연결 계층"이라고 부르는 것이 일반적입니다.
풀링 레이어

CNN의 또 다른 중요한 개념은 비선형 다운 샘플링의 한 형태인 풀링입니다. 풀링을 구현하기 위해서는 몇 가지 비선형 함수가 있는데, 여기서 최대 풀링이 가장 일반적입니다. 입력 영상을 직사각형 집합으로 분할하고 각 하위 영역에 대해 최대값을 출력합니다.
직관적으로, 기능의 정확한 위치는 다른 기능에 비해 대략적인 위치보다 덜 중요합니다. 이것이 컨볼루션 신경망에서 풀링을 사용하는 배경에 있는 아이디어입니다. 풀링 레이어는 표현의 공간 크기를 점진적으로 줄이고, 네트워크에서 매개변수 수, 메모리 풋프린트 및 계산량을 줄여 과적합을 제어하는 역할을 합니다. 이를 다운 샘플링이라고 합니다. CNN 아키텍처에서 연속적인 컨볼루션 레이어(각각 일반적으로 ReLU 레이어와 같은 활성화 함수가 뒤따르는) 사이에 풀링 레이어를 주기적으로 삽입하는 것이 일반적입니다.[73]: 460–461 풀링 계층은 로컬 변환 불변성에 기여하지만, 글로벌 풀링의 형태가 사용되지 않는 한 CNN에서 글로벌 변환 불변성을 제공하지 않습니다.[14][72] 풀링 레이어는 일반적으로 입력의 모든 깊이 또는 슬라이스에서 독립적으로 작동하고 공간적으로 크기를 조정합니다. max pooling의 매우 일반적인 형태는 2×2 크기의 필터가 있는 레이어로, 스트라이드 2가 적용되며, 입력의 모든 깊이 슬라이스를 너비와 높이를 따라 2씩 서브샘플링하여 활성화의 75%를 폐기합니다.
풀링 단위는 최대 풀링 외에도 평균 풀링 또는 ℓ-norm 풀링과 같은 다른 기능을 사용할 수 있습니다. 평균 풀링은 과거에 자주 사용되었지만 최근에는 일반적으로 실무에서 더 나은 성능을 발휘하는 최대 풀링에 비해 인기가 떨어졌습니다.[75]
표현 크기의 빠른 공간 감소 효과로 [which?]인해 최근에는 더 작은 필터를[76] 사용하거나 풀링 레이어를 완전히 폐기하는 경향이 있습니다.[77]

"Region of Interest" pooling(RoI pooling)은 출력 크기가 고정되고 입력 직사각형이 매개 변수인 max pooling의 변형입니다.[citation needed]
풀링은 Fast R-CNN[78] 아키텍처를 기반으로 객체 검출을 위한 다운 샘플링 방법이자 컨볼루션 신경망의 중요한 구성 요소입니다.
채널 최대 풀링
CMP 연산 계층은 중복 정보 제거를 목적으로 연속 피처 맵들의 대응하는 위치들 중 채널 측을 따라 MP 연산을 수행합니다. CMP는 중요한 기능을 더 적은 채널 내에 함께 모으게 하며, 이는 더 많은 식별 기능이 필요한 세분화된 이미지 분류에 중요합니다. 한편, CMP 동작의 또 다른 장점은 첫 번째 완전 연결(FC) 계층에 연결되기 전에 특징 맵의 채널 수를 더 작게 만드는 것입니다. MP 연산과 유사하게 CMP 계층의 입력 피처 맵과 출력 피처 맵을 각각 F ∈ R(C×M×N) 및 C ∈ R(c×M×N)로 표시하며, 여기서 C와 c는 각각 입력 및 출력 피처 맵의 채널 번호, M과 N은 각각 피처 맵의 폭과 높이입니다. CMP 작업은 피쳐 맵의 채널 번호만 변경합니다. 피쳐맵의 폭과 높이는 변경되지 않으며, 이는 MP 작업과 다릅니다.[79]
ReLU 계층
ReLU는 1969년 후쿠시마 쿠니히코가 도입한 정류 선형 단위의 약자입니다.[35][36] ReLU는 비포화 활성화 함수 = ( x )=\를 적용하며 0으로 설정하여 활성화 맵에서 음의 값을 효과적으로 제거합니다. 컨볼루션 레이어의 수용 필드에 영향을 미치지 않으면서 결정 함수와 전체 네트워크에 비선형성을 도입합니다. 2011년 자비에 글로롯(Xavier Glorot), 앙투안 보르데스(Antoine Bordes) 및 요수아 벵지오(Yoshua Bengio)는 ReLU가 2011년 이전에 널리 사용된 활성화 함수에 비해 [81]더 깊은 네트워크를 더 잘 훈련할 수 있음을 발견했습니다.
Other functions can also be used to increase nonlinearity, for example the saturating hyperbolic tangent , , and the sigmoid function . ReLU는 일반화 정확도에 큰 불이익 없이 신경망을 몇 배 더 빠르게 훈련하기 때문에 다른 함수보다 선호되는 경우가 많습니다.[82]
완전 연결 계층
여러 개의 컨볼루션 및 최대 풀링 레이어를 거친 후, 완전히 연결된 레이어를 통해 최종 분류가 수행됩니다. 완전히 연결된 계층의 뉴런은 일반(비컨볼루션) 인공 신경망에서 볼 수 있듯이 이전 계층의 모든 활성화에 연결됩니다. 따라서 이들의 활성화는 행렬 곱셈에 이어 바이어스 오프셋(학습된 또는 고정된 바이어스 항의 벡터 추가)을 사용하여 아핀 변환으로 계산될 수 있습니다.
손실층
손실 계층(loss layer) 또는 "손실 함수(loss function)"는 훈련이 (지도 학습 중) 네트워크의 예측 출력과 실제 데이터 레이블 간의 편차에 불이익을 주는 방법을 지정합니다. 특정 작업에 따라 다양한 손실 기능을 사용할 수 있습니다.
Softmax 손실 함수는 K개의 상호 배타적 클래스의 단일 클래스를 예측하는 데 사용됩니다.[nb 3] 시그모이드 교차 엔트로피 손실은[ 에서 K개의 독립 확률 값을 예측하는 데 사용됩니다 유클리드 손실은 실수 값 -∞, ∞) infty,\infty )}로 회귀하는 데 사용됩니다.
하이퍼파라미터
이 섹션은 확인을 위해 추가 인용이 필요합니다. (2017년 6월) (이 및 |
하이퍼파라미터는 학습 과정을 제어하는 데 사용되는 다양한 설정입니다. CNN은 표준 다층 퍼셉트론(MLP)보다 더 많은 하이퍼파라미터를 사용합니다.
커널크기
커널은 함께 처리된 픽셀의 개수입니다. 일반적으로 커널의 차원(예: 2x2 또는 3x3)으로 표현됩니다.
패딩
패딩은 이미지 경계에 (일반적으로) 0 값 픽셀을 추가하는 것입니다. 일반적으로 단일 수신 필드 인스턴스에만 참여하기 때문에 경계 픽셀이 출력에서 저평가(손실)되지 않도록 합니다. 적용되는 패딩은 일반적으로 해당 커널 차원보다 하나 적습니다. 예를 들어, 3x3 커널을 사용하는 컨볼루션 레이어는 이미지의 각 면에 1 픽셀인 2 픽셀 패드를 받습니다.[citation needed]
스트라이드
스트라이드는 분석 창이 각 반복에서 이동하는 픽셀 수입니다. 스트라이드가 2이면 각 커널이 이전 커널보다 2픽셀만큼 오프셋된다는 것을 의미합니다.
필터 수
피쳐맵 크기가 깊이에 따라 감소하기 때문에 입력 레이어 근처의 레이어에는 필터 수가 적은 반면 상위 레이어에는 필터 수가 더 많을 수 있습니다. 각 레이어에서 계산을 동일하게 하기 위해 픽셀 위치가 있는 특징 값 v의a 곱은 레이어 간에 대략 일정하게 유지됩니다. 입력에 대한 더 많은 정보를 보존하려면 한 레이어에서 다음 레이어로 총 활성화 수(피처 맵 수와 픽셀 위치 수)가 감소하지 않도록 유지해야 합니다.
기능 맵의 수는 용량을 직접 제어하며 사용 가능한 예제의 수와 작업 복잡성에 따라 달라집니다.
필터크기
문헌에서 볼 수 있는 일반적인 필터 크기는 매우 다양하며 일반적으로 데이터 세트를 기반으로 선택됩니다.
과제는 특정 데이터 세트가 주어졌을 때 과적합 없이 적절한 규모로 추상화를 생성할 수 있도록 적절한 수준의 세분화를 찾는 것입니다.
풀링 유형 및 크기
맥스 풀링은 일반적으로 2x2 차원으로 사용됩니다. 이는 입력이 대폭 다운샘플링되어 처리 비용을 절감할 수 있음을 의미합니다.
풀링이 커지면 신호의 차원이 줄어들고, 허용할 수 없는 정보 손실이 발생할 수 있습니다. 종종 중복되지 않는 풀링 창이 최상의 성능을 발휘합니다.[75]
팽창
확장은 커널 내의 픽셀을 무시하는 것을 포함합니다. 이를 통해 상당한 신호 손실 없이 잠재적으로 처리/메모리를 줄일 수 있습니다. 3x3 커널에 2를 추가하면 커널이 5x5로 확장되는 동시에 9개의 픽셀(균등한 간격)을 처리할 수 있습니다. 따라서 4를 확장하면 커널이 7x7로 확장됩니다.[citation needed]
병진 등분산 및 앨리어싱
일반적으로 CNN은 입력의 이동에 불변하는 것으로 가정됩니다. 하나보다 큰 스트라이드를 갖지 않는 CNN 내의 컨볼루션 또는 풀링 레이어는 실제로 입력의 변환과 동일합니다.[72] 그러나 스트라이드가 1보다 큰 레이어는 나이퀴스트-섀넌 샘플링 정리를 무시하고 입력 신호의[72] 앨리어싱을 초래할 수 있습니다. 원칙적으로 CNN은 앤티 앨리어싱 필터를 구현할 수 있지만 실제로는 이러한 일이 일어나지 않으며 번역과 동등하지 않은 모델을 산출하는 것으로 관찰되었습니다. 또한 CNN이 완전히 연결된 레이어를 사용하는 경우, 완전히 연결된 레이어가 입력의 이동에 불변하지 않기 때문에 변환 등분산은 변환 불변성을 의미하지 않습니다.[84][14] 완전한 번역 불변성을 위한 한 가지 해결책은 네트워크 전체에서 다운 샘플링을 피하고 마지막 계층에서 글로벌 평균 풀링을 적용하는 것입니다.[72] 또한 다운샘플링 작업 전 안티 앨리어싱,[85] 공간 변환기 네트워크,[86] 데이터 증강, 풀링과 결합된 서브샘플링,[14] 캡슐 신경망 등 여러 가지 다른 부분 솔루션이 제안되었습니다.[87]
평가하기
최종 모델의 정확도는 종종 테스트 세트라고 불리는 시작 부분에서 분리된 데이터 세트의 하위 부분을 기반으로 합니다. k-fold 교차 검증과 같은 다른 방법이 적용됩니다. 다른 전략에는 등각 예측을 사용하는 것이 포함됩니다.[88][89]
정규화 방법
이 섹션은 확인을 위해 추가 인용이 필요합니다. (2017년 6월) (이 및 |
정규화는 잘못된 문제를 해결하거나 과적합을 방지하기 위해 추가적인 정보를 도입하는 과정입니다. CNN은 다양한 유형의 정규화를 사용합니다.
경험적
빠지다
완전히 연결된 레이어가 파라미터의 대부분을 차지하기 때문에 과적합되기 쉽습니다. 과적합을 줄이기 위한 한 가지 방법은 2014년에 도입된 중도 탈락입니다.[90] 각 훈련 단계에서 개별 노드는 1- 로 네트워크의 "드롭아웃"(무시)되거나 확률 p로 유지되어축소된 네트워크가 남습니다. 드롭아웃 노드로의 수신 및 발신 에지도 제거됩니다. 축소된 네트워크만 해당 단계의 데이터에 대해 훈련됩니다. 그런 다음 제거된 노드는 원래 가중치를 사용하여 네트워크에 다시 삽입됩니다.
훈련 단계에서 p는 일반적으로 0.5입니다. 입력 노드의 경우 입력 노드가 무시되면 정보가 직접 손실되기 때문에 일반적으로 훨씬 높습니다.
교육이 완료된 후 테스트 시간에 가능한 2개의 탈락 네트워크의 샘플 평균을 찾고 싶습니다. 도 n 개의 큰 값에는 실행이 불가능합니다 그러나 노드의 출력을 p p배로 가중한 전체 네트워크를 사용하여 근사치를 찾을 수있으므로 모든 노드의 출력에 대한 기대 값은 훈련 단계에서와 동일합니다. 이것은 드롭아웃 방법의 가장 큰 기여입니다. 효과적으로 신경망을 생성하므로 모델 조합이 가능하므로 테스트 시 단일 네트워크만 테스트하면 됩니다.
모든 훈련 데이터에 대한 모든 노드의 훈련을 피함으로써 드롭아웃은 과적합을 줄입니다. 이 방법은 또한 훈련 속도를 크게 향상시킵니다. 따라서 심층 신경망에서도 모델 조합이 실용적입니다. 이 기술은 노드 상호 작용을 줄여 새로운 데이터로 더 잘 일반화할 수 있는 더 강력한 기능을[clarification needed] 학습하도록 유도하는 것으로 보입니다.
드롭커넥트
DropConnect는 드롭아웃의 일반화로, 각 출력 단위가 아닌 각 연결을 확률 로 드롭할 수 있습니다 따라서 각 단위는 이전 계층의 임의의 단위 부분 집합에서 입력을 받습니다.[91]
DropConnect는 모델 내에 동적 희소성을 도입하므로 드롭아웃과 유사하지만 희소성이 레이어의 출력 벡터가 아닌 가중치에 있다는 점에서 차이가 있습니다. 즉, DropConnect와 완전히 연결된 레이어는 교육 단계에서 무작위로 연결을 선택하는 희소 연결 레이어가 됩니다.
확률적 풀링
드롭아웃의 주요 단점은 뉴런이 완전히 연결되지 않은 컨볼루션 레이어에서 동일한 이점을 갖지 못한다는 것입니다.
Dropout 이전에도 2013년에 확률적 풀링이라는 기법으로 [92]기존의 결정론적 풀링 연산은 풀링 영역 내의 활동에 의해 주어진 다항식 분포에 따라 무작위로 선택되는 확률적 절차로 대체되었습니다. 이 접근 방식은 하이퍼파라미터가 없으며 드롭아웃 및 데이터 증강과 같은 다른 정규화 접근 방식과 결합할 수 있습니다.
확률적 풀링의 다른 관점은 표준 최대 풀링과 동일하지만 입력 이미지의 복사본이 많고 각각 작은 로컬 변형이 있다는 것입니다. 이는 입력 이미지의 명시적인 탄성 변형과 유사하여 [93]MNIST 데이터 세트에서 우수한 성능을 제공합니다.[93] 다층 모델에서 확률적 풀링을 사용하면 상위 계층의 선택이 아래의 선택과 독립적이기 때문에 기하급수적으로 많은 변형이 발생합니다.
인공 데이터
모델 과적합의 정도는 성능과 훈련을 받는 양에 따라 결정되기 때문에 더 많은 훈련 예제를 가진 컨볼루션 네트워크를 제공하면 과적합을 줄일 수 있습니다. 학습할 수 있는 데이터가 충분하지 않은 경우가 많기 때문에, 특히 일부는 나중의 테스트를 위해 보존되어야 한다는 점을 고려할 때, 두 가지 접근 방식은 새 데이터를 처음부터 생성하거나(가능한 경우) 기존 데이터를 교란하여 새 데이터를 생성하는 것입니다. 후자는 1990년대 중반부터 사용되었습니다.[51] 예를 들어 입력 영상을 잘라내거나 회전하거나 축소하여 원래 교육 세트와 동일한 레이블로 새 예제를 만들 수 있습니다.[94]
명시적
조기정지
네트워크의 과적합을 방지하는 가장 간단한 방법 중 하나는 과적합이 발생할 기회가 생기기 전에 교육을 중단하는 것입니다. 학습 과정이 중단된다는 단점이 있습니다.
매개변수 수
과적합을 방지하는 또 다른 간단한 방법은 매개 변수의 수를 제한하는 것인데, 일반적으로 각 계층의 숨겨진 단위의 수를 제한하거나 네트워크 깊이를 제한합니다. 컨볼루션 네트워크의 경우 필터 크기가 매개 변수 수에도 영향을 미칩니다. 매개 변수의 수를 제한하면 네트워크의 예측력이 직접적으로 제한되어 데이터에 대해 수행할 수 있는 기능의 복잡성이 감소하므로 과적합량이 제한됩니다. 이것은 "제로 노름"에 해당합니다.
중량붕괴
추가된 정규화기의 간단한 형태는 가중치 감쇠로, 가중치 벡터의 가중치 합(L1 norm) 또는 제곱 크기(L2 norm)에 비례하는 추가 오차를 각 노드의 오차에 간단히 추가합니다. 비례 상수('알파' 하이퍼파라미터)를 증가시켜 허용 가능한 모델 복잡성 수준을 줄일 수 있으므로 큰 가중치 벡터에 대한 페널티를 높일 수 있습니다.
L2 정규화는 정규화의 가장 일반적인 형태입니다. 모든 매개변수의 제곱 크기를 목표로 직접 페널티를 줌으로써 구현할 수 있습니다. L2 정규화는 피크 가중치 벡터에 크게 불이익을 주고 확산 가중치 벡터를 선호하는 직관적인 해석을 가지고 있습니다. 가중치와 입력 간의 곱셈 상호 작용으로 인해 이는 네트워크가 일부 입력을 많이 사용하는 것보다 모든 입력을 약간 사용하도록 장려하는 유용한 특성을 갖습니다.
L1 정규화도 일반적입니다. 최적화하는 동안 가중치 벡터가 희박해집니다. 즉, L1 정규화를 가진 뉴런은 가장 중요한 입력의 희소 부분 집합만 사용하고 노이즈가 많은 입력에 거의 불변하게 됩니다. L2 정규화를 가진 L1을 결합할 수 있는데, 이를 탄성 그물 정규화라고 합니다.
최대 표준 제약 조건
정규화의 또 다른 형태는 모든 뉴런에 대한 가중치 벡터의 크기에 절대 상한을 적용하고 예측된 기울기 하강을 사용하여 제약 조건을 적용하는 것입니다. 실제로 이는 업데이트를 정상적으로 수행한 다음 ‖ → ‖ 2 < c {\를 만족하도록 모든 뉴런의 가중치 벡터 → vec {w}}를 클램핑하여 제약 조건을 적용하는 것에 해당합니다. c의 일반적인 값은 3-4입니다. 일부 논문은 이러한 형식의 정규화를 사용할 때 개선된[95] 사항을 보고합니다.
계층적 좌표 프레임
풀링은 상위 레벨 부분(예: 얼굴 이미지의 코와 입) 사이의 정확한 공간 관계를 잃습니다. 이러한 관계는 신원 인식을 위해 필요합니다. 각 기능이 여러 풀에서 발생하도록 풀을 중첩하면 정보를 유지하는 데 도움이 됩니다. 번역만으로는 기하학적 관계에 대한 이해를 다른 방향이나 척도와 같은 근본적으로 새로운 관점으로 추정할 수 없습니다. 반면에, 사람들은 다른 관점에서 새로운 모양을 인식한 후에 그것을 외삽하는 것을 매우 잘합니다.[96]
이 문제를 해결하기 위한 이전의 일반적인 방법은 네트워크가 이러한 변화에 대처할 수 있도록 다양한 방향, 스케일, 조명 등의 변환된 데이터에 대해 네트워크를 훈련시키는 것입니다. 이는 대규모 데이터 세트의 경우 계산 집약적입니다. 대안은 좌표 프레임의 계층 구조를 사용하고 뉴런 그룹을 사용하여 특징의 모양과 망막에 대한 포즈의 결합을 나타내는 것입니다. 망막에 대한 자세는 망막의 좌표 프레임과 고유 특징의 좌표 프레임 사이의 관계입니다.[97]
따라서 어떤 것을 표현하는 한 가지 방법은 좌표 프레임을 그 안에 포함하는 것입니다. 이를 통해 부분의 포즈의 일관성을 사용하여 큰 특징을 인식할 수 있습니다(예: 코와 입 포즈는 얼굴 전체의 포즈를 일관되게 예측합니다). 이 접근 방식은 하위 레벨(예: 코와 입)이 포즈 예측에 동의할 때 상위 레벨 개체(예: 얼굴)가 존재하도록 보장합니다. 포즈("포즈 벡터")를 나타내는 뉴런 활동의 벡터는 네트워크가 시각적 개체의 계층 구조를 더 쉽게 학습하고 관점 간에 일반화할 수 있도록 선형 연산으로 모델링된 공간 변환을 가능하게 합니다. 이는 인간 시각 시스템이 모양을 표현하기 위해 좌표 프레임을 부과하는 방식과 유사합니다.[98]
적용들
이미지 인식
CNN은 종종 이미지 인식 시스템에 사용됩니다. 2012년 MNIST 데이터베이스에서 0.23%의 오류율이 보고되었습니다.[26] 이미지 분류를 위해 CNN을 사용하는 것에 대한 또 다른 논문은 학습 프로세스가 "놀라울 정도로 빠르다"고 보고했습니다. 같은 논문에서 2011년 기준으로 가장 우수한 결과가 MNIST 데이터베이스와 NORB 데이터베이스에서 달성되었습니다.[23] 그 후, AlexNet이라는[99] 비슷한 CNN이 ImageNet Large Scale Visual Recognition Challenge 2012에서 우승했습니다.
얼굴 인식에 적용했을 때 CNN은 오류율을 크게 감소시켰습니다.[100] 또 다른 논문은 "10명 이상의 피험자 5,600개의 정지 영상"에 대해 97.6%의 인식률을 보고했습니다.[19] CNN은 수동 훈련 후 객관적인 방법으로 비디오 품질을 평가하는 데 사용되었습니다. 결과 시스템은 평균 제곱근 오차가 매우 낮았습니다.[45]
ImageNet Large Scale Visual Recognition Challenge는 수백만 개의 이미지와 수백 개의 객체 클래스가 있는 객체 분류 및 감지의 벤치마크입니다. 대규모 시각 인식 챌린지인 [101]ILSVRC 2014에서는 거의 모든 상위 등급의 팀이 CNN을 기본 프레임워크로 사용했습니다. 수상자인 구글리넷[102](DeepDream의 기초)은 객체 검출의 평균 정밀도를 0.439329로 높였고, 분류 오차를 0.06656으로 줄여 현재까지 최고의 결과를 보였습니다. 네트워크는 30개 이상의 레이어를 적용했습니다. ImageNet 테스트에서 컨볼루션 신경망의 성능은 인간의 성능에 가까웠습니다.[103] 최고의 알고리즘은 여전히 꽃 줄기에 있는 작은 개미나 손에 퀼을 들고 있는 사람처럼 작거나 얇은 물체와 씨름하고 있습니다. 그들은 또한 현대 디지털 카메라에서 점점 더 흔한 현상인 필터로 왜곡된 이미지에 문제가 있습니다. 대조적으로, 그러한 종류의 이미지는 인간을 거의 괴롭히지 않습니다. 그러나 인간은 다른 문제에 어려움을 겪는 경향이 있습니다. 예를 들어, 그들은 특정 품종의 개나 새 종과 같은 세분화된 범주로 물체를 분류하는 데 능숙하지 않지만 컨볼루션 신경망은 이를 처리합니다.[citation needed]
2015년, 다층 CNN은 부분적으로 가려진 경우에도 거꾸로를 포함한 광범위한 각도에서 얼굴을 감지할 수 있는 능력을 경쟁력 있는 성능으로 입증했습니다. 네트워크는 다양한 각도와 방향의 얼굴을 포함하는 200,000개의 이미지 데이터베이스와 얼굴이 없는 추가 2,000만 개의 이미지에 대해 훈련되었습니다. 그들은 50,000번의 반복에 걸쳐 128개의 이미지 배치를 사용했습니다.[104]
비디오 분석
이미지 데이터 도메인에 비해 CNN을 비디오 분류에 적용하는 작업은 상대적으로 적습니다. 비디오는 또 다른 (시간적) 차원을 가지고 있기 때문에 이미지보다 더 복잡합니다. 그러나 비디오 도메인에 대한 CNN의 일부 확장이 탐구되었습니다. 한 가지 접근 방식은 공간과 시간을 입력의 동등한 차원으로 취급하고 시간과 공간 모두에서 컨볼루션을 수행하는 것입니다.[105][106] 또 다른 방법은 두 개의 컨볼루션 신경망의 특징을 융합하는 것입니다. 하나는 공간용이고 다른 하나는 시간적 스트림용입니다.[107][108][109] LSTM(Long Short-Term Memory) 반복 단위는 일반적으로 프레임 간 또는 클립 간 종속성을 설명하기 위해 CNN 이후에 통합됩니다.[110][111] 컨볼루션 게이트 제한 볼츠만 머신과[112] 독립적인 부분 공간 분석을 기반으로 시공간 특징을 훈련하기 위한 비지도 학습 체계가 도입되었습니다.[113] It's Application은 Text-to-Video 모델에서 볼 수 있습니다.[citation needed]
자연어 처리
CNN은 자연어 처리를 위해 탐색되기도 했습니다. CNN 모델은 다양한 NLP 문제에 효과적이며 의미론적 구문 분석,[114] 검색 쿼리 검색,[115] 문장 모델링,[116] 분류,[117] 예측[118] 및 기타 전통적인 NLP 작업에서 우수한 결과를 달성했습니다.[119] 순환 신경망과 같은 전통적인 언어 처리 방법과 비교하여 CNN은 직렬 시퀀스 가정에 의존하지 않는 언어의 다양한 맥락 현실을 표현할 수 있는 반면, RNN은 고전적인 시계열 모델링이 필요할 때 더 적합합니다.[120]
이상 탐지
1-D 컨볼루션이 있는 CNN은 시간 영역의 이상을 감지하기 위해 감독되지 않은 모델에 의해 주파수 영역(스펙트럼 잔차)의 시계열에 사용되었습니다.[124]
약물 발견
CNN은 약물 발견에 사용되었습니다. 분자와 생물학적 단백질 간의 상호 작용을 예측하면 잠재적인 치료법을 확인할 수 있습니다. 아톰와이즈는 2015년 구조 기반 약물 설계를 위한 최초의 딥러닝 신경망인 아톰넷을 선보였습니다.[125] 이 시스템은 화학적 상호 작용의 3차원 표현에 대해 직접 훈련합니다. 이미지 인식 네트워크가 더 작고 공간적으로 근접한 특징을 더 크고 복잡한 구조로 구성하는 방법을 배우는 것과 유사하게 [126]AtomNet은 방향족성, 스파본3 및 수소 결합과 같은 화학적 특징을 발견합니다. 그 후 아톰넷을 사용하여 여러 질병 표적, 특히 에볼라 바이러스[127] 및 다발성 경화증 치료제에 대한 새로운 후보 생체 분자를 예측했습니다.[128]
체커스 게임
CNN은 체커 게임에 사용되었습니다. 1999년부터 2001년까지 포겔(Fogel)과 첼라필라(Chellapilla)는 합성곱 신경망이 공진화를 사용하여 체커(checker)를 어떻게 배울 수 있는지 보여주는 논문을 발표했습니다. 학습 과정은 이전 인간 프로게임을 사용한 것이 아니라 바둑판에 담긴 최소한의 정보, 즉 조각의 위치와 종류, 양쪽의 조각 수 차이에 초점을 맞췄습니다. 최종적으로 프로그램(Blondie24)은 선수들을 상대로 165경기를 테스트하여 가장 높은 0.4%[129][130]를 기록했습니다. 또한 "전문가" 수준의 플레이에서 치누크 프로그램을 상대로 승리를 거두었습니다.[131]
가세요
CNN은 컴퓨터 바둑에서 사용되었습니다. 2014년 12월, Clark and Storkey는 인간 프로 게임 데이터베이스의 지도 학습에 의해 훈련된 CNN이 GNU Go를 능가하고 Monte Carlo 트리 검색 Fuego 1.1을 상대로 몇 가지 게임에서 Fuego가 플레이하는 데 걸린 시간 중 극히 짧은 시간 내에 승리할 수 있다는 논문을 발표했습니다.[132] 나중에 대규모 12층 컨볼루션 신경망이 55%의 위치에서 전문가의 움직임을 정확하게 예측했다고 발표했는데, 이는 6단 인간 플레이어의 정확도와 동일합니다. 훈련된 컨볼루션 네트워크를 바둑 게임에 직접 사용했을 때, 검색 없이 기존 검색 프로그램인 GNU 바둑을 97%에서 제쳤고, 몬테카를로 트리 검색 프로그램인 푸에고가 한 동작당 1만 개(약 100만 개의 포지션)의 플레이를 시뮬레이션한 성능과 일치했습니다.[133]
당시 최고의 인간 플레이어를 이긴 최초의 알파고는 시도할 움직임("정책 네트워크")을 선택하고 MCTS를 구동하는 위치("가치 네트워크")를 평가하기 위한 몇 가지 CNN을 사용했습니다.[134]
시계열 예측
순환 신경망은 일반적으로 시계열 예측(및 일반적으로 시퀀스 모델링)에 가장 적합한 신경망 아키텍처로 간주되지만, 최근 연구에 따르면 컨볼루션 네트워크는 유사하거나 훨씬 더 나은 성능을 발휘할 수 있습니다.[135][11] 확장된 컨볼루션은[136] 1차원 컨볼루션 신경망이 시계열 의존성을 효과적으로 학습할 수 있도록 할 수 있습니다.[137] 컨볼루션은 RNN 기반 솔루션보다 더 효율적으로 구현할 수 있으며, 그래디언트가 사라지거나 폭발하는 어려움을 겪지 않습니다.[138] 컨볼루션 네트워크는 학습해야 할 유사한 시계열이 여러 개 있을 때 향상된 예측 성능을 제공할 수 있습니다.[139] CNN은 시계열 분석의 추가 작업(예: 시계열 분류[140] 또는 분위 예측[141])에도 적용할 수 있습니다.
문화유산과 3D-데이터 세트
설형문자를 사용한 점토판과 같은 고고학적 발견이 3D 스캐너를 사용하여 점점 더 많이 획득됨에 따라 HeiCuBeDa와[142] 같이 GigaMesh Software Framework로 준비된 거의 2.000개의 정규화된 2D 및 3D 데이터 세트를 제공하는 첫 번째 벤치마크 데이터 세트를 사용할 수 있게 되었습니다.[143] 따라서 곡률 기반 측정은 기하학적 신경망(GNN)과 함께 사용됩니다. 예를 들어 인류 역사상 가장 오래된 문서 중 하나인 점토판의 기간 분류에 사용됩니다.[144][145]
미세조정
많은 응용 프로그램의 경우 교육 데이터의 가용성이 떨어집니다. 컨볼루션 신경망은 일반적으로 과적합을 피하기 위해 많은 양의 훈련 데이터가 필요합니다. 일반적인 기술은 관련 도메인에서 더 큰 데이터 세트에 대해 네트워크를 훈련시키는 것입니다. 네트워크 매개변수가 수렴되면 도메인 내 데이터를 사용하여 네트워크 가중치를 미세 조정하는 추가 훈련 단계가 수행되면 이를 전이 학습이라고 합니다. 또한 이 기술을 사용하면 컨볼루션 네트워크 아키텍처를 작은 훈련 세트의 문제에 성공적으로 적용할 수 있습니다.[146]
인간이 해석할 수 있는 설명
엔드 투 엔드 훈련 및 예측은 컴퓨터 비전에서 일반적인 관행입니다. 그러나 자율 주행 자동차와 같은 중요한 시스템에 대해서는 사람이 해석할 수 있는 설명이 필요합니다.[147] 최근 시각적 현저성, 공간적 주의 및 시간적 주의의 발전으로 가장 중요한 공간 영역/시간적 인스턴스를 시각화하여 CNN 예측을 정당화할 수 있습니다.[148][149]
관련 건축물
심층 Q-네트워크
심층 Q-네트워크(DQN)는 심층 신경망과 강화 학습의 한 형태인 Q-러닝을 결합한 딥 러닝 모델의 한 유형입니다. 이전의 강화 학습 에이전트와 달리 CNN을 활용하는 DQN은 강화 학습을 통해 고차원 감각 입력에서 직접 학습할 수 있습니다.[150]
예비 결과는 2014년에 발표되었으며, 2015년 2월에 논문이 첨부되었습니다.[151] 이 연구는 아타리 2600 게임에 대한 응용 프로그램을 설명했습니다. 다른 심층 강화 학습 모델이 그 이전에 있었습니다.[152]
깊은 믿음 네트워크
컨볼루션 심층 신념 네트워크(CDBN)는 컨볼루션 신경망과 매우 유사한 구조를 가지며 심층 신념 네트워크와 유사하게 훈련됩니다. 따라서 CNN과 같이 이미지의 2D 구조를 활용하고 심층 신념 네트워크와 같은 사전 훈련을 활용합니다. 많은 이미지 및 신호 처리 작업에 사용할 수 있는 일반적인 구조를 제공합니다. CIFAR과[153] 같은 표준 이미지 데이터 세트에 대한 벤치마크 결과는 CDBN을 사용하여 얻었습니다.[154]
주목할 만한 라이브러리
- 카페: 합성곱 신경망을 위한 라이브러리입니다. BVLC(Berkeley Vision and Learning Center)가 만들었습니다. CPU와 GPU를 모두 지원합니다. C++로 개발되었으며 Python과 MATLAB 래퍼가 있습니다.
- 딥러닝 4j: 멀티 GPU 지원 스파크에서 자바와 스칼라로 딥러닝 C++ 과학 컴퓨팅 엔진에서 실행되는 JVM 프로덕션 스택을 위한 범용 딥 러닝 라이브러리입니다. 사용자 정의 계층을 만들 수 있습니다. Hadoop 및 Kafka와 통합됩니다.
- Dlib: C++에서 실제 머신 러닝 및 데이터 분석 응용 프로그램을 만들기 위한 툴킷입니다.
- Microsoft Cognitive Toolkit: 여러 노드에 걸쳐 확장성을 향상시키는 몇 가지 고유한 기능을 갖춘 Microsoft가 작성한 딥 러닝 툴킷입니다. C++ 및 Python에서 교육을 위한 본격적인 인터페이스를 지원하고 C# 및 Java에서 모델 추론을 추가로 지원합니다.
- TensorFlow: CPU, GPU, 구글의 TPU(Private Tensor Processing Unit)[155] 및 모바일 장치를 지원하는 Apache 2.0 라이선스 Theano 유사 라이브러리.
- 테아노: API가 있는 파이썬용 참조 딥러닝 라이브러리는 인기 있는 NumPy 라이브러리와 크게 호환됩니다. 사용자가 기호 수학식을 작성한 다음 자동으로 도함수를 생성하여 사용자가 그래디언트나 역전파를 코드화할 필요가 없도록 합니다. 이러한 기호 표현식은 CUDA 코드에 자동으로 컴파일되어 빠른 GPU 구현이 가능합니다.
- Torch: C와 Lua로 작성된 머신러닝 알고리즘을 폭넓게 지원하는 과학적 컴퓨팅 프레임워크입니다.
참고 항목
메모들
참고문헌
- ^ a b Venkatesan, Ragav; Li, Baoxin (2017-10-23). Convolutional Neural Networks in Visual Computing: A Concise Guide. CRC Press. ISBN 978-1-351-65032-8. Archived from the original on 2023-10-16. Retrieved 2020-12-13.
- ^ a b Balas, Valentina E.; Kumar, Raghvendra; Srivastava, Rajshree (2019-11-19). Recent Trends and Advances in Artificial Intelligence and Internet of Things. Springer Nature. ISBN 978-3-030-32644-9. Archived from the original on 2023-10-16. Retrieved 2020-12-13.
- ^ Zhang, Yingjie; Soon, Hong Geok; Ye, Dongsen; Fuh, Jerry Ying Hsi; Zhu, Kunpeng (September 2020). "Powder-Bed Fusion Process Monitoring by Machine Vision With Hybrid Convolutional Neural Networks". IEEE Transactions on Industrial Informatics. 16 (9): 5769–5779. doi:10.1109/TII.2019.2956078. ISSN 1941-0050. S2CID 213010088. Archived from the original on 2023-07-31. Retrieved 2023-08-12.
- ^ Chervyakov, N.I.; Lyakhov, P.A.; Deryabin, M.A.; Nagornov, N.N.; Valueva, M.V.; Valuev, G.V. (September 2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network". Neurocomputing. 407: 439–453. doi:10.1016/j.neucom.2020.04.018. S2CID 219470398. Archived from the original on 2023-06-29. Retrieved 2023-08-12.
Convolutional neural networks represent deep learning architectures that are currently used in a wide range of applications, including computer vision, speech recognition, malware dedection, time series analysis in finance, and many others.
- ^ a b Habibi, Aghdam, Hamed (2017-05-30). Guide to convolutional neural networks : a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani. Cham, Switzerland. ISBN 9783319575490. OCLC 987790957.
{{cite book}}
: CS1 maint: 위치 누락 게시자 (링크) CS1 maint: 다중 이름: 작성자 목록 (링크) - ^ Atlas, Homma, and Marks. "An Artificial Neural Network for Spatio-Temporal Bipolar Patterns: Application to Phoneme Classification" (PDF). Neural Information Processing Systems (NIPS 1987). 1. Archived (PDF) from the original on 2021-04-14.
{{cite journal}}
: CS1 maint: 다중 이름: 작성자 목록(링크) - ^ Valueva, M.V.; Nagornov, N.N.; Lyakhov, P.A.; Valuev, G.V.; Chervyakov, N.I. (2020). "Application of the residue number system to reduce hardware costs of the convolutional neural network implementation". Mathematics and Computers in Simulation. Elsevier BV. 177: 232–243. doi:10.1016/j.matcom.2020.04.031. ISSN 0378-4754. S2CID 218955622.
Convolutional neural networks are a promising tool for solving the problem of pattern recognition.
- ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013-01-01). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (eds.). Deep content-based music recommendation (PDF). Curran Associates, Inc. pp. 2643–2651. Archived (PDF) from the original on 2022-03-07. Retrieved 2022-03-31.
- ^ Collobert, Ronan; Weston, Jason (2008-01-01). "A unified architecture for natural language processing". Proceedings of the 25th international conference on Machine learning - ICML '08. New York, NY, USA: ACM. pp. 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4. S2CID 2617020.
- ^ Avilov, Oleksii; Rimbert, Sebastien; Popov, Anton; Bougrain, Laurent (July 2020). "Deep Learning Techniques to Improve Intraoperative Awareness Detection from Electroencephalographic Signals". 2020 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC) (PDF). Vol. 2020. Montreal, QC, Canada: IEEE. pp. 142–145. doi:10.1109/EMBC44109.2020.9176228. ISBN 978-1-7281-1990-8. PMID 33017950. S2CID 221386616. Archived (PDF) from the original on 2022-05-19. Retrieved 2023-07-21.
- ^ a b Tsantekidis, Avraam; Passalis, Nikolaos; Tefas, Anastasios; Kanniainen, Juho; Gabbouj, Moncef; Iosifidis, Alexandros (July 2017). "Forecasting Stock Prices from the Limit Order Book Using Convolutional Neural Networks". 2017 IEEE 19th Conference on Business Informatics (CBI). Thessaloniki, Greece: IEEE. pp. 7–12. doi:10.1109/CBI.2017.23. ISBN 978-1-5386-3035-8. S2CID 4950757.
- ^ a b c Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics. Archived from the original on 2020-06-23. Retrieved 2020-06-22.
- ^ a b c Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468. Archived from the original on 2017-02-06. Retrieved 2016-09-22.
- ^ a b c d e f Mouton, Coenraad; Myburgh, Johannes C.; Davel, Marelie H. (2020). "Stride and Translation Invariance in CNNs". In Gerber, Aurona (ed.). Artificial Intelligence Research. Communications in Computer and Information Science. Vol. 1342. Cham: Springer International Publishing. pp. 267–281. arXiv:2103.10097. doi:10.1007/978-3-030-66151-9_17. ISBN 978-3-030-66151-9. S2CID 232269854. Archived from the original on 2021-06-27. Retrieved 2021-03-26.
- ^ Kurtzman, Thomas (August 20, 2019). "Hidden bias in the DUD-E dataset leads to misleading performance of deep learning in structure-based virtual screening". PLOS ONE. 14 (8): e0220113. Bibcode:2019PLoSO..1420113C. doi:10.1371/journal.pone.0220113. PMC 6701836. PMID 31430292.
- ^ a b c Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
- ^ a b Hubel, D. H.; Wiesel, T. N. (1968-03-01). "Receptive fields and functional architecture of monkey striate cortex". The Journal of Physiology. 195 (1): 215–243. doi:10.1113/jphysiol.1968.sp008455. ISSN 0022-3751. PMC 1557912. PMID 4966457.
- ^ a b Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. S2CID 206775608. Archived (PDF) from the original on 3 June 2014. Retrieved 16 November 2013.
- ^ a b Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. PMID 12850007. Archived (PDF) from the original on 13 December 2013. Retrieved 17 November 2013.
- ^ 컨볼루션 신경망 설명: A Matched Filtering Perspective 기반 튜토리얼 https://arxiv.org/abs/2108.11663v3
- ^ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Archived from the original on 28 December 2017. Retrieved 31 August 2013.
- ^ Chollet, François (2017-04-04). "Xception: Deep Learning with Depthwise Separable Convolutions". arXiv:1610.02357 [cs.CV].
- ^ a b c Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237–1242. Archived (PDF) from the original on 5 April 2022. Retrieved 17 November 2013.
- ^ Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Archived (PDF) from the original on 25 April 2021. Retrieved 17 November 2013.
- ^ a b Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan. Archived from the original on 2021-03-07. Retrieved 2019-09-04.
- ^ a b c d Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). pp. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. S2CID 2161592.
- ^ Yu, Fisher; Koltun, Vladlen (2016-04-30). "Multi-Scale Context Aggregation by Dilated Convolutions". arXiv:1511.07122 [cs.CV].
- ^ Chen, Liang-Chieh; Papandreou, George; Schroff, Florian; Adam, Hartwig (2017-12-05). "Rethinking Atrous Convolution for Semantic Image Segmentation". arXiv:1706.05587 [cs.CV].
- ^ Duta, Ionut Cosmin; Georgescu, Mariana Iuliana; Ionescu, Radu Tudor (2021-08-16). "Contextual Convolutional Neural Networks". arXiv:2108.07387 [cs.CV].
- ^ LeCun, Yann. "LeNet-5, convolutional neural networks". Archived from the original on 24 February 2021. Retrieved 16 November 2013.
- ^ van Dyck, Leonard Elia; Kwitt, Roland; Denzler, Sebastian Jochen; Gruber, Walter Roland (2021). "Comparing Object Recognition in Humans and Deep Convolutional Neural Networks—An Eye Tracking Study". Frontiers in Neuroscience. 15: 750639. doi:10.3389/fnins.2021.750639. ISSN 1662-453X. PMC 8526843. PMID 34690686.
- ^ a b Hubel, DH; Wiesel, TN (October 1959). "Receptive fields of single neurones in the cat's striate cortex". J. Physiol. 148 (3): 574–91. doi:10.1113/jphysiol.1959.sp006308. PMC 1363130. PMID 14403679.
- ^ David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. p. 106. ISBN 978-0-19-517618-6. Archived from the original on 2023-10-16. Retrieved 2019-01-18.
- ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning" (PDF). Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- ^ a b Fukushima, K. (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225.
- ^ a b Schmidhuber, Juergen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE].
- ^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (October 16, 2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE].
- ^ Weng, J; Ahuja, N; Huang, TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". 1993 (4th) International Conference on Computer Vision. IEEE. pp. 121–128. doi:10.1109/ICCV.1993.378228. ISBN 0-8186-3870-2. S2CID 8619176.
- ^ a b c Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Archived from the original on 2016-04-19. Retrieved 2019-01-20.
- ^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). "An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification" (PDF). Advances in Neural Information Processing Systems. 1: 31–40. Archived (PDF) from the original on 2022-03-31. Retrieved 2022-03-31.
- ^ a b Waibel, Alex (December 1987). Phoneme Recognition Using Time-Delay Neural Networks. Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
- ^ a b Alexander Waibel et al., 시간 지연 신경망을 이용한 음소 인식 2021-02-25, Wayback Machine IEEE Transactions on Acoustics, Speech and Signal Processing, Volume 37, No. 3, pp. 328 - 1989년 3월 339
- ^ LeCun, Yann; Bengio, Yoshua (1995). "Convolutional networks for images, speech, and time series". In Arbib, Michael A. (ed.). The handbook of brain theory and neural networks (Second ed.). The MIT press. pp. 276–278. Archived from the original on 2020-07-28. Retrieved 2019-12-03.
- ^ 존 B. 햄프셔와 알렉산더 와이벨, 다중 화자 음소 인식을 위한 연결주의 아키텍처, Wayback Machine에서 2022-03-31 아카이브, 신경 정보 처리 시스템의 발전, 1990, Morgan Kaufmann.
- ^ a b Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. S2CID 221185563. Archived (PDF) from the original on 24 February 2021. Retrieved 17 November 2013.
- ^ Ko, Tom; Peddinti, Vijayaditya; Povey, Daniel; Seltzer, Michael L.; Khudanpur, Sanjeev (March 2018). A Study on Data Augmentation of Reverberant Speech for Robust Speech Recognition (PDF). The 42nd IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017). New Orleans, LA, USA. Archived (PDF) from the original on 2018-07-08. Retrieved 2019-09-04.
- ^ Denker, JS, Gardner, W, Graf, H.P, Henderson, D, Howard, RE, Hubbard, W, Jackel, LD, BaIrd, HS, Guyon (1989) 수기 우편 번호용 신경망 인식기 보관소, AT&T Bell Laboratories 2018-08-04
- ^ a b Y. 르쿤, B. 보저, J.S.덴커, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, 수기 우편번호 인식에 적용된 역전파 2020-01-10 Wayback Machine에서 보관; AT&T Bell Laboratories
- ^ a b Zhang, Wei (1991). "Image processing of human corneal endothelium based on a learning network". Applied Optics. 30 (29): 4211–7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526. Archived from the original on 2017-02-06. Retrieved 2016-09-22.
- ^ a b Zhang, Wei (1994). "Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network". Medical Physics. 21 (4): 517–24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017. Archived from the original on 2017-02-06. Retrieved 2016-09-22.
- ^ a b Lecun, Y.; Jackel, L. D.; Bottou, L.; Cortes, C.; Denker, J. S.; Drucker, H.; Guyon, I.; Muller, U. A.; Sackinger, E.; Simard, P.; Vapnik, V. (August 1995). Learning algorithms for classification: A comparison on handwritten digit recognition (PDF). World Scientific. pp. 261–276. doi:10.1142/2808. ISBN 978-981-02-2324-3. Archived (PDF) from the original on 2 May 2023.
- ^ Zhang, Wei (1991). "Error Back Propagation with Minimum-Entropy Weights: A Technique for Better Generalization of 2-D Shift-Invariant NNs". Proceedings of the International Joint Conference on Neural Networks. Archived from the original on 2017-02-06. Retrieved 2016-09-22.
- ^ 다니엘 그라우프, 뤼이웬 리우, 조지 S 모시츠."Wayback Machine에서 Archived 2020-07-28 의료 신호 처리에 대한 신경망 적용" Proc. 27th IEEE Decision and Control Conf., pp. 343–347, 1988.
- ^ 다니엘 그루프, 보리스 베른, G. 그루너, 아론 필드 및 추 황. "뉴럴 네트워크에 의한 표면 근전도 신호의 단일 섬유 작용 전위로의 분해 2019-09-04 at the Wayback Machine." 프로크. 회로 및 시스템에 관한 IEEE 국제 심프, 페이지 1008–1011, 1989.
- ^ 추황, 다니엘 그라우페, 이방황, 루이원류."신경 신호의[dead link] 발화 패턴 확인" Proc. 28th IEEE Decision and Control Conf., pp. 266–271, 1989. https://ieeexplore.ieee.org/document/70115 Wayback Machine에서 2022-03-31 보관
- ^ Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation (PDF). Lecture Notes in Computer Science. Vol. 2766. Springer. doi:10.1007/b11963. ISBN 978-3-540-40722-5. S2CID 1304548. Archived (PDF) from the original on 2017-08-10. Retrieved 2016-12-28.
- ^ Oh, KS; Jung, K (2004). "GPU implementation of neural networks". Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
- ^ Dave Steinkraus; Patrice Simard; Ian Buck (2005). "Using GPUs for Machine Learning Algorithms". 12th International Conference on Document Analysis and Recognition (ICDAR 2005). pp. 1115–1119. doi:10.1109/ICDAR.2005.251. Archived from the original on 2022-03-31. Retrieved 2022-03-31.
- ^ Kumar Chellapilla; Sid Puri; Patrice Simard (2006). "High Performance Convolutional Neural Networks for Document Processing". In Lorette, Guy (ed.). Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft. Archived from the original on 2020-05-18. Retrieved 2016-03-14.
- ^ Hinton, GE; Osindero, S; Teh, YW (Jul 2006). "A fast learning algorithm for deep belief nets". Neural Computation. 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
- ^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). "Greedy Layer-Wise Training of Deep Networks" (PDF). Advances in Neural Information Processing Systems: 153–160. Archived (PDF) from the original on 2022-06-02. Retrieved 2022-03-31.
- ^ Ranzato, MarcAurelio; Poultney, Christopher; Chopra, Sumit; LeCun, Yann (2007). "Efficient Learning of Sparse Representations with an Energy-Based Model" (PDF). Advances in Neural Information Processing Systems. Archived (PDF) from the original on 2016-03-22. Retrieved 2014-06-26.
- ^ Raina, R; Madhavan, A; Ng, Andrew (14 June 2009). "Large-scale deep unsupervised learning using graphics processors" (PDF). Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. pp. 873–880. doi:10.1145/1553374.1553486. ISBN 9781605585161. S2CID 392458. Archived (PDF) from the original on 8 December 2020. Retrieved 22 December 2023.
- ^ Ciresan, Dan; Meier, Ueli; Gambardella, Luca; Schmidhuber, Jürgen (2010). "Deep big simple neural nets for handwritten digit recognition". Neural Computation. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162/NECO_a_00052. PMID 20858131. S2CID 1918673.
- ^ "IJCNN 2011 Competition result table". OFFICIAL IJCNN2011 COMPETITION. 2010. Archived from the original on 2021-01-17. Retrieved 2019-01-14.
- ^ Schmidhuber, Jürgen (17 March 2017). "History of computer vision contests won by deep CNNs on GPU". Archived from the original on 19 December 2018. Retrieved 14 January 2019.
- ^ a b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. S2CID 195908774. Archived (PDF) from the original on 2017-05-16. Retrieved 2018-12-04.
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition" (PDF). 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692. Archived (PDF) from the original on 2022-04-05. Retrieved 2022-03-31.
- ^ Viebke, Andre; Pllana, Sabri (2015). "The Potential of the Intel (R) Xeon Phi for Supervised Deep Learning". 2015 IEEE 17th International Conference on High Performance Computing and Communications, 2015 IEEE 7th International Symposium on Cyberspace Safety and Security, and 2015 IEEE 12th International Conference on Embedded Software and Systems. IEEE Xplore. IEEE 2015. pp. 758–765. doi:10.1109/HPCC-CSS-ICESS.2015.45. ISBN 978-1-4799-8937-9. S2CID 15411954. Archived from the original on 2023-03-06. Retrieved 2022-03-31.
- ^ Viebke, Andre; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi". The Journal of Supercomputing. 75 (1): 197–227. arXiv:1702.07908. doi:10.1007/s11227-017-1994-x. S2CID 14135321.
- ^ Hinton, Geoffrey (2012). "ImageNet Classification with Deep Convolutional Neural Networks". NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. 1: 1097–1105. Archived from the original on 2019-12-20. Retrieved 2021-03-26 – via ACM.
- ^ a b c d e Azulay, Aharon; Weiss, Yair (2019). "Why do deep convolutional networks generalize so poorly to small image transformations?". Journal of Machine Learning Research. 20 (184): 1–25. ISSN 1533-7928. Archived from the original on 2022-03-31. Retrieved 2022-03-31.
- ^ a b Géron, Aurélien (2019). Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow. Sebastopol, CA: O'Reilly Media. ISBN 978-1-492-03264-9.Géron, Aurélien (2019). Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow. Sebastopol, CA: O'Reilly Media. ISBN 978-1-492-03264-9.페이지 448
- ^ "CS231n Convolutional Neural Networks for Visual Recognition". cs231n.github.io. Archived from the original on 2019-10-23. Retrieved 2017-04-25.
- ^ a b Scherer, Dominik; Müller, Andreas C.; Behnke, Sven (2010). "Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition" (PDF). Artificial Neural Networks (ICANN), 20th International Conference on. Thessaloniki, Greece: Springer. pp. 92–101. Archived (PDF) from the original on 2018-04-03. Retrieved 2016-12-28.
- ^ Graham, Benjamin (2014-12-18). "Fractional Max-Pooling". arXiv:1412.6071 [cs.CV].
- ^ Springenberg, Jost Tobias; Dosovitskiy, Alexey; Brox, Thomas; Riedmiller, Martin (2014-12-21). "Striving for Simplicity: The All Convolutional Net". arXiv:1412.6806 [cs.LG].
- ^ Girshick, Ross (2015-09-27). "Fast R-CNN". arXiv:1504.08083 [cs.CV].
- ^ Ma, Zhanyu; Chang, Dongliang; Xie, Jiyang; Ding, Yifeng; Wen, Shaoguo; Li, Xiaoxu; Si, Zhongwei; Guo, Jun (2019). "Fine-Grained Vehicle Classification With Channel Max Pooling Modified CNNs". IEEE Transactions on Vehicular Technology. Institute of Electrical and Electronics Engineers (IEEE). 68 (4): 3224–3233. doi:10.1109/tvt.2019.2899972. ISSN 0018-9545. S2CID 86674074.
- ^ Romanuke, Vadim (2017). "Appropriate number and allocation of ReLUs in convolutional neural networks". Research Bulletin of NTUU "Kyiv Polytechnic Institute". 1 (1): 69–78. doi:10.20535/1810-0546.2017.1.88156.
- ^ Xavier Glorot; Antoine Bordes; Yoshua Bengio (2011). Deep sparse rectifier neural networks (PDF). AISTATS. Archived from the original (PDF) on 2016-12-13. Retrieved 2023-04-10.
Rectifier and softplus activation functions. The second one is a smooth version of the first.
- ^ Krizhevsky, A.; Sutskever, I.; Hinton, G. E. (2012). "Imagenet classification with deep convolutional neural networks" (PDF). Advances in Neural Information Processing Systems. 1: 1097–1105. Archived (PDF) from the original on 2022-03-31. Retrieved 2022-03-31.
- ^ Ribeiro, Antonio H.; Schön, Thomas B. (2021). "How Convolutional Neural Networks Deal with Aliasing". ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 2755–2759. arXiv:2102.07757. doi:10.1109/ICASSP39728.2021.9414627. ISBN 978-1-7281-7605-5. S2CID 231925012.
- ^ Myburgh, Johannes C.; Mouton, Coenraad; Davel, Marelie H. (2020). "Tracking Translation Invariance in CNNS". In Gerber, Aurona (ed.). Artificial Intelligence Research. Communications in Computer and Information Science. Vol. 1342. Cham: Springer International Publishing. pp. 282–295. arXiv:2104.05997. doi:10.1007/978-3-030-66151-9_18. ISBN 978-3-030-66151-9. S2CID 233219976. Archived from the original on 2022-01-22. Retrieved 2021-03-26.
- ^ Richard, Zhang (2019-04-25). Making Convolutional Networks Shift-Invariant Again. OCLC 1106340711.
- ^ Jadeberg, Simonyan, Zisserman, Kavukcuoglu, Max, Karen, Andrew, Koray (2015). "Spatial Transformer Networks" (PDF). Advances in Neural Information Processing Systems. 28. Archived (PDF) from the original on 2021-07-25. Retrieved 2021-03-26 – via NIPS.
{{cite journal}}
: CS1 maint: 다중 이름: 작성자 목록(링크) - ^ E, Sabour, Sara Frosst, Nicholas Hinton, Geoffrey (2017-10-26). Dynamic Routing Between Capsules. OCLC 1106278545.
{{cite book}}
: CS1 maint: 다중 이름: 작성자 목록(링크) - ^ Matiz, Sergio; Barner, Kenneth E. (2019-06-01). "Inductive conformal predictor for convolutional neural networks: Applications to active learning for image classification". Pattern Recognition. 90: 172–182. Bibcode:2019PatRe..90..172M. doi:10.1016/j.patcog.2019.01.035. ISSN 0031-3203. S2CID 127253432. Archived from the original on 2021-09-29. Retrieved 2021-09-29.
- ^ Wieslander, Håkan; Harrison, Philip J.; Skogberg, Gabriel; Jackson, Sonya; Fridén, Markus; Karlsson, Johan; Spjuth, Ola; Wählby, Carolina (February 2021). "Deep Learning With Conformal Prediction for Hierarchical Analysis of Large-Scale Whole-Slide Tissue Images". IEEE Journal of Biomedical and Health Informatics. 25 (2): 371–380. doi:10.1109/JBHI.2020.2996300. ISSN 2168-2208. PMID 32750907. S2CID 219885788.
- ^ Srivastava, Nitish; C. Geoffrey Hinton; Alex Krizhevsky; Ilya Sutskever; Ruslan Salakhutdinov (2014). "Dropout: A Simple Way to Prevent Neural Networks from overfitting" (PDF). Journal of Machine Learning Research. 15 (1): 1929–1958. Archived (PDF) from the original on 2016-01-19. Retrieved 2015-01-03.
- ^ "Regularization of Neural Networks using DropConnect ICML 2013 JMLR W&CP". jmlr.org: 1058–1066. 2013-02-13. Archived from the original on 2017-08-12. Retrieved 2015-12-17.
- ^ Zeiler, Matthew D.; Fergus, Rob (2013-01-15). "Stochastic Pooling for Regularization of Deep Convolutional Neural Networks". arXiv:1301.3557 [cs.LG].
- ^ a b Platt, John; Steinkraus, Dave; Simard, Patrice Y. (August 2003). "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis – Microsoft Research". Microsoft Research. Archived from the original on 2017-11-07. Retrieved 2015-12-17.
- ^ Hinton, Geoffrey E.; Srivastava, Nitish; Krizhevsky, Alex; Sutskever, Ilya; Salakhutdinov, Ruslan R. (2012). "Improving neural networks by preventing co-adaptation of feature detectors". arXiv:1207.0580 [cs.NE].
- ^ "Dropout: A Simple Way to Prevent Neural Networks from Overfitting". jmlr.org. Archived from the original on 2016-03-05. Retrieved 2015-12-17.
- ^ Hinton, Geoffrey (1979). "Some demonstrations of the effects of structural descriptions in mental imagery". Cognitive Science. 3 (3): 231–250. doi:10.1016/s0364-0213(79)80008-7.
- ^ 락, 어빈. "참조의 틀." 솔로몬 애쉬의 유산: 인지와 사회심리학 에세이 (1990): 243–268.
- ^ J. Hinton, Coursera in Neural Networks 강의, 2012, Url: https://www.coursera.org/learn/neural-networks Archived 2016-12-31 at the Wayback Machine
- ^ Dave Gershgorn (18 June 2018). "The inside story of how AI got good enough to dominate Silicon Valley". Quartz. Archived from the original on 12 December 2019. Retrieved 5 October 2018.
- ^ Lawrence, Steve; C. Lee Giles; Ah Chung Tsoi; Andrew D. Back (1997). "Face Recognition: A Convolutional Neural Network Approach". IEEE Transactions on Neural Networks. 8 (1): 98–113. CiteSeerX 10.1.1.92.5813. doi:10.1109/72.554195. PMID 18255614. S2CID 2883848.
- ^ "ImageNet Large Scale Visual Recognition Competition 2014 (ILSVRC2014)". Archived from the original on 5 February 2016. Retrieved 30 January 2016.
- ^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going deeper with convolutions". IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7–12, 2015. IEEE Computer Society. pp. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.
- ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C.; Fei-Fei, Li (2014). "Image Net Large Scale Visual Recognition Challenge". arXiv:1409.0575 [cs.CV].
- ^ "The Face Detection Algorithm Set To Revolutionize Image Search". Technology Review. February 16, 2015. Archived from the original on 20 September 2020. Retrieved 27 October 2017.
- ^ Baccouche, Moez; Mamalet, Franck; Wolf, Christian; Garcia, Christophe; Baskurt, Atilla (2011-11-16). "Sequential Deep Learning for Human Action Recognition". In Salah, Albert Ali; Lepri, Bruno (eds.). Human Behavior Unterstanding. Lecture Notes in Computer Science. Vol. 7065. Springer Berlin Heidelberg. pp. 29–39. CiteSeerX 10.1.1.385.4740. doi:10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
- ^ Ji, Shuiwang; Xu, Wei; Yang, Ming; Yu, Kai (2013-01-01). "3D Convolutional Neural Networks for Human Action Recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1): 221–231. CiteSeerX 10.1.1.169.4046. doi:10.1109/TPAMI.2012.59. ISSN 0162-8828. PMID 22392705. S2CID 1923924.
- ^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (2018). "Video-based Sign Language Recognition without Temporal Segmentation". arXiv:1801.10111 [cs.CV].
- ^ 카르파시, 안드레이 등. "컨볼루션 신경망을 이용한 대규모 비디오 분류, Wayback Machine에서 아카이브 2019-08-06." 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스(CVPR). 2014.
- ^ Simonyan, Karen; Zisserman, Andrew (2014). "Two-Stream Convolutional Networks for Action Recognition in Videos". arXiv:1406.2199 [cs.CV]. (2014).
- ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensors. 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447. Archived (PDF) from the original on 2021-03-01. Retrieved 2018-09-14.
- ^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, Gang (2018). "Joint Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation". 2018 25th IEEE International Conference on Image Processing (ICIP). 25th IEEE International Conference on Image Processing (ICIP). pp. 918–922. doi:10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
- ^ Taylor, Graham W.; Fergus, Rob; LeCun, Yann; Bregler, Christoph (2010-01-01). Convolutional Learning of Spatio-temporal Features. Proceedings of the 11th European Conference on Computer Vision: Part VI. ECCV'10. Berlin, Heidelberg: Springer-Verlag. pp. 140–153. ISBN 978-3-642-15566-6. Archived from the original on 2022-03-31. Retrieved 2022-03-31.
- ^ Le, Q. V.; Zou, W. Y.; Yeung, S. Y.; Ng, A. Y. (2011-01-01). "Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis". CVPR 2011. CVPR '11. Washington, DC, USA: IEEE Computer Society. pp. 3361–3368. CiteSeerX 10.1.1.294.5948. doi:10.1109/CVPR.2011.5995496. ISBN 978-1-4577-0394-2. S2CID 6006618.
- ^ Grefenstette, Edward; Blunsom, Phil; de Freitas, Nando; Hermann, Karl Moritz (2014-04-29). "A Deep Architecture for Semantic Parsing". arXiv:1404.7296 [cs.CL].
- ^ Mesnil, Gregoire; Deng, Li; Gao, Jianfeng; He, Xiaodong; Shen, Yelong (April 2014). "Learning Semantic Representations Using Convolutional Neural Networks for Web Search – Microsoft Research". Microsoft Research. Archived from the original on 2017-09-15. Retrieved 2015-12-17.
- ^ Kalchbrenner, Nal; Grefenstette, Edward; Blunsom, Phil (2014-04-08). "A Convolutional Neural Network for Modelling Sentences". arXiv:1404.2188 [cs.CL].
- ^ Kim, Yoon (2014-08-25). "Convolutional Neural Networks for Sentence Classification". arXiv:1408.5882 [cs.CL].
- ^ 콜로버트, 로넌, 제이슨 웨스턴. "자연어 처리를 위한 통합 아키텍처: 멀티태스킹 학습이 가능한 심층 신경망 2019-09-04 Achared at Wayback Machine"제25회 기계학습 국제학술대회 개최 현황. ACM, 2008.
- ^ Collobert, Ronan; Weston, Jason; Bottou, Leon; Karlen, Michael; Kavukcuoglu, Koray; Kuksa, Pavel (2011-03-02). "Natural Language Processing (almost) from Scratch". arXiv:1103.0398 [cs.LG].
- ^ Yin, W; Kann, K; Yu, M; Schütze, H (2017-03-02). "Comparative study of CNN and RNN for natural language processing". arXiv:1702.01923 [cs.LG].
- ^ Bai, S.; Kolter, J.S.; Koltun, V. (2018). "An empirical evaluation of generic convolutional and recurrent networks for sequence modeling". arXiv:1803.01271 [cs.LG].
- ^ Gruber, N. (2021). "Detecting dynamics of action in text with a recurrent neural network". Neural Computing and Applications. 33 (12): 15709–15718. doi:10.1007/S00521-021-06190-5. S2CID 236307579.
- ^ Haotian, J.; Zhong, Li; Qianxiao, Li (2021). "Approximation Theory of Convolutional Architectures for Time Series Modelling". International Conference on Machine Learning. arXiv:2107.09355.
- ^ Ren, Hansheng; Xu, Bixiong; Wang, Yujing; Yi, Chao; Huang, Congrui; Kou, Xiaoyu; Xing, Tony; Yang, Mao; Tong, Jie; Zhang, Qi (2019). Time-Series Anomaly Detection Service at Microsoft Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. arXiv:1906.03821. doi:10.1145/3292500.3330680. S2CID 182952311.
- ^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). "AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery". arXiv:1510.02855 [cs.LG].
- ^ Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas; Lipson, Hod (2015-06-22). "Understanding Neural Networks Through Deep Visualization". arXiv:1506.06579 [cs.CV].
- ^ "Toronto startup has a faster way to discover effective medicines". The Globe and Mail. Archived from the original on 2015-10-20. Retrieved 2015-11-09.
- ^ "Startup Harnesses Supercomputers to Seek Cures". KQED Future of You. 2015-05-27. Archived from the original on 2018-12-06. Retrieved 2015-11-09.
- ^ Chellapilla, K; Fogel, DB (1999). "Evolving neural networks to play checkers without relying on expert knowledge". IEEE Trans Neural Netw. 10 (6): 1382–91. doi:10.1109/72.809083. PMID 18252639.
- ^ Chellapilla, K.; Fogel, D.B. (2001). "Evolving an expert checkers playing program without using human expertise". IEEE Transactions on Evolutionary Computation. 5 (4): 422–428. doi:10.1109/4235.942536.
- ^ Fogel, David (2001). Blondie24: Playing at the Edge of AI. San Francisco, CA: Morgan Kaufmann. ISBN 978-1558607835.
- ^ Clark, Christopher; Storkey, Amos (2014). "Teaching Deep Convolutional Neural Networks to Play Go". arXiv:1412.3409 [cs.AI].
- ^ Maddison, Chris J.; Huang, Aja; Sutskever, Ilya; Silver, David (2014). "Move Evaluation in Go Using Deep Convolutional Neural Networks". arXiv:1412.6564 [cs.LG].
- ^ "AlphaGo – Google DeepMind". Archived from the original on 30 January 2016. Retrieved 30 January 2016.
- ^ Bai, Shaojie; Kolter, J. Zico; Koltun, Vladlen (2018-04-19). "An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling". arXiv:1803.01271 [cs.LG].
- ^ Yu, Fisher; Koltun, Vladlen (2016-04-30). "Multi-Scale Context Aggregation by Dilated Convolutions". arXiv:1511.07122 [cs.CV].
- ^ Borovykh, Anastasia; Bohte, Sander; Oosterlee, Cornelis W. (2018-09-17). "Conditional Time Series Forecasting with Convolutional Neural Networks". arXiv:1703.04691 [stat.ML].
- ^ Mittelman, Roni (2015-08-03). "Time-series modeling with undecimated fully convolutional neural networks". arXiv:1508.00317 [stat.ML].
- ^ Chen, Yitian; Kang, Yanfei; Chen, Yixiong; Wang, Zizhuo (2019-06-11). "Probabilistic Forecasting with Temporal Convolutional Neural Network". arXiv:1906.04397 [stat.ML].
- ^ Zhao, Bendong; Lu, Huanzhang; Chen, Shangfeng; Liu, Junliang; Wu, Dongya (2017-02-01). "Convolutional neural networks for time series classi". Journal of Systems Engineering and Electronics. 28 (1): 162–169. doi:10.21629/JSEE.2017.01.18.
- ^ Petneházi, Gábor (2019-08-21). "QCNN: Quantile Convolutional Neural Network". arXiv:1908.07978 [cs.LG].
- ^ Hubert Mara (2019-06-07), HeiCuBeDa Hilprecht – Heidelberg Cuneiform Benchmark Dataset for the Hilprecht Collection (in German), heiDATA – institutional repository for research data of Heidelberg University, doi:10.11588/data/IE8CCN
- ^ Hubert Mara and Bartosz Bogacz (2019), "Breaking the Code on Broken Tablets: The Learning Challenge for Annotated Cuneiform Script in Normalized 2D and 3D Datasets", Proceedings of the 15th International Conference on Document Analysis and Recognition (ICDAR) (in German), Sydney, Australien, pp. 148–153, doi:10.1109/ICDAR.2019.00032, ISBN 978-1-7281-3014-9, S2CID 211026941
- ^ Bogacz, Bartosz; Mara, Hubert (2020), "Period Classification of 3D Cuneiform Tablets with Geometric Neural Networks", Proceedings of the 17th International Conference on Frontiers of Handwriting Recognition (ICFHR), Dortmund, Germany
- ^ 기하학적 신경망을 이용한 3차원 설형태블릿의 주기분류에 관한 ICFHR 논문 발표
- ^ 두르조이 센 마이트라; Ujjwal Bhattacharya; S.K. Parui, "여러 스크립트의 필기 문자 인식에 대한 CNN 기반 공통 접근 방식" Wayback Machine에서 아카이브된 2023-10-16, ICDAR(Document Analysis and Recognition), 2015 제13차 국제 회의, vol., no., pp.1021–1025, 2015년 8월 23-26일
- ^ "NIPS 2017". Interpretable ML Symposium. 2017-10-20. Archived from the original on 2019-09-07. Retrieved 2018-09-12.
- ^ Zang, Jinliang; Wang, Le; Liu, Ziyi; Zhang, Qilin; Hua, Gang; Zheng, Nanning (2018). "Attention-Based Temporal Weighted Convolutional Neural Network for Action Recognition". Artificial Intelligence Applications and Innovations. IFIP Advances in Information and Communication Technology. Vol. 519. Cham: Springer International Publishing. pp. 97–108. arXiv:1803.07179. doi:10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN 1868-4238. S2CID 4058889.
- ^ Wang, Le; Zang, Jinliang; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-06-21). "Action Recognition by an Attention-Aware Temporal Weighted Convolutional Neural Network" (PDF). Sensors. 18 (7): 1979. Bibcode:2018Senso..18.1979W. doi:10.3390/s18071979. ISSN 1424-8220. PMC 6069475. PMID 29933555. Archived (PDF) from the original on 2018-09-13. Retrieved 2018-09-14.
- ^ Ong, Hao Yi; Chavez, Kevin; Hong, Augustus (2015-08-18). "Distributed Deep Q-Learning". arXiv:1508.04186v2 [cs.LG].
- ^ Mnih, Volodymyr; et al. (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. S2CID 205242740.
- ^ Sun, R.; Sessions, C. (June 2000). "Self-segmentation of sequences: automatic formation of hierarchies of sequential behaviors". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 30 (3): 403–418. CiteSeerX 10.1.1.11.226. doi:10.1109/3477.846230. ISSN 1083-4419. PMID 18252373.
- ^ "Convolutional Deep Belief Networks on CIFAR-10" (PDF). Archived (PDF) from the original on 2017-08-30. Retrieved 2017-08-18.
- ^ Lee, Honglak; Grosse, Roger; Ranganath, Rajesh; Ng, Andrew Y. (1 January 2009). "Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations". Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 609–616. CiteSeerX 10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN 9781605585161. S2CID 12008458.
- ^ Cade Metz (May 18, 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired. Archived from the original on January 13, 2018. Retrieved March 6, 2017.
외부 링크
- CS231n: 시각 인식을 위한 컨볼루션 신경망 — 컴퓨터 비전 분야의 CNN에 대한 Andrej Karpathy의 스탠포드 컴퓨터 과학 과정