대혼란 건축
Pandemonium architecture![]() |
대혼란 건축은 인지과학에서 시각적인 이미지가 뇌에 의해 어떻게 처리되는지를 설명하는 이론이다.그것은 인공지능과 패턴 인식에 응용된다.이 이론은 인공지능의 선구자 올리버 셀프리지에 의해 1959년에 개발되었다.그것은 물체 인식 과정을 서로에게 신호를 보내는 은유적인 "데몬" 세트에 의한 검출과 연관성의 계층적 시스템으로서 설명한다.이 모델은 현재 인지과학에서 시각지각의 기초로 인식되고 있다.
대혼란 아키텍처는 이미지 항상성 현상에 대한 생물학적으로 그럴듯한 설명을 제공하는 템플릿 매칭 이론의 무능함에 대응하여 생겨났다.현대[when?] 연구자들은 이 아키텍처의 엘레간함과 창의성을 높이 평가합니다. 패턴 인식의 이미지 항상성 현상을 해결하기 위해 여러 개의 독립 시스템(예: 특징 검출기)이 병렬로 작동한다는 아이디어는 강력하지만 단순합니다.대혼란 건축의 기본 개념은 패턴이 "전체"[1]보다 먼저 인식된다는 것입니다.
대혼란 아키텍처는 패턴 인식의 첫 번째 계산 모델 중 하나였습니다.완벽하지는 않지만, 대혼란 건축은 현대 연결주의,[2] 인공지능, 단어 인식 모델의 발전에 영향을 미쳤다.
역사
지각에 대한 대부분의 연구는 우리가 사물을 어떻게 보고 이해하는지에 대한 메커니즘을 조사하면서 시각 시스템에 집중되어 왔다.우리 시각 시스템의 중요한 기능은 패턴을 인식하는 능력이지만, 이것이 달성되는 메커니즘은 [3]불분명합니다.
우리가 패턴을 어떻게 인식하는지 설명하려고 했던 최초의 이론은 템플릿 매칭 모델이다.이 모델에 따르면, 우리는 모든 외부 자극을 내부의 정신적 표현과 비교한다.인식된 자극과 내부 표현 사이에 "충분한" 중복이 있는 경우, 우리는 자극을 "인식"할 것이다.일부 기계는 템플릿 일치 모델(예: 서명과 회계 번호를 확인하는 은행 기계)을 따르지만, 이 이론은 이미지 항상성의 현상을 설명하는 데 결정적인 결함이 있다. 우리는 표현 형태의 변화에 관계없이 자극을 쉽게 인식할 수 있다(예: T와 T는 둘 다 문자 T로 쉽게 인식된다).). 모든 [4]패턴의 모든 변형에 대해 저장된 템플릿이 있을 가능성은 거의 없습니다.
템플릿 매칭 모델에 대한 생물학적 타당성 비판의 결과로 특징 검출 모델이 상승하기 시작했습니다.특징 검출 모델에서는, 화상이 전체 오브젝트로 인식되기 전에, 우선 그 기본적인 개별 요소에서 인식된다.예를 들어 알파벳 A를 제시하면 먼저 짧은 수평선과 두 개의 기울어진 긴 대각선을 볼 수 있습니다.그런 다음 특징을 조합하여 A의 인식을 완성합니다.각 고유한 패턴은 서로 다른 기능 조합으로 구성됩니다. 즉, 동일한 기능으로 구성된 패턴도 동일한 인식을 생성합니다.즉, 문자 A를 회전시키는 방법에 관계없이 문자 A로 인식됩니다.이러한 종류의 아키텍처는 이미지 항상성 현상을 설명하기가 쉽습니다.이는 제한적이고 유한하다고 생각되는 기본적인 기능 수준에서만 "일치"하면 되기 때문입니다.따라서 생물학적으로도 그럴듯합니다.가장 잘 알려진 특징 검출 모델은 대혼란 [4]아키텍처라고 불립니다.
대혼란 건축
대혼란 건축물은 원래 1950년대 말에 올리버 셀프리지에 의해 개발되었다.아키텍처는 시각 자극을 처리하기 위해 독립적으로 작동하는 다른 그룹의 "데몬"으로 구성됩니다.악마의 각 그룹은 인식에 따라 특정 단계에 할당되며, 각 그룹 내에서 악마는 병렬로 작동합니다.원래 [3]건축에는 네 개의 주요 악마 그룹이 있다.
단계. | 악마명 | 기능. |
---|---|---|
1 | 이미지 데몬 | 망막에 수신된 이미지를 기록합니다. |
2 | 피처 데몬 | 많은 특징의 악마가 있으며, 각각은 특정 특징을 나타냅니다.예를 들어, 짧은 직선에 대한 피쳐 데몬과 곡선 등에 대한 피쳐 데몬이 있습니다.각각의 기능 악마의 역할은 대응하는 기능을 검출했을 경우에 「엘」하는 것입니다.특징의 악마는 특정 뉴런을 나타내는 것이 아니라 비슷한 기능을 가진 뉴런 그룹을 나타내는 것을 의미합니다.예를 들어 수직선 특징 데몬은 망막상에서의 수직선에 반응하는 뉴런을 나타내기 위해 사용된다. |
3 | 인지 악마 | 피처 데몬의 "벨소리"를 보세요.각 인지 악마는 특정 패턴(예: 알파벳의 문자)에 대해 책임을 집니다.인지 악마의 "소리"는 그들의 패턴 중 얼마나 많은 것이 특징적인 악마에 의해 감지되었는가에 기초한다.인지 악마들이 그들의 패턴과 일치하는 특징을 더 많이 찾을수록, 그들은 "소리"를 더 크게 지릅니다.예를 들어 곡선의 길고 긴 직선과 짧은 각선 특징의 악마가 매우 크게 소리친다면 R자 인지 악마는 매우 흥분하고 P자 인지 악마는 다소 흥분할 수 있지만 Z자 인지 악마는 조용할 가능성이 매우 높습니다. |
4 | 결정의 악마 | 처리의 마지막 단계를 나타냅니다.그것은 인지적 악마가 만들어내는 "벨소리"를 듣는다.가장 시끄러운 인지 악마를 골라내는 거야선택된 악마는 우리의 의식적인 지각이 된다.앞의 예와 마찬가지로, R 인지 악마는 가장 큰 소리로 P에 의해 보조되므로 R을 인식할 수 있지만, 표시 조건이 좋지 않아 실수를 하면(예: 문자가 빠르게 깜박이거나 부분이 가려지는 경우), P일 가능성이 높다. '판데모늄'은 단순히 시스템에 의해 생성된 누적 '벨링'을 나타냅니다. |
특수 처리를 수행하기 위한 특정 뉴런이 있다는 특징적 악마의 개념은 신경과학 연구에 의해 뒷받침된다.Hubel과 Wiesel은 고양이의 뇌에서 선의 특정 길이와 방향에 반응하는 특정 세포가 있다는 것을 발견했다.비슷한 발견들이 개구리, 문어, 그리고 다른 다양한 동물들에서 발견되었다.문어는 선의 수직성에만 민감한 것으로 밝혀진 반면 개구리는 더 넓은 범위의 민감성을 보였다.이러한 동물 실험은 특징 탐지기가 매우 원시적인 발전인 것처럼 보인다는 것을 보여준다.즉, 그것은 인간의 높은 인지 발달에서 비롯된 것이 아니다.놀랄 것도 없이, 인간의 뇌가 이러한 기본적인 특징 감지기를 [5][6][7]가지고 있다는 증거도 있다.
더욱이, 이 아키텍처는 역전파 스타일의 신경 네트워크와 유사하게 학습할 수 있습니다.인지 악마와 특징 악마 사이의 가중치는 올바른 패턴과 인지 악마로부터의 활성화 사이의 차이에 비례하여 조정될 수 있다.앞의 예를 이어서 말씀드리면, 처음 R을 배웠을 때, 우리는 R이 곡선, 긴 직선, 짧은 각선으로 구성되어 있다는 것을 알고 있습니다.따라서 이러한 특징을 인식할 때 R을 인식할 수 있습니다.단, 문자 P는 매우 유사한 기능으로 구성되어 있기 때문에 학습의 시작 단계에서 이 아키텍처는 R을 P로 잘못 식별하기 쉽습니다.그러나 R로 식별되는 R의 특징을 확인하는 지속적인 노출을 통해 P에 대한 R의 특징의 가중치가 조정되어 P 반응이 억제된다(예: 짧은 각도 선이 검출되었을 때 P 응답을 억제하는 학습).원칙적으로 대혼란 건축은 어떤 [8]패턴도 인식할 수 있다.
앞에서 설명한 바와 같이 이 아키텍처는 중복되는 기능의 양에 따라 오류를 예측합니다.예를 들어, R에 대해 가장 가능성이 높은 오류는 P여야 합니다.따라서 이 아키텍처가 인간 패턴 인식 시스템을 나타내는 것을 보여주기 위해 우리는 이러한 예측을 시험해 보아야 한다.연구자들은 식별하기 어려운 상황에서 다양한 글자가 나타나는 시나리오를 구성했다. 그 후 오류 유형이 관찰되었고, 이는 각 글자의 모든 오류가 기록되는 혼란 행렬을 생성하는 데 사용되었다.일반적으로 이러한 실험의 결과는 대혼란 아키텍처의 오류 예측과 일치했습니다.또한 이러한 실험의 결과로, 일부 연구원들은 로마자로 [9][10][11][12]모든 기본 특징을 나열하려고 시도한 모델들을 제안했다.
비판
대혼란 아키텍처에 대한 주요 비판은 완전히 상향식 처리를 채택하고 있다는 것입니다. 즉, 인식은 전적으로 목표 자극의 물리적 특성에 의해 좌우됩니다.즉, 문맥적 단서가 문맥적 처리를 용이하게 할 수 있는 문맥 효과(예: 단어 우월성 효과: 문자가 고립되어 있는 경우보다 상대적으로 식별하기 쉬운 경우)와 같은 하향식 처리 효과를 설명할 수 없다는 것을 의미합니다.그러나, 이러한 문맥 효과를 설명하기 위해 인지 악마와 함께 작업하기 [13]위해 문맥 악마의 그룹을 추가하는 것은 비교적 쉽기 때문에, 이것은 전체 아키텍처에 치명적인 비판은 아닙니다.
대혼란 아키텍처는 이미지 항상성 현상을 설명할 수 있다는 사실에 기초하고 있지만, 일부 연구자들은 이와 다르게 주장했습니다. 대혼란 아키텍처가 템플릿 매칭 모델에서 동일한 결함을 공유할 수 있다고 지적했습니다.예를 들어 문자 H는 2개의 긴 수직선과 짧은 수평선으로 구성되지만 H를 어느 방향으로든 90도 회전시키면 2개의 긴 수평선과 짧은 수직선으로 구성됩니다.회전된 H를 H로 인식하기 위해서는 회전된 H 인지 악마가 필요합니다.따라서 우리는 정확한 인식을 위해 많은 양의 인지 악마를 필요로 하는 시스템을 갖게 될 것이고, 이는 템플릿 매칭 모델에 대한 동일한 생물학적 타당성 비판을 초래할 것이다.그러나, 대혼란 구조는 들어오는 감각 정보로부터 어떻게 그리고 어떤 특징이 추출되는지를 규정하지 않고 단지 패턴 인식의 가능한 단계를 요약하기 때문에 이 비판의 타당성을 판단하는 것은 다소 어렵다.그러나 물론 그것은 그 자체의 의문을 제기하는데, 이러한 모델에 특정 매개변수가 포함되지 않는다면 비판하는 것은 거의 불가능하다.또한, 이 이론은 추출되는 방법과 특징을 정의하지 않으면 다소 불완전한 것으로 보이며, 이는 복잡한 패턴(예: [3][14]개의 몸무게와 특징을 추출하는 것)에 특히 문제가 있음을 증명한다.
일부 연구자들은 또한 대혼란 건축을 뒷받침하는 증거가 그 방법론에서 매우 좁다고 지적했다.이 아키텍처를 지원하는 연구의 대부분은 종종 작은 유한 집합(예: 로마 알파벳의 문자)에서 선택된 단순한 도식 도면을 인식할 수 있는 능력을 언급했습니다.복잡한 3차원 패턴의 인식 과정은 단순한 도식과는 매우 다를 수 있기 때문에 이러한 유형의 실험의 증거는 지나치게 일반화되고 잘못된 결론을 초래할 수 있다.또한 일부에서는 혼란 행렬을 생성하는 데 사용된 방법론을 비판하고 있는데, 이는 지각적 혼란(오차와 정답 사이의 중복된 특징에 의해 발생하는 식별 오류)과 사후 지각적 추측(본 것을 확신할 수 없기 때문에 무작위로 추측)을 혼동하기 때문이다.그러나 이러한 비판은 유사한 결과가 다른 패러다임(예: 합격/불합격 및 동일 다른 작업)과 복제되었을 때 어느 정도 다루어졌으며, 이는 인간이 기본 특징 검출기를 가지고 있다는 주장을 뒷받침한다.이러한 새로운 패러다임은 의존 변수로 반응 시간에 의존했으며, 이는 또한 혼란 행렬에 내재된 빈 셀의 문제를 피했다(데이터에 [7]빈 셀이 있을 경우 통계 분석을 수행하고 해석하기 어렵다).
또한, 일부 연구자들은 대혼란 아키텍처와 같은 특징 축적 이론이 패턴 인식의 처리 단계를 거의 거꾸로 가지고 있다고 지적했습니다.이 비판은 주로 지구 대 지역 이론의 지지자들에 의해 사용되었는데, 그들은 지각이 시간외를 정제하는 전체의 흐릿한 시각에서 시작된다는 증거를 제시했고,[15] 이는 인식의 초기 단계에서 특징 추출이 일어나지 않는다는 것을 의미한다.그러나 악마가 글로벌 패턴 내의 로컬 패턴을 인식하는 것과 병행하여 글로벌 패턴을 인식하는 것을 막을 수 있는 것은 아무것도 없다.
응용 프로그램 및 영향
대혼란 아키텍처는 손으로 보낸 모스 부호를 번역하고 손으로 인쇄한 문자를 식별하는 것과 같은 몇 가지 실제 문제를 해결하기 위해 적용되었습니다.시스템에 짧은 학습 기간이 주어지더라도 대혼란 기반 모델의 전반적인 정확성은 인상적입니다.예를 들어, Doyle은 30명 이상의 복잡한 특징 분석가들로 대혼란 기반 시스템을 구축했습니다.그리고 나서 그는 학습용으로 그의 시스템에 수백 통의 편지를 보냈다.이 단계에서 시스템은 입력된 문자를 분석하여 자체 출력을 생성했습니다(시스템에 의해 식별되는 문자).시스템으로부터의 출력을 올바른 식별과 비교했습니다.이것에 의해, 에러 신호가 시스템에 되돌려져, 피쳐 아나라이저간의 가중치를 적절히 조정합니다.테스트 단계에서는 익숙하지 않은 문자(학습 단계에서 제시된 문자와는 다른 스타일과 크기)가 제시되어 시스템은 거의 90%의 정확도를 달성할 수 있었다.단어를 인식하는 인상적인 능력 때문에, 인간이 단어를 읽고 인식하는 방법에 대한 모든 현대 이론들은 이 계층 구조를 따른다: 단어 인식은 글자의 특징 추출에서 시작하여 문자[16] 감지기를 작동시킨다(예: SOLAR,[17] SERIOL,[18] IA,[19] DRC[20]).
본래의 대혼란 건축에 기초하여, 존 잭슨은 인지할 수 없는 현상을 설명하기 위해 이론을 확장했다.잭슨은 "의식"을 설명하기 위해 경기장을 비유했다.그의 경기장은 스탠드, 경기장, 서브아레나로 구성되어 있었다.경기장에는 많은 악마가 살고 있었다.운동장에서 지정된 악마는 인간의 의식의 능동적인 요소를 나타내는 능동적인 악마였다.관중석에 있는 악마는 경기장에 있는 악마를 무언가가 흥분할 때까지 지켜본다.각 악마는 다른 것에 흥분한다.악마가 흥분하면 할수록 더 큰 소리를 지른다.만약 악마가 정해진 문턱을 넘으면, 그것은 다른 악령들과 함께 운동장에서 그 기능을 수행하게 되고, 그러면 다른 악령들이 흥분하게 될 것이고, 이 순환은 계속된다.유추의 하위 아레나는 시스템의 학습 및 피드백 메커니즘으로 기능합니다.이 학습 시스템은 다른 신경 네트워크와 비슷합니다.이것은 악마의 연결 강도를 수정하는 것입니다.즉, 악마가 서로의 고함소리에 어떻게 반응하는지를 통해서입니다.인간 정보 처리에 대한 이러한 다중 에이전트 접근법은 많은 현대 인공지능 [21][22]시스템의 가정이 되었다.
비교
템플릿 매칭 이론과의 비교
대혼란 아키텍처는 템플릿 매칭 이론에 대한 주요 비판에 대처하기 위한 반응으로 발생했지만, 두 가지는 실제로 어떤 의미에서는 다소 유사하다: 항목에 대한 특정 특징 집합이 일종의 정신적 표현에 대해 매칭되는 과정이 있다.두 가지 중요한 차이점은 템플릿 일치 이론의 내부 표현과 이미지가 직접 비교되는 반면, 대혼란 아키텍처에서는 이미지가 먼저 피처 수준에서 확산 및 처리된다는 것입니다.이것은 아수라장 건축물에 엄청난 힘을 부여했습니다. 왜냐하면 그것은 크기, 스타일, 그리고 다른 변화에도 불구하고 무한한 패턴 기억의 추정 없이 자극을 인식할 수 있기 때문입니다.또한 템플릿 매칭 이론이 사실적인 시각적 입력에 직면했을 때 제대로 기능할 가능성은 낮다. 여기서 물체는 3차원으로 제시되고 종종 다른 물체에 의해 가려진다(예: 책의 절반은 종이로 가려지지만 우리는 여전히 비교적 쉽게 책으로 인식할 수 있다).그럼에도 불구하고 일부 연구자들은 두 이론을 비교하는 실험을 했다.당연히 결과는 대혼란 [23][24][25]아키텍처와 같은 계층적 기능 구축 모델을 선호했습니다.
헤비안 패턴 인식과의 비교
헤비안 모델은 많은 면에서 대혼란 아키텍처와 같은 기능 지향 이론과 유사합니다.헤비안 모델의 첫 번째 처리 수준은 셀 어셈블리라고 불리며, 이는 특징적인 악마와 매우 유사한 기능을 가지고 있습니다.그러나 셀 어셈블리는 선, 각도 및 윤곽만 추출할 수 있기 때문에 특징의 악마보다 더 제한적입니다.세포 집합체는 위상 시퀀스를 형성하기 위해 결합되며, 이는 인지 악마의 기능과 매우 유사합니다.어떤 의미에서는 헤비안 모델에서 추출된 특징이 단순한 [8]템플릿으로 간주될 수 있기 때문에 많은 사람들이 헤비안 모델을 템플릿과 특징 일치 이론 사이의 교차로 간주한다.
「 」를 참조해 주세요.
레퍼런스
- ^ Anderson, James A.; Rosenfeld, Edward (1988). Neurocomputing (2nd print ed.). Cambridge, Mass.: MIT Press. ISBN 978-0262010979.
- ^ Gernsbacher, Morton Ann (1998). Handbook of psycholinguistics ([Nachdr.] ed.). San Diego, Calif. [u.a.]: Academic Press. ISBN 978-0-12-280890-6.
- ^ a b c d Lindsay, Peter H.; Norman, Donald A. (1977). Human Information Processing (2nd ed.). New York: Academic Press. ISBN 978-0124509603.
- ^ a b Friedenberg, Jay; Silverman, Gordon (2011-07-14). Cognitive Science: An introduction to the study of mind (2nd ed.). Thousand Oaks, Calif.: SAGE. ISBN 9781412977616.
- ^ Sutherland, Stuart (1957). "Visual Discrimination of Shape by Octopus". British Journal of Psychology. 48 (1): 55–70. doi:10.1111/j.2044-8295.1957.tb00599.x. PMID 13413184.
- ^ Lettvin, J.; Maturana, H.; McCulloch, W.; Pitts, W. (1 November 1959). "What the Frog's Eye Tells the Frog's Brain". Proceedings of the IRE. 47 (11): 1940–1951. doi:10.1109/JRPROC.1959.287207. S2CID 8739509.
- ^ a b Grainger, Jonathan; Rey, Arnaud; Dufau, Stéphane (1 October 2008). "Letter perception: from pixels to pandemonium". Trends in Cognitive Sciences. 12 (10): 381–387. doi:10.1016/j.tics.2008.06.006. PMID 18760658. S2CID 33570133.
- ^ a b Neisser, Ulric (1967). Cognitive Psychology. New York: Appleton-Century-Crofts.
Neisser, Ulric.
- ^ Kinney, Glenn; Marsetta, Marion; Showman, Diana (1966). Studies of Display Symbol Legibility, Part XII: The legibility of alphanumeric symbols for digitalized television. Bedford, Mass: The Mitre Corporation.
- ^ Gibson, Eleanor J. (1969). Principles of Perceptual Learning and Development. New York: Appleton-Century-Crofts. ISBN 9780390361455.
- ^ Geyer, L. H.; DeWald, C. G. (1 October 1973). "Feature lists and confusion matrices". Perception & Psychophysics. 14 (3): 471–482. doi:10.3758/BF03211185.
- ^ Keren, Gideon; Baggen, Stan (1 May 1981). "Recognition models of alphanumeric characters". Perception & Psychophysics. 29 (3): 234–246. doi:10.3758/BF03207290. PMID 7267275.
- ^ Reicher, Gerald M. (1 January 1969). "Perceptual recognition as a function of meaningfulness of stimulus material". Journal of Experimental Psychology. 81 (2): 275–280. doi:10.1037/h0027768. PMID 5811803.
- ^ Minsky, Marvin Lee; Papert, Seymour (1969). Perceptrons: An introduction to computational geometry (2nd print. with corr. ed.). Cambridge, Mass.: MIT Press. ISBN 978-0262630221.
- ^ Lupker, Stephen J. (1 July 1979). "On the nature of perceptual information during letter perception". Perception & Psychophysics. 25 (4): 303–312. doi:10.3758/BF03198809. PMID 461090.
- ^ Doyle, W (1960). Recognition of sloppy, hand-printed characters. San Francisco, California: Proc. West Joint Computer Conference.
- ^ Davis, Colin J. (1 January 2010). "The spatial coding model of visual word identification". Psychological Review. 117 (3): 713–758. doi:10.1037/a0019738. hdl:1983/13ad570a-3690-4a6e-9b4d-d88b6f94b9fc. PMID 20658851.
- ^ Whitney, Carol (1 June 2001). "How the brain encodes the order of letters in a printed word: The SERIOL model and selective literature review". Psychonomic Bulletin & Review. 8 (2): 221–243. doi:10.3758/BF03196158. PMID 11495111.
- ^ McClelland, James L.; Rumelhart, David E. (1 January 1981). "An interactive activation model of context effects in letter perception: I. An account of basic findings". Psychological Review. 88 (5): 375–407. doi:10.1037/0033-295X.88.5.375.
- ^ Coltheart, Max; Rastle, Kathleen; Perry, Conrad; Langdon, Robyn; Ziegler, Johannes (1 January 2001). "DRC: A dual route cascaded model of visual word recognition and reading aloud". Psychological Review. 108 (1): 204–256. doi:10.1037/0033-295X.108.1.204. PMID 11212628.
- ^ Jackson, John (July 1987). "Idea for a Mind". Sigart Newsletter.
- ^ Ntuen, Celestine A.; Park, Eui H. (1996). Human interactions with complex systems: Conceptual principles and design practice. Springer. ISBN 978-0792397793.
- ^ Gibson, J (May 1965). "Learning to Read". Science. 148 (3673): 1066–1072. Bibcode:1965Sci...148.1066G. doi:10.1126/science.148.3673.1066. PMID 14289608. S2CID 64642620.
- ^ Wheeler, Daniel D (1 January 1970). "Processes in word recognition". Cognitive Psychology. 1 (1): 59–85. doi:10.1016/0010-0285(70)90005-8. hdl:2027.42/32833.
- ^ Larsen, Axel; Bundesen, Claus (1 March 1996). "A template-matching pandemonium recognizes unconstrained handwritten characters with high accuracy". Memory & Cognition. 24 (2): 136–143. doi:10.3758/BF03200876. PMID 8881318.