검색 엔진 테크놀로지
Search engine technology![]() |
검색 엔진은 사용자의 [1]쿼리에 응답하여 검색 및 프레젠테이션을 위한 정보를 검색, 크롤, 변환 및 저장하는 정보 검색 소프트웨어 프로그램입니다.
검색 엔진은 일반적으로 검색 인터페이스, 크롤러(스파이더 또는 봇이라고도 함), 인덱서 및 데이터베이스의 네 가지 구성 요소로 구성됩니다.크롤러는 문서 컬렉션을 이동하고, 문서 텍스트를 재구성하고, 검색 엔진 인덱스에 저장하기 위한 대용품을 할당합니다.온라인 검색 엔진에는 문서의 이미지, 링크 데이터 및 메타데이터도 저장됩니다.
검색 테크놀로지의 역사
![]() | 이 섹션은 비어 있습니다.추가가 가능합니다. (2014년 7월) |
메멕스
![]() | 이 섹션에는 특정 청중만 관심을 가질 수 있는 지나치게 복잡한 세부 정보가 포함될 수 있습니다.특히 하이퍼텍스트 기반 검색 순위는 검색 기술의 일부에 적용됩니다. Memex의 이력 및 구현에 대한 자세한 내용은 관련이 없습니다.2021년 1월 (이 를 에 대해 설명합니다) |
하이퍼텍스트와 기억력 확장의 개념은 1945년 7월 바네바 부시가 쓴 Atlantic Monthly에 실린 "As We May Think"라는 제목의 기사에서 비롯되었다.이 글에서 Vannevar는 과학자들이 모든 인류를 위한 지식의 본체를 만드는 것을 돕기 위해 협력할 것을 촉구했다.그리고 그는 사실상 무한하고, 빠르고, 신뢰할 수 있고, 확장 가능한 연상 메모리 스토리지 및 검색 시스템에 대한 아이디어를 제안했습니다.그는 이 장치를 [2]메멕스라고 명명했다.
부시는 "연관 색인" 개념을 그의 핵심 개념적 기여로 여겼다.그가 설명했듯이, 이것은 "어떤 품목이든 마음대로 즉시 다른 항목을 자동으로 선택하게 할 수 있는 조항이었다.이것이 memex의 중요한 기능입니다.두 물건을 묶는 과정이 중요하다.[3]
memex에 사용된 모든 문서는 이와 같이 취득된 마이크로필름 복사 형식이거나, 개인 기록의 경우 기계 자체에 의해 마이크로필름으로 변환됩니다.또한 Memex는 새로운 종류의 관련 인덱스에 기초한 새로운 검색 기술을 채택할 것입니다.기본적인 아이디어는 링크된 문서를 통해 자동으로 다른 항목을 선택하여 개인 "레일"을 만드는 것입니다.부시가 정보 저장과 검색을 용이하게 할 것으로 기대했던 새로운 절차는 완전히 새로운 형태의 백과사전의 개발로 이어질 것이다.
부시 대통령이 구상한 가장 중요한 메커니즘은 연관성의 흔적이다.이는 마이크로필름 프레임의 임의의 시퀀스에 걸쳐 마이크로필름 프레임의 새로운 선형 시퀀스를 작성하는 방법이며, 앞서 설명한 방식으로 링크의 연쇄 시퀀스를 개인 코멘트 및 사이드 트레일과 함께 작성합니다.
1965년 부시는 MIT의 INTREX 프로젝트에 참여하였고, 도서관 사용을 위한 정보 처리를 기계화하는 기술을 개발하였다.1967년 "Memex Revisited"라는 제목의 에세이에서 그는 디지털 컴퓨터, 트랜지스터, 비디오 및 기타 유사한 장치의 개발이 그러한 기계화의 실현 가능성을 높였지만 비용이 그 성과를 [4]지연시킬 것이라고 지적했다.
스마트
1995년 8월 28일 사망한 제라드 살튼은 현대 검색 기술의 아버지였다.하버드와 코넬의 그의 팀은 SMART 정보 검색 시스템을 개발했습니다.Salton의 Magic Automatic Retriever of Text에는 벡터 공간 모델, IDF(Inverse Document Frequency), TF(Term Frequency), 용어 식별 값 및 관련성 피드백 메커니즘과 같은 중요한 개념이 포함되어 있습니다.
그는 56페이지에 달하는 색인화 이론이라는 책을 저술했는데, 이 책은 여전히 검색이 주로 기초하고 있는 그의 많은 테스트에 대해 설명했다.
문자열 검색 엔진
1987년, 8.62x12.76mm 다이 영역에 217,600개의 트랜지스터가 배치된 이중 금속 1.6μm n웰 CMOS 솔리드 스테이트 회로에서 신속한 텍스트 검색을 위한 문자열 검색 엔진(SSE)의 개발에 대한 자세한 기사가 발표되었습니다.SSE는 512 스테이지의 유한 상태 오토마톤(FSA) 로직과 Content Addressable Memory(CAM)를 조합한 새로운 문자열 검색 아키텍처를 수용하여 초당 약 8000만 개의 문자열을 비교했습니다.CAM 셀은 기존의 4개의 스태틱 RAM(SRAM) 셀과 읽기/쓰기 회로로 구성되어 있습니다.길이가 가변인 64개의 저장된 문자열을 50ns에서 1,000만 문자/초의 입력 텍스트 스트림에 대해 동시에 비교함으로써 문자 코드 형태의 단일 문자 오류가 발생하더라도 성능을 향상시킬 수 있습니다.게다가 이 칩은 비앵커 문자열 검색과 가변 길이 '상관 없음' 문자열 [5]검색을 가능하게 했다.
웹 검색 엔진
아치
최초의 웹 검색 엔진은 몬트리올 맥길 대학의 학생인 앨런 엠지(Alan Emage)가 1990년에[6] 만든 아치(Archie)였다.작성자는 원래 이 프로그램을 "archives"라고 부르고 싶었지만 프로그램과 파일을 짧게, grep, cat, troff, sed, awk, perl 등과 같은 암호식 이름을 할당하는 UNIX의 세계 표준에 따라 단축해야 했습니다.
파일 저장 및 검색의 주요 방법은 File Transfer Protocol(FTP)을 사용하는 것이었습니다.이것은 컴퓨터가 인터넷을 통해 파일을 교환하는 일반적인 방법을 지정한 시스템이었고 지금도 마찬가지입니다.다음과 같이 동작합니다.일부 관리자는 컴퓨터에서 파일을 사용할 수 있도록 설정하려고 합니다.그는 FTP 서버라고 불리는 프로그램을 컴퓨터에 설치한다.인터넷상의 누군가가 이 컴퓨터에서 파일을 취득하고 싶을 때, 그 또는 그녀는 FTP 클라이언트라고 불리는 다른 프로그램을 통해 그 컴퓨터에 접속합니다.클라이언트 프로그램과 서버 프로그램이 모두 FTP 프로토콜에 명시된 사양을 완전히 따르는 한 FTP 클라이언트 프로그램은 모든 FTP 서버 프로그램과 연결할 수 있습니다.
처음에 파일을 공유하려면 다른 사용자가 파일을 사용할 수 있도록 FTP 서버를 설정해야 했습니다.나중에 "익명" FTP 사이트가 파일 저장소가 되어 모든 사용자가 파일을 게시하고 검색할 수 있게 되었습니다.
아카이브 사이트를 사용하더라도 여전히 많은 중요한 파일이 작은 FTP 서버에 흩어져 있었습니다.안타깝게도 이 파일들은 입소문과 같은 인터넷에서만 찾을 수 있었습니다. 누군가가 메시지 목록이나 토론 포럼에 파일을 이용할 수 있음을 알리는 이메일을 게시합니다.
아치가 모든 걸 바꿨어이는 익명 FTP 파일의 사이트 목록을 가져오는 스크립트 기반 데이터 수집기와 사용자 쿼리에 일치하는 파일 이름을 검색하기 위한 정규 표현식 매처(matcher)를 결합했습니다. 즉, Archie의 수집기는 인터넷을 통해 FTP 사이트를 검색하여 발견된 모든 파일을 인덱싱했습니다.정규 표현식 매처는 사용자에게 데이터베이스에 [7]대한 액세스를 제공했습니다.
베로니카
1993년 네바다 대학 시스템 컴퓨팅 서비스 그룹은 Veronica를 [6]개발했습니다.이것은 Archie와 비슷하지만 Gopher 파일용 검색 장치로 만들어졌습니다.또 다른 고퍼 검색 서비스인 저그헤드(Jughead)가 잠시 후에 등장했는데, 아마도 만화 삼두정치를 마무리짓기 위한 유일한 목적이었을 것이다.Jughead는 Jonzy의 Universal Gopher Hierarchy Excluvation and Display의 약자이지만, Veronica와 마찬가지로 크리에이터가 약자로 되돌렸다고 가정해도 무방합니다.Jughead의 기능은 Veronica의 기능과 거의 동일하지만 [7]가장자리가 약간 거칠어 보입니다.
외로운 방랑자
1993년[8] 매튜 그레이에 의해 개발된 월드 와이드 웹 방랑자는 웹의 성장을 추적하기 위해 고안된 최초의 로봇이다.Wanderer는 처음에는 웹 서버만 세었지만 도입 직후부터 URL을 캡처하기 시작했다.캡처된 URL 데이터베이스가 최초의 웹 데이터베이스인 Wandex가 되었습니다.
Matthew Gray의 Wanderer는 그 당시에 상당한 논란을 일으켰는데, 그 이유 중 하나는 소프트웨어의 초기 버전이 인터넷을 통해 만연하고 넷 전체의 성능이 현저하게 저하되었기 때문입니다.이 열화는 Wanderer가 하루에 수백 번 같은 페이지에 접속하기 때문에 발생했습니다.'방랑자'는 곧 방식을 수정했지만 로봇이 인터넷에 좋은지 나쁜지에 대한 논란은 여전했다.
The Wandererer에 대응하여 Martijn Koster는 1993년 10월에 Archie-Like Indexing of the Web(ALIWEB)을 만들었습니다.이름에서 알 수 있듯이 ALIWEB은 Archie와 동등한 HTTP였습니다.그 때문에, 아직 많은 점에서 독특합니다.
ALIWEB에는 웹 검색 로봇이 없습니다.대신, 참여 사이트의 웹 마스터는 나열할 각 페이지에 대한 자체 색인 정보를 게시합니다.이 방법의 장점은 사용자가 자신의 사이트를 설명할 수 있고 로봇이 인터넷 대역폭을 소비하지 않는다는 것입니다.유감스럽게도 오늘날 ALIWEB의 단점은 더욱 문제가 되고 있습니다.주요 단점은 특수 인덱싱 파일을 제출해야 한다는 것입니다.대부분의 사용자는 이러한 파일을 작성하는 방법을 이해하지 못하기 때문에 페이지를 제출하지 않습니다.이것에 의해, 데이타베이스의 사이즈가 비교적 작아지기 때문에, 유저는 큰 봇 베이스의 사이트보다 ALIWEB 를 검색할 가능성이 낮아집니다.이 Catch-22는 ALIWEB 검색에 다른 데이터베이스를 포함시킴으로써 다소 상쇄되었지만, 야후나 [7]라이코스 같은 검색 엔진의 매력은 아직 크지 않다.
흥분시키다
처음에 Architext라고 불렸던 Excite는 1993년 2월 6명의 스탠포드 대학생들에 의해 시작되었다.그들의 생각은 인터넷에서 많은 양의 정보를 통해 보다 효율적인 검색을 제공하기 위해 단어 관계에 대한 통계 분석을 사용하는 것이었다.그들의 프로젝트는 1993년 중반까지 전액 자금이 지원되었다.일단 자금이 확보되면.그들은 웹마스터들이 그들 자신의 웹사이트에서 사용할 검색 소프트웨어의 버전을 출시했다.당시 이 소프트웨어는 Architext라고 불렸지만 지금은 Excite for Web [7]Servers라는 이름으로 통합니다.
Excite는 [9]1995년에 출시된 최초의 진지한 상업 검색 엔진이다.스탠포드에서 개발되었으며 @Home에 의해 65억 달러에 구매되었다.2001년 Excite와 @Home은 파산했고 InfoSpace는 1000만 달러에 Excite를 인수했다.
웹 검색의 첫 번째 분석 중 일부는 Excite의 검색[10][11] 로그에서 수행되었습니다.
야후!
1994년 4월, 스탠포드 대학 박사과정 학생인 데이비드 필로와 제리 양이 몇 개의 페이지를 만들었는데, 이것은 꽤 인기를 끌었다.그들은 페이지 모음을 야후라고 불렀다.이름 선택에 대한 그들의 공식적인 설명은 그들이 스스로를 야후 한 쌍이라고 생각했기 때문이다.
링크의 수가 증가하고 페이지가 하루에 수천 건의 조회수를 기록하기 시작하면서, 팀은 데이터를 더 잘 정리할 수 있는 방법을 고안했습니다.데이터 검색을 지원하기 위해 Yahoo!(www.yahoo.com)는 검색 가능한 디렉토리가 되었습니다.검색 기능은 단순한 데이터베이스 검색 엔진이었습니다.야후! 엔트리는 수동으로 입력되고 분류되기 때문에 야후!는 검색 엔진으로 분류되지 않았다.대신 일반적으로 검색 가능한 디렉토리로 간주되었습니다.이후 Yahoo!는 수집 및 분류 프로세스의 일부 측면을 자동화하여 엔진과 디렉토리의 구분을 모호하게 하고 있습니다.
Wanderer는 URL만 캡처했기 때문에 URL로 명확하게 기술되지 않은 것을 찾는 것이 어려웠습니다.URL은 처음에는 다소 비밀스럽기 때문에 일반 사용자에게는 도움이 되지 않았습니다.Yahoo!나 Galaxy를 검색하는 것은 색인화된 사이트에 대한 추가 설명 정보를 포함하고 있기 때문에 훨씬 더 효과적이었다.
라이코스
1994년 7월 카네기 멜론 대학에서, CMU에서 휴학 중인 Michael Mauldin은 라이코스 검색 엔진을 개발했다.
웹 검색 엔진 유형
웹 검색 엔진은 다른 사이트에 저장된 콘텐츠를 검색할 수 있는 기능이 풍부한 사이트입니다.다양한 검색 엔진이 작동하는 방식에 차이가 있지만, 모두 세 가지 기본 [12]작업을 수행합니다.
- 제공된 키워드를 기반으로 전체 또는 부분 콘텐츠 검색 및 선택
- 내용 색인 유지 및 찾은 위치 참조
- 사용자가 해당 색인에 있는 단어 또는 단어의 조합을 찾을 수 있습니다.
이 프로세스는 사용자가 제공된 인터페이스를 통해 시스템에 쿼리 문을 입력하면 시작됩니다.
유형 | 예 | 묘사 |
---|---|---|
종래의 | 라이브러리 카탈로그 | 키워드, 제목, 작성자 등으로 검색 |
텍스트 기반 | 구글, 빙, 야후! | 키워드로 검색합니다.자연어로 된 쿼리를 사용한 제한된 검색. |
음성 베이스 | 구글, 빙, 야후! | 키워드로 검색합니다.자연어로 된 쿼리를 사용한 제한된 검색. |
멀티미디어 검색 | QBIC, WebSeek, Safe | 시각적 외관(쉐이프, 색상 등)으로 검색 |
Q/A | 스택 교환, NSIR | 자연어로 검색(제한) |
클러스터링 시스템 | 비비시모, 클러스터리 | |
리서치 시스템 | 여우원숭이, 너치 |
검색 엔진에는 기본적으로 세 가지 유형이 있습니다.로봇에 의해 구동되는 것(크롤러, 개미 또는 거미)과 인간의 복종에 의해 구동되는 것, 그리고 두 개의 하이브리드인 것.
크롤러 기반 검색 엔진은 자동화된 소프트웨어 에이전트(크롤러라고 함)를 사용하여 웹 사이트를 방문하고, 실제 사이트의 정보를 읽고, 사이트의 메타 태그를 읽으며, 사이트가 연결된 링크를 따라 링크된 모든 웹 사이트에서 인덱싱을 수행하는 것입니다.크롤러는 모든 정보를 중앙 저장소로 되돌리고 여기서 데이터가 인덱싱됩니다.크롤러는 주기적으로 사이트로 돌아가 변경된 정보를 확인합니다.이 빈도는 검색 엔진 관리자가 결정합니다.
인간에 의한 검색 엔진은 나중에 색인화되고 목록화된 정보를 제출하기 위해 사람에게 의존합니다.제출된 정보만 색인에 포함됩니다.
두 경우 모두 검색 엔진에 문의하여 정보를 찾을 때 검색 엔진이 만든 인덱스를 실제로 검색하는 것입니다. 실제로 웹을 검색하는 것은 아닙니다.이러한 인덱스는 수집 및 저장되고 이후 검색되는 정보의 거대한 데이터베이스입니다.이것은 왜 때때로 야후나 구글과 같은 상용 검색 엔진에서 검색하면 사실상 데드링크인 결과가 반환되는지를 설명해준다.검색 결과는 인덱스를 기반으로 하므로 웹 페이지가 유효하지 않게 된 후 인덱스가 업데이트되지 않은 경우 검색 엔진은 페이지가 더 이상 활성 링크가 아니더라도 여전히 활성 링크로 처리합니다.지수가 갱신될 때까지 이 상태가 유지됩니다.
그렇다면 왜 서로 다른 검색 엔진에서 동일한 검색을 하면 서로 다른 결과가 나올까요?이 질문에 대한 답변의 일부는 모든 지수가 완전히 같지는 않을 것이기 때문입니다.그것은 거미가 무엇을 찾거나 인간이 무엇을 제출하느냐에 달려있다.그러나 더 중요한 것은 모든 검색 엔진이 인덱스를 검색하기 위해 동일한 알고리즘을 사용하는 것은 아니라는 것입니다.알고리즘은 검색 엔진이 인덱스에 있는 정보와 사용자가 검색하는 정보의 관련성을 결정하기 위해 사용하는 것입니다.
검색 엔진 알고리즘이 스캔하는 요소 중 하나는 웹 페이지의 키워드 빈도와 위치입니다.일반적으로 주파수가 높은 쪽이 관련성이 높은 것으로 간주됩니다.그러나 검색 엔진 기술은 키워드 채우기, 즉 스팸덱스라고 알려진 것을 막으려는 시도로 정교해지고 있다.
알고리즘이 분석하는 또 다른 공통 요소는 페이지가 웹의 다른 페이지로 연결되는 방법입니다.페이지가 서로 어떻게 링크되는지 분석함으로써 엔진은 페이지의 내용(링크된 페이지의 키워드가 원래 페이지의 키워드와 유사한 경우)과 해당 페이지가 "중요"로 간주되어 순위가 상승할 가치가 있는지 여부를 모두 판단할 수 있습니다.키워드 입력을 무시하는 기술이 점점 더 정교해지고 있는 것처럼, 인위적인 순위를 만들기 위해 자신의 사이트에 인위적인 링크를 구축하는 웹 마스터들에게도 점점 더 익숙해지고 있다.
현대의 웹 검색 엔진은 오랜 세월 동안 발전한 기술을 사용하는 매우 복잡한 소프트웨어 시스템입니다.검색 엔진 소프트웨어에는 특정 '찾아보기' 요구에 개별적으로 적용할 수 있는 여러 하위 범주가 있습니다.여기에는 웹 검색 엔진(예: Google), 데이터베이스 또는 구조화된 데이터 검색 엔진(예: Dieselpoint), 혼합 검색 엔진 또는 엔터프라이즈 검색이 포함됩니다.구글과 야후와 같은 더 널리 사용되는 검색 엔진은 수십만 대의 컴퓨터를 사용하여 수조 개의 웹 페이지를 처리하여 꽤 잘 알려진 결과를 반환합니다.이러한 대량의 쿼리와 텍스트 처리로 인해 소프트웨어는 고도로 분산된 환경에서 실행되어야 하며 불필요한 작업도 많이 필요합니다.
검색엔진의 또 다른 카테고리는 과학적 검색엔진이다.이것들은 과학 문헌을 검색하는 검색 엔진이다.가장 잘 알려진 예는 Google Scholar입니다.연구진은 이론적 구성이나 주요 연구 [13]결과를 추출하는 등 엔진이 기사의 내용 요소를 이해하도록 함으로써 검색 엔진 기술 향상에 힘쓰고 있다.
검색 엔진 카테고리
웹 검색 엔진
웹 페이지, 문서 및 이미지를 검색하도록 특별히 설계된 검색 엔진은 구조화되지 않은 자원의 크고 불분명한 부분을 쉽게 검색할 수 있도록 개발되었습니다.다단계 프로세스를 따르도록 설계되어 있습니다.페이지와 문서의 무한한 저장량을 탐색하여 내용에서 피규어 폼/버즈워드를 추출하고, 폼/버즈워드를 일종의 반구조적 형태(데이터베이스 등)로 인덱싱하고, 마지막으로 사용자 엔트리/쿼리를 해결하여 대부분 관련 있는 결과와 해당 스키된 문서에 대한 링크를 반환합니다.컴포넌트의 문서 또는 페이지를 표시합니다.
기다
전체 텍스트 검색의 경우 웹 페이지를 분류하는 첫 번째 단계는 '검색 용어'와 명시적으로 관련될 수 있는 '색인 항목'을 찾는 것이다.과거에는 검색엔진이 소위 시드리스트라고 불리는 URL의 작은 리스트에서 시작하여 콘텐츠를 가져오고 관련 정보를 얻기 위해 해당 페이지 상의 링크를 구문 분석하여 새로운 링크를 제공했습니다.이 과정은 매우 주기적이었으며 검색자가 사용할 수 있는 충분한 페이지가 발견될 때까지 계속되었습니다.최근에는 시드 리스트에 근거한 부수적인 검출이 아닌 연속적인 크롤 방법이 채용되고 있습니다.크롤 방법은 앞서 언급한 탐색 방법의 확장입니다.시드 리스트가 없다는 것만 빼면요. 시스템이 계속 작동하니까요.
대부분의 검색 엔진은 특정 페이지를 재방문할 시기를 "결정"하여 관련성에 호소하는 정교한 스케줄링 알고리즘을 사용합니다.이러한 알고리즘은 페이지 변경 빈도가 높은 순위의 지속적인 방문 간격에서 변경 빈도, 인기, 사이트 전체의 품질 등 몇 가지 기준에 따른 적응형 방문 간격까지 다양합니다.페이지를 실행하는 웹 서버의 속도와 하드웨어의 양이나 대역폭 등의 자원 제약도 포함됩니다.
링크 맵
웹 크롤에 의해 검색된 페이지는 종종 다른 시스템으로 배포되어 제공되며, 발견된 리소스의 실제 맵을 생성합니다.번치 클러스터 맵은 그래프와 비슷합니다.이 그래프에서는 다른 페이지가 페이지 간의 링크로 연결된 작은 노드로 표시됩니다.과잉 데이터는 여러 데이터 구조에 저장되며, 이는 특정 웹 페이지를 가리키는 링크의 수에 따라 웹 페이지의 인기 점수를 계산하는 특정 알고리즘에 의해 해당 데이터에 빠르게 액세스할 수 있도록 하며, 이는 사람들이 정신병 진단과 관련된 임의의 수의 리소스에 액세스할 수 있는 방법입니다.또 다른 예로는 모하메드 무르시에 대한 정보가 포함된 웹 페이지의 접근성/등급과 단순히 검색어로 '이집트'를 입력한 후 카이로에서 방문하기에 가장 좋은 관광지가 될 것이다.구글의 창업자인 래리 페이지와 세르게이 브린이 제안한 PageRank는 잘 알려져 있으며 구글에서 주제를 제대로 연구할 줄 모르는 학생들에게 제공되는 웹 검색의 반복적인 무질서함을 강조하기 때문에 많은 관심을 끌었다.인기 순위를 계산하기 위해 링크 분석을 하는 아이디어는 PageRank보다 오래되었습니다.같은 아이디어의 다른 변종들도 현재 사용되고 있습니다. 초등학생들도 킥볼 팀을 고를 때 같은 종류의 계산을 합니다.그러나 진지하게 말하면, 이러한 아이디어는 세 가지 주요 범주로 분류될 수 있습니다: 개별 페이지의 순위와 웹사이트 콘텐츠의 특성입니다.검색 엔진은 종종 내부 링크와 외부 링크를 구분합니다. 웹 마스터와 정부들이 뻔뻔한 자기 홍보에 낯선 사람이 아니기 때문입니다.일반적으로 링크 맵 데이터 구조에는 링크에 포함된 앵커 텍스트도 저장됩니다. 앵커 텍스트는 웹 페이지 내용의 "매우 우수한 품질" 요약을 제공할 수 있기 때문입니다.
데이터베이스 검색 엔진
데이터베이스에서 텍스트 기반 컨텐츠를 검색하는 것은 많은 전문 검색 엔진이 번창하는 몇 가지 특별한 문제를 야기합니다.복잡한 쿼리를 해결할 때(복수의 논리 또는 문자열에 일치하는 인수 사용) 데이터베이스가 느려질 수 있습니다.데이터베이스는 전체 텍스트 검색이 사용하지 않는 의사 논리 쿼리를 허용합니다.데이터가 이미 구조화되어 있기 때문에 데이터베이스에 크롤링이 필요하지 않습니다.그러나 보다 신속한 검색을 위해 데이터를 보다 경제적인 형태로 인덱싱해야 하는 경우가 많습니다.
혼합 검색 엔진
검색된 데이터에 데이터베이스 내용과 웹 페이지 또는 문서가 모두 포함될 수 있습니다.검색 엔진 기술은 두 가지 요구 사항에 모두 대응할 수 있도록 발전했습니다.대부분의 혼합 검색 엔진은 구글과 같은 대형 웹 검색 엔진이다.정형 데이터 소스와 비정형 데이터 소스를 모두 검색합니다.예를 들어, '공'이라는 단어를 보자.간단히 말하면 위키피디아에서만 40개 이상의 변형이 반환됩니다.사교 모임이나 춤에서처럼 무도회를 말하는 건가요?축구공이요?발볼이요?페이지 및 문서는 별도의 인덱스로 탐색 및 인덱싱됩니다.데이터베이스는 또한 다양한 소스에서 색인화됩니다.그런 다음 이러한 다중 인덱스를 병렬로 쿼리하고 "규칙"에 따라 결과를 복합하여 사용자에 대한 검색 결과가 생성됩니다.
「 」를 참조해 주세요.
레퍼런스
- ^ "The Seven Ages of Information there are may many ways Retrieval". Retrieved 1 June 2014.
- ^ Yeo, Richard (30 January 2007). "Before Memex: Robert Hooke, John Locke, and Vannevar Bush on External Memory". Science in Context. 20 (1): 21. doi:10.1017/S0269889706001128. hdl:10072/15207. S2CID 2378301.
- ^ Yeo, Richard (30 January 2007). "Before Memex: Robert Hooke, John Locke, and Vannevar Bush on External Memory". Science in Context. 20 (1): 21–47. doi:10.1017/S0269889706001128. hdl:10072/15207. S2CID 2378301The example Bush gives is a quest to find information on the relative merits of the Turkish short bow and the English long bow in the crusades
{{cite journal}}
: CS1 유지보수: 포스트스크립트(링크) - ^ "The MEMEX of Vannevar Bush".
- ^ Yamada, H.; Hirata, M.; Nagai, H.; Takahashi, K. (Oct 1987). "A high-speed string-search engine". IEEE Journal of Solid-State Circuits. IEEE. 22 (5): 829–834. Bibcode:1987IJSSC..22..829Y. doi:10.1109/JSSC.1987.1052819.
- ^ a b Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligent technologies for web applications. Boca Raton: CRC Press. p. 87. ISBN 978-1-4398-7162-1. Retrieved 3 June 2014.
- ^ a b c d "A History of Search Engines". Wiley. Retrieved 1 June 2014.
- ^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligent technologies for web applications. Boca Raton: CRC Press. p. 86. ISBN 978-1-4398-7162-1. Retrieved 3 June 2014.
- ^ "The Major Search Engines". 21 January 2014. Retrieved 1 June 2014.
- ^ 얀센, B. J., 스핑크, A., 베이트만, J. 및 사라체빅, T. 1998.실생활 정보 검색: 웹상의 사용자 쿼리에 대한 연구입니다.SIGIR 포럼, 32(1), 5-17.
- ^ B. J. 얀센, A. 스핑크, T. 2000. 사라체비치.실제 생활, 실제 사용자 및 실제 요구: 웹상의 사용자 쿼리에 대한 연구 및 분석.정보처리 및 관리. 36(2), 207-227.
- ^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligent technologies for web applications. Boca Raton: CRC Press. p. 85. ISBN 978-1-4398-7162-1. Retrieved 3 June 2014.
- ^ Li, Jingjing; Larsen, Kai; Abbasi, Ahmed (2020-12-01). "TheoryOn: A Design Framework and System for Unlocking Behavioral Knowledge Through Ontology Learning". MIS Quarterly. 44 (4): 1733–1772. doi:10.25300/MISQ/2020/15323.