검색 엔진 인덱싱
Search engine indexing검색 엔진 인덱싱은 빠르고 정확한 정보 검색을 용이하게 하기 위해 데이터를 수집, 구문 분석 및 저장하는 것입니다.색인 디자인은 언어학, 인지 심리학, 수학, 정보학 및 컴퓨터 과학에서 학제 간 개념을 통합합니다.인터넷에서 웹 페이지를 검색하도록 설계된 검색 엔진 컨텍스트에서 프로세스의 대체 이름은 웹 인덱싱입니다.
일반적인 엔진은 온라인 자연어 [1]문서의 전체 텍스트 색인에 초점을 맞춥니다.사진, 비디오,[2] 오디오,[3] 그래픽[4] 등의 미디어 유형도 검색할 수 있습니다.
메타 검색 엔진은 다른 서비스의 인덱스를 재사용하고 로컬 인덱스를 저장하지 않는 반면 캐시 기반 검색 엔진은 인덱스를 말뭉치와 함께 영구적으로 저장합니다.전체 텍스트 색인과 달리 부분 텍스트 서비스는 색인 크기를 줄이기 위해 색인 깊이를 제한합니다.일반적으로 대형 서비스에서는 필요한 시간과 처리 비용으로 인해 미리 정해진 시간 간격으로 인덱스를 수행하는 반면 에이전트 기반 검색 엔진은 실시간으로 인덱스를 생성합니다.
색인화
인덱스를 저장하는 목적은 검색 조회에 대한 관련 문서를 찾는 속도와 성능을 최적화하는 것입니다.인덱스가 없으면 검색 엔진은 말뭉치 내의 모든 문서를 스캔할 수 있으며, 상당한 시간과 컴퓨팅 능력을 필요로 합니다.예를 들어 10,000개 문서의 인덱스를 밀리초 이내에 쿼리할 수 있지만 10,000개 대형 문서의 모든 단어를 순차적으로 검색하는 데 몇 시간이 걸릴 수 있습니다.인덱스를 저장하는 데 필요한 추가 컴퓨터 스토리지와 업데이트 수행에 필요한 상당한 시간 증가는 정보 검색 중 절약된 시간과 교환됩니다.
색인 설계 요인
검색 엔진 아키텍처 설계 시 주요 요소는 다음과 같습니다.
- 병합 요인
- 데이터가 인덱스에 들어가는 방법, 텍스트 말뭉치를 통과하는 동안 단어 또는 주제 기능이 인덱스에 추가되는 방법, 여러 인덱서가 비동기적으로 작동할 수 있는지 여부.인덱서는 먼저 이전 콘텐츠를 업데이트하는지 또는 새 콘텐츠를 추가하는지 확인해야 합니다.트래버설은 일반적으로 데이터 수집 정책과 관련이 있습니다.검색 엔진 인덱스 병합은 SQL 병합 명령 및 기타 병합 알고리즘과 개념이 [5]유사합니다.
- 스토리지 기술
- 인덱스 데이터를 저장하는 방법, 즉 정보를 압축해야 하는지 필터링해야 하는지 여부입니다.
- 인덱스 사이즈
- 인덱스를 지원하는 데 필요한 컴퓨터 저장소 크기.
- 조회 속도
- 반전된 색인에서 단어를 얼마나 빨리 찾을 수 있는지.데이터 구조에서 엔트리를 찾는 속도는 업데이트 또는 삭제되는 속도에 비해 컴퓨터 과학에서 가장 중요한 초점입니다.
- 유지
- 시간 [6]경과에 따라 인덱스가 유지되는 방법.
- 폴트 톨러런스
- 서비스의 신뢰성이 얼마나 중요한가.여기에는 인덱스 파손 처리, 불량 데이터 격리 처리 여부 결정, 불량 하드웨어, 파티셔닝 및 해시 기반 또는 복합 파티션 [7]분할 등의 스킴 처리, 복제 등이 포함됩니다.
인덱스 데이터 구조
검색 엔진 아키텍처는 인덱싱 수행 방법과 다양한 설계 요소를 충족하기 위한 인덱스 저장 방법이 다릅니다.
- 접미사 트리
- 트리처럼 비유적으로 구조화되어 선형 시간 조회를 지원합니다.단어의 접미사를 저장하여 만듭니다.접미사 트리는 trie의 한 종류입니다.검색 엔진 [8]인덱싱에 중요한 확장 가능한 해시를 지원합니다.DNA 배열에서 패턴을 검색하고 클러스터링하는 데 사용됩니다.트리에 단어를 저장하는 데 단어 자체를 [9]저장하는 데 필요한 공간 이상의 공간이 필요할 수 있다는 것이 큰 결점입니다.대체 표현은 접미사 배열로, 필요한 가상 메모리가 적은 것으로 간주되며 BWT 알고리즘 등의 데이터 압축을 지원합니다.
- 인용 색인
- 참고 문헌 분석의 주제인 인용 분석을 지원하기 위해 문서 간에 인용 또는 하이퍼링크를 저장합니다.
- n그램 지수
- 다른 유형의 검색 또는 텍스트 [13]마이닝을 지원하기 위해 데이터 길이의 시퀀스를 저장합니다.
- 문서항행렬
- 잠재 의미 분석에서 사용되며 문서의 단어 발생을 2차원 희박 행렬에 저장합니다.
병렬에 관한 과제
검색 엔진 설계의 큰 과제는 시리얼 컴퓨팅 프로세스의 관리입니다.인종 조건과 일관성 있는 단점을 위한 많은 기회들이 있다.예를 들어 새 문서가 말뭉치에 추가되고 인덱스는 업데이트되어야 하지만 인덱스는 동시에 검색 쿼리에 계속 응답해야 합니다.이것은 두 가지 경쟁 태스크 간의 충돌입니다.작성자는 정보의 생산자이며 웹 크롤러는 이 정보의 소비자로 텍스트를 잡아 캐시(또는 말뭉치)에 저장한다고 가정해 보십시오.미래지수는 말뭉치에 의해 생성된 정보의 소비자이고, 반전지수는 미래지수에 의해 생성된 정보의 소비자이다.이것은 일반적으로 생산자-소비자 모델이라고 불립니다.인덱서는 검색 가능한 정보의 생산자이며 사용자는 검색해야 하는 소비자입니다.분산 스토리지 및 분산 프로세싱을 사용할 경우 이 문제는 더욱 심각해집니다.더 많은 양의 인덱스 정보를 사용하여 확장하기 위해 검색 엔진의 아키텍처는 분산 컴퓨팅을 포함할 수 있습니다. 분산 컴퓨팅에서는 검색 엔진이 여러 대의 기계로 구성되어 있습니다.이로 인해 일관성이 결여될 가능성이 높아지고 완전히 동기화된 분산형 [14]병렬 아키텍처를 유지하는 것이 더욱 어려워집니다.
반전 인덱스
많은 검색 엔진에서는 검색 쿼리를 평가할 때 반전 인덱스를 사용하여 쿼리의 단어가 포함된 문서를 빠르게 찾은 다음 관련성에 따라 이러한 문서의 순위를 매깁니다.반전된 인덱스는 각 단어를 포함하는 문서 목록을 저장하므로 검색 엔진은 일치하는 문서를 빠르게 검색하기 위해 쿼리의 각 단어와 관련된 문서를 직접 액세스하여 찾을 수 있습니다.다음은 반전 인덱스의 간단한 그림입니다.
단어 | 문서. |
---|---|
그 | 문서 1, 문서 3, 문서 4, 문서 5, 문서 7 |
소. | 문서 2, 문서 3, 문서 4 |
말한다 | 문서 5 |
넋두리 | 문서 7 |
이 색인은 단어의 빈도 및 위치에 대한 정보를 저장하지 않으므로 특정 문서 내에 단어가 존재하는지 여부만 확인할 수 있습니다. 따라서 이 색인은 부울 색인으로 간주됩니다.이러한 색인은 조회와 일치하는 문서를 결정하지만 일치하는 문서의 순위를 매기지 않습니다.일부 설계에서 색인은 각 문서의 각 단어의 빈도 또는 각 [15]문서의 단어 위치와 같은 추가 정보를 포함합니다.위치 정보를 통해 검색 알고리즘이 구문 검색을 지원하는 단어 근접성을 식별할 수 있습니다. 빈도를 사용하여 문서와 질의의 관련성을 순위를 매길 수 있습니다.이러한 토픽은 정보 검색의 중심 연구 초점입니다.
반전 색인은 모든 단어가 각 문서에 있는 것은 아니기 때문에 희박한 행렬이다.컴퓨터 스토리지 메모리 요건을 줄이기 위해 2차원 어레이와는 다르게 저장됩니다.이 지수는 잠재 의미 분석에 사용되는 용어 문서 행렬과 유사하다.반전 인덱스는 해시 테이블의 한 형태로 간주할 수 있습니다.인덱스는 바이너리 트리의 한 형태로 추가 저장소가 필요하지만 조회 시간이 단축될 수 있습니다.큰 인덱스에서 아키텍처는 일반적으로 분산 해시 [16]테이블입니다.
인덱스 머지
반전 인덱스는 병합 또는 재구성을 통해 채워집니다.재구성은 병합과 유사하지만 먼저 반전된 색인의 내용을 삭제합니다.이 아키텍처는 증분 [17]인덱싱을 지원하도록 설계될 수 있습니다.여기서 머지는 추가 또는 갱신할 문서를 식별하고 각 문서를 단어로 해석합니다.기술적 정확성을 위해 병합은 일반적으로 가상 메모리에 상주하는 새로운 색인 문서를 하나 이상의 컴퓨터 하드 드라이브에 상주하는 색인 캐시와 결합합니다.
구문 분석 후 인덱서는 참조된 문서를 적절한 단어에 대한 문서 목록에 추가합니다.대형 검색 엔진에서는 반전 인덱스 내의 각 단어를 찾는 프로세스(문서 내에서 발생한 것을 보고하기 위해)가 너무 오래 걸릴 수 있으므로 이 프로세스는 일반적으로 포워드 인덱스의 개발과 포워드 인덱스의 내용을 반전 인덱스로 분류하는 프로세스라는 두 부분으로 분할된다.반전 인덱스는 순방향 인덱스의 반전이기 때문에 이름이 붙여졌습니다.
순방향 인덱스
순방향 색인은 각 문서에 대한 단어 목록을 저장합니다.다음은 Forward Index의 간략화된 형식입니다.
문서 | 단어 |
---|---|
문서 1 | 더, 더, 더, 더, 더, 더, 더, 더, 더, 더, |
문서 2 | 고양이 모자 |
문서 3 | 더, 디시, 랜, 어웨이, 더, 더, 더, 더, 더, 더, 더, 더, 더 |
순방향 인덱스를 개발하는 이유는 문서를 구문 분석할 때 문서당 단어를 중간으로 저장하는 것이 더 낫기 때문입니다.이 묘사에 의해 비동기 시스템 처리가 가능해져 반전된 인덱스 업데이트 [18]병목 현상을 부분적으로 회피할 수 있습니다.순방향 인덱스가 정렬되어 반전 인덱스로 변환됩니다.순방향 인덱스는 기본적으로 문서와 단어로 구성된 쌍의 목록으로, 문서에 의해 대조됩니다.순방향 인덱스를 반전 인덱스로 변환하는 것은 단어별로 쌍을 정렬하는 문제일 뿐입니다.그런 점에서 반전지수는 단어 정렬 전진지수다.
압축
대규모 검색 엔진 인덱스를 생성하거나 유지하는 것은 스토리지 및 프로세싱의 큰 과제가 됩니다.대부분의 검색 엔진은 [19]압축 형식을 사용하여 디스크의 인덱스 크기를 줄입니다.전문 인터넷 검색 엔진에 대해 다음 시나리오를 고려해 보십시오.
- 단일 문자를 저장하는 데 8비트(1바이트)가 소요됩니다.일부 인코딩은 문자당[20][21] 2바이트를 사용합니다.
- 페이지상의 임의의 단어내의 평균 문자수는, 5 문자(Wikipedia:크기 비교)
이 시나리오에서 20억 개의 웹 페이지에 대한 비압축 인덱스(비결합 단순 인덱스라고 가정)는 5,000억 개의 단어 엔트리를 저장해야 합니다.문자당 1바이트 또는 단어당 5바이트인 경우 2500기가바이트의 스토리지 공간만 필요합니다.이 공간 요건은 폴트 톨러런스 분산 스토리지 아키텍처의 경우 더욱 커질 수 있습니다.선택한 압축 기법에 따라 인덱스는 이 크기의 극히 일부까지 축소될 수 있습니다.단점은 압축 및 압축 해제를 수행하는 데 필요한 시간과 처리 능력입니다.
특히, 대규모 검색 엔진 설계에는 스토리지에 전력을 공급하는 전기 비용뿐만 아니라 스토리지 비용도 포함되어 있습니다.따라서 압축은 비용의 척도입니다.
문서 해석
문서 해석은 정방향 및 반전된 색인에 삽입하기 위해 문서 또는 다른 형태의 미디어의 구성요소(단어)를 분할합니다.검색된 단어를 토큰이라고 합니다.따라서 검색 엔진 인덱싱 및 자연 언어 처리의 맥락에서 파싱은 일반적으로 토큰화라고 부릅니다.단어 경계 명확화, 태그 부착, 텍스트 분할, 콘텐츠 분석, 텍스트 분석, 텍스트 마이닝, 일치성 생성, 음성 분할, 렉싱 또는 어휘 분석이라고도 합니다.'인덱싱', '파싱' 및 '토큰라이제이션'이라는 용어는 기업 속어에서 서로 바꿔서 사용됩니다.
자연어 처리는 지속적인 연구와 기술 향상의 주제이다.토큰화는 품질 검색을 지원하기 위해 색인화에 필요한 정보를 문서에서 추출하는 데 많은 어려움이 있습니다.인덱싱 토큰화에는 여러 기술이 포함되며, 이러한 기술의 구현은 일반적으로 기업 [citation needed]기밀로 유지됩니다.
자연어 처리의 과제
- 단어 경계 모호성
- 원어민 영어 사용자는 처음에는 토큰화를 간단한 작업으로 생각할 수 있지만 다국어 인덱서를 설계할 때는 그렇지 않습니다.디지털 형식에서 중국어, 일본어, 아랍어 등 다른 언어의 텍스트는 공백으로 명확하게 묘사되지 않기 때문에 더 큰 난제를 나타낸다.토큰화의 목적은 사용자가 검색할 단어를 식별하는 것입니다.언어 고유의 논리는 단어의 경계를 올바르게 식별하기 위해 사용되며, 이는 지원되는 각 언어(또는 유사한 경계 마커와 구문을 가진 언어 그룹)의 파서를 설계하는 근거가 됩니다.
- 언어의 모호성
- 일치하는 문서의 올바른 순위를[22] 매기기 위해 많은 검색 엔진은 언어 또는 어휘 카테고리(음성의 일부)와 같은 각 단어에 대한 추가 정보를 수집합니다.이러한 기술은 언어에 따라 구문이 다르기 때문에 언어에 의존합니다.문서가 문서의 언어를 명확하게 식별하거나 정확하게 나타내는 것은 아닙니다.문서를 토큰화할 때 일부 검색 엔진은 문서의 언어를 자동으로 식별하려고 시도합니다.
- 다양한 파일 형식
- 문서의 어떤 바이트가 문자를 나타내는지 올바르게 식별하려면 파일 형식을 올바르게 처리해야 합니다.여러 파일 형식을 지원하는 검색 엔진은 문서를 올바르게 열고 액세스할 수 있어야 하며 문서의 문자를 토큰화할 수 있어야 합니다.
- 스토리지 장애
- 자연어 데이터의 품질이 항상 완벽하지는 않을 수 있습니다.특히 인터넷에서 지정되지 않은 수의 문서는 적절한 파일 프로토콜을 준수하지 않습니다.바이너리 문자는 문서의 여러 부분으로 잘못 인코딩될 수 있습니다.이러한 문자를 인식하고 적절하게 처리하지 않으면 인덱스 품질 또는 인덱서 성능이 저하될 수 있습니다.
토큰화
읽고 쓰는 인간과 달리 컴퓨터는 자연어 문서의 구조를 이해하지 못하고 단어와 문장을 자동으로 인식할 수 없다.컴퓨터에서 문서는 바이트의 연속일 뿐입니다.컴퓨터는 공백 문자가 문서에서 단어를 구분하는 것을 '알지' 않습니다.대신, 인간은 토큰이라고 불리는 개별 또는 구별되는 단어를 구성하도록 컴퓨터를 프로그래밍해야 한다.이러한 프로그램은 일반적으로 토큰라이저, 파서 또는 렉서라고 불립니다.많은 검색 엔진과 다른 자연어 처리 소프트웨어는 YACC나 Lex와 같은 구문 분석을 위한 전문 프로그램을 포함하고 있습니다.
토큰화 중에 파서는 단어 및 구두점 등의 기타 요소를 나타내는 문자의 시퀀스를 식별합니다.숫자 코드로 표현되는 문자(그 중 일부는 비인쇄 제어 문자)입니다.파서는, 전자 메일 주소, 전화 번호, URL등의 엔티티를 식별할 수도 있습니다.각 토큰을 식별할 때 토큰의 대소문자(대소문자, 하위문자, 혼합문자, 적절한 문자), 언어 또는 부호화, 어휘 범주('명사' 또는 '동사'와 같은 음성 부분), 위치, 문장 번호, 문장 위치, 길이, 줄 번호 등 여러 특성을 저장할 수 있습니다.
언어 인식
검색 엔진이 여러 언어를 지원하는 경우 토큰화 시 공통적인 초기 단계는 각 문서의 언어를 식별하는 것입니다. 후속 단계의 대부분은 언어에 의존합니다(스텝 및 음성 태그의 일부 등).언어 인식은 컴퓨터 프로그램이 문서의 언어를 자동으로 식별하거나 분류하는 과정입니다.언어 인식의 다른 이름으로는 언어 분류, 언어 분석, 언어 식별 및 언어 태그 부착이 있습니다.자동 언어 인식은 자연 언어 처리의 지속적인 연구 주제입니다.해당 단어가 속한 언어를 찾으려면 언어 인식 차트를 사용해야 할 수 있습니다.
형식 분석
검색 엔진이 여러 문서 형식을 지원하는 경우 토큰화를 위해 문서를 준비해야 합니다.문제는 많은 문서 형식이 텍스트 내용 외에 서식 정보를 포함하고 있다는 것입니다.예를 들어, HTML 문서에는 새 줄 시작, 강조 표시, 글꼴 크기 또는 스타일과 같은 형식 정보를 지정하는 HTML 태그가 있습니다.검색엔진이 콘텐츠와 '마크업'의 차이를 무시하면 관련 없는 정보가 인덱스에 포함되어 검색 결과가 좋지 않게 됩니다.서식 분석은 문서가 컴퓨터 화면에 렌더링되거나 소프트웨어 프로그램에 의해 해석되는 방법을 제어하는 문서에 포함된 서식 내용을 식별하고 처리하는 것입니다.형식 분석은 구조 분석, 형식 구문 분석, 태그 제거, 형식 제거, 텍스트 정규화, 텍스트 클리닝 및 텍스트 준비라고도 합니다.포맷 분석의 과제는 다양한 파일 포맷의 복잡성으로 인해 더욱 복잡해집니다.일부 파일 형식은 기밀로 공개되는 정보가 거의 없는 반면 다른 파일 형식은 잘 문서화되어 있습니다.많은 검색 엔진이 지원하는 일반적인 문서화된 파일 형식은 다음과 같습니다.
- HTML
- ASCII 텍스트 파일(특정 컴퓨터 판독 가능한 형식이 없는 텍스트 문서)
- Adobe의 휴대용 문서 형식(PDF)
- PostScript(PostScript))
- LaTeX
- UseNet Netnews 서버 형식
- XML 및 RSS 등의 파생 모델
- SGML
- ID3와 같은 멀티미디어 메타데이터 형식
- Microsoft Word
- Microsoft Excel
- Microsoft PowerPoint
- IBM Lotus Notes
다양한 형식을 처리하는 옵션에는 형식을 개발, 유지 또는 소유하는 조직이 제공하는 공개 상용 구문 분석 도구 사용 및 사용자 정의 구문 분석기 쓰기가 포함됩니다.
일부 검색 엔진은 압축 또는 암호화된 파일 형식으로 저장된 파일의 검사를 지원합니다.압축된 형식으로 작업할 경우 인덱서는 먼저 문서의 압축을 해제합니다. 이 단계를 수행하면 하나 이상의 파일이 생성될 수 있으며 각 파일은 개별적으로 색인화되어야 합니다.일반적으로 지원되는 압축 파일 형식은 다음과 같습니다.
- ZIP - ZIP 아카이브 파일
- RAR - Roshal ARchive 파일
- CAB - Microsoft Windows 캐비닛 파일
- Gzip - gzip으로 압축된 파일
- BZIP - bzip2를 사용하여 압축된 파일
- Tape Archive(TAR), UNIX 아카이브 파일, (그 자체가) 압축되지 않음
- 타르.지, 타르GZ 또는 TARBZ2 - 압축, GZIP 또는 BZ로 압축된 UNIX 아카이브 파일IP2
형식 분석에는 '나쁜 정보'를 인덱스에 포함하지 않도록 품질 개선 방법이 포함될 수 있습니다.콘텐츠는 포맷 정보를 조작하여 추가 콘텐츠를 포함할 수 있습니다.스팸 추출을 위해 문서 형식을 남용하는 예:
- 포맷을 사용하여 컴퓨터 화면에서는 보이지 않지만 인덱서에서는 볼 수 있는 섹션에 수백 또는 수천 개의 단어를 포함합니다(예를 들어 HTML의 숨겨진 "div" 태그는 이를 위해 CSS 또는 JavaScript를 사용할 수 있습니다).
- 단어의 전경 글꼴 색상을 배경색과 동일하게 설정하고 컴퓨터 화면에 숨겨진 단어를 문서를 보는 사람에게 표시하지만 인덱서에는 표시하지 않습니다.
섹션 인식
일부 검색 엔진에는 토큰화 전에 섹션 인식, 즉 문서의 주요 부분을 식별하는 기능이 포함되어 있습니다.말뭉치 안에 있는 모든 문서가 잘 쓰여진 책처럼 읽히는 것은 아닙니다. 정리된 장과 페이지로 나누어져 있습니다.뉴스레터나 회사 보고서 등 웹상의 많은 문서에는 주요 자료(문서의 내용)가 포함되지 않은 잘못된 내용과 측면 섹션이 포함되어 있습니다.예를 들어, 이 문서에는 다른 웹 페이지에 대한 링크가 있는 사이드 메뉴가 표시됩니다.HTML 또는 PDF와 같은 일부 파일 형식에서는 내용을 열에 표시할 수 있습니다.콘텐츠가 뷰의 다른 영역에 표시되거나 렌더링되더라도 원시 마크업 컨텐츠는 이 정보를 순차적으로 저장할 수 있습니다.이러한 문장과 단락이 컴퓨터 화면의 다른 부분에 렌더링되더라도 원시 소스 컨텐츠에 순차적으로 나타나는 단어는 순차적으로 색인화됩니다.검색 엔진이 이 콘텐츠를 정상적인 콘텐츠인 것처럼 인덱싱할 경우 혼합 콘텐츠와 부적절한 단어 근접성으로 인해 인덱스와 검색 품질이 저하될 수 있습니다.다음 두 가지 주요 문제가 있습니다.
- 다른 섹션의 내용은 인덱스에서 관련된 것으로 취급되지만 실제로는 그렇지 않다.
- 조직의 '사이드바' 내용은 색인에 포함되지만 사이드바 내용은 문서의 의미에 영향을 미치지 않으며 색인은 문서의 표현 상태가 좋지 않습니다.
섹션 분석에서는 검색 엔진이 각 문서의 렌더링 논리(기본적으로 실제 문서의 추상적 표현)를 구현하고 대신 표현을 색인화하도록 요구할 수 있습니다.예를 들어, 인터넷의 일부 컨텐츠는 JavaScript를 통해 렌더링됩니다.검색 엔진이 페이지를 렌더링하지 않고 페이지 내에서 JavaScript를 평가하지 않는 경우, 동일한 방식으로 이 내용을 '확인'하지 않고 문서를 잘못 색인화합니다.일부 검색 엔진에서는 렌더링 문제가 발생하지 않으므로 많은 웹 페이지 디자이너는 JavaScript를 통해 콘텐츠를 표시하지 않거나 Noscript 태그를 사용하여 웹 페이지가 올바르게 인덱싱되도록 합니다.동시에 이 사실을 악용하여 검색 엔진 인덱서가 뷰어와 다른 내용을 '확인'하도록 할 수도 있습니다.
HTML 우선 시스템
![]() |
인덱싱은 우선순위를 구성하기 위해 HTML 태그를 인식해야 하는 경우가 많습니다.strong과 같은 라벨에 낮은 우선순위부터 높은 여백까지 인덱스를 붙이면 해당 라벨이 텍스트의 선두에 있는 경우 우선순위를 최적화하기 위한 링크를 사용할 수 없습니다.Google이나 Bing과 같은 일부 인덱서는 강력한 유형의 시스템 [23]호환성으로 인해 검색 엔진이 큰 텍스트를 관련 소스로 받아들이지 않도록 보장합니다.
메타 태그 인덱싱
특정 문서에는 작성자, 키워드, 설명 및 언어와 같은 메타 정보가 포함되어 있는 경우가 많습니다.HTML 페이지의 경우 메타 태그는 인덱스에 포함된 키워드를 포함합니다.이전의 인터넷 검색 엔진 기술은 순방향 인덱스의 메타 태그에 있는 키워드만 색인화했을 뿐 전체 문서는 구문 분석되지 않았습니다.그 당시에는 전체 텍스트 색인이 제대로 확립되지 않았고 컴퓨터 하드웨어도 이러한 기술을 지원할 수 없었습니다.HTML 마크업 언어의 설계에는 토큰화 [24]없이 적절하고 쉽게 색인화할 목적으로 메타 태그 지원이 포함되어 있었습니다.
1990년대에 인터넷이 성장하면서 많은 일반 기업들이 '온라인'으로 들어가 기업 웹사이트를 개설했다.웹 페이지(제품 브로셔와 유사한 기업용 웹 페이지)를 기술하는 데 사용되는 키워드가 설명형 키워드에서 특정 검색 쿼리의 검색 결과에서 웹 페이지를 높은 위치에 두고 판매를 촉진하도록 설계된 마케팅형 키워드로 변경되었습니다.이러한 키워드가 주관적으로 지정되었다는 사실은 스팸디싱으로 이어졌고, 1990년대에 많은 검색 엔진이 풀 텍스트 색인 기술을 채택하게 되었다.검색 엔진 디자이너와 회사들은 웹 페이지의 모든 흥미롭고 유용한 정보를 빼내기 전에 웹 페이지의 콘텐츠에 아주 많은 '마케팅 키워드'를 넣을 수 있었다.사용자 지향 웹사이트 설계라는 비즈니스 목표와의 이해 상충을 고려하여 방문자를 붙잡기 위해 고객 평생 가치 방정식을 웹사이트에 더 유용한 콘텐츠를 포함하도록 변경하였습니다.그런 의미에서 전체 텍스트 인덱싱은 검색 엔진 결과 배치에 대한 주관적 제어에서 한 발 더 떨어져 검색 엔진 결과의 질을 높였고, 이는 다시 전체 텍스트 인덱싱 기술에 대한 연구가 더욱 진전되었습니다.
데스크톱 검색에서는 많은 솔루션이 메타 태그를 사용하여 작성자가 검색 엔진이 파일 내용에서 명확하지 않은 다양한 파일의 내용을 인덱싱하는 방법을 더욱 맞춤화할 수 있습니다.데스크톱 검색은 사용자의 제어 하에 있으며 인터넷 검색 엔진은 전체 텍스트 색인에 더 초점을 맞춰야 합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Clarke, C., Cormack, G.: 분산 전체 텍스트 검색 시스템을 위한 동적 반전 색인.TechRep MT-95-01, 워털루 대학, 1995년 2월
- ^ Sikos, L. F. (August 2016). "RDF-powered semantic video annotation tools with concept mapping to Linked Data for next-generation video indexing". Multimedia Tools and Applications. doi:10.1007/s11042-016-3705-7.
- ^ http://www.ee.columbia.edu/~dpwe/페이퍼/Wang03-shazam.pdf[베어 URL PDF]
- ^ 찰스 E. 제이콥스, 아담 핀켈스타인, 데이비드 H. 세일즈신고속 멀티 해상도 이미지 쿼리1995년 워싱턴 대학교 컴퓨터 공학과2006년 12월 확인
- ^ 브라운, E.W:전체 텍스트 정보 검색 실행 성능 문제1995년 10월, 기술 보고서 95-81, 매사추세츠 대학 컴퓨터 과학부.
- ^ 커팅, D., 페더슨, J:동적 반전 인덱스 유지 관리를 위한 최적화.SIGIR, 405-411, 1990년 절차.
- ^ 선형 해시 파티셔닝.MySQL 5.1 참조 설명서.2006년 12월 확인
- ^ trie, 미국 국립표준기술연구소, 알고리즘 및 데이터 구조 사전.
- ^ 를 클릭합니다Gusfield, Dan (1999) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. USA: Cambridge University Press. ISBN 0-521-58519-8..
- ^ 미국 국립표준기술연구소(National Institute of Standards and Technology, 2006년 10월, Inverted Index, Algorithms and Data Structures, Inverted Indictionary of Algorithms and Data Structures)의 Black, Paul E.2006년 12월 확인.
- ^ C. C. Foster, 정보검색: AVL 트리를 사용한 정보저장 및 검색, 1965년 제20회 전국회의 속행, 페이지 192-205, 1965년 8월 24-26일, 미국 오하이오주 클리블랜드
- ^ 란다우어, W.I:균형 잡힌 트리와 정보 검색에서의 그 활용도.IEEE Trans on Electronic Computers, Vol. EC-12, No. 6, 1963년 12월
- ^ LDC 카탈로그에서 Google Ngram 데이터 세트 판매
- ^ 제프리 딘과 산제이 게마왓입니다맵 리듀스:대규모 클러스터에서의 데이터 처리의 심플화.구글, Inc. OSDI, 2004
- ^ 그로스만, 프리더, 고하리안역지수의 IR 기초, 2002.2011년 8월 확인.
- ^ 탕, 훈창.드와르카다, 산디아"효율적인 피어 투 피어 정보 검색을 위한 하이브리드 글로벌 로컬 인덱싱"입니다.로체스터 대학교.페이지 1. http://www.cs.rochester.edu/u/sandhya/papers/nsdi04.ps
- ^ Tomasic, A. 등:텍스트 문서 검색을 위한 반전 목록의 증분 업데이트.Stanford University Computer Science Technical Note STAN-CS-TN-93-1 요약판, 1993년 12월
- ^ 세르게이 브린과 로렌스 페이지.대규모 하이퍼텍스트 웹 검색 엔진의 해부도.스탠퍼드 대학교1998. 2006년 12월 검증 완료.
- ^ 에이치에스 힙스문서 데이터베이스에 대한 압축 부호화의 저장소 분석.1NFOR, I0(i):47-61, 1972년 2월
- ^ Unicode 표준 - FAQ(FAQ)2006년 12월 확인.
- ^ 스토리지 견적2006년 12월 확인.
- ^ "Search Engine Optimization". Retrieved 2016-09-21.
- ^ Google Webmaster Tools, "Hypertext Markup Language 5", 2012년 1월 SEO 컨퍼런스.
- ^ Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866, Network Working Group, 1995년 11월
추가 정보
- R. 바이엘과 E. 맥크라이트대규모 주문형 지수의 정리 및 유지관리.악타 인포마티카, 173-189, 1972.
- 도널드 E. 크누스The Art of Computer Programming, 제1권 (제3판): 기초 알고리즘, 애디슨 웨슬리 롱맨 출판사.레드우드 시티, 캘리포니아, 1997년
- 도널드 E. 크누스컴퓨터 프로그래밍의 예술, 제3권 (제2판) 분류와 검색, 애디슨 웨슬리 롱맨 출판사.레드우드 시티, 캘리포니아, 1998년
- 제럴드 솔튼입니다자동 텍스트 처리, Adison-Wesley Longman Publishing Co., Inc., 보스턴, MA, 1988.
- 제라드 솔튼입니다Michael J. McGraw-Hill, Inc., New York, NY, 1986, Modern Information Retrieval 소개
- 제라드 솔튼입니다레스크, 검시관:인덱싱 및 텍스트 처리에 대한 컴퓨터 평가.ACM 저널1968년 1월
- 제라드 솔튼입니다SMART 검색 시스템 - 자동 문서 처리 실험.프렌티스 홀 주식회사, 잉글우드 절벽, 1971년
- 제라드 솔튼입니다The Transformation, Analysis, and Recearch of Information by Computer, Adison-Wesley, Reading, Mass, 1989.
- Baeza-Yates, R., Ribeiro-Neto, B:현대 정보 검색.제8장ACM Press 1999.
- G. K. Zipf.인간의 행동과 최소 노력의 원리.애디슨 웨슬리, 1949년
- Adelson-Velskii, G.M., Landis, E.M. 정보 조직 알고리즘.DANSSR, 146, 263-266(1962)
- 에드워드 H. Sussenguth Jr., 파일 처리를 위한 나무 구조 사용, ACM 통신, v.6 n.5, 페이지 272-279, 1963년 5월
- 하만, D.K. 등:반전된 파일정보 검색: 데이터 구조와 알고리즘, 프렌티스 홀, 페이지 28-43, 1992.
- Lim, L. 등:Web 문서 변경의 특징, LNCS 2118, 133~146, 2001.
- Lim, L. 등:랜드마크를 사용한 웹 인덱스의 동적 유지 관리.2003년 제12회 W3 회의의 대리.
- Moffat, A., Zobel, J.: 빠른 텍스트 검색을 위한 자기 색인 반전 파일.ACM TIS, 349–379, 1996년 10월, 제14권, 제4호
- Mehlhorn, K.: Data Structures and Efficient Algorithm, Springer Verlag, EATCS Monographics, 1984.
- 멜혼, K., 오버마르스, M.H.분해 가능한 검색 문제의 최적 동적화IPL 12, 93-98, 1981.
- 멜혼, K:정적 데이터 구조를 동적 데이터 구조로 변환하는 효율성의 하한.수학. 시스템 이론 15, 1~16, 1981년
- Koster, M.: ALIWEB: 웹에서의 Archie-Like 인덱싱.Computer Networks and ISDN Systems, Vol. 27, No. 2 (1994) 175-182 (Proc도 참조).제1회 월드 와이드 웹 컨퍼런스, 암스테르담, 엘세비어 사이언스, 1994, 175~182페이지)
- Serge Abiteboul과 Victor Vianu.웹상의 쿼리와 계산.데이터베이스 이론에 관한 국제 회의의 진행.델파이, 그리스, 1997년
- Ian H Witten, Alistair Moffat, Timothy C.벨. 기가바이트 관리:문서 및 이미지 압축 및 인덱싱.뉴욕: Van Nostrand Reinhold, 1994.
- A. 배기량과 P.도이치, "Archie-인터넷용 전자 디렉토리 서비스"1992년 USenix Winter Tech 검사입니다회의, Usenix Assoc, 캘리포니아 버클리, 1992, 페이지 93–110.
- M. 그레이, 월드 와이드 웹 방랑자
- D. 커팅과 J. 페더슨"동적 반전 인덱스 유지보수를 위한 최적화"제13회 정보검색 연구개발 국제회의 진행상황, 페이지 405-411, 1990년 9월.
- Stefan Bütcher, Charles L. A. Clarke, Gordon V.코맥정보 검색: 검색 엔진 구현 및 평가MIT Press, Mass., 2010년