연합 검색
Federated search연합 검색은 하나 이상의 검색 엔진 위에 구축된 검색 애플리케이션을 통해 다양한 출처에서 정보를 검색한다.[1] 사용자는 연방에 참여하는 검색 엔진, 데이터베이스 또는 기타 쿼리 엔진에 배포되는 단일 쿼리 요청을 한다. 그런 다음 연합 검색은 사용자에게 표시하기 위해 검색 엔진에서 수신한 결과를 집계한다. 연합 검색은 단일 대형 조직("기업") 내에서 또는 전체 웹에 대해 상이한 정보 자원을 통합하는 데 사용될 수 있다.
연합 검색은 분산 검색과 달리 검색 가능한 자원의 중앙 집중식 조정이 필요하다. 여기에는 개별 검색 엔진으로 전송되는 쿼리의 조정과 각 검색 엔진에 의해 반환되는 검색 결과의 융합이 모두 포함된다.
목적
연합 검색은 하나의 쿼리로 여러 개의 상이한 콘텐트 원본을 검색해야 하는 필요성을 충족시키기 위해 시작되었다. 이를 통해 사용자는 실시간으로 한 번에 여러 데이터베이스를 검색하고, 다양한 데이터베이스의 결과를 유용한 양식으로 배열한 후 사용자에게 결과를 제시할 수 있다.
이와 같이, 정보집합 또는 통합 접근방식 - 많은 정보자원에 대한 단일 지점 접근을 제공하며, 일반적으로 표준 또는 부분적으로 균질화된 형태로 데이터를 반환한다. 다른 접근방식으로는 엔터프라이즈 데이터 웨어하우스, 데이터 레이크 또는 데이터 허브 구축이 있다. 연합 검색은 여러 가지 방법으로 여러 번 쿼리(각 소스는 개별적으로 쿼리됨)하며, 다른 접근 방식은 일반적으로 하룻밤 사이에 일괄 처리되는 프로세스에서 여러 번 데이터를 가져오고 변환한다. 연합 검색은 모든 소스(모두 온라인이고 사용 가능한 범위까지)에 대한 실시간 보기를 제공한다.
LinkedIn과 같은 산업 검색 엔진에서는 연합 검색을 사용하여 모호한 질의에 대한 수직적 선호도를 개인화한다.[2] 예를 들어 사용자가 LinkedIn에서 "기계 학습"과 같은 쿼리를 발행할 때, 기계 학습 기술, 기계 학습 기술이 필요한 직업 또는 주제에 대한 내용을 가진 사람을 검색하는 것을 의미할 수 있다. 이러한 경우 연합 검색은 사용자 의도(예: 고용, 구직 또는 컨텐츠 소비)를 이용하여 개별 사용자의 수직적 질서를 개인화할 수 있다.
과정
피터가 이 Jacso로 설명한(1)의 검색 구성되어 있고 이질적인 데이터베이스 또는 다른 웹 자원의 적절한 구문과 그룹에 중계하는 쿼리를 변화시키고 federated, 그 결과는(3)최소한의 중복으로 통일된 간결한 형식으로 제출하는 데이터베이스,provid(4)에서 수집한 합병(2)(2004[3]).ing 병합된 결과 집합을 정렬하기 위해 자동으로 또는 포털 사용자가 수행하는 수단.
연합 검색 포털은 상용 또는 개방형 액세스 중 하나로 일반적으로 공공 액세스 서지 데이터베이스, 공공 액세스 웹 기반 라이브러리 카탈로그(OPAC), Google 및/또는 개방형 액세스, 정부 운영 또는 기업 데이터 수집과 같은 웹 기반 검색 엔진을 검색한다. 이러한 개별 정보 출처는 검색 질의의 결과 목록을 포털의 인터페이스로 다시 보낸다. 사용자는 이 히트 리스트를 검토할 수 있다. 일부 포털은 단지 실제 데이터베이스 결과를 스크래치할 뿐 사용자가 정보 출처의 응용 프로그램에 직접 들어가는 것을 허용하지 않을 것이다. 좀 더 정교한 것은 중복 항목을 병합하고 제거하여 결과 목록을 중복 제거한다. 많은 포털에서 이용할 수 있는 부가적인 기능들이 있지만, 기본 아이디어는 동일하다. 개별 검색의 정확성과 관련성을 높이는 것은 물론 자원 검색에 필요한 시간을 줄이는 것이다.
이 프로세스는 기존의 크롤러 기반 검색 엔진과 비교할 때 연합 검색을 가능하게 한다. 연합 검색은 증가하는 트래픽을 처리하는 것 외에 개별 정보 출처의 소유자에게 어떠한 요구사항이나 부담을 줄 필요가 없다. 연합 검색은 실시간으로 검색되기 때문에 개별 정보 출처만큼 본질적으로 최신이다.
실행
연합 검색의 한 가지 적용은 메타세르크 엔진이다. 그러나 메타서치 접근법은 불완전지수 등 컴포넌트 검색엔진의 단점을 극복하지 못한다. 검색 엔진에 의해 색인화되지 않은 문서는 딥 웹 또는 보이지 않는 웹이라고 알려진 것을 만든다. 구글 스콜라(Google Scholar)는 검색 엔진이 무시하는 전자 문서를 색인화함으로써 이를 해결하려는 많은 프로젝트의 한 예다. 그리고 메타서치 접근법은, 기초적인 검색엔진 기술과 마찬가지로, 전자 형태로 저장된 정보원과만 작동한다.
메타서치의 주요 과제 중 하나는 검색 질의가 연합되고 결합되고 있는 컴포넌트 검색 엔진과 호환되도록 하는 것이다. 검색 시스템의 검색어 또는 데이터 모델이 하나 이상의 외국 대상 시스템의 데이터 모델과 다를 경우, 쿼리를 각 외국 대상 시스템으로 번역해야 한다. 이것은 단순한 데이터 요소 변환을 사용하여 수행될 수 있거나 의미적 변환이 필요할 수 있다. 예를 들어, 한 검색엔진이 정확한 문자열이나 n그램의 견적을 허용하고 다른 검색엔진이 그렇지 않은 경우, 쿼리는 각 검색엔진과 호환되도록 번역되어야 한다. 인용된 정확한 문자열 질의를 번역하기 위해 각 검색 엔진에서 원하는 검색 결과를 제공할 가능성이 가장 높은 겹치는 N그램 집합으로 나눌 수 있다.
연합 검색 엔진의 구현에서 직면하고 있는 또 다른 과제는 확장성이다. 연합 검색엔진은 점점 더 많은 정보원을 하나로 결합하기 때문에 성능, 응답 속도를 유지하기 어렵다. 이 문제를 해결하기 위해 시작된 연합 검색의 한 가지 실행은 미국 에너지부의 과학 기술 정보국이 주최하는 월드와이드 사이언스다. 월드와이드사이언스는[4] 40개 이상의 정보원으로 구성되어 있으며, 그 중 몇 개는 연합 검색 포털 자체다. 그러한 포털 중 하나는 Science.gov[5]이다. Science.gov은 미국 연방정부의 R&D 산출물의 대부분을 대표하는 30개 이상의 정보원을 연방으로 제공한다. 아마존닷컴은 가장 높은 순위를 매긴 결과를 월드와이드사이언스(WorldWideScience)에 반환하고, 이 결과를 월드와이드사이언스를 구성하는 다른 정보원이 반환한 검색과 병합하여 순위를 매긴다.[5] 계단식 연합 검색의 이러한 접근방식은 단일 질의를 통해 많은 정보원을 검색할 수 있게 한다.
노르웨이와 스웨덴에서 모두 실행 중인 또 다른 응용 프로그램인 Sesam은 연합 검색 솔루션에 특화된 오픈 소스 플랫폼 위에 구축되었다. 세삼 검색 애플리케이션 툴킷의 약자인 [6]세사트는 병렬 검색과 파이프라인 검색을 처리하고 사용자 인터페이스에서 우아하게 표시하는 데 필요한 프레임워크와 기능을 상당 부분 제공하는 플랫폼으로 엔지니어가 인덱스/데이터베이스 구성 튜닝에 집중할 수 있도록 했다.
연합 검색에서 수직 주문을 개인화하기 위해 LinkedIn 검색 엔진은[2] 검색자의 프로필과 최근 활동을 이용하여 고용, 구직 및 컨텐츠 소비와 같은 검색자의 의도를 유추한 다음 다른 여러 신호와 함께 개별 검색자와 개인적으로 관련된 수직 순서를 매긴다.
과제들
보안 데이터 소스에 대해 연합 검색을 수행할 때는 적절한 보안이 유지되도록 사용자 자격 증명을 각 기본 검색 엔진에 전달해야 한다. 사용자가 시스템마다 다른 로그인 자격 증명을 가지고 있는 경우, 로그인 ID를 각 검색 엔진의 보안 도메인에 매핑할 수 있는 수단이 있어야 한다.[7]
또 다른 과제는 결과 목록 네비게이터를 공통 양식에 매핑하는 것이다. 3개의 부동산 사이트를 검색하고 각 도시에서만 일치 항목을 볼 수 있도록 각각 클릭할 수 있는 하이퍼링크 도시 이름 목록을 제공한다고 가정해 보십시오. 이상적으로는 이러한 측면이 하나의 세트로 결합될 수 있지만, 그것은 추가적인 기술적 문제를 제시한다.[8] 또한 사용자가 결합된 결과를 페이지화할 수 있도록 하려면 "다음 페이지" 링크를 이해할 필요가 있다.
연합된 자원이 RDF. 온톨로지스(규칙)를 통해 연계된 열린 데이터를 지원한다면, 이 기술을 사용하는 공통 양식에 대한 지도 결과에 추가할 수 있다.
또 다른 과제는 결과를 분류하고 점수를 매기는 것이다. 각 웹 자원은 관련성 점수에 대한 고유한 개념을 가지고 있으며, 일부 정렬된 결과 순서를 지원할 수 있다. 연관성은 검색에서 "연방국"에 따라 크게 다르기 때문에, 가장 관련성이 높은 결과를 보여주기 위해 결과를 인터리빙하는 방법을 아는 것은 어렵거나 불가능하다.
또 다른 도전은 강력한 질의다. 연합 검색은 모든 연방에게 공통적인 최소한의 쿼리 기능 집합으로 스스로를 제한해야 할 수 있다. 예: 만약 구글이 부정과 인용구를 지지하지만 science.gov은 그렇지 않다면, 연합 검색이 부정되고 인용된 문구들을 지원하는 것은 불가능할 것이다.
또 다른 과제는 가용성과 시간 초과다. 연방정부(연방정부)의 수가 증가함에 따라 하나 이상의 느린 연방정부 또는 오프라인 연방정부가 발생할 가능성이 높아진다. 연합 검색은 오프라인에서 연합을 고려할 시기를 결정하거나 느린 응답을 기다려야 한다. 응답 시간은 가장 느린 연방에 의해 좌우될 것이다.
또 다른 과제는 기업 내 개발과 시험이다(대중 인터넷). 개발 그룹은 일반적으로 훨씬 덜 집중적인 부하 테스트를 정기적으로 수행하면서 라이브 생산 시스템을 가동해서는 안 된다. 또한, 일부 자원은 안전하며, 프라이버시와 보안상의 문제로 인해 임의로 쿼리하여 개발 중에 노출되어서는 안 된다. 따라서 개발, 시험 및 성능 시험 환경에는 안전하고 안전한 시험을 할 수 있도록 많은 하위 시스템에 대한 설치와 구성이 포함되어야 한다.
엔터프라이즈 내에서 또 다른 당면 과제는 HA/DR(고가용성 및 재해 복구)이다. 전체 연합 시스템이 HA/DR이 되려면 모든 하위 시스템이 HA/DR이어야 한다.
마찬가지로 연합 시스템을 위한 성능 모델링 및 용량 계획에는 모든 연방의 모델링, 계획 및 때로는 확장이 필요하다.
위의 이유로 기업 내에서는 데이터 허브 또는 데이터 호수가 선호될 수 있으며, 또는 하이브리드 접근법이 선호될 수 있다. 데이터 허브와 호수는 개발과 접근을 단순화하지만 (특별한 동기화 로직 없이) 데이터를 이용할 수 있기 전에 약간의 시차가 발생할 수 있다. 인터넷에서는 연방제가 더 전형적이다.
참고 항목
참조
- ^ "What is Federated Search?". Coveo Blog. Coveo. Retrieved June 29, 2020.
- ^ a b Arya, Dhruv; Ha-Thuc, Viet; Sinha, Shakti (2015). "Personalized Federated Search at LinkedIn". Proceedings of the 24th ACM International on Conference on Information and Knowledge Management (CIKM). pp. 1699–1702. arXiv:1602.04924. doi:10.1145/2806416.2806615. ISBN 9781450337946.
- ^ 연합 검색에 대한 생각 Jacso, Péter, Information Today, 2004년 10월 21일자 9호
- ^ 월드와이드사이언스
- ^ a b Science.gov
- ^ "Sesat". Archived from the original on 2015-07-20. Retrieved 2019-08-17.
- ^ 보안 요구 사항을 엔터프라이즈 검색에 매핑
- ^ 인터넷과 인터넷의 차이점 20+ 엔터프라이즈 검색 - 1부
추가 읽기
- 연합 수색 101호 리노스키, 알렉시스, 월치크, 티네, 라이브러리 저널, 2008년 여름 넷 커넥트, 133권 이 콘텐츠는 여기로 이동되었지만 전체 기사를 얻으려면 로컬 라이브러리를 통한 원격 액세스 계정이 필요할 것이다.
- 콕스, 크리스토퍼 N. 연합 검색: 솔루션 또는 온라인 라이브러리 서비스에 대한 중단. 뉴욕 주, 빙햄튼: 하워스 정보 프레스, 2007. 목차
- 연합 검색 프라이머. 레더맨, S, AltSearchEngines, 2009년 1월. 이 자료는 상업용 검색 엔진 회사의 블로그에 다시 게시되었다.
- Si, Luo; Shokouhi, Milad (2011). "Federated Search". Foundations and Trends in Information Retrieval. 5: 1–102. doi:10.1561/1500000010.