파이프라인 파일럿

Pipeline Pilot
파이프라인 파일럿
개발자액셀리스
초기 릴리즈1999 (1999)
안정적 해제
18.1 / 2018년 5월(2018-05)
기록 위치C++
운영 체제윈도리눅스
유형시각 및 데이터 흐름 프로그래밍 언어
면허증소유권
웹사이트accelrys.com/products/collaborative-science/biovia-pipeline-pilot/

Pipeline Pilot은 데이타를 처리하고 분석하기 위해 Dassault Systémes가 판매하는 데스크탑 소프트웨어 프로그램이다. 원래 자연과학에서 사용되던 제품의 기본 ETL(Extract, Transform, Load)과 분석 기능이 확대됐다. 이 제품은 현재 여러 분야에서 데이터 과학, ETL, 보고, 예측 및 분석에 사용되고 있다. 이 제품의 주요 특징은 그래픽 사용자 인터페이스를 사용하여 데이터 워크플로우를 설계할 수 있다는 것이다. 이 프로그램은 시각 및 데이터 흐름 프로그래밍의 한 예다. 그것은 척도학 및 QSAR,[1][2][3] 차세대 시퀀싱,[4] 이미지 분석,[5][6] 텍스트 분석 등 다양한 설정에서 사용된다.[7]

역사

그 제품은 SciTeimit에 의해 만들어졌다. 이후 바이오비아는 2004년 SciTeiment와 Pipeline Pilot을 인수했다. 바이오비아는 2014년 다쏘시스테메스가 자체 구매했다. 이 제품은 화학에 대한 초기 집중에서 일반 추출, 변환 및 부하(ETL) 기능을 포함하도록 확장되었다. 다쏘는 기본 제품 외에도 보고서 생성, 데이터 시각화, 다수의 과학 및 엔지니어링 분야를 위한 분석 및 데이터 처리 컬렉션을 추가했다. 현재 이 제품은 화학, 에너지, 소비자 패키지 상품, 항공우주, 자동차, 전자제품 제조업에서 ETL, 분석, 기계학습에 사용되고 있다.

개요

Pipeline Pilot은 데이터를 조작하고 분석하기 위한 사용자 인터페이스를 제공하는 소프트웨어 제품군의 일부다. Pipeline Pilot 및 유사한 제품은 코딩 능력이 제한적이거나 없는 사용자가 데이터셋을 변환하고 조작할 수 있도록 한다. 일반적으로 이것은 데이터 분석을 실시하기 위한 선행 조건이다. 다른 그래픽 ETL 제품과 마찬가지로 CSV 파일, 텍스트 파일, 데이터베이스와 같은 다른 데이터 소스에서 사용자가 꺼낼 수 있도록 한다.

구성 요소, 파이프라인, 프로토콜 및 데이터 레코드

Pipeline Pilot Professional Client라고 불리는 그래픽 사용자 인터페이스를 통해 사용자는 "구성요소"라고 불리는 이산 데이터 처리 단위를 드래그 앤 드롭할 수 있다. 구성요소는 데이터를 로드, 필터링, 결합 또는 조작할 수 있다. 또한 구성요소는 회귀 모델 구축, 신경 네트워크 훈련 또는 PDF 보고서로 데이터셋 처리와 같은 훨씬 더 진보된 데이터 조작을 수행할 수 있다.

파이프라인 파일럿은 구성요소 패러다임을 구현한다. 구성요소는 워크플로에서 노드로 표시된다. 수학적 의미에서 구성요소는 지시된 그래프에서 노드로 모델링된다: "파이프"(그래프 가장자리)는 구성요소를 연결하고 데이터에 대한 연산이 수행되는 노드에서 노드로 데이터를 이동시킨다. 사용자는 미리 정의된 구성요소를 사용하거나 그들 자신의 구성요소를 개발할 수 있다. 차세대 시퀀싱(HTS(High-throughput Sequencing) 방법 참조)과 같은 산업별 애플리케이션에 도움이 되도록, BIOVIA는 사용자가 일반적인 산업별 작업을 수행하는 데 필요한 시간을 크게 단축하는 구성요소를 개발했다.

사용자는 "프로토콜"이라고 불리는 워크플로우에서 미리 설치된 구성요소 중에서 선택하거나 자신의 구성요소를 만들 수 있다. 프로토콜은 연결된 구성요소들의 집합이다. 프로토콜은 저장, 재사용 및 공유할 수 있다. 사용자는 BIOVIA의 소프트웨어와 함께 제공되는 구성요소를 자신의 사용자 정의 구성요소와 혼합하여 매칭할 수 있다. 두 구성 요소 사이의 연결을 "파이프"라고 하며, 소프트웨어에서 파이프로 연결된 두 구성 요소로 시각화한다. 최종 사용자는 워크플로우/프로토콜을 설계한 후 프로토콜을 실행하여 워크플로우/프로토콜을 실행한다. 데이터는 파이프를 따라 왼쪽에서 오른쪽으로 흐른다.

현대적인 데이터 분석과 처리에는 매우 많은 조작과 변환이 수반될 수 있다. 파이프라인 파일럿의 주요 특징 중 하나는 많은 구성요소를 포함하는 일련의 긴 데이터 조작을 시각적으로 응축할 수 있는 능력이다. 모든 길이의 워크플로우를 높은 수준의 워크플로우에 사용되는 구성요소로 시각적으로 압축할 수 있다. 이것은 프로토콜을 저장하고 다른 프로토콜의 구성요소로 사용할 수 있다는 것을 의미한다. Pipeline Pilot에서 사용되는 용어에서, 다른 프로토콜의 구성요소로 사용되는 프로토콜을 "subprotocols"라고 부른다. 이를 통해 사용자는 데이터 처리 및 조작 워크플로우에 복잡성 계층을 추가한 다음, 더 높은 수준의 추상화 수준에서 워크플로우를 설계할 수 있도록 해당 복잡성을 숨길 수 있다.

구성 요소 컬렉션

Pipeline Pilot은 "수집"이라고 불리는 많은 추가 기능을 특징으로 한다. 컬렉션은 추가적인 라이선스 비용으로 최종 사용자에게 제공되는 유전자 정보 처리 또는 폴리머 분석과 같은 전문 기능의 그룹이다. 현재, 이러한 수집품들이 많이 있다.[8]

그룹 도메인 컴포넌트 컬렉션
과학별 화학 화학
아메데
체민포매틱스
생물학 진 표현
시퀀스 분석
프로테오노믹스를 위한 질량분석법
차세대 시퀀싱
재료 모델링 및 시뮬레이션 재료 스튜디오
폴리머 특성(신시아)
포괄적인 보고 & 시각화 보고
데이터베이스 및 애플리케이션 통합 통합
이미징 이미징
분석 & 통계 데이터 모델링
고급 데이터 모델링
R 통계
문서 검색 및 분석 화학 텍스트 마이닝
텍스트 분석
실험실 플레이트 데이터 분석
해석 계측

현재 BIOVIA가 제공하는 다양한 추가 기능의 수를 고려할 때, 파이프라인 파일럿의 사용 사례는 매우 광범위하고 간결하게 요약하기 어렵다. 본 제품은 다음에서 사용됨:

파일럿스크립트 및 사용자 정의 스크립트

다른 ETL 및 분석 솔루션과 마찬가지로 Pipeline Pilot은 하나 이상의 대형(1TB+) 및/또는 복잡한 데이터셋을 처리할 때 자주 사용된다. 이러한 상황에서 최종 사용자는 자신이 작성한 프로그래밍 스크립트를 활용하기를 원할 수 있다. Pipeline Pilot은 개발 초기에 최종 사용자가 Pipeline Pilot 프로토콜에 통합될 수 있는 기본 프로그래밍 스크립트를 쉽게 작성할 수 있도록 PilotScript라는 단순화된 Pared-down 스크립팅 언어를 만들었다. 나중에 Python을 포함한 다양한 프로그래밍 언어에 대한 지원을 확장함.NET, Matlab, Perl, SQL, Java, VBScriptR.[9]

PilotScript의 구문은 PLSQL을 기반으로 한다. 사용자 정의 조작기(PilotScript) 또는 사용자 정의 필터(PilotScript)와 같은 구성 요소에 사용할 수 있다. 예를 들어, 다음의 스크립트를 사용하여 Pipeline Pilot 프로토콜에서 사용자 정의 스크립팅 구성요소를 통과하는 각 레코드에 "Hello"라는 이름의 속성을 추가할 수 있다. 그 재산의 가치는 "헬로 월드!"라는 문자열이다.

안녕 := "헬로 월드!"; 

현재 이 제품은 프로그램의 그래픽 사용자 인터페이스 없이도 실행할 수 있는 다양한 프로그래밍 언어에 대해 다수의 API를 지원한다.

참조

  1. ^ Hassan, Moises; Brown, Robert D.; Varma-O'Brien, Shikha; Rogers, David (2007). "Cheminformatics Analysis and Learning in a Data Pipelining Environment". ChemInform. 38 (12). doi:10.1002/chin.200712278. ISSN 0931-7597.
  2. ^ Hu, Ye; Lounkine, Eugen; Bajorath, Jürgen (2009). "Improving the Search Performance of Extended Connectivity Fingerprints through Activity-Oriented Feature Filtering and Application of a Bit-Density-Dependent Similarity Function". ChemMedChem. 4 (4): 540–548. doi:10.1002/cmdc.200800408. ISSN 1860-7179. PMID 19263458.
  3. ^ Warr, Wendy A. (2012). "Scientific workflow systems: Pipeline Pilot and KNIME". Journal of Computer-Aided Molecular Design. 26 (7): 801–804. Bibcode:2012JCAMD..26..801W. doi:10.1007/s10822-012-9577-7. ISSN 0920-654X. PMC 3414708. PMID 22644661.
  4. ^ "Accelrys Enters Next Generation Sequencing Market with NGS Collection for Pipeline Pilot". Business Wire. 2011-02-23. Retrieved 15 February 2013.
  5. ^ Rabal, Obdulia; Link, Wolfgang; G. Serelde, Beatriz; Bischoff, James R.; Oyarzabal, Julen (2010). "An integrated one-step system to extract, analyze and annotate all relevant information from image-based cell screening of chemical libraries". Molecular BioSystems. 6 (4): 711–20. doi:10.1039/b919830j. ISSN 1742-206X. PMID 20237649.
  6. ^ Paveley, Ross A.; Mansour, Nuha R.; Hallyburton, Irene; Bleicher, Leo S.; Benn, Alex E.; Mikic, Ivana; Guidi, Alessandra; Gilbert, Ian H.; Hopkins, Andrew L.; Bickle, Quentin D. (2012). "Whole Organism High-Content Screening by Label-Free, Image-Based Bayesian Classification for Parasitic Diseases". PLoS Neglected Tropical Diseases. 6 (7): e1762. doi:10.1371/journal.pntd.0001762. ISSN 1935-2735. PMC 3409125. PMID 22860151.
  7. ^ Vellay, SG; Latimer, NE; Paillard, G (2009). "Interactive text mining with Pipeline Pilot: a bibliographic web-based tool for PubMed". Infectious Disorders Drug Targets. 9 (3): 366–74. doi:10.2174/1871526510909030366. PMID 19519489.
  8. ^ "Pipeline Pilot Component Collections". Accelrys. Archived from the original on January 15, 2013. Retrieved 26 January 2013.
  9. ^ "Pipeline Pilot Integration Component Collection Datasheet" (PDF). Accelrys. Retrieved 8 February 2013.