OpenRefine (Open Refine)

OpenRefine
OpenRefine (Open Refine)
OpenRefine favicon (2018-present).svg
개발자Freebase, Google, 오픈 소스 커뮤니티가 되었습니다.
초기 릴리즈2010년 11월 10일, 11년 전(2010년 11월 10일)
안정된 릴리스
3.5.2[1] / 2022년 1월 26일; 6개월 (2022년 1월 26일)
저장소
기입처자바[2]
플랫폼Microsoft Windows, Linux, macOS
이용가능기간:영어, 이탈리아어, 중국어, 일본어, 프랑스어, 독일어
유형
면허증.BSD 라이선스
웹 사이트openrefine.org Edit this on Wikidata

OpenRefine은 데이터 정리 및 다른 형식으로 변환하기 위한 오픈 소스 데스크톱 애플리케이션으로 일반적으로 데이터 논쟁으로 [3]알려져 있습니다.는 스프레드시트 애플리케이션과 비슷하며 CSV와 같은 스프레드시트 파일 형식을 처리할 수 있지만 데이터베이스처럼 작동합니다.

릴레이셔널 데이터베이스 테이블이 작동하는 방식과 마찬가지로 열 아래에 셀이 있는 데이터 에서 작동합니다.OpenRefine 프로젝트는 하나의 테이블로 구성되며, 이 테이블은 조건을 정의하는 패싯(예를 들어 지정된 열이 비어 있지 않은 행 표시)을 사용하여 행을 필터링할 수 있습니다.

스프레드시트와 달리 OpenRefine의 대부분의 작업은 한 열에 [4]있는 모든 행의 모든 셀 변환이나 기존 데이터를 기반으로 한 새 열 생성 등 모든 행에 대해 수행됩니다.데이터셋에서 수행된 작업은 프로젝트에 저장되며 다른 데이터셋에서 '재생'할 수 있습니다.공식은 셀에 저장되지 않지만 데이터를 변환하는 데 사용됩니다.변환은 한 [5]번만 이루어집니다.공식 표현식은 GREL([6]General Refine Expression Language), Jython(예: Python) 및 Clojure[7]작성할 수 있습니다.

이 프로그램은 로컬 웹 앱으로 작동합니다. 웹 서버를 시작하고 127.0.0.1:333으로 기본 브라우저를 엽니다.

사용하다

  • 지저분한 데이터 정리: 예를 들어 일부 반구조화된 데이터가 포함된 텍스트 파일을 사용하는 경우 변환, 패싯 및 클러스터링을 사용하여 편집하여 데이터를 깔끔하게 [8]구성할 수 있습니다.
  • 데이터 변환: 값을 다른 형식으로 변환, 정규화 및 정규화 해제.
  • 사이트의 데이터 구문 분석:OpenRefine에는 URL 가져오기 기능과 jsoup HTML 파서 및 DOM [9]엔진이 있습니다.
  • 데이터를 서비스에서 가져와 데이터 집합에 추가(예: [10]JSON 반환)예를 들어, 는 주소를 지리적 [11]좌표지오코딩하는 데 사용할 수 있습니다.
  • Wikidata(이전[12] Freebase)에 대한 조정: 셀의 문자열 값을 Wikidata의 [13]엔티티에 매핑하는 조정 작업이 포함됩니다.

지원되는 형식

Import는 다음 [14]형식에서 지원됩니다.

입력 데이터가 표준 텍스트 형식이 아닌 경우 열로 분할되지 않고 전체 행으로 가져온 다음 나중에 OpenRefine 도구를 사용하여 열을 추출할 수 있습니다.아카이브 및 압축된 파일(.zip, .tar.gz, .tgz, .tar.bz2, .gz 또는 .bz2)이 지원되며 Refine은 URL에서 입력 파일을 다운로드할 수 있습니다.웹 페이지를 입력으로 사용하려면 URL 목록을 가져온 다음 URL 가져오기 기능을 호출할 수 있습니다.

내보내기는 다음 [16]형식으로 지원됩니다.

네이티브 형식의 OpenRefine 프로젝트 전체를 .tar.gz 아카이브로 내보낼 수 있습니다.

발전

OpenRefine은 Metaweb에 의해 개발된 FreeBase Gridworks로 시작되었으며 2010년 [17]1월부터 오픈 소스로 제공되고 있습니다.2010년 7월 16일, 구글프리베이스의 창시자인 메타웹을 [18]인수하였고, 2010년 11월 10일 프리베이스 그리드워드의 이름을 구글 리파인(Google Refine)으로 변경하여 버전 2.[19]0을 출시하였다.2012년 10월 2일, 원작자인 David Huynh는 구글이 Google [20][21][22]Refine에 대한 적극적인 지원을 곧 중단할 것이라고 발표했다.그 후 코드베이스는 오픈 소스 프로젝트인 OpenRefine으로 [23]이행하고 있습니다.

레퍼런스

  1. ^ "OpenRefine v3.5.2". Archived from the original on 26 January 2022. Retrieved 26 January 2022.
  2. ^ "OpenRefine/OpenRefine - GitHub". GitHub. Retrieved 25 June 2017.
  3. ^ "openrefine.github.com". openrefine.org.
  4. ^ "Editing by transforming: Cell Editing wiki page from Refine documentation". Retrieved 18 April 2012.
  5. ^ "Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation". Retrieved 18 April 2012.
  6. ^ 일반 표현식 언어 OpenRefine/OpenRefine Wiki GitHub.Github.com (2013-04-03)2013-08-16에 취득.
  7. ^ "Expressions: Refine documentation". Retrieved 18 April 2012.
  8. ^ "Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data". YouTube. Retrieved 18 April 2012.
  9. ^ "Stripping HTML: Refine documentation wiki page". Retrieved 18 April 2012.
  10. ^ "FetchingURLsFromWebServices wiki page: Refine documentation". Retrieved 18 April 2012.
  11. ^ "Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation". YouTube. Retrieved 18 April 2012.
  12. ^ "Schema Alignment: Refine documentation wiki page". Retrieved 18 April 2012.
  13. ^ "OpenRefine documentation: Reconciliation". GitHub. Retrieved 12 March 2017.
  14. ^ "Importers: Refine documentation wiki page". Retrieved 18 April 2012.
  15. ^ "Changelog for 2.5". Retrieved 18 April 2012.
  16. ^ "Exporting: Refine documentation wiki page". Retrieved 18 April 2012.
  17. ^ "Google Code Archive - Long-term storage for Google Code Project Hosting". code.google.com.
  18. ^ "Google Official Blog: Deeper understanding with Metaweb". Retrieved 18 April 2012.
  19. ^ "Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers". Retrieved 18 April 2012.
  20. ^ "Google Groups". groups.google.com.
  21. ^ "From Freebase Gridworks to Google Refine and now OpenRefine".
  22. ^ OpenRefineWayback Machine에서 2016-09-25로 아카이브되었습니다.OpenRefine.2013-08-16에 취득.
  23. ^ google-refine - Google Refine - 지저분한 데이터(이전 Freebase Gridworks)를 사용하기 위한 강력한 도구 - Google 프로젝트 호스팅.Code.google.com 를 참조해 주세요.2013-08-16에 취득.

외부 링크