원시 데이터

Raw data
이 전산화된 표에서 맨 왼쪽 열의 오른쪽에 있는 두 개의 열은 원시 데이터다.

원시 데이터1차 데이터라고도 하며 소스에서 수집된 데이터(예: 숫자, 계기 판독, 그림 등)이다. 검사의 맥락에서 원시 데이터는 (시험 점수 후) 원시 점수라고 설명할 수 있다.

과학자가 매 분마다 시험관에 화학 혼합물의 온도를 기록하는 컴퓨터 온도계를 설치하면 스프레드시트에 인쇄하거나 컴퓨터 화면에서 보는 것처럼 매 분마다 온도 측정값 목록이 '원시 데이터'가 된다. 원시 데이터는 특이치를 제거하기 위한 연구자들에 의해 처리, 명확한 계기 판독 오류 또는 데이터 입력 오류 또는 분석(: 평균 또는 중위수 결과와 같은 중심 경향 측면을 결정)의 대상이 되지 않았다. 또한, 원시 데이터는 소프트웨어 프로그램이나 인간 연구자, 분석가 또는 기술자에 의해 다른 조작의 대상이 되지 않았다. 그것들은 일차 데이터로도 불린다. 원시 데이터는 상대 용어(데이터 참조)로, 한 연구팀이 원시 데이터를 "정리"하고 처리한 경우에도 다른 팀은 이러한 처리된 데이터를 다른 연구 단계의 "원시 데이터"로 간주할 수 있기 때문이다. 원시 데이터는 컴퓨터 프로그램에 입력하거나 조사통계 분석과 같은 수동 절차에 사용할 수 있다. "원시 데이터"라는 용어는 하드 디스크 드라이브(이하 "로우 레벨 데이터"라고도 함)와 같은 전자 저장 장치의 이진 데이터를 지칭할 수 있다.

데이터 생성 중

데이터는 생성되거나 만들어지는 두 가지 방법이 있다. 첫째는 '캡처된 데이터'[1]라고 하는 것으로, 목적적합한 조사나 분석을 통해 발견된다. 두 번째는 '소진 데이터'[1]라고 하며, 보통 기계나 단자에 의해 2차 함수로 수집된다. 예를 들어, 현금 레지스터, 스마트폰, 속도계는 주요 기능을 하지만 보조 작업으로 데이터를 수집할 수 있다. 전체 데이터는 대개 너무 크거나 거의 사용하지 않아 처리하기에 '투명하다'거나 버려진다.[1]

컴퓨팅에서 원시 데이터는 인간, 기계 또는 계기 오류를 포함할 수 있고 검증되지 않을 수 있으며, 다른 영역(협조) 형식일 수 있으며, 코드화되지 않았거나 포맷되지 않은 상태일 수 있으며, 일부 항목확인 또는 인용이 필요할 수 있다. 예를 들어, 데이터 입력 시트는 "1999년 1월 31일", "31/01/1999", "31/1/99", "1월 31일" 또는 "오늘"과 같은 많은 형식의 원시 데이터로 날짜를 포함할 수 있다. 일단 캡처되면, 이 원시 데이터는 이후 처리 중에 컴퓨터와 사람이 더 쉽게 해석할 수 있도록 하기 위해 표준화된 형식(아마 줄리앙 날짜)으로 저장될 수 있다. 원시 데이터(때로는 구어적으로 "소스" 데이터 또는 "계란" 데이터라고 부르기도 하며, 후자는 "미조리"된 데이터에 대한 참조인 즉, 생란처럼 "처리되지 않은" 데이터)는 처리에 대한 데이터 입력이다. 정보는 데이터 처리의 최종 산물이라는 취지로 데이터정보를 구별한다. 가공 과정을 거친 원시 데이터를 구어적 의미로 "조리된" 데이터라고 부르기도 한다.[dubious ] 원시 데이터는 "정보"로 변환될 가능성이 있지만, 원시 데이터를 사용 가능한 정보로 변환하기 위해서는 추출, 조직, 분석, 표시 형식 등이 필요하다.

예를 들어, 분주한 슈퍼마켓의 판매 시점 단말기(POS 단말기, 전산화된 현금 레지스터)는 고객의 구매에 관한 방대한 양의 원시 데이터를 매일 수집한다. 그러나 이 식료품목 리스트와 그 가격, 구매일자는 그것이 처리되기 전까지 많은 정보를 제공하지 않는다. 소프트웨어 프로그램 또는 심지어 펜과 종이와 계산기를 사용하여 연구자에 의해 처리되고 분석되면, 이 원시 데이터는 각 고객이 구매하는 특정 품목, 구매 시기, 그리고 어떤 가격으로 구매하는지를 나타낼 수 있다. 또한, 분석가나 관리자는 고객당 평균 총 매출 또는 하루 평균 지출액을 계산할 수 있다.그는 매주 한 시간씩 이러한 처리 및 분석 데이터는 매니저에게 정보를 제공하며, 매니저가 예를 들어, 몇 명의 캐셔를 고용할 것인지, 몇 시에 몇 명의 캐셔를 고용할 것인지 결정하는 데 사용할 수 있다. 그러한 정보는 예를 들어 예측 마케팅 캠페인의 일부로서 추가 처리를 위한 데이터가 될 수 있다. 처리 결과, 원시 데이터는 때때로 데이터베이스에 저장되며, 이것은 원시 데이터를 더 많은 다른 방법으로 추가 처리 및 분석을 위해 접근할 수 있게 한다.

팀 버너스-리(World Wide Web의 발명가)는 원시 데이터를 공유하는 것이 사회에 중요하다고 주장한다. 오픈 지식 재단루퍼스 폴록올린 글에서 영감을 얻은 그의 행동 요구는 "Raw Data Now"로, 모든 사람들이 그들이 수집한 데이터를 원시 데이터로 공유하도록 요구해야 한다는 것을 의미한다. 그는 "데이터가 우리 삶에서 일어나는 많은 일들을 주도한다. 누군가가 데이터를 가져가고 그것을 가지고 뭔가를 하기 때문이다"라고 지적한다. 버너스 리에게 있어 과학의 발전은 본질적으로 이러한 원시 데이터의 공유에서 비롯된다. 공개 데이터 옹호론자들은 시민과 시민사회단체가 기업과 정부의 데이터에 접근할 수 있게 되면 시민과 NGO가 스스로 데이터를 분석할 수 있게 되어 국민과 시민사회에 힘을 실어줄 수 있다고 주장한다. 예를 들어, 정부의 정책이 실업률을 감소시키고 있다고 주장할 수 있지만, 빈곤 옹호 단체는 직원 계량학자들이 원시 데이터를 자체 분석하도록 할 수 있으며, 이로 인해 이 단체가 데이터 세트에 대해 다른 결론을 도출할 수도 있다.

참고 항목

참조

  1. ^ a b c Kitchin, Rob (2014). The Data Revolution. United States: Sage. p. 6.

추가 읽기