데이터.
Data시리즈의 일부(on) |
인식론 |
---|
이것은 철학에 관한 하위 시리즈입니다.관련 주제를 알아보려면 네비게이션을 방문해 주시기 바랍니다. |
일반적인 용례와 통계에서 데이터(미국: / ˈd æt ə/; 영국: / ˈd ɪt ə/)는 정보를 전달하는 이산적이거나 연속적인 값의 모음으로, 양, 품질, 사실, 통계, 기타 기본적인 의미 단위 또는 단순히 형식적으로 해석될 수 있는 기호의 시퀀스를 설명합니다.데이터는 데이터 모음의 개별 값입니다.데이터는 일반적으로 추가적인 컨텍스트와 의미를 제공하는 테이블과 같은 구조로 구성되며, 이는 자체적으로 더 큰 구조의 데이터로 사용될 수 있습니다.데이터는 계산 과정에서 변수로 사용될 수 있습니다.[1][2]데이터는 추상적인 아이디어 또는 구체적인 측정을 나타낼 수 있습니다.[3]데이터는 일반적으로 과학 연구, 경제 및 거의 모든 다른 형태의 인간 조직 활동에 사용됩니다.데이터 세트의 예로는 물가 지수(소비자 물가 지수 등), 실업률, 문해율, 인구 조사 데이터 등이 있습니다.이러한 맥락에서 데이터는 유용한 정보를 추출할 수 있는 원시적인 사실과 수치를 나타냅니다.
데이터는 측정, 관찰, 쿼리 또는 분석과 같은 기법을 사용하여 수집되며, 일반적으로 숫자 또는 문자로 표시되며, 이는 추가로 처리될 수 있습니다.필드 데이터는 제어되지 않는 현장 환경에서 수집되는 데이터입니다.실험 데이터는 통제된 과학 실험 과정에서 생성되는 데이터입니다.데이터는 계산, 추론, 토론, 프레젠테이션, 시각화 또는 사후 분석의 다른 형태와 같은 기술을 사용하여 분석됩니다.분석 전에 원시 데이터(또는 처리되지 않은 데이터)는 일반적으로 다음과 같이 정리됩니다.특이치가 제거되고 명백한 계측기 또는 데이터 입력 오류가 수정됩니다.
데이터는 계산, 추론 또는 토론의 기초로 사용될 수 있는 가장 작은 사실 정보 단위라고 볼 수 있습니다.데이터의 범위는 추상적인 아이디어에서부터 통계를 포함한 구체적인 측정에 이르기까지 다양합니다.일부 관련 맥락에서 제시된 주제별 연결 데이터는 정보로 볼 수 있습니다.상황에 따라 연결된 정보는 데이터 통찰력 또는 인텔리전스로 설명될 수 있습니다.데이터를 정보로 합성한 결과 시간이 지남에 따라 축적되는 통찰력과 지능은 지식으로 설명될 수 있습니다.데이터는 "디지털 경제의 새로운 석유"라고 설명되어 왔습니다.[4][5]일반적인 개념으로서 데이터는 일부 기존의 정보나 지식이 더 나은 사용이나 처리에 적합한 형태로 표현되거나 코딩된다는 사실을 말합니다.
컴퓨팅 기술의 발전은 빅 데이터의 출현으로 이어졌는데, 빅 데이터는 보통 페타바이트 규모의 매우 많은 양의 데이터를 말합니다.기존의 데이터 분석 방법과 컴퓨팅을 사용하면 이러한 대규모(그리고 증가하는) 데이터셋을 사용하는 것은 어려울 수도 있고 불가능할 수도 있습니다. (이론적으로 말하면, 무한한 데이터는 무한한 정보를 생성하여 통찰력이나 지능을 추출하는 것을 불가능하게 만들 수도 있습니다.이에 대응하여 비교적 새로운 데이터 과학 분야는 빅 데이터에 분석 방법을 효율적으로 적용할 수 있는 기계 학습(및 기타 인공 지능(AI) 방법을 사용합니다.
어원 및 용어
라틴어 단어 데이터는 dataum의 복수형, "(사물이) 주어진", dare의 중성 과거 분사, "주는"입니다.[6]"데이터"라는 단어의 최초의 영어 사용은 1640년대부터입니다."데이터"라는 단어는 1946년에 "전송 가능하고 저장 가능한 컴퓨터 정보"라는 의미로 처음 사용되었습니다."데이터 프로세싱"이라는 표현은 1954년에 처음 사용되었습니다.[6]
"데이터"가 "정보"의 동의어로 더 일반적으로 사용될 때, 그것은 단수 형태의 대량 명사로 취급됩니다.이 사용법은 일상 언어와 소프트웨어 개발과 컴퓨터 과학과 같은 기술적이고 과학적인 분야에서 일반적입니다.이러한 용법의 한 예로 "빅 데이터"라는 용어가 있습니다.데이터 집합의 처리 및 분석을 지칭하기 위해 더 구체적으로 사용될 때, 이 용어는 복수 형태를 유지합니다.이 사용법은 자연과학, 생명과학, 사회과학, 소프트웨어 개발, 컴퓨터 과학에서 흔히 사용되며, 20세기와 21세기에 인기를 끌었습니다.일부 스타일 가이드는 용어의 다른 의미를 인식하지 못하고 가이드의 대상 사용자에게 가장 적합한 양식을 추천합니다.예를 들어, 7판 현재의 APA 스타일은 "데이터"를 복수 형태로 취급해야 합니다.[7]
의미.
데이터, 정보, 지식, 지혜는 서로 밀접한 관련이 있는 개념이지만 서로에 대한 역할이 있고 각각의 용어는 그 의미가 있습니다.일반적인 견해에 따르면 데이터는 수집되고 분석됩니다. 데이터는 일단 어떤 방식으로 분석된 후에야 의사결정에 적합한 정보가 됩니다.[8]데이터 집합이 어떤 사람에게 유익한 정도는 그 사람이 예상하지 못한 정도에 따라 결정된다고 할 수 있습니다.데이터 스트림에 포함된 정보의 양은 섀넌 엔트로피(Shannon entropy)로 특징지어질 수 있습니다.
지식은 일부 개체가 소유한 환경에 대한 인식인 반면 데이터는 해당 지식을 전달할 뿐입니다.예를 들어 에베레스트 산의 높이를 지정하는 데이터베이스의 항목은 정확하게 측정된 값을 전달하는 데이터입니다.이 측정값은 에베레스트 산을 오르는 가장 좋은 방법을 결정하고자 하는 사람들에게 유용한 방법으로 설명하기 위해 에베레스트 산에 대한 다른 데이터와 함께 책에 포함될 수 있습니다.이러한 데이터로 대표되는 특징은 지식입니다.
데이터는 가장 추상적이지 않은 개념이고, 정보는 그 다음으로 적고, 지식은 가장 추상적이라고 가정하는 경우가 많습니다.[9]예를 들어, 에베레스트 산의 높이는 일반적으로 "데이터"로 간주되고, 에베레스트 산의 지질학적 특징에 대한 책은 "정보"로 간주되며, 에베레스트 산의 정상에 도달하는 가장 좋은 방법에 대한 실용적인 정보를 담고 있는 등반가용 가이드북은 "지식"으로 간주될 수 있습니다."정보"는 일상적인 사용에서 기술적인 사용에 이르기까지 다양한 의미를 가지고 있습니다.그러나 이 견해는 또한 데이터가 정보로부터, 그리고 정보가 지식으로부터 어떻게 나오는지를 뒤집는 것으로 주장되어 왔습니다.[10]일반적으로 정보의 개념은 제약, 의사소통, 통제, 데이터, 형태, 지시, 지식, 의미, 정신적 자극, 패턴, 지각, 표상의 개념과 밀접한 관련이 있습니다.Beynon-Davies는 기호의 개념을 사용하여 데이터와 정보를 구분합니다. 데이터는 기호의 연속인 반면, 정보는 기호가 무엇인가를 지칭하는 데 사용될 때 발생합니다.[11][12]
컴퓨팅 장치와 기계가 개발되기 전에는 사람들은 수동으로 데이터를 수집하고 패턴을 적용해야 했습니다.컴퓨팅 장치와 기계가 발달한 이래로, 이 장치들은 데이터를 수집할 수도 있습니다.2010년대에 컴퓨터는 많은 분야에서 데이터를 수집하고 분류하거나 처리하는 데 널리 사용되고 있으며, 마케팅, 사회 서비스 사용 분석, 과학 연구에 이르기까지 다양한 분야에서 사용되고 있습니다.데이터의 이러한 패턴은 지식을 향상시키는 데 사용할 수 있는 정보로 여겨집니다.이러한 패턴은 "진실"로 해석될 수 있으며("진실"은 주관적인 개념이 될 수 있지만), 일부 학문이나 문화에서 미적이고 윤리적인 기준으로 승인될 수 있습니다.인식 가능한 물리적 또는 가상 유해를 남기는 이벤트는 데이터를 통해 추적할 수 있습니다.마크와 관측치 사이의 연결이 끊어지면 마크는 더 이상 데이터로 간주되지 않습니다.[13]
기계적 컴퓨팅 장치는 데이터를 표현하는 방식에 따라 분류됩니다.아날로그 컴퓨터는 데이터를 전압, 거리, 위치 또는 기타 물리량으로 나타냅니다.디지털 컴퓨터는 데이터의 일부를 고정된 알파벳에서 추출한 기호의 시퀀스로 나타냅니다.가장 일반적인 디지털 컴퓨터는 이진 알파벳, 즉 일반적으로 "0"과 "1"을 나타내는 두 문자의 알파벳을 사용합니다.숫자나 문자와 같은 더 친숙한 표현은 이진 알파벳으로 구성됩니다.일부 특수한 형태의 데이터는 구별됩니다.컴퓨터 프로그램은 명령으로 해석할 수 있는 데이터의 모음입니다.대부분의 컴퓨터 언어는 프로그램과 프로그램이 작동하는 다른 데이터를 구분하지만, 일부 언어, 특히 리스프와 유사한 언어에서는 프로그램이 다른 데이터와 본질적으로 구별되지 않습니다.메타데이터, 즉 다른 데이터에 대한 설명을 구별하는 데도 유용합니다.메타데이터와 비슷하지만 더 이른 용어는 "보조 데이터"입니다.메타데이터의 전형적인 예는 도서관 카탈로그로 책의 내용에 대한 설명입니다.
자료문서
시리즈의 일부(on) |
도서관과 정보과학 |
---|
데이터를 등록해야 할 때마다 데이터는 데이터 문서의 형태로 존재합니다.데이터 문서의 종류는 다음과 같습니다.
이러한 데이터 문서 중 일부(데이터 저장소, 데이터 스터디, 데이터 세트 및 소프트웨어)는 데이터 인용 색인으로 색인화되어 있으며, 데이터 문서는 기존의 서지 데이터베이스(예: Science Certation Index)로 색인화되어 있습니다.
자료수집
데이터 수집은 1차 소스(연구자가 최초로 데이터를 획득함) 또는 2차 소스(연구자가 과학 저널에 배포된 데이터와 같이 다른 소스에 의해 이미 수집된 데이터를 획득함)를 통해 수행될 수 있습니다.데이터 분석 방법론은 다양하며 데이터 삼각측량 및 데이터 퍼콜레이션이 있습니다.[14]후자는 연구의 객관성을 극대화하고 가능한 한 완전하게 조사 중인 현상을 이해할 수 있도록 하기 위해 5개의 가능한 분석 각도(최소 3개)를 사용하여 데이터를 수집, 분류 및 분석하는 명확한 방법을 제공합니다: 질적 및 정량적 방법, 문헌고찰(학술적 포함)기사), 전문가 인터뷰, 컴퓨터 시뮬레이션.그 후 데이터는 가장 관련성이 높은 정보를 추출하기 위해 일련의 미리 결정된 단계를 사용하여 "퍼콜레이션"됩니다.
데이터 수명 및 접근성
컴퓨터 과학, 기술 그리고 도서관 과학에서 중요한 분야는 데이터의 장수입니다.과학 연구는 특히 게놈학과 천문학에서뿐만 아니라 의학, 예를 들어 의료 영상학에서 엄청난 양의 데이터를 생성합니다.과거에는 과학적 데이터가 논문이나 책에 출판되고 라이브러리에 저장되어 왔지만, 최근에는 모든 데이터가 하드 드라이브나 광 디스크에 저장됩니다.그러나 종이와는 달리 이러한 저장 장치는 몇 십 년 후에는 읽을 수 없게 될 수도 있습니다.과학 출판사와 도서관은 수십 년 동안 이 문제와 씨름해 왔으며, 수세기에 걸쳐 또는 심지어 영원히 데이터를 장기적으로 저장할 수 있는 만족스러운 해결책은 여전히 없습니다.
데이터 접근성.또 다른 문제는 많은 과학 데이터가 데이터베이스와 같은 데이터 저장소에 게시되거나 저장되지 않는다는 것입니다.최근 조사에서 2년에서 22년 사이에 발표된 516개의 연구에서 데이터를 요청했지만, 이 중 5개의 연구 중 1개 미만이 요청된 데이터를 제공할 수 있거나 제공할 의향이 있었습니다.전체적으로 데이터를 검색할 가능성은 게시 후 매년 17%씩 낮아졌습니다.[15]마찬가지로 Dryad에서 100개의 데이터셋을 대상으로 한 설문조사에서도 절반 이상이 이러한 연구 결과를 재현하기 위한 세부 정보가 부족한 것으로 나타났습니다.[16]이는 게시되지 않았거나 복제하기에 충분한 세부 정보가 없는 과학 데이터에 대한 액세스의 심각한 상황을 보여줍니다.
재현성 문제에 대한 해결책은 FAIR 데이터, 즉 Findable(찾을 수 있음), Accessible(접근 가능), Interoperable(상호 운용 가능), Reusable(재사용 가능)의 데이터를 필요로 하는 시도입니다.이러한 요구사항을 충족하는 데이터는 후속 연구에 사용될 수 있으며 따라서 과학 기술을 발전시킬 수 있습니다.[17]
기타분야
다른 분야에서도 데이터가 점점 더 많이 사용되고 있지만, 데이터의 해석적 특성이 데이터의 "주어진" 기풍과 상충될 수 있다는 의견이 제기되었습니다.피터 체클랜드는 엄청난 수의 가능한 데이터와 주의가 집중되는 데이터의 하위 집합을 구별하기 위해 캡타(capta, 라틴어 망토에서 유래)[18]라는 용어를 도입했습니다.Johanna Drucker는 인문학이 지식 생산을 "상황적이고, 부분적이고, 구성적"이라고 긍정하기 때문에, 데이터를 사용하면, 예를 들어, 현상이 이산적이거나 관찰자에 독립적이라는, 역효과를 낳는 가정을 도입할 수 있다고 주장했습니다.[19]capta라는 용어는 관찰 행위를 구성적인 것으로 강조하는 용어로 인문학에서 시각적 표상을 위한 데이터의 대안으로 제시됩니다.
데이터 중심 활동
형용사 데이터 구동은 직관이나 개인적 경험이 아닌 데이터에 의해 강요되는 활동에 적용되는 신조어입니다.예를 들면 다음과 같습니다.
- 데이터 기반 프로그래밍, 프로그램 문이 일치해야 할 데이터와 필요한 처리를 설명하는 컴퓨터 프로그래밍
- 데이터 중심 저널리즘, 대용량 데이터 세트를 분석하고 필터링하는 저널리즘 프로세스,
- 데이터 기반 테스트, 컴퓨터 소프트웨어 테스트는 조건표를 직접 테스트 입력 및 검증 가능한 출력으로 사용하여 수행됩니다.
- 데이터 중심 학습, 연구와 같은 데이터 액세스를 기반으로 하는 학습 접근 방식
- 데이터 기반 과학, 데이터에서 지식을 추출하는 과학적 방법의 학제적 분야
- 데이터 기반 제어 시스템, 시스템 식별에 기반한 자동 제어 시스템
- 모델 기반 보안의 한 형태인 데이터 기반 보안
- 디지털 마케팅의 한 형태인 데이터 기반 마케팅
- 데이터 기반 기업, 데이터 분석을 기반으로 하는 기업 관리
참고 항목
참고문헌
- ^ OECD Glossary of Statistical Terms. OECD. 2008. p. 119. ISBN 978-92-64-025561.
- ^ "Statistical Language - What are Data?". Australian Bureau of Statistics. 2013-07-13. Archived from the original on 2019-04-19. Retrieved 2020-03-09.
- ^ "Data vs Information - Difference and Comparison Diffen". www.diffen.com. Retrieved 2018-12-11.
- ^ Yonego, Joris Toonders (July 23, 2014). "Data Is the New Oil of the Digital Economy". Wired – via www.wired.com.
- ^ "Data is the new oil". July 16, 2018. Archived from the original on 2018-07-16.
- ^ a b "data Origin and meaning of data by Online Etymology Dictionary". www.etymonline.com.
- ^ American Psychological Association (2020). "6.11". Publication Manual of the American Psychological Association: the official guide to APA style. American Psychological Association. ISBN 9781433832161.
- ^ "Joint Publication 2-0, Joint Intelligence" (PDF). Joint Chiefs of Staff, Joint Doctrine Publications. Department of Defense. 23 October 2013. pp. I-1. Retrieved July 17, 2018.
- ^ Akash Mitra (2011). "Classifying data for successful modeling". Archived from the original on 2017-11-07. Retrieved 2017-11-05.
- ^ Tuomi, Ilkka (2000). "Data is more than knowledge". Journal of Management Information Systems. 6 (3): 103–117. doi:10.1080/07421222.1999.11518258.
- ^ P. Beynon-Davies (2002). Information Systems: An introduction to informatics in organisations. Basingstoke, UK: Palgrave Macmillan. ISBN 0-333-96390-3.
- ^ P. Beynon-Davies (2009). Business information systems. Basingstoke, UK: Palgrave. ISBN 978-0-230-20368-6.
- ^ Sharon Daniel. The Database: An Aesthetics of Dignity.
- ^ Mesly, Olivier (2015).심리학 연구의 모델 만들기.에타츠-유니즈 : 스프링어 심리학 : 126페이지ISBN 978-3-319-15752-8
- ^ Vines, Timothy H.; Albert, Arianne Y. K.; Andrew, Rose L.; Débarre, Florence; Bock, Dan G.; Franklin, Michelle T.; Gilbert, Kimberly J.; Moore, Jean-Sébastien; Renaut, Sébastien; Rennison, Diana J. (2014-01-06). "The availability of research data declines rapidly with article age". Current Biology. 24 (1): 94–97. doi:10.1016/j.cub.2013.11.014. ISSN 1879-0445. PMID 24361065. S2CID 7799662.
- ^ Roche, Dominique G.; Kruuk, Loeske E. B.; Lanfear, Robert; Binning, Sandra A. (2015). "Public Data Archiving in Ecology and Evolution: How Well Are We Doing?". PLOS Biology. 13 (11): e1002295. doi:10.1371/journal.pbio.1002295. ISSN 1545-7885. PMC 4640582. PMID 26556502.
- ^ Eisenstein, Michael (April 2022). "In pursuit of data immortality". Nature. 604 (7904): 207–208. Bibcode:2022Natur.604..207E. doi:10.1038/d41586-022-00929-3. ISSN 1476-4687. PMID 35379989. S2CID 247954952.
- ^ P. Checkland and S. Holwell (1998). Information, Systems, and Information Systems: Making Sense of the Field. Chichester, West Sussex: John Wiley & Sons. pp. 86–89. ISBN 0-471-95820-4.
- ^ Johanna Drucker (2011). "Humanities Approaches to Graphical Display". Digital Humanities Quarterly. 005 (1).