데이터(컴퓨터 과학)

Data (computer science)
컴퓨터 장치를 통해 시각화할 수 있는 다양한 유형의 데이터

데이터(data)는 컴퓨터 과학에서 하나 이상의 기호의 시퀀스이며, 데이텀은 데이터의 단일 기호입니다.데이터가 정보가 되기 위해서는 해석이 필요합니다.디지털 데이터는 아날로그 표현 대신 1과 0의 이진수 시스템을 사용하여 표현되는 데이터입니다.현대(1960년 이후) 컴퓨터 시스템에서 모든 데이터는 디지털입니다.

데이터는 유휴 데이터, 전송 데이터, 사용 중인 데이터의 세 가지 상태로 존재합니다.대부분의 경우 컴퓨터 내의 데이터는 병렬 데이터로 이동합니다.컴퓨터로 또는 컴퓨터에서 이동하는 데이터는 대부분 직렬 데이터로 이동합니다.온도 센서와 같은 아날로그 장치에서 발생한 데이터는 아날로그-디지털 변환기를 사용하여 디지털로 변환할 수 있습니다.컴퓨터에 의해 수행되는 작업의 양, 문자 또는 기호를 나타내는 데이터는 자기, 광학, 전자 또는 기계 기록 매체저장 기록되고 디지털 전기 또는 광학 [1]신호의 형태로 전송됩니다.데이터는 주변 장치를 통해 컴퓨터를 드나듭니다.

물리적 컴퓨터 메모리 요소는 데이터 저장소의 주소와 바이트/워드로 구성됩니다.디지털 데이터는 테이블이나 SQL 데이터베이스와 같은 관계형 데이터베이스에 저장되는 경우가 많으며 일반적으로 추상 키/값 쌍으로 나타낼 수 있습니다.데이터는 배열, 그래프 개체를 포함하여 다양한 유형의 데이터 구조로 구성될 수 있습니다.데이터 구조는 숫자, 문자열 및 기타 데이터 구조를 포함하여 다양한 유형의 데이터를 저장할 수 있습니다.

특성.

메타데이터는 데이터를 정보로 변환하는 데 도움이 됩니다.메타데이터는 데이터에 대한 데이터입니다.메타데이터는 암시되거나 지정되거나 제공될 수 있습니다.

물리적 이벤트 또는 프로세스와 관련된 데이터는 시간적 구성요소를 가집니다.이 시간적 구성 요소는 암시적일 수 있습니다.온도 로거와 같은 장치가 온도 센서로부터 데이터를 수신하는 경우입니다.온도가 수신되면 데이터가 현재의 시간 기준을 갖는 것으로 가정됩니다.그래서 그 장치는 날짜, 시간, 온도를 함께 기록합니다.데이터 로거는 온도를 전달할 때 각 온도 판독값에 대한 메타데이터로 날짜와 시간을 보고해야 합니다.

기본적으로 컴퓨터는 데이터의 형태로 주어진 일련의 명령을 따릅니다.주어진 작업(또는 작업)을 수행하기 위한 일련의 지시사항을 프로그램이라고 합니다.프로그램은 컴퓨터나 다른 [2]기계의 작동을 제어하기 위한 코드화된 명령의 형태의 데이터입니다.명목상의 경우, 컴퓨터에 의해 실행되는 프로그램기계 코드로 구성됩니다.중앙 처리 장치(CPU)에 의해 실제로 실행되지는 않았지만 프로그램에 의해 조작된 스토리지 요소도 데이터입니다.가장 중요한 것은 단일 데이터가 특정 위치에 저장된 이라는 것입니다.그러므로, 컴퓨터 프로그램은 프로그램 데이터를 조작함으로써 다른 컴퓨터 프로그램에서 작동할 수 있습니다.

데이터 바이트를 파일에 저장하려면 데이터 바이트를 파일 형식으로 직렬화해야 합니다.일반적으로 프로그램은 다른 데이터에 사용되는 것과 다른 특수 파일 형식으로 저장됩니다.실행 파일에는 프로그램이 포함되어 있으며 다른 모든 파일도 데이터 파일입니다.그러나 실행 파일에는 프로그램에 내장된 프로그램에서 사용하는 데이터도 포함될 수 있습니다.특히, 일부 실행 파일에는 명목상 변수에 대한 상수와 초기 값을 포함하는 데이터 세그먼트가 있으며, 이 둘은 모두 데이터로 간주될 수 있습니다.

프로그램과 데이터 사이의 선이 흐릿해질 수 있습니다.예를 들어, 통역사는 프로그램입니다.인터프리터에 대한 입력 데이터는 그 자체로 프로그램이며, 네이티브 머신 언어로 표현된 것이 아닙니다.대부분의 경우 해석된 프로그램은 텍스트 편집기 프로그램으로 조작되는 사람이 읽을 수 있는 텍스트 파일입니다.메타프로그래밍은 유사하게 다른 프로그램을 데이터로 조작하는 프로그램을 포함합니다.컴파일러, 링커, 디버거, 프로그램 업데이트 프로그램, 바이러스 스캐너 등의 프로그램은 다른 프로그램을 데이터로 사용합니다.

예를 들어, 사용자는 먼저 운영 체제에 한 파일에서 워드 프로세서 프로그램을 로드하도록 지시한 다음 실행 중인 프로그램을 사용하여 다른 파일에 저장된 문서를 열고 편집할 수 있습니다.이 예에서 문서는 데이터로 간주됩니다.워드 프로세서에 맞춤법 검사기 기능이 있는 경우 맞춤법 검사기 사전(단어 목록)도 데이터로 간주됩니다.맞춤법 검사기가 수정을 제안하는 데 사용하는 알고리즘기계 코드 데이터 또는 해석 가능한 프로그래밍 언어의 텍스트입니다.

대체 용도에서는 사람이 읽을 수 없는 이진 파일을 사람이 읽을 수 있는 [3]텍스트와 구별하여 데이터라고 부르기도 합니다.

2007년 디지털 데이터의 총 양은 2810억 기가바이트(281 엑사바이트)[4][5]로 추정됩니다.

데이터 키 및 값, 구조 및 지속성

데이터의 키는 값의 컨텍스트를 제공합니다.데이터의 구조에 관계없이 항상 주요 구성 요소가 존재합니다.데이터 및 데이터 구조의 키는 데이터 값에 의미를 부여하는 데 필수적입니다.값 또는 구조의 값 집합과 직접 또는 간접적으로 연결된 키가 없으면 값은 무의미해지고 데이터가 됩니다.즉,[citation needed] 데이터로 간주되기 위해서는 가치 구성요소에 연결된 핵심 구성요소가 있어야 합니다.

데이터는 다음 예제와 같이 여러 가지 방법으로 시스템에 표시될 수 있습니다.

들이받다

  • RAM(Random Access Memory)은 CPU가 직접 액세스할 수 있는 데이터를 저장합니다.CPU는 프로세서 레지스터 또는 메모리 내의 데이터만 조작할 수 있습니다.이는 CPU가 스토리지 장치(디스크, 테이프 등)와 메모리 간의 데이터 전송을 지시해야 하는 데이터 스토리지와는 반대입니다.RAM은 프로세서가 읽기 또는 쓰기 작업을 위한 주소를 제공하여 읽거나 쓸 수 있는 선형 연속 위치 배열입니다.프로세서는 메모리의 모든 위치에서 임의의 순서로 언제든지 작동할 수 있습니다.RAM에서 데이터의 가장 작은 요소는 이진 비트입니다.RAM에 액세스할 때의 기능과 제한 사항은 프로세서에 따라 다릅니다.일반적으로 주 메모리는 주소 0(16진수 0)으로 시작하는 위치 배열로 배열됩니다.각 위치는 컴퓨터 아키텍처에 따라 일반적으로 8비트 또는 32비트를 저장할 수 있습니다.

열쇠들.

  • 데이터 키가 메모리의 직접 하드웨어 주소일 필요는 없습니다.간접, 추상 및 논리 키 코드는 값과 함께 저장되어 데이터 구조를 형성할 수 있습니다.데이터 구조에는 데이터 값이 저장되는 구조의 시작 부분부터 미리 정해진 오프셋(또는 링크 또는 경로)이 있습니다.따라서 데이터 키는 구조물에 대한 키와 구조물에 대한 오프셋(또는 링크 또는 경로)으로 구성됩니다.동일한 반복 구조 내에 데이터 값과 데이터 키의 변화를 저장하면서 이러한 구조가 반복되면 결과는 반복 구조의 각 요소를 열로 간주하고 구조의 각 반복을 테이블의 행으로 간주하는 테이블과 유사하다고 간주할 수 있습니다.이러한 데이터 구성에서 데이터 키는 일반적으로 열 중 하나(또는 여러 개의 값의 합성)에 있는 값입니다.

조직화된 반복 데이터 구조

  • 반복 데이터 구조의 표 형식 보기는 여러 가능성 중 하나일 뿐입니다.반복적인 데이터 구조는 노드가 부모-자녀 관계의 캐스케이드로 서로 연결되도록 계층적으로 구성될 수 있습니다.값과 잠재적으로 더 복잡한 데이터 구조가 노드에 연결됩니다.따라서 노드 계층 구조는 노드와 관련된 데이터 구조를 해결하기 위한 키를 제공합니다.이 표현은 반전 트리로 생각할 수 있습니다.최신 컴퓨터 운영 체제 파일 시스템이 일반적인 예이며 XML도 이에 해당합니다.

정렬 또는 정렬된 데이터

  • 데이터는 키에 따라 정렬될 때 몇 가지 고유한 기능을 가집니다.키의 하위 집합에 대한 모든 값이 함께 표시됩니다.동일한 키를 가진 데이터 그룹 또는 키 변경의 하위 집합을 순차적으로 통과할 때 이를 데이터 처리 서클에서 브레이크 또는 제어 브레이크라고 합니다.특히 키의 하위 집합에 있는 데이터 값을 쉽게 집계할 수 있습니다.

주변 스토리지

  • 플래시와 같은 대용량 비휘발성 메모리가 등장하기 전까지 영구 데이터 스토리지는 전통적으로 마그네틱 테이프 및 디스크 드라이브와 같은 외부 블록 장치에 데이터를 기록하는 방식으로 구현되었습니다.이러한 장치는 일반적으로 자기 매체의 위치를 찾은 다음 미리 정해진 크기의 데이터 블록을 읽거나 씁니다.이 경우 미디어의 검색 위치는 데이터 키이고 블록은 데이터 값입니다.초기에 사용된 원시 디스크 데이터 파일 시스템 또는 디스크 운영 체제는 데이터 파일을 위해 디스크 드라이브의 연속 블록을 예약했습니다.이러한 시스템에서는 모든 데이터를 쓰기 전에 파일이 가득 차서 데이터 공간이 부족해질 수 있습니다.따라서 각 파일에 충분한 여유 공간을 확보하기 위해 사용되지 않은 많은 데이터 공간이 비생산적으로 예약되었습니다.이후의 파일 시스템은 파티션을 도입했습니다.이들은 파티션을 위해 디스크 데이터 공간 블록을 예약하고 필요에 따라 파티션 블록을 파일에 동적으로 할당하여 할당된 블록을 경제적으로 사용했습니다.이를 위해 파일 시스템은 카탈로그 또는 파일 할당 테이블의 데이터 파일에 의해 사용되거나 사용되지 않는 블록을 추적해야 했습니다.이렇게 하면 디스크 데이터 공간을 더 잘 활용할 수 있었지만 디스크 전체에 걸쳐 파일이 단편화되고 데이터를 읽기 위한 추가 탐색 시간으로 인한 성능 오버헤드가 발생했습니다.현대의 파일 시스템은 파일 액세스 시간을 최적화하기 위해 조각난 파일을 동적으로 재구성합니다.파일 시스템의 추가적인 발전으로 디스크 드라이브가 가상화되었습니다. 즉, 논리 드라이브를 여러 물리적 드라이브의 파티션으로 정의할 수 있습니다.

인덱스 데이터

  • 훨씬 큰 집합에서 데이터의 작은 부분 집합을 검색하면 데이터를 순차적으로 비효율적으로 검색할 수 있습니다.인덱스는 파일, 테이블 및 데이터 세트의 데이터 구조에서 키와 위치 주소를 복사한 다음 반전 트리 구조를 사용하여 구성하여 원래 데이터의 하위 집합을 검색하는 데 걸리는 시간을 단축하는 방법입니다.이렇게 하려면 검색을 시작하기 전에 검색할 데이터의 하위 집합 키를 알아야 합니다.가장 일반적인 인덱스는 B-트리동적 해시 키 인덱싱 방법입니다.인덱싱은 데이터 파일링 및 검색을 위한 오버헤드입니다.인덱스를 구성하는 다른 방법으로는 키 정렬 및 이진 검색 알고리즘 사용 등이 있습니다.

추상화 및 간접화

  • 객체 지향 프로그래밍은 데이터와 소프트웨어를 이해하기 위해 두 가지 기본 개념을 사용합니다.
  1. 계층적 데이터 구조의 한 예인 클래스의 분류학적 순위 구조.
  2. 런타임에 클래스 라이브러리에서 인스턴스화된 개체의 메모리 내 데이터 구조에 대한 참조를 만듭니다.

인스턴스화 후에만 지정된 클래스의 개체가 존재합니다.개체의 참조가 지워지면 개체도 더 이상 존재하지 않습니다.개체의 데이터가 저장된 메모리 위치는 가비지이며 재사용할 수 있는 사용되지 않은 메모리로 재분류됩니다.

데이터베이스 데이터

병렬 분산 데이터 처리

  • Apache Hadoop과 같은 현대의 확장 가능하고 고성능 데이터 지속성 기술은 고대역폭 네트워크의 많은 일반 컴퓨터에서 대규모 병렬 분산 데이터 처리에 의존합니다.이러한 시스템에서는 데이터가 여러 컴퓨터에 분산되므로 시스템의 특정 컴퓨터가 직접 또는 간접적으로 데이터 키에 표시되어야 합니다.이렇게 하면 동일한 두 데이터 집합을 구별할 수 있으며, 각 데이터 집합은 동시에 다른 컴퓨터에서 처리됩니다.

참고 항목

레퍼런스

  1. ^ "Data". Lexico. Archived from the original on 2019-06-23. Retrieved 14 January 2022.
  2. ^ "Computer program". The Oxford pocket dictionary of current english. Archived from the original on 28 November 2011. Retrieved 11 October 2012.
  3. ^ "file(1)". OpenBSD manual pages. 24 December 2015. Archived from the original on 5 February 2018. Retrieved 4 February 2018.
  4. ^ Paul, Ryan (12 March 2008). "Study: amount of digital info > global storage capacity". Ars Technics. Archived from the original on 13 March 2008. Retrieved 13 March 2008.
  5. ^ Gantz, John F.; et al. (2008). "The diverse and exploding digital universe". International Data Corporation via EMC. Archived from the original on 11 March 2008. Retrieved 12 March 2008.