이항 데이터
Binary data2진수 데이터는 단위가 2개의 가능한 상태만을 취할 수 있는 데이터로, 전통적으로 2진수 체계와 부울대수에 따라 0과 1로 표시된다.
이진 데이터는 많은 다양한 기술 및 과학 분야에서 발생하며, 여기서 컴퓨터 과학의 비트(이진수), 수학 논리와 관련 영역의 진실 값, 통계에서의 이진수 변수를 포함한 다른 이름으로 호출될 수 있다.
수학적 기초 및 조합적 기초
하나의 상태만 취할 수 있는 이산형 변수에 0의 정보가 들어 있으며, 2는 1 이후의 다음 자연수다. 그렇기 때문에 가능한 값이 두 개밖에 없는 변수인 비트가 정보의 표준 일차적인 단위인 것이다.
n비트의 집합은 2가지n 상태를 가질 수 있다. 자세한 내용은 이진수를 참조하십시오. 이산형 변수 집합의 상태 수는 변수 수에 따라 기하급수적으로 달라지며, 각 변수의 상태 수에 대한 전력 법칙으로만 사용된다. 10비트는 소수점(1000)의 3자리보다 더 많은(1024) 상태를 가진다. 10k 비트는 3k 소수 자릿수를 필요로 하는 정보(숫자 또는 그 밖의 것)를 나타내기에 충분하므로 3, 4, 5, 6, 7, 8, 9, 10… 상태의 이산형 변수에 포함된 정보는 2, 3, 4배 많은 비트를 할당하는 것으로 대체될 수 있다. 따라서, 2보다 적은 숫자의 사용은 이점을 제공하지 않는다.
더욱이, 부울 대수학은 명제 변수들의 집합의 의미와 함께 비트 수집을 위한 편리한 수학적 구조를 제공한다. 부울 대수 연산(Boolean 대수 연산)은 컴퓨터 과학에서 "비트 와이즈 연산"으로 알려져 있다. 부울 기능도 컴퓨터 프로그램이나 디지털 전자제품의 로직 게이트로 이론적으로 잘 연구되고 쉽게 구현할 수 있다. 이것은 원래 이진이 아닌 데이터라도 다른 데이터를 나타내기 위해 비트를 사용하는 데 기여한다.
통계에서
통계에서 이항 데이터는 "A"와 "B" 또는 "헤드"와 "테일"과 같이 두 개의 가능한 값을 정확히 취할 수 있는 범주형 데이터로 구성된 통계 데이터 유형이다. 범주형 데이터의 한 형태로서 이항 데이터는 공칭 데이터로, 이는 수치적으로 비교할 수 없는 질적으로 다른 값을 나타낸다. 그러나 이진수 데이터는 두 값 중 하나를 "성공"으로 간주하고 결과를 1 또는 0으로 나타냄으로써 카운트 데이터로 변환되는 경우가 많은데, 이는 단일 시험의 성공 횟수를 1(성공) 또는 0(실패)으로 계산하는 것과 일치한다. § 카운팅을 참조한다.
종종 이진수 데이터는 개념적으로 반대되는 두 값 중 하나를 나타내기 위해 사용된다. 예:
- 실험 결과("실패" 또는 "실패")
- 예-아니오 질문에 대한 응답("예" 또는 "아니오")
- 일부 기능의 존재 또는 부재("존재 중" 또는 "존재하지 않음")
- 명제의 진실 또는 거짓("참" 또는 "거짓", "올바른" 또는 "잘못된")
그러나, 개념적으로 반대되거나 개념적으로 공간 내 가능한 모든 값을 나타내지 않더라도, 두 개의 가능한 값만 있다고 가정하는 데이터에도 사용할 수 있다. 예를 들어, 이진 데이터는 종종 미국 선거에서 유권자들의 정당 선택을 나타내기 위해 사용된다. 이 경우 두 정당만 존재해야 할 본질적인 이유가 없고, 실제로 다른 정당도 미국에 존재하지만, 워낙 소수가 적어 일반적으로는 무시당한다. 연속형 데이터(또는 2개 이상의 범주형 데이터)를 분석 목적의 이항 변수로 모델링하는 것을 이분법화(이분법 생성)라고 한다. 모든 디스커버리징과 마찬가지로 디스커버리징 오류도 수반되지만, 그 오류에도 불구하고 중요한 것을 배우는 것이 목표다. 즉, 당면한 목적을 위해 무시해도 될 정도로 취급하지만, 일반적으로 무시해도 될 것으로 가정할 수는 없다는 것을 기억하는 것이다.
이항 변수
이항 변수는 이항 유형의 랜덤 변수로서 두 개의 가능한 값을 갖는 것을 의미한다. 독립적이고 동일하게 분포된 (i.i.d.) 이항 변수는 베르누이 분포를 따르지만, 일반적으로 이항 데이터는 i.i.d 변수에서 나올 필요는 없다. i.i.d. 이항 변수의 총 카운트(1 또는 0으로 코드화된 동일, i.d. 이항 변수의 합계)는 이항 분포를 따르지만, 이항 변수가 i.i.d가 아닌 경우에는 이항 분포를 따를 필요가 없다.
계산
범주형 데이터와 마찬가지로 이진수 데이터는 가능한 각 값에 대해 하나의 좌표를 작성하고 발생되는 값에 대해 1을 세고 발생하지 않는 값에 대해서는 0을 세어 카운트 데이터의 벡터로 변환할 수 있다.[1] 예를 들어 값이 A와 B인 경우 데이터 집합 A, A, B는 카운트로 (1, 0), (1, 0), (0, 1)로 나타낼 수 있다. 카운트로 변환되면 이진 데이터를 그룹화하고 카운트를 추가할 수 있다. 예를 들어, 세트 A, A, B가 그룹화되면 총 카운트는 (2, 1) 2 A와 1 B(3번의 시험 중)이다.
가능한 값이 두 개뿐이므로, 한 값을 "성공"으로, 다른 값을 "실패"로 간주하여 성공 값을 1로, 실패 값을 0으로 코딩하여 단일 카운트(스칼라 값)로 단순화할 수 있다. 예를 들어, A 값을 "성공"으로 간주하고, 따라서 B 값을 "실패"로 간주한다면, 데이터 집합 A, A, B는 1, 1, 0으로 나타낼 것이다. 이것을 그룹화하면 그 값이 추가되는 반면, 일반적으로 시행 횟수는 암묵적으로 추적된다. 예를 들어 A, A, B는 1 + 1 + 0 = 2의 성공으로 된다= 3 {\ n 반대로 = }을를) 가진 카운트 데이터는 이진 데이터로, 두 클래스는 0(실패) 또는 1(성공)이다.
i.i.d 이항 변수의 카운트는 이항 분포를 따르며, {\개의 총 시행 횟수(그룹화된 데이터의 점)를 따른다.
회귀
이항 변수인 예측 결과에 대한 회귀 분석을 이항 회귀 분석이라고 한다. 이항 데이터가 카운트 데이터로 변환되어 (이항 분포를 갖도록) 변수로 모형화되면 이항 회귀 분석을 사용할 수 있다. 이항 데이터의 가장 일반적인 회귀 방법은 로지스틱 회귀 분석, 프로빗 회귀 분석 또는 관련 유형의 이항 선택 모형이다.
마찬가지로 세 개 이상의 범주가 있는 범주형 변수의 카운트는 다항 회귀 분석을 사용하여 모델링할 수 있다. 비 I.i.d. 이항 데이터의 카운트는 베타 이항 분포(복합 분포)와 같은 더 복잡한 분포에 의해 모델링될 수 있다. 또는 준우도 및 quasibinomial 모델과 같은 일반화된 선형 모델(GLM)의 기법을 사용하여 출력 변수의 분포를 명시적으로 모델링할 필요 없이 관계를 모델링할 수 있다. 과대산포 § 이항 분포를 참조한다.
컴퓨터 공학에서
현대의 컴퓨터에서 이진 데이터는 더 높은 수준에서 해석되거나 어떤 다른 형태로 변환되는 것이 아니라 이진 형태로 표현되는 모든 데이터를 가리킨다. 가장 낮은 레벨에서 비트는 플립플롭과 같은 바이스트 가능 장치에 저장된다. 대부분의 2진수 데이터는 상징적인 의미를 가지고 있지만(상관없다는 것을 제외) 모든 2진수 데이터가 숫자인 것은 아니다. 일부 2진수 데이터는 컴퓨터 지침에 해당하는데, 예를 들어, petch-decode-execute 사이클을 따라 제어 장치에 의해 해독된 프로세서 레지스터 내의 데이터들이다. 컴퓨터는 성능상의 이유로 개별 비트를 거의 수정하지 않는다. 대신 데이터는 고정된 비트 수, 보통 1바이트(8비트)의 그룹으로 정렬된다. 따라서 컴퓨터의 "이진 데이터"는 실제로 바이트의 순서다. 더 높은 수준에서 32비트 시스템에서는 1단어(4바이트)로, 64비트 시스템에서는 2단어로 데이터에 액세스한다.
응용 컴퓨터 과학과 정보기술 분야에서 바이너리 데이터라는 용어는 텍스트로 해석할 수 없는 모든 종류의 데이터를 가리키며 텍스트 기반 데이터와 특별히 반대되는 경우가 많다. "텍스트" 대 "이진" 구분은 때때로 파일의 의미론적 내용(예: 서면 문서 대 디지털 이미지)을 참조할 수 있다. 그러나 파일의 개별 바이트가 텍스트로 해석 가능한지(문자 인코딩 참조) 또는 그렇게 해석할 수 없는지를 구체적으로 언급하는 경우가 많다. 이 마지막 의미를 의도할 때, 더 구체적인 용어 이진 형식과 텍스트(ual) 형식을 사용하기도 한다. 의미론적 텍스트 데이터는 이진 형식으로 나타낼 수 있다(예: Microsoft Word에서 사용하는 DOC 형식에서처럼 다양한 종류의 포맷 코드를 혼합한 압축된 형식 또는 특정 형식). 반대로 영상 데이터는 텍스트 형식(예: X Window 시스템에서 사용되는 X PixMap 이미지 형식)으로 나타낼 수 있다.
참고 항목
참조
- ^ Agresti, Alan (2012). "1.2.2 Multinomial Distribution". Categorical Data Analysis (3rd ed.). Wiley. p. 6. ISBN 978-0470463635.