구분자로 구분된 값

Delimiter-separated values

구분 기호로 구분된 값(DSV)[1]: 113 을 사용하는 형식은 각 행의 값을 특정 구분 기호 문자로 구분하여 2차원 데이터 배열로 저장한다.대부분의 데이터베이스스프레드시트 프로그램은 데이터를 구분된 형식으로 읽거나 저장할 수 있다.DSV 파일은 폭넓은 지원으로 인해 많은 애플리케이션 간의 데이터 교환에 사용될 수 있다.

구분 텍스트 파일은 데이터를 저장하는 데 사용되는 텍스트 파일로, 각 줄은 단일 책, 회사 또는 기타 것을 나타내며, 각 줄에는 구분 기호로 구분된 필드가 있다.[2]공백으로 모든 필드를 동일한 너비로 강제하는 플랫 파일 종류에 비해 구분된 파일은 모든 길이의 필드 값을 허용할 수 있는 장점이 있다.[3]

구분 형식

값을 구분하기 위해 임의의 문자를 사용할 수 있지만 가장 일반적인 구분 기호는 쉼표, , 콜론이다.[1]: 113 [4]세로 막대(파이프라고도 함)와 공간도 가끔 사용된다.[1]: 113 열 머리글은 때때로 첫 번째 행으로 포함되며, 각 후속 행은 데이터 행이다.그 선들은 새 으로 구분되어 있다.

예를 들어, 각 레코드의 다음 필드는 쉼표로 구분되고, 각 레코드는 새로운 줄로 구분된다.

"날짜","푸필","등급" "5월","블로그,프레드","C""25","도"Doe,제인","B"""7월"15일"블로그,프레드"""A"15월"A"15일"A"A"A"Muniz,앨빈"Hank""A"A"Date"Day"Day"Day"Day"Do,B"Do,B"Do,B"Do,B"Day"Do,B"Do,B"Do,B"Do,B"D

필드를 둘러싸는 데 큰따옴표를 사용하십시오.이렇게 하면 실제 필드 값(블로그, 프레드, 도, 제인 등)의 쉼표가 필드 구분자로 해석되지 않는다.이를 위해서는 필드 포장지 자체를 "도피"할 수 있는 방법이 필요하다. 이 경우, 이중 인용구는 "Hank"를 둘러싼 인용구와 마찬가지로 실제로 필드에 포함된 큰 인용구를 두 배로 늘리는 것이 관례다.이러한 방식으로 새 줄을 포함한 모든 ASCII 텍스트를 필드에 포함할 수 있다.

ASCII에는 구분자로 사용할 여러 개의 제어 문자가 포함되어 있다.파일 구분자는 28개, 그룹 구분자는 29개, 레코드 구분자는 30개, 단위 구분자는 31개 등이다.이러한 문자의 사용은 광범위한 채택을 달성하지 못했다. 일부 시스템은 제어 속성을 CR/LF 및 TAB와 같은 더 수용 가능한 제어로 대체했다.[citation needed]

사용 및 응용 프로그램

널리 사용되기 때문에, 쉼표와 탭으로 구분된 텍스트 파일은 대부분의 스프레드시트 프로그램과 통계 패키지를 포함한 여러 종류의 응용프로그램에 의해 열 수 있으며, 때로는 사용자가 구분 기호를 사용하지 않아도 된다.[5][6]각 애플리케이션에는 자체 데이터베이스 설계와 자체 파일 형식(예: accdb 또는 xlsx)이 있지만, DSV 파일의 필드를 자체 데이터 모델과 형식으로 매핑할 수 있다.[citation needed]

일반적으로 구분된 파일 형식은 사양으로 표시된다.일부 규격은 구분 기호 충돌을 피하기 위한 규약을 제공하지만 다른 규격은 그렇지 않다.구분 기호 충돌은 데이터의 일부로 의도된 문자가 대신 구분 기호로 해석될 때 발생하는 문제다.많은 맥락에서 이러한 문자는 데이터 필드의 합법적인 부분이기 때문에 쉼표 및 공백으로 구분된 형식은 종종 이 문제로 인해 발생한다.대부분의 이러한 파일은 큰따옴표로 모든 데이터 필드를 둘러싸거나 구분 기호 문자가 포함된 데이터 필드만 인용하여 구분 기호 충돌을 피한다.탭으로 구분된 텍스트 파일의 한 가지 문제는 탭이 공간과 구별되기 어렵다는 것이다. 따라서, 사람들이 손으로 파일을 편집하려고 할 때 파일이 손상되는 문제가 가끔 있다. 다른 문제는 주로 파일을 데이터베이스로 가져오는 동안 파일 구조의 오류로 인해 발생한다(위의 예에서 그러한 오류는 학생의 이름이 누락된 것일 수 있다).

데이터 자체에 따라 tild(~)와 같은 비표준 문자를 구분자로 사용하는 것이 유리할 수 있다.데이터베이스에 코드 조각들을 저장하는 웹 사이트와 기타 응용프로그램의 보급률이 증가함에 따라, 모든 하이퍼링크와 이미지 소스 태그에서 발생하는 ""를 단순히 사용하는 것만으로는 이러한 유형의 충돌을 피하기에는 충분하지 않다.콜론(:), 세미콜론(;), 파이프( ), 기타 여러 문자도 사용되기 때문에 다른 곳에서는 사용하지 않는 문자를 찾는 것이 상당히 어려울 수 있다.

참고 항목

참고 및 참조

  1. ^ a b c DSV는 구분 기호로 구분된 을 의미한다. Raymond, Eric (2004). The Art of Unix Programming. Boston: Addison-Wesley. ISBN 0-13-142901-9.
  2. ^ 스티븐 R.웨스트먼."데이터베이스 지원 라이브러리 페이지 작성: 오픈 소스 도구 사용". 2006.섹션 "구조화된 텍스트 파일". 15페이지.
  3. ^ 리처드 피터슨"사용자를 위한 초기 명령줄 유닉스". 2006. 페이지 356.
  4. ^ UNIX에서 콜론은 공백을 포함할 수 있는 값에 대한 가장 일반적인 DSV 구분 기호다.아이비드.
  5. ^ Knight, Andrew (2000). Basics of Matlab and beyond. Boca Raton: Chapman & Hall/CRC. ISBN 0-8493-2039-9.
  6. ^ Robbins, Arnold (2005). Classic Shell Scripting. Sebastopol: O'Reilly. ISBN 0-596-00595-4.

추가 읽기