텍스트파일

Text file
텍스트파일
파일 확장자
.txt
인터넷 매체 유형
텍스트/
타입코드본문
UTI(Uniform Type Identifier)공용. plain문
UTI 적합성공개 텍스트
형식 유형문서 파일 형식, 일반 컨테이너 형식

텍스트 파일(text file)은 전자 텍스트일련의 줄로 구성된 일종의 컴퓨터 파일입니다.텍스트 파일은 컴퓨터 파일 시스템 내에 데이터로 저장되어 있습니다.운영 체제가 파일 크기를 바이트 단위로 추적하지 않는 CP/M이나 MS-DOS와 같은 운영 체제에서는 텍스트 파일의 끝을 EOF(End-of-File) 마커로 알려진 하나 이상의 특수 문자를 텍스트 파일의 마지막 줄 뒤에 패딩(padding)으로 배치하여 표시합니다.Microsoft Windows나 Unix와 같은 최신 운영 체제에서는 텍스트 파일에 특별한 EOF 문자가 포함되어 있지 않습니다. 이는 해당 운영 체제의 파일 시스템이 바이트 단위로 파일 크기를 추적하기 때문입니다.대부분의 텍스트 파일에는 엔드 오브 라인 구분자가 있어야 하며 이 구분자는 운영 체제에 따라 몇 가지 다른 방식으로 수행됩니다.레코드 지향 파일 시스템을 사용하는 일부 운영 체제에서는 새 줄 구분 기호를 사용하지 않을 수 있으며 주로 줄이 구분된 텍스트 파일을 고정 레코드 또는 가변 길이 레코드로 저장합니다.

"텍스트 파일"은 컨테이너의 유형을 나타내고, 일반 텍스트는 내용의 유형을 나타냅니다.

일반적인 설명 수준에서는 텍스트 파일과 이진 파일 두 가지 종류의 컴퓨터 파일이 있습니다.[1]

데이터 저장

CSV 형식의 텍스트 파일을 양식화한 기호로 설명합니다.

텍스트 파일은 단순하기 때문에 정보 저장에 일반적으로 사용됩니다.엔디안니스(endianness), 패딩 바이트(padding bytes), 머신 워드(machine word)의 바이트 수 차이 등 다른 파일 형식에서 발생하는 일부 문제를 방지합니다.또한 텍스트 파일에서 데이터 손상이 발생하면 남은 내용을 복구하고 계속 처리하는 것이 더 쉬운 경우가 많습니다.텍스트 파일의 단점은 일반적으로 낮은 엔트로피를 가지고 있다는 것인데, 이는 정보가 꼭 필요한 것보다 더 많은 저장소를 차지한다는 것을 의미합니다.

간단한 텍스트 파일은 독자의 해석을 돕기 위해 추가 메타데이터(문자 집합에 대한 지식 이외의)가 필요하지 않을 수 있습니다.텍스트 파일에는 데이터가 전혀 포함되어 있지 않을 수 있으며, 이는 0바이트 파일의 경우입니다.

인코딩

ASCII 문자 집합은 영어 텍스트 파일에 대해 가장 일반적으로 호환되는 문자 집합의 하위 집합이며, 많은 상황에서 일반적으로 기본 파일 형식으로 가정됩니다.미국 영어를 포함하지만 영국 파운드 기호, 유로 기호 또는 영어 외에서 사용되는 문자의 경우에는 보다 풍부한 문자 집합을 사용해야 합니다.많은 시스템에서 이 설정은 컴퓨터에서 읽히는 기본 로케일 설정에 따라 선택됩니다.UTF-8 이전에는 전통적으로 단일 바이트 인코딩(ISO-8859-1 ~ ISO-8859-16과 같은)이 유럽 언어를 위한 것이었고 아시아 언어를 위한 넓은 문자 인코딩이었습니다.

인코딩은 반드시 제한된 레퍼토리의 문자만을 가지고 있으며, 종종 매우 작기 때문에, 많은 것들이 제한된 인간 언어의 부분 집합으로 텍스트를 표현하는 데만 사용할 수 있습니다.유니코드는 알려진 모든 언어를 표현하기 위한 공통 표준을 만들기 위한 시도이며 대부분의 알려진 문자 집합은 매우 큰 유니코드 문자 집합의 하위 집합입니다.유니코드에는 여러 개의 문자 인코딩이 있지만 가장 일반적인 것은 UTF-8로 ASCII와 역호환되는 장점이 있습니다. 즉, 모든 ASCII 텍스트 파일은 동일한 의미의 UTF-8 텍스트 파일이기도 합니다.UTF-8은 자동 감지가 쉽다는 장점도 있습니다.따라서 UTF-8 지원 소프트웨어의 일반적인 운영 모드는 알 수 없는 인코딩의 파일을 열 때 UTF-8을 먼저 시도하고 UTF-8이 아닌 경우 로케일 종속 레거시 인코딩으로 다시 되돌리는 것입니다.

형식

대부분의 운영 체제에서 이름 텍스트 파일은 형식 지정이 거의 없는 일반 텍스트 내용(: 굵은 글씨 또는 기울임꼴 형식 없음)만 허용하는 파일 형식을 말합니다.이러한 파일은 텍스트 터미널이나 간단한 텍스트 편집기에서 보고 편집할 수 있습니다.텍스트 파일은 일반적으로 MIME 유형을 갖습니다.text/plain, 일반적으로 인코딩을 나타내는 추가 정보를 포함합니다.

마이크로소프트 윈도우즈 텍스트 파일

MS-DOS와 마이크로소프트 윈도우는 공통 텍스트 파일 형식을 사용하며, 각 텍스트 줄은 CR(캐리지 리턴)과 LF(라인 피드)의 두 문자 조합으로 구분됩니다.텍스트의 마지막 줄은 CR-LF 마커로 종료되지 않는 것이 일반적이며, 많은 텍스트 편집기(메모장 포함)가 마지막 줄에 하나를 자동으로 삽입하지 않습니다.

Microsoft Windows 운영 체제에서 파일 이름의 접미사("파일 이름 확장자")가 다음과 같다면 파일은 텍스트 파일로 간주됩니다..txt. 그러나 다른 많은 접미사들은 특정 목적을 가진 텍스트 파일에 사용됩니다.예를 들어, 컴퓨터 프로그램의 소스 코드는 보통 소스가 쓰여진 프로그래밍 언어를 나타내는 파일 이름 접미사가 있는 텍스트 파일에 보관됩니다.

대부분의 Microsoft Windows 텍스트 파일은 ANSI, OEM, Unicode 또는 UTF-8 인코딩을 사용합니다.마이크로소프트 윈도우 용어집에서 "ANSI 인코딩"이라고 부르는 것은 보통 싱글 바이트 ISO/IEC 8859 인코딩(즉, 마이크로소프트 메모장 메뉴의 ANSI는 실제로 "시스템 코드 페이지", 유니코드가 아닌 레거시 인코딩)입니다. 단, 더블 바이트 문자 집합이 필요한 중국어, 일본어, 한국어와 같은 로케일에서는 예외입니다.ANSI 인코딩은 유니코드로 전환되기 전에 Microsoft Windows에서 기본 시스템 로케일로 사용되었습니다.대조적으로, 도스 코드 페이지라고도 알려진 OEM 인코딩은 IBM PC 텍스트 모드 디스플레이 시스템에 사용하기 위해 IBM에 의해 정의되었습니다.도스 응용 프로그램에서 흔히 볼 수 있는 그래픽 및 선 그리기 문자를 포함합니다."유니코드" 인코딩된 Microsoft Windows 텍스트 파일에는 UTF-16 유니코드 변환 형식의 텍스트가 포함되어 있습니다.이러한 파일은 일반적으로 파일 내용의 엔디안을 전달하는 바이트 순서 표시(BOM)로 시작합니다.UTF-8이 엔디안니스 문제를 겪지는 않지만 많은 마이크로소프트 윈도우 프로그램(예: 메모장)은 UTF-8 인코딩 파일의 내용에 BOM을 추가하여 UTF-8 인코딩을 다른 8비트 인코딩과 구별합니다.[2][3]

유닉스 텍스트 파일

유닉스 계열 운영 체제에서 텍스트 파일 형식은 정확하게 설명됩니다. POSIX는 텍스트 파일을 0개 이상의 행으로 구성된 문자를 포함하는 파일로 정의합니다.[4] 여기서 행은 0개 이상의 행이 아닌 문자와 종료하는 행 문자(일반적으로 LF)[5]의 시퀀스입니다.

또한, POSIX는 지역 규칙에 따라 인쇄 가능한 파일을 문자 또는 공백 또는 백스페이스로 정의합니다.여기에는 인쇄할 수 없는 대부분의 컨트롤 문자는 제외됩니다.[6]

Apple Macintosh 텍스트 파일

macOS가 등장하기 전에, 고전적인 mac OS 시스템은 파일(데이터 포크)의 리소스 포크가 파일의 종류를 "TEXT"로 표시했을 때 파일의 내용을 텍스트 파일로 간주했습니다.[7]클래식 맥 OS 텍스트 파일의 줄은 CR 문자로 끝납니다.[8]

유닉스 계열 시스템인 macOS는 텍스트 파일에 유닉스 포맷을 사용합니다.[8]macOS에서 텍스트 파일에 사용되는 UTI(Uniform Type Identifier)는 "public.plain-text"입니다. 추가적으로 더 구체적인 UTI는 utf-8 인코딩된 텍스트의 경우 "public.utf8-plain-text", utf-16 인코딩된 텍스트의 경우 "public.utf16-external-plain-text" 및 "public.utf16-plain-text", 클래식 맥 OS 텍스트 파일의 경우 "com.apple.traditional-mac-plain-text"[7]입니다.

렌더링

텍스트 편집기를 열면 사람이 읽을 수 있는 콘텐츠가 사용자에게 제공됩니다.사용자가 볼 수 있는 파일의 일반 텍스트로 구성되는 경우가 많습니다.응용 프로그램에 따라 제어 코드는 편집자가 수행하는 문자 그대로의 명령 또는 일반 텍스트로 편집할 수 있는 눈에 보이는 탈출 문자로 렌더링될 수 있습니다.텍스트 파일에 일반 텍스트가 있을 수 있지만 파일 내의 제어 문자(특히 파일 끝 문자)는 특정 방법으로 일반 텍스트를 보이지 않게 만들 수 있습니다.

참고 항목

참고 및 참고 자료

  1. ^ Lewis, John (2006). Computer Science Illuminated. Jones and Bartlett. ISBN 0-7637-4149-3.
  2. ^ "Using Byte Order Marks". Internationalization for Windows Applications. Microsoft. Jan 7, 2021. Archived from the original on Feb 21, 2023. Retrieved 2022-04-21.
  3. ^ Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30. Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
  4. ^ "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
  5. ^ "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  6. ^ "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  7. ^ a b "System-Declared Uniform Type Identifiers". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
  8. ^ a b "Designing Scripts for Cross-Platform Deployment". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.

외부 링크