언어 문서화 도구 및 방법

현대 맥락에서 언어 문서화 분야는 복잡하고 끊임없이 진화하는 도구와 방법의 집합을 포함하며, 그 사용에 대한 연구와 개발, 특히 모범 사례의 식별 및 홍보는 언어 문서화의 적절한 하위 분야로 간주될 수 있습니다.^[1] 여기에는 윤리 및 기록 원칙, 워크플로우 및 방법, 하드웨어 도구 및 소프트웨어 도구가 포함됩니다.^[2]

원칙 및 워크플로우

언어 문서화 연구자들은 종종 언어 현장 작업을 수행하여 그들의 작업 기반이 되는 데이터를 수집하고 전통적인 맥락에서 언어 사용을 문서화하는 시청각 파일을 기록합니다. 언어 현장 작업이 자주 이루어지는 환경은 논리적으로 어려울 수 있기 때문에 모든 유형의 기록 도구가 필요하거나 이상적이지는 않으며 품질, 비용 및 사용성 사이에서 종종 타협해야 합니다. 자신의 완전한 워크플로우와 의도된 결과를 구상하는 것도 중요합니다. 예를 들어, 비디오 파일이 만들어진 경우, 오디오 구성 요소를 서로 다른 소프트웨어 패키지에 의해 다양한 방식으로 처리하는 데 어느 정도의 처리가 필요할 수 있습니다.

윤리

언어 문서화의 윤리적 관행은 최근 논의와 논쟁의 초점이 되었습니다.^[3] 미국 언어 학회는 윤리 성명서를 준비했으며, 주로 언어 문서 맥락에서 윤리에 초점을 맞춘 윤리 토론 블로그를 유지하고 있습니다. 제1차 인민 문화 위원회와 멸종 위기 언어 프로젝트는 문서 작업에 참여하기 위한 언어학자 행동 강령을 발표했습니다. 조지 반 드리엠은 윤리 규약의 도덕성 자체에 의문을 제기했습니다.^[4] 어떤 형태의 언어 문서와 설명을 포함하는 대부분의 대학원 프로그램은 연구자들이 제안한 프로토콜을 윤리적으로 연구가 수행되도록 보장하는 내부 기관 검토 위원회에 제출하도록 요구합니다. 최소한, 참가자들에게 녹음 과정과 의도를 알려야 하며, 연구자(들)가 언어 조사에 사용할 시청각 자료에 대한 녹음된 청각 또는 서면 허가를 주어야 합니다. 많은 참가자들이 컨설턴트로 지명되기를 원하지만 다른 참가자들은 그렇지 않을 것입니다. 이것은 데이터를 익명화할 필요가 있는지 아니면 공개 액세스를 제한할 필요가 있는지를 결정합니다.

데이터 형식

형식에 대한 표준을 준수하는 것은 소프트웨어 도구 간의 상호 운용성을 위해 매우 중요합니다. 많은 개별 아카이브 또는 데이터 저장소에는 서버에 보관된 데이터에 대한 자체 표준 및 요구 사항이 있습니다. 이러한 요구 사항에 대한 지식은 사용되는 데이터 수집 전략 및 도구에 정보를 제공해야 하며, 연구 시작 전에 개발된 데이터 관리 계획의 일부여야 합니다. 잘 사용되는 저장소의 몇 가지 예시 지침은 다음과 같습니다.

ELAR(멸종위기 언어 아카이브) 가이드라인
Max Planck Institute Archive 허용 형식
예일 대학교 도서관 시청각 가이드라인

비디오에 대한 대부분의 현재 아카이브 표준은 인코딩 또는 저장 형식으로 MPEG-4(H264)를 사용하며, 여기에는 AAC 오디오 스트림이 포함됩니다(일반적으로 최대 320kbit/s). 오디오 아카이브 품질은 최소 WAV 44.1kHz, 16비트입니다.

기록의 원칙

언어의 문서화가 어려운 경우가 많기 때문에 언어학자들이 작업하는 많은 언어가 멸종 위기에 처해 있기 때문에(가까운 미래에는 사용되지 않을 수도 있습니다), 녹음기의 한계를 고려할 때 가능한 한 최고 품질로 기록하는 것이 좋습니다. 비디오의 경우 가능한 경우 HD 해상도(1080p 또는 720p) 이상에서 녹화하는 것을 의미하며, 오디오의 경우 초당 압축되지 않은 PCM 44,100개의 샘플을 16비트 해상도로 최소한으로 녹화하는 것을 의미합니다. 그러나 분명한 것은 좋은 녹음 기술(분리, 마이크 선택 및 사용, 흐림을 최소화하기 위해 삼각대 사용)이 해상도보다 더 중요하다는 것입니다. 스피커가 MP3 형식(아마도 전화기를 통해)으로 민담(높은 신호/잡음 비율)을 말하는 것을 선명하게 녹음하는 마이크는 들리는 것이 차가 지나가는 것뿐인 WAV 형식의 극도로 시끄러운 녹음보다 더 좋습니다. 좋은 기록을 얻을 수 있도록 언어학자들은 가능한 한 기록 장치로 연습하고 그 결과를 비교하여 어떤 기술이 가장 좋은 결과를 내는지 관찰해야 합니다.^[5]^[2]^[6]^[7]^[8]

워크플로우

많은 언어학자들에게 기록을 만드는 최종 결과는 언어 분석이며, 종종 다양한 소프트웨어 도구를 사용하여 언어의 음운론적 또는 통사적 특성을 조사합니다. 이를 위해서는 일반적으로 해당 언어의 원어민과 협력하여 오디오를 전사해야 합니다. 일반적인 전사의 경우, 미디어 파일은 컴퓨터(또는 재생 가능한 다른 장치)에서 재생되고 텍스트 편집기에서 전사를 위해 일시 중지될 수 있습니다. 이 프로세스를 지원하는 다른 (크로스 플랫폼) 도구에는 Audacity와 Transcriber가 포함되며, ELAN과 같은 프로그램(아래에서 자세히 설명)도 이 기능을 수행할 수 있습니다.

툴박스나 FLEX와 같은 프로그램은 텍스트를 상호 선형화할 수 있기를 원하는 언어학자들이 선호하는 경우가 많은데, 이러한 프로그램은 분석 속도를 높이는 데 도움이 되는 양식과 구문 분석 규칙의 사전을 구축하기 때문입니다. 안타깝게도 미디어 파일은 일반적으로 이러한 프로그램에 의해 연결되지 않기 때문에(연결된 파일을 선호하는 ELAN과는 반대로), 전사를 확인하기 위한 녹음을 보거나 다시 듣기가 어렵습니다. 현재 Toolbox에는 시간 코드가 오디오 파일을 참조하고 Toolbox 내에서 (전체 텍스트 또는 참조 문장의) 재생을 활성화할 수 있는 해결 방법이 있습니다. 이 워크플로에서는 텍스트의 시간 정렬을 Transcriber에서 수행한 다음 관련 시간 코드와 텍스트를 Toolbox가 읽을 수 있는 형식으로 변환합니다.

하드웨어

비디오+오디오 레코더

비디오를 녹화하는 녹음기도 일반적으로 오디오를 녹화합니다. 그러나 오디오는 언어 문서화를 위한 최소 요구 및 권장 모범 사례의 기준(비압축 WAV 형식, 44.1kHz, 16비트)을 항상 충족하는 것은 아니며 음성 분석과 같은 언어적 목적에는 유용하지 않은 경우가 많습니다. 많은 비디오 장치는 AAC 또는 MP3와 같은 압축된 오디오 형식으로 대신 녹화하며, 이는 비디오 스트림과 다양한 종류의 포장지에 결합됩니다. 이 일반 규칙의 예외는 다음 Video+Audio 레코더입니다.

줌 시리즈, 특히 Q8, Q4n 및 Q2n은 여러 비디오 및 오디오 해상도/포맷, 특히 WAV(44.1/48/96kHz, 16/24비트)로 기록됩니다.

WAV 형식으로 오디오를 녹음하지 않는 비디오 레코더(대부분의 DSLR 카메라)를 사용할 경우 아래 지침 중 일부를 따라 다른 레코더에서 오디오를 별도로 녹음하는 것이 좋습니다. 아래에 설명된 오디오 레코더와 마찬가지로 많은 비디오 레코더는 다양한 종류의 마이크 입력(일반적으로 1/8인치 또는 TRS 커넥터를 통해)을 받습니다. 이를 통해 녹음된 비디오와 동기화되는 고품질의 백업 오디오 레코딩을 보장할 수 있으며, 이는 경우에 따라 (즉, 전사에) 도움이 될 수 있습니다.

오디오 레코더 및 마이크

오디오 전용 레코더는 비디오가 비실용적이거나 바람직하지 않은 시나리오에서 사용할 수 있습니다. 대부분의 경우 오디오 전용 레코더를 하나 이상의 외부 마이크와 결합하는 것이 유리하지만, 많은 최신 오디오 레코더에는 비용이나 설정 속도가 중요한 문제인 경우 사용할 수 있는 내장 마이크가 포함되어 있습니다. 디지털(솔리드 스테이트) 레코더는 대부분의 언어 문서 시나리오에서 선호됩니다. 최신 디지털 레코더는 비교적 저렴한 가격으로 매우 높은 수준의 품질을 달성합니다. 가장 인기 있는 필드 레코더 중 일부는 H1, H2, H4, H5 및 H6을 포함하여 줌 범위에 있습니다. H1은 비용과 사용자 친화성이 주요 요구 사항인 상황에 특히 적합합니다. 크기가 중요한 상황에 사용되는 다른 일반적인 레코더로는 올림푸스 LS 시리즈와 소니 디지털 음성 레코더가 있습니다(후방의 경우에도 장치가 WAV/Linear PCM 형식으로 레코딩할 수 있는지 확인하십시오).

여러 종류의 마이크는 상황(특히 스피커의 수, 위치 및 이동성과 같은 요소 포함)과 예산에 따라 언어 문서 시나리오에 효과적으로 사용될 수 있습니다. 일반적으로 동적 마이크보다는 콘덴서 마이크를 선택해야 합니다. 콘덴서 마이크가 (배터리를 통해) 자체 전원이 공급되는 경우 대부분의 현장 작업 상황에서 이점이 있지만, 전원이 주요 요소가 아닐 때는 팬텀 전원 모델도 사용할 수 있습니다. 녹음에 둘 이상의 스피커가 참여할 때마다 스테레오 마이크로폰 설정이 필요합니다. 이는 두 개의 모노 마이크로폰 어레이 또는 전용 스테레오 마이크로폰을 통해 달성할 수 있습니다.

다른 잠재적인 소음원으로부터 화자의 음성을 격리하기 위해 대부분의 경우 지향성 마이크로폰을 사용해야 합니다. 그러나, 전방향 마이크로폰은 비교적 넓은 공간에 배열된 더 많은 수의 스피커를 포함하는 상황에서 선호될 수 있습니다. 지향성 마이크로폰 중에서, 심장 초음파 마이크로폰은 대부분의 용도에 적합하지만, 경우에 따라서는 하이퍼 심장 초음파("샷건") 마이크로폰이 선호될 수 있습니다.

좋은 품질의 헤드셋 마이크는 비교적 비싸지만 제어된 상황에서 매우 높은 품질의 녹음을 생성할 수 있습니다.^[9] 라발리에 또는 "라펠" 마이크는 일부 상황에서 사용될 수 있지만 마이크에 따라 음성 분석을 위한 헤드셋 마이크보다 성능이 떨어지는 녹음을 생성할 수 있습니다. 그리고 헤드셋 마이크는 녹음을 단일 스피커로 제한한다는 점에서 동일한 우려가 있습니다. 다른 스피커는 녹음에서 들을 수 있지만 라발리어 마이크를 착용한 스피커와 관련하여 배경이 됩니다.^[10]

영화 제작 및 인터뷰에 사용되는 좋은 품질의 마이크로는 Røde VideoMic 산탄총과 Røde lavalier 시리즈, Shure 헤드웨어 마이크 및 Shurelavalier가 있습니다. 레코더 및 마이크에 따라 추가 케이블(XLR, 스테레오/모노 컨버터 또는 TRRS-TRS 어댑터)이 필요합니다.

기타 녹음도구

전력 생산, 저장 및 관리

컴퓨터 시스템

악세사리

소프트웨어

일반적인 언어 문서 작업 흐름의 모든 측면을 처리하도록 설계되거나 처리할 수 있는 단일 소프트웨어 제품군은 아직 없습니다. 대신 워크플로우의 다양한 측면을 처리할 수 있도록 설계된 패키지의 수가 증가하고 있으며, 이 중 상당 부분이 중복됩니다. 이러한 패키지 중 일부는 표준 형식을 사용하고 상호 운용 가능한 반면, 다른 패키지는 훨씬 덜 작동합니다.

Say More

SayMore는 댈러스의 SIL International이 개발한 언어 문서 패키지로, 주로 언어 문서의 초기 단계에 초점을 맞추고 있으며, 상대적으로 복잡하지 않은 사용자 경험을 목표로 합니다.

SayMore의 주요 기능은 다음과 같습니다. (a) 녹음 장치(비디오 및/또는 오디오)에서 오디오 녹음 (b) 파일 가져오기 (c) 파일 구성 (d) 세션 및 파일 수준에서 메타데이터 항목 및 정보에 입각한 동의의 증거와 AV 파일 및 기타 보조 개체(사진 등)의 연관성 (e) AV 파일 분할 (g) 전사/번역 (h) BOLD 스타일의 세심한 음성 주석 및 구두 번역.

SayMore 파일은 FLEX에서 주석을 위해 추가로 내보낼 수 있으며 메타데이터는 아카이브를 위해 .csv 및 IMDI 형식으로 내보낼 수 있습니다.

엘란

ELAN은 니메겐에 있는 막스 플랑크 심리언어학 연구소의 언어 아카이브에 의해 개발되었습니다. ELAN은 완전한 기능을 갖춘 전사 도구로, 복잡한 주석 요구/목표를 가진 연구자에게 특히 유용합니다.

플렉스

FieldWorks Language Explorer, FLEX는 Dallas에 있는 SIL International의 Summer Institute of Language, Inc.에 의해 개발되었습니다. FLEX를 사용하면 언어의 "렉시콘", 즉 정의와 문법 정보가 있는 단어 목록을 만들 수 있으며 언어의 텍스트도 저장할 수 있습니다. 텍스트 내에서 각 단어 또는 단어의 일부(즉, "형태소")는 어휘록의 항목에 연결됩니다. 새로운 프로젝트와 처음 배우는 학생들에게 FLEX는 이제 상호 선형화 및 사전 제작을 위한 최고의 도구입니다.

공구함

Field Languist's Toolbox(일반적으로 Toolbox라고 함)는 FLEX의 전신이며 수십 년 동안 가장 널리 사용되는 언어 문서 패키지 중 하나입니다. 이전에 Shoebox로 알려진 Toolbox의 주요 기능은 어휘 데이터베이스를 구축하고 어휘 데이터베이스와의 상호 작용을 통해 텍스트를 상호 선형화하는 것입니다. MDF(Multi-Dictionary Formatter) 변환 도구를 사용하여 어휘 데이터베이스의 경우 어휘 데이터베이스와 텍스트를 모두 워드 프로세싱 환경으로 내보낼 수 있습니다. Toolbox를 전사 환경으로 사용하는 것도 가능합니다.^[11] ELAN 및 FLEX에 비해 Toolbox는 기능이 상대적으로 제한적이며 직관적이지 않은 디자인과 인터페이스를 가지고 있다고 느끼는 사람도 있습니다. 하지만 슈박스/툴박스 환경은 수명에 걸쳐 많은 프로젝트가 진행되었으며, 사용자 기반은 친숙함, 속도, 커뮤니티 지원이라는 장점을 지속적으로 누리고 있습니다. 툴박스는 또한 모든 텍스트 편집기에서 열고 쉽게 조작하고 보관할 수 있는 사람이 읽을 수 있는 텍스트 파일로 직접 작업할 수 있는 장점이 있습니다. 툴박스 파일은 IGT 데이터의 계산적 사용을 위해 Xigt와 같은 오픈 소스 파이썬 라이브러리와 같이 XML(아카이브용으로 권장)로 쉽게 변환할 수도 있습니다.

워크플로의 구성 요소를 자동화하는 도구

언어 문서화는 다음과 같은 여러 소프트웨어 도구 덕분에 부분적으로 자동화될 수 있습니다.

eSpeak
HTK
Lingua Libre, 짧은 기간에 많은 수의 단어와 구를 기록할 수 있는 리브르 온라인 도구입니다(깨끗한 단어 목록과 숙련된 사용자로 시간당 최대 1,000개의 단어). 오디오 및 비디오 발음 파일(구어 및 서명 언어용)을 녹음하는 고전적인 절차를 자동화합니다. 녹음이 완료되면 플랫폼은 깨끗하고 잘 잘라낸 파일, 잘 명명된 파일 및 앱에 적합한 파일을 위키미디어 커먼즈에 자동으로 업로드합니다(특정 언어에 대한 데이터 세트를 다운로드할 수 있음).
마우즈
프로소디랩 얼라이너
삭스

문학.

동료 평가 저널 Language Documentation and Conservation은 언어 문서의 도구와 방법에 초점을 맞춘 많은 기사를 발표했습니다.

영화

2021년 인도 다큐멘터리 영화 '말을 꿈꾸다'는 드라비다어족의 4대 언어인 말레이알람, 칸나다어, 타밀어, 텔루구어를 연결하는 다국어 사전을 편찬하는 네 번째 표준 탈락자인 은자티엘라 스리다란의 삶과 작품을 추적합니다.^[12]^[13]^[14] 4개의 주를 여행하고 광범위한 연구를 한 그는 이 다국어 사전을 만드는 데 25년을^[15] 보냈습니다.

참고 항목

LRE 맵 언어 리소스 맵 리소스 유형, 언어 유형, 모달리티, 리소스 사용, 가용성, 생산 상태, 회의, 리소스 이름별로 검색 가능

Richard Littauer의 GitHub 카탈로그 "멸종위기에 처한 언어를 문서화, 보존, 개발, 보존 또는 작업하는 데 유용한 오픈 소스 코드" 카탈로그.

RNLD 소프트웨어 페이지 언어 다양성을 위한 연구 네트워크 언어 소프트웨어 페이지.

참고문헌

^ "LD Tools Summit". sites.google.com. Retrieved 2016-06-02.
^ ^a ^b Bowern, Claire (2008). Linguistic Fieldwork - Springer. doi:10.1057/9780230590168. ISBN 978-0-230-54538-0.
^ 오스틴, 피터 K. 2010. '언어 문서에 대한 공동체, 윤리 및 권리.' 피터 K에서. Austin, Ed., Language Documentation and Description Vol 7. London, SOAS: 34-54.
^ van Driem, George (2016). "Endangered Language Research and the Moral Depravity of Ethics Protocols". Language Documentation and Conservation 10: 243-252. hdl:10125/24693.
^ Ladefoged, Peter (2003). Phonetic data analysis : an introduction to fieldwork and instrumental techniques. Malden, MA: Blackwell Pub. ISBN 978-0631232698. OCLC 51818554.
^ Chelliah, Shobhana L.; de Reuse, Willem J. (2011). Handbook of Descriptive Linguistic Fieldwork. doi:10.1007/978-90-481-9026-3. ISBN 978-90-481-9025-6. S2CID 60322394.
^ Meakins, Felicity; Green, Jennifer; Turpin, Myfany (2018). Understanding linguistic fieldwork. London. ISBN 9781351330114. OCLC 1029352513.{{cite book}}: CS1 maint: 위치 누락 게시자(링크)
^ Thieberger, Nicholas, ed. (2011-11-24). The Oxford Handbook of Linguistic Fieldwork. Oxford University Press. doi:10.1093/oxfordhb/9780199571888.001.0001. ISBN 9780191744112.
^ Švec, Jan G.; Granqvist, Svante (2010-11-01). "Guidelines for Selecting Microphones for Human Voice Production Research". American Journal of Speech-Language Pathology. 19 (4): 356–368. doi:10.1044/1058-0360(2010/09-0091). ISSN 1058-0360. PMID 20601621.
^ Brixen, Eddy (1996-05-01). "Spectral Degradation of Speech Captured by Miniature Microphones Mounted on Persons' Heads and Chests". Audio Engineering Society Convention 100.
^ Margetts, Andrew (2009). "Using Toolbox with Media Files". Language Documentation & Conservation. 3 (1): 51–86. hdl:10125/4426.
^ "82-year-old Kerala man's Dictionary is in the four Dravidian languages. 25 long years to compile".
^ "83-YO Kerala School Dropout Creates Unique Dictionary in 4 South Indian Languages". 31 December 2020.
^ Sajit, C. p. (30 October 2020). "For Keralites, door opens to three other Dravidian languages". The Hindu.
^ "The Man Who Wrote A Dictionary In Four Languages - Silver Talkies". silvertalkies.com.

[1] "LD Tools Summit". sites.google.com. Retrieved 2016-06-02.

[:0-2] Bowern, Claire (2008). Linguistic Fieldwork - Springer. doi:10.1057/9780230590168. ISBN 978-0-230-54538-0.

[3] 오스틴, 피터 K. 2010. '언어 문서에 대한 공동체, 윤리 및 권리.' 피터 K에서. Austin, Ed., Language Documentation and Description Vol 7. London, SOAS: 34-54.

[4] van Driem, George (2016). "Endangered Language Research and the Moral Depravity of Ethics Protocols". Language Documentation and Conservation 10: 243-252. hdl:10125/24693.

[5] Ladefoged, Peter (2003). Phonetic data analysis : an introduction to fieldwork and instrumental techniques. Malden, MA: Blackwell Pub. ISBN 978-0631232698. OCLC 51818554.

[6] Chelliah, Shobhana L.; de Reuse, Willem J. (2011). Handbook of Descriptive Linguistic Fieldwork. doi:10.1007/978-90-481-9026-3. ISBN 978-90-481-9025-6. S2CID 60322394.

[7] Meakins, Felicity; Green, Jennifer; Turpin, Myfany (2018). Understanding linguistic fieldwork. London. ISBN 9781351330114. OCLC 1029352513.{{cite book}}: CS1 maint: 위치 누락 게시자(링크)

[8] Thieberger, Nicholas, ed. (2011-11-24). The Oxford Handbook of Linguistic Fieldwork. Oxford University Press. doi:10.1093/oxfordhb/9780199571888.001.0001. ISBN 9780191744112.

[9] Švec, Jan G.; Granqvist, Svante (2010-11-01). "Guidelines for Selecting Microphones for Human Voice Production Research". American Journal of Speech-Language Pathology. 19 (4): 356–368. doi:10.1044/1058-0360(2010/09-0091). ISSN 1058-0360. PMID 20601621.

[10] Brixen, Eddy (1996-05-01). "Spectral Degradation of Speech Captured by Miniature Microphones Mounted on Persons' Heads and Chests". Audio Engineering Society Convention 100.

[11] Margetts, Andrew (2009). "Using Toolbox with Media Files". Language Documentation & Conservation. 3 (1): 51–86. hdl:10125/4426.

[12] "82-year-old Kerala man's Dictionary is in the four Dravidian languages. 25 long years to compile".

[13] "83-YO Kerala School Dropout Creates Unique Dictionary in 4 South Indian Languages". 31 December 2020.

[14] Sajit, C. p. (30 October 2020). "For Keralites, door opens to three other Dravidian languages". The Hindu.

[15] "The Man Who Wrote A Dictionary In Four Languages - Silver Talkies". silvertalkies.com.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Search