선간 광택

Interlinear gloss

언어학교육학에서, 인터라인 글로스(interline gloss)는 원문의 행과 다른 언어로의 번역 등 행 사이에 배치되는 광택(정의나 발음과 같은 간단한 설명의 연속)이다.광택 처리 시 원본 텍스트의 각 행은 선형 간 텍스트 또는 선형광택 처리 텍스트(IGT)로 알려진 하나 이상의 대응하는 변환 행을 획득합니다. 줄여서 선형 간 텍스트입니다.이러한 광택을 통해 독자는 원문과 번역문 사이의 관계, 그리고 원어의 구조를 이해할 수 있습니다.가장 간단한 형태에서, 행간 광택은 단순히 원본 텍스트를 문자 그대로, 단어별로 번역하는 것입니다.

역사

1910년 독일어 사용자를 위한 스페인어 교과서 Tous Saint-Langenscheidt Spanish의 행간 텍스트

선간 광택은 장기간에 걸쳐 다양한 용도로 사용되어 왔습니다.한 가지 일반적인 용도는 언어 교육을 위해 2개 국어 교과서에 주석을 다는 것이다.이러한 종류의 선형 간화는 소스 언어의 구조적 특성을 공식적으로 모델링하지 않고 소스 텍스트의 의미를 명확하게 하는 데 도움이 됩니다.

이러한 주석은 때때로 선형 간 레이아웃이 아니라 객체 및 메타 언어의 단어 열거를 통해 표현된다.그러한 예 중 하나는 빌헬름훔볼트클래식 나후아틀 [1]주석이다.

1

1

ich

2

c-

3

마체

3

치후이

2

es

4

-리아

4

동작하다

5

5

데루

6

없다

6

의미

7

필진

7

손연재

8

8

입력

9

캘리

9

하우스

1 2 3 4 5 6 7 8 9

ni-c-chihui -lia in no-piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der me in Son ein Haus

이 「인라인」스타일은, 텍스트의 플로우내에 예를 포함할 수 있도록 해, 타겟 언어의 어순을 타겟 언어 구문에 가까운 순서로 기술할 수 있도록 합니다(여기에서는, mache es 는 대응하는 소스 순서로부터 독일어의 구문에 가까운 순서로 정렬됩니다).그럼에도 불구하고, 이 접근법에서는 독자들이 소스 형식과 타깃 형식 사이의 대응관계를 "재조정"해야 합니다.

보다 현대적인 19세기와 20세기의 접근법은 수직적인 광택을 내면서, 같은 종류의 단어별 내용을 소스 언어 용어보다 수직으로 배치하는 방식을 취했습니다.이 스타일에서는 예를 다음과 같이 렌더링할 수 있습니다(여기서는 영어 광택).

I

c-

그것

치후이

만들다

-리아

위해서

에서

투투더

없다

나의

필진

아들.

a

캘리

하우스.

ni-c-chihui -lia in no-piltzin ce calli

내 아들에게 집을 만들어 주겠다

"나는 내 아들을 집으로 만들었다."

여기서 단어의 순서는 오브젝트 언어의 구문에 따라 결정됩니다.

마지막으로, 현대 언어학자들은 축약된 문법 범주 레이블을 사용하는 관행을 채택했습니다.이 예를 반복하는 2008년판에는 다음과 [2]같은 라벨이 붙어 있습니다.

니치후이리아

1SG.--SUBJ3SGOBJmach-APPL

에서

DET

노필진

1SGPOSS

입력

캘리

하우스

ni-c-chihui-lia (노필진체칼리)

1SG.SUBJ-3SGOBJ-mach-APPL DET 1SGPOSS-Son ein Haus

이 접근법은 더 밀도가 높고 읽기 위한 노력도 필요하지만, 대상 형식의 의미를 표현하기 위한 메타 언어의 문법 구조에 덜 의존합니다.

컴퓨팅에서는 특수 유니코드 블록에 특수 텍스트 마커가 제공되어 라인 간 광택의 시작과 끝을 나타냅니다.

구조.

IGT 포맷에 대한 공식 사양은 없지만 라이프치히 글로싱 규칙[3] 포맷을 최대한 표준화하는 것을 목적으로 하는 가이드라인 세트입니다.

언어학용 행간 텍스트는 일반적으로 위에서 아래로 다음 중 일부 또는 전부를 이 순서로 구성합니다.

  • 원래의 철자법(일반적으로 이탤릭체 또는 굵은 이탤릭체),
  • 전통적인 라틴 알파벳으로의 번역,
  • 음성 표기를 할 수식 표기법,
  • 형태음소적 음역 발음이요
  • 단어별 또는 형태소별 광택으로, 단어 내 형태소는 하이픈 또는 기타 구두점으로 구분됩니다.

그리고 마지막으로

  • 언어 구조가 너무 달라 텍스트를 한 줄씩 따라갈 수 없는 경우 별도의 단락 또는 대면 페이지에 배치할 수 있습니다.

예를 들어, 다음 대만어 절은 5행의 텍스트로 표기되어 있습니다.

1. 표준 pehh-oe-j의 반음,
2. 표면 톤의 톤 번호를 사용한 광택,
3. 인용 형식으로 기본 톤을 나타내는 광택( 샌디를 받기 전),
4. 영어의 형태소별 광택 및
5. 영어 번역:[4]

(1.)

(2.)

(3.)

(4.)

고아

고아1

고아2

I

아이오보

아오노13

아오노27

아직 안 된

코텐23

코텐47

결정하다

탕스노

탕시75

탕시15

언제

보우

보우2

보우4

원하다

ń-ì

tng1-khi3.

tng2-khi3.

돌아가다.

(1) 고아이아우보아탕탕스보아쯔키

(2) goa1 iau1~12g3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3) goa2 iau2 - 77 koat4 - teng7 tang1 - si5 boeh4 tng2 - khi3.

(4) 아직 반환 시기를 결정하지 않았습니다.

(5) "언제 돌아올지 아직 결정하지 않았다"

단어별 정렬.라이프치히 글로싱 규칙에 따르면 대상 언어의 단어와 메타 언어의 해당 단어를 좌 정렬하는 것이 표준이며, 이 정렬은 (1-3) 행과 (4) 행 사이에서 볼 수 있습니다.

형태소별 대응.하위 단어 수준에서 분할 가능한 형태소는 예시와 글로스 모두에서 하이픈으로 구분됩니다.다음 예시와 같이 예시와 글로스에는 동일한 수의 하이픈이 있어야 합니다.

길라

지금이다

아부루엔

그들은OBLGEN...

페르마

양식장

하미살루

영원히.

귄위나

뒤에

아무크-다-치

머무르다FUTNEG

길라 아부르-우-페르마 하미샬루슈 귀냐 아무크슈-다-치

이제 그들은 OBL-GEN 농장 영원히 stay-FUT-NEG

'이제 그들의 농장은 영원히 남아있지 않을 것이다.'

문법적 카테고리 라벨.amuq--da-cc에서 어간(amuq)은 대응하는 영어 어휘소(stay)로 번역되며, 굴절접사 da 및 (c)는 미래 시제와 부정을 나타내는 굴절접사이다.이러한 굴절 접사는 FUT NEG로 광택 처리됩니다. 언어학에서 널리 사용되는 문법 범주의 표준 약어 목록은 라이프치히 광택 처리 규칙에서 찾을 수 있습니다.

일대다 대응하나의 오브젝트 언어 요소가 여러 개의 메타 언어 요소에 대응하는 경우 이들 요소는 [3]마침표로 구분됩니다.예.,

츠크

come.out-INF

츠크

come.out-INF

'커밍아웃'

비오버 요소. 형태소별 광택(중간선)이 예제의 명시적 요소에 대응하지 않는 요소를 포함하는 경우, 표준 전략은 명시적 [3]요소처럼 하이픈으로 구분되는 객체 언어 텍스트에 명시적 "ö"를 포함하는 것입니다.

pu

boy-nom.sg

pu

boy-nom.sg

'소년'

복제는 부착과 유사하게 처리되지만 복사된 요소를 [3]스템에 연결하는 칠드(표준 하이픈 대신)로 처리됩니다.

바이빌리

IPFV~구입

바이빌리

IPv~구입

'구입하고 있다'

구두점

선간 형태학적 광택에서는 다양한 형태의 구두점이 광택을 분리한다.일반적으로 단어는 광택에 맞춰 정렬됩니다. 단어 내에서 하이픈은 텍스트와 해당 광택에 모두 경계가 표시될 때 사용됩니다. 이 기간은 경계가 하나만 나타나는 기간입니다.즉, 텍스트와 그 광택에 공백으로 구분된 단어 수와 단어와 그 광택 내에 하이픈으로 구분된 형태소의 수가 같아야 합니다.이것은 기본 시스템이며, 보편적으로 적용할 수 있습니다.예를들면,

오다단 히즐리 (터키어)

오다단

방-ABL

방의

hyz-리

속도COM

속력을 내다

시크티엠

go.out-PFV1sg

go_out-perfective-I

오다단 히즈리 츠크티엠

room-ABL speed-COM go.out-PFV-1sg

속도에서 방(go_out-perfective-I

'나는 방을 빨리 떠났다.'

go_out-PFV와 같이 소스 언어의 단일 단어가 글로싱 언어의 문구에 해당하는 경우 마침표 대신 밑줄을 사용할 수 있다. 단, 마침표는 그리스 오이키아어 하우스와 같은 다른 상황에도 사용된다.FEM.PL.DAT는 '집들로'

그러나 때로는 미세한 차이가 생길 수 있다.를 들어 클리틱스는 하이픈이 아닌 이중 하이픈(또는 입력하기 쉽도록 등호)으로 구분할 수 있습니다.

Je'taime. (프랑스어)

je=te=aime

I=You=사랑해

je=te=aime

I=You=사랑해

"사랑해'

불연속성을 초래하는 접사(인픽스, 원주 픽스, 트랜스픽스 등)는 하이픈이 아닌 꺾쇠 괄호로, 중복으로 상쇄할 수 있다.

sulat, susulat, sumulat, sumusulat(언어적 차이)(타갈로그)

토라지다

쓰다

su~sulat

명상적 분위기~글쓰기

썸울라트

"agent trigger.past" 쓰기

썸슈술라토

"에이전트 트리거" 지원 ~ 쓰기

술랏수~술랏수~술랏수~술랏수~술랏

사색적 분위기 쓰기~ "에이전트 트리거.과거" 쓰기~ "에이전트 트리거" 쓰기~ 쓰기

(기타 예시는 접사를 참조해 주세요).

umlaut와 같이 쉽게 분리할 수 없는 형태소는 마침표가 아닌 백슬래시로 표시할 수 있습니다.

언서버

우리-DATPL

베테른

아버지\-PLDATPL

(독일어)

unser-n Véter-n

our-DAT.PL 아버지\PL-DAT.PL

'우리 아버지에게'(베터 '아버지'의 단수형은 '베터')

라이프치히 글로싱 [3]규칙에는 가끔 볼 수 있는 몇 가지 다른 규칙이 설명되어 있습니다.

라인 간 광택 리소스

전 세계 [5]수백 개 언어의 IGT를 디지털화하기 위한 노력이 이루어지고 있습니다.

행간 텍스트 온라인 데이터베이스

ODIN(Online Database of Interline Text)은 학술적인 언어 [6]연구로부터 추출된 1,500개 이상의 언어에 대한 200,000개 이상의 행간 광택 인스턴스의 데이터베이스입니다.데이터베이스는 자동 구축과 수동 수정의 두 단계로 구성되었습니다.자동 시공 단계 자체는 세 단계로 완료되었습니다.

  1. 첫째, 검색 엔진(예: Google, Bing)에 문의하여 행간 광택을 포함할 가능성이 있는 학술 문서를 검색했습니다.질의는 문법적 형태소와 같은 언어 연구와 관련된 용어로 구성되었습니다(예: "NOM"은 주격의 약자, "3SG"는 3인칭 단수 약자).
  2. 둘째, 추출된 문서의 각 행은 머신 러닝의 시퀀스 라벨링 방법을 사용하여 선형 간 광택에 속하는 행인지 여부에 대해 태그가 지정되었다.
  3. 셋째, 각 선형 간 광택 인스턴스에는 언어 이름(예: 타갈로그)과 ISO 693-3 언어 ID가 할당되었습니다.언어 이름과 ID는 자연 언어 처리의 핵심 참조 해결 모델을 사용하여 선형 간 광택에 자동으로 할당되었습니다. 여기서 선형 간 광택 인스턴스에는 선형 [6]간 광택 인스턴스가 추출된 학술 문서에 나타나는 언어 이름(및 ID)이 모델에서는 선형 간 광택 인스턴스가 추출되었습니다.

수동보정단계에서 데이터베이스 작성자는 자동구축단계 2단계에서 시퀀스라벨링방식으로 검출된 선형간 글로스 인스턴스의 경계를 수동으로 보정한다.그 후, 작성자는, 데이터상에서 언어명과 언어 코드를 각각 2번째와 3번째의 패스로부터 검증했습니다.

1단계 및 2단계 이후 온라인 선형 텍스트 데이터베이스의 선형 간 광택 인스턴스 언어 분포
선간 광택 범위

인스턴스

언어들

선간 광택 인스턴스

비율

선간 광택 인스턴스

10,000 이상 3 (1) 36,691 (10,814) 19.39 (6.88)
1000-9999 37 (31) 97,158 (81,218) 51.34 (51.69)
100-999 122 (139) 40,260 (46,420) 21.27 (29.55)
10-99 326 (460) 12,822 (15,560) 6.78 (9.96)
1-9 838 (862) 2,313 (3,012) 1.22 (1.92)
1,326 (1,493) 189,244 (157,114) 100 (100)

선형 간 광택 인스턴스 자동 처리

Interline Text의 Online Database와 같은 Interline Gloss 자원을 활용하는 자연어 처리 모델이 [7][8]개발되었습니다.

자동 광택 처리

예를 들어, 자연 언어 처리 시스템은 선형 간 광택을 자동으로 생성하도록 개발되었습니다.다음과 같습니다.[7]

mi-s

당신-GEN

um우무쿨리

낙타

elu-ab-ok'ek'-asi의

우리.---OBLERG1PL우리PRT.-

anu

있다.NEG

mi-s-umukuli elu-ab-ok'ek-asi anu

너-GEN 낙타 우리.OBL-ERG.1.PL-스틸-PRT.하지 않다

우리는 당신의 낙타를 훔치지 않았다.

형태소 세그먼트 라인(위의 첫 번째 라인)과 자유 번역 라인(위의 세 번째 라인)을 고려할 때, 작업은 줄기 번역(: mi:you)과 접사에 대응하는 문법 범주 레이블(: a:ERG.1)로 구성된 중간 광택 라인을 생성하는 것이다.PL) 자연언어 처리의 시퀀스 예측 모델을 사용하여 이 [7]작업을 수행하였다.이 작업의 어려움에는 다음 두 가지 요인이 있습니다.

  1. 번역이 반드시 형태소 세그먼트 라인과 일치할 필요는 없습니다(예를 들어, 카멜은 번역의 마지막 단어이지만 형태소 세그먼트 라인의 두 번째 단어입니다).
  2. 형태소 세그먼트 라인의 일부 워드는 광택에 여러 개의 대응 관계가 있습니다(예: anu:be.NEG).

광택에서 형태학적 구조 자동 검출

연구자들은 대상 언어의 형태학적 패러다임(즉, 광택을 내는 언어)을 얻기 위해 선형 간 광택을 사용했다.선형 간 광택에서 형태학적 패러다임을 자동으로 만들기 위해 연구원들은 광택의 모든 스템에 대한 표와 광택의 모든 문법 범주(예: ERG)에 대한 (아마도 비어 있는) 슬롯을 만들었습니다.예를 들어,[7] 아래의 광택이 있는 문장은 다음과 같습니다.

베체옴

저녁때INS

1.SG.NOM

포베야라

실행PFV...PSTSGFEM

v

에서

매거진

스토어ACC

Vecher-om ya pobeja-la v magazin

저녁 - INS 1SG.NOM 실행 PFVPST.SG.FEM이 준비되어 있습니다.ACC

'저녁에 나는 상점으로 달려갔다.'

PFV용 슬롯이 있는 스템포베자에 대한 패러다임이 있습니다.PST.SG.FEM PFVPST.SG.MASC:

포베자의 (부분)
슬롯 변곡
PFV.PSTSG.FEM 포베야라
PFV.PSTSG.MASC ?

PFV 슬롯PST.SG.FEM은 (선형 간 글로스 데이터에서 관찰되었기 때문에) 채워지지만 PFV용 슬롯은 채워집니다.PST.SG.MASC는 비어 있습니다(PFV에 대해 굴절된 pobeja를 포함하는 다른 라인 간 글로스 인스턴스가 없는 경우).PST.SG.MASC 문법 카테고리).누락된 엔트리를 채우기 위해 형태학적 [8][9][10][11][12]변형을 위한 통계적 기계학습 모델을 사용할 수 있다.

「 」를 참조해 주세요.

  • 제임스 해밀턴, 19세기 작곡가이자 언어 학습을 위한 행간 교재 기획자
  • 은유법

레퍼런스

  1. ^ Lehmann, Christian (2004-01-23). "Directions for interlinear morphemic translations". In Geert Booij; Christian Lehmann; Joachim Mugdan; Stavros Skopeteas (eds.). Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Handbücher der Sprach- und Kommunikationswissenschaft. Vol. 2. Berlin: W. de Gruyter. pp. 1834–1857.
  2. ^ Haspelmath, Martin (2008). Language typology and language universals: an international handbook. Walter de Gruyter. p. 715. ISBN 978-3-11-011423-2.
  3. ^ a b c d e Bickel, Balthasar; Bernard Comrie; Martin Haspelmath (February 2008). "The Leipzig Glossing Rules. Conventions for Interlinear Morpheme by Morpheme Glosses". Dept. of Linguistics – Resources – Glossing Rules. Retrieved 2010-06-30.
  4. ^ Ko Check Hoan과 Tan Pang Tin의 대만어 기초 어휘
  5. ^ Georgi, Ryan (2016). From Aari to Zulu: massively multilingual creation of language tools using interlinear glossed tex (PhD). University of Washington.
  6. ^ a b Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily (2016). "Enriching a massively multilingual database of interlinear glossed text". Language Resources and Evaluation. 50 (2): 321–349. doi:10.1007/s10579-015-9325-4. S2CID 2674996. Retrieved 2021-12-15.
  7. ^ a b c d Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori (2020). "Automatic Interlinear Glossing for Under-Resourced Languages Leveraging Translations". COLING. Proceedings of the 28th International Conference on Computational Linguistics: 5397–5408. doi:10.18653/v1/2020.coling-main.471. S2CID 227231816. Retrieved 2021-12-15.
  8. ^ a b Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans (2020). "IG2P: From Interlinear Glossed Texts to Paradigms". EMNLP. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP): 5251–5262. doi:10.18653/v1/2020.emnlp-main.424. S2CID 226262296. Retrieved 2021-12-15.
  9. ^ Silfverberg, Miikka; Hulden, Mans (2018). "An Encoder-Decoder Approach to the Paradigm Cell Filling Problem". Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics: 2883–2889. doi:10.18653/v1/D18-1315. S2CID 53082616.
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans (2021). "Applying the Transformer to Character-level Transduction". Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics: 1901–1907. doi:10.18653/v1/2021.eacl-main.163. S2CID 218718982.
  11. ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz (2015). "Inflection Generation as Discriminative String Transduction". Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics: 922–931. doi:10.3115/v1/N15-1093. S2CID 14929030.
  12. ^ Bhargava, Aditya; Kondrak, Grzegorz (2012). "Leveraging supplemental representations for sequential transduction". Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Montréal, Canada: Association for Computational Linguistics: 396–406.

외부 링크