음성 분할

Speech segmentation

음성분할구어 자연어에서 단어, 음절 또는 음소 사이의 경계를 식별하는 과정이다.이 용어는 인간이 사용하는 정신적 과정과 자연 언어 처리의 인위적 과정 모두에 적용된다.

음성 분할은 일반적인 음성 인식의 하위 분야이자 기술적으로 초점을 맞춘 음성 인식 분야의 중요한 하위 문제이며, 단독으로 적절하게 해결할 수 없다.대부분의 자연어 처리 문제와 마찬가지로 문맥, 문법 의미론도 고려해야 하며, 그 결과도 종종 범주적 나눗셈이 아닌 확률론적 나눗셈(통계적 가능성 기반)이 됩니다.하나의 단어 내에서처럼 쉽게 인접한 단어 간에 발생할 수 있는 현상인 공동화가 언어 간 음성 분할의 주요 과제를 나타내는 것처럼 보이지만, 이러한 문제를 해결하기 위해 사용되는 몇 가지 다른 문제와 전략은 다음 섹션에서 볼 수 있다.

문제는 공백과 같은 단어 구분자에 의한 단어 간 음성 분할을 나타내는 쓰기 시스템과 비교하여 전통적으로 중국어, 일본어처럼 단어 간 공백 없이 쓰여지는 일부 언어에서 발생하는 텍스트 분할 문제와 어느 정도 중복된다.다만, 이러한 언어에서도, 문자 분할이 음성 분할보다 훨씬 쉬운 경우가 많다.문자 분할은 보통 인접한 단어 사이에 간섭이 적고, 음성에는 없는 단서가 포함되어 있는 경우가 많기 때문이다(예를 들면, 일본어의 어간에는 한자를 사용하는 등).

어휘 인식

자연어에서는 복잡한 구어 문장의 의미를 보다 작은 어휘 세그먼트(대략 언어의 단어)로 분해하고 각 세그먼트에 의미를 관련지어 언어의 문법 규칙에 따라 그 의미를 결합함으로써 이해할 수 있다.

어휘 인식은 매우 제한된 어휘로 인해 첫 해에 유아에 의해 사용되는 것으로 생각되지 않지만, 성인의 언어 분할과 관련된 주요 과정 중 하나이다.어휘 인식의 세 가지 주요 모델은 현재 연구에 존재한다: 첫째, 단어들이 어휘에 완전한 단어 표현을 가지고 있다고 주장하는 전체 단어 접근; 둘째, 형태학적으로 복잡한 단어들이 형태소(근원, 어간, 굴절 등)로 분해되어 해석되고, 셋째, 경쟁하는 것이다.w 전체 단어와 분해 모델이 모두 사용되지만 전체 단어 모델이 일부 계산상의 이점을 제공하므로 어휘 [1]인식에서 우세하다.

예를 들어, 전체 단어 모델에서 "cats"라는 단어는 문자로 저장되고 검색될 수 있습니다. 처음에는 "c", 그 다음에는 "ca", "cat", 그리고 마지막으로 "cats"입니다.분해 모델에서 같은 단어는 어근 "cat" 아래에 저장될 가능성이 높으며 "s" 접미사를 제거한 후 검색할 수 있습니다. 마찬가지로 "falling"은 "fall"로 저장되고 "ing" 변형이 [2]붙습니다.

분해 모델의 지지자들은 형태소별 분석이 훨씬 더 많은 계산을 필요로 할 수 있다는 것을 알고 있지만, 그들은 형태소 정보의 개봉이 어휘 검색과 병렬로 발생할 수 있는 다른 프로세스(통사 구조 등)에 필요하다고 주장한다.

전체적으로 인간의 어휘 인식 시스템에 대한 연구는 세 가지 주요 모델을 완전히 [1]구별하는 실험 증거가 거의 없기 때문에 제한적이다.

어떤 경우든 어휘 인식은 특정 단어 또는 구성요소의 통계적 우도에 기초한 매우 확률론적 시스템이라는 점에서 어휘 인식이 제공하는 문맥적 단서를 통해 언어 분할에 크게 기여할 수 있다.예를 들면, 「____ 가게에서 개를 샀습니다」라고 말할 수 있는 경우, 「net」 「sweat」 「pet」처럼, 누락된 단어의 모음이 발음되는 경우를 생각할 수 있다.넷샵의 확률은 극히 낮지만, "넷샵"은 현재 영어에서 합성어나 구절이 아니고 "sweatshop" 또한 문맥상으로는 불가능할 것 같기 때문에, "펫샵"은 일반적인 문구이고 "dog"[3]와 관련이 있기 때문에 잘 어울린다.

게다가, 발언의 의미는 그것이 어떻게 말로 나뉘느냐에 따라 다를 수 있다.현장에서 자주 인용되는 유명한 예로는 "좋은 해변을 파괴하는 방법"이라는 문구가 있는데,[4] 는 "말을 인식하는 방법"과 매우 비슷하게 들린다.이 예에서 보듯이, 적절한 어휘 분할은 인간의 지식과 경험 전체를 이용하는 문맥과 의미론에 의존하며, 따라서 고급 패턴 인식과 인공지능 기술이 컴퓨터에 구현되어야 한다.

어휘 인식은 의미론적으로 연결된 아이디어의 네트워크를 구축하고 검색하는 능력이 음성 인식 소프트웨어의 효과를 크게 증가시킬 것이기 때문에 컴퓨터 음성 인식 분야에서 특히 중요하다.통계 모델을 사용하여 녹음된 음성을 단어 또는 전화기에 분할 및 정렬할 수 있습니다.응용 프로그램으로는 만화 애니메이션의 자동 립싱크 타이밍, 팔로우 더 버싱볼 비디오 서브타이틀링, 언어 연구 등이 있습니다.자동 분할 및 정렬 소프트웨어가 시판되고 있습니다.

음운 단서

대부분의 구어체 언어에서 어휘 단위 간의 경계가 식별이 어렵다.음운론은 이 문제에 대한 하나의 해답이다.영어나 스페인어와 같은 많은 문어들이 사용하는 단어 간 공백이 그들의 구어판에서는 일시중지에 해당할 것이라고 예상할 수 있지만, 그것은 화자가 의도적으로 일시중지를 삽입할 때 매우 느린 스피치에서만 해당된다.통상적인 말투에서는, 많은 연속된 단어들이 그 단어들 사이에 중단 없이 말해지고, 종종 한 단어의 마지막 소리가 부드럽게 섞이거나 다음 단어의 첫 소리와 융합된다.

언어가 문자처럼 만들어지고, 모음과 자음의 연속이라는 개념은 일부 언어 공동체에게 알파벳 유산의 유물이 될 수 있습니다.사실, 모음의 생성 방식은 자음이 주변 모음의 영향을 받는 것처럼 주변 자음에 따라 달라지는데, 이것을 공성화라고 한다.예를 들어, "kit"라는 단어에서 [k]는 우리가 'caught'라고 말할 때 보다 더 앞쪽에 있습니다.또한 "kick"의 모음은 "kit"의 모음과 음운적으로 다르지만, 우리는 보통 이것을 듣지 못한다.또한, 스펠링과는 상당히 다른 반말에서 발생하는 언어 고유의 변화도 있다.예를 들어, 영어에서 "hit you"라는 구절은 종종 "hitcha"로 더 적절하게 표기될 수 있다.

분해적인 관점에서 보면, 많은 경우, 음성 음성학은 화자들이 단어의 경계를 어디에 그어야 하는지 알게 하는 데 한 몫을 한다.영어에서 "딸기"라는 단어는 화자에 의해 "딸기"와 "딸기"의 두 부분으로 구성된 것으로 인식된다."stra" 및 "wberry"와 같은 다른 해석은 영어 음성 음성학에 의해 금지되며, "wb" 단어는 처음에 클러스터를 허용하지 않습니다.다른 예로 "낮/꿈"과 "마일/스톤"을 들 수 있는데, 이는 특정 성단의 음운론적 확률이나 개연성 때문에 "da/ydream" 또는 "mil/estone"으로 해석될 가능성이 낮습니다.[favvw"m"nlftft]로 음성적으로 표기될 수 있는 문장 "Five women left"는 영어 음성학에서 /favvwmmnn/ 또는 /w /mɪnlnlft/의 /vw/가 음절이나 코다로 허용되지 않기 때문에 표시된다.이러한 음운론적 단서들은 종종 화자들이 단어의 경계를 쉽게 구별할 수 있게 해준다.

핀란드어와 같은 언어에서의 모음 조화는 또한 음운론적 신호를 제공하는 역할을 할 수 있다.이 체계는 한 형태소 내에서 앞모음과 뒷모음이 함께 존재하는 것을 허용하지 않지만, 복합어는 두 형태소가 한 단어 안에 공존하면서 그들만의 모음 조화를 유지할 수 있도록 한다.따라서, 모음 조화가 화합물 의 두 구성 요소 간에 구별되는 "selké/ongelma"('후면 문제')와 같은 화합물에서는, 이 경우,[5] "α"와 "ö" 사이의 조화가 이루어지는 모든 위치에 경계가 있을 것이다.그러나 음성 음성학이 분할에 도움이 되지 않을 수 있는 경우가 있습니다."opinto/uudistus" (학생 개혁)에서처럼 군집이 불분명하거나 대조되지 않은 모음 조화가 있는 단어들은 어떻게 [6][full citation needed]구분되는지에 대한 음운론적 단서를 제공하지 않는다.

그러나 전체 단어 모델의 관점에서 이 단어들은 완전한 단어로 저장되기 때문에 구성 요소는 반드시 어휘 인식과 관련이 있는 것은 아니다.

영유아 및 비원어민 언어 세분화

유아는 언어분할 연구의 주요 초점 중 하나이다.유아들은 위에서 언급한 바와 같이 아직 광범위한 문맥적 단서나 확률 기반 단어 검색을 제공할 수 있는 어휘를 얻지 못했기 때문에, 그들은 종종 주로 음운과 리듬의 단서에 의존해야 하며, 이 모든 것은 언어에 특유하다.6개월에서 9개월 사이에, 유아들은 모국어에 없는 소리를 구별하는 능력을 잃기 시작하고, 그들의 모국어의 소리 구조에 민감하게 되기 시작하며, 분할 능력은 약 7.5개월에 나타난다.

비록 유아들이 언어 분할을 시작하기 위해 사용하는 정확한 과정에 대해 훨씬 더 많은 연구가 필요하지만, 현재와 과거의 연구들은 영어 원어민 유아들이 강세가 있는 음절에 단어의 시작으로서 접근한다는 것을 보여준다.7.5개월이 되면 유아는 강한-약한 스트레스 패턴으로 바이실라빅 단어를 분할할 수 있는 것으로 보인다. 그러나 약한-강한 스트레스 패턴은 종종 잘못 해석된다. 예를 들어, "guiTAR is"를 "GUI TARis"로 해석한다.예를 들어, "the"와 "dog"의 음절이 자주 함께 발생하지만 "the"는 다른 음절과 함께 발생한다는 것을 인식하는 등, 유아들은 단어의 빈도 및 확률을 추적하는 데 있어 어느 정도 복잡성을 보이는 것으로 보이며, 이는 "dog"가 해석 대신 개별 단어 또는 개념이라는 분석으로 이어질 수 있다.헤도그"[7][8]를 클릭합니다.

언어 학습자는 음성 분할 내에서 연구되는 또 다른 개인 집합입니다.어떤 면에서, 제2외국어 학습자는 음성 확률과 제한에 익숙하지 않을 뿐만 아니라 특히 모국어 패턴의 과다 적용에 있어 유아보다 언어 분할을 배우는 것이 더 어려울 수 있다.프랑스어, 영어의 음절 분할과 같이 언어간에 몇 가지 패턴이 발생할 수 있지만, 모라 기반의 분할 시스템을 가진 일본어 등의 언어에서는 잘 작동하지 않을 수 있다.또한 독일어 또는 네덜란드어의 boundary-marking cluster /ld/와 같은 음운 제한은 영어로 허용됩니다(경계를 반드시 표시하지 않아도 됩니다).영어 화자에게는 직관적으로 보일 수 있는 강세와 모음 길이 사이의 관계조차 다른 언어에는 존재하지 않을 수 있기 때문에 제2외국어 학습자는 언어와 [9]그 분할 신호를 배울 때 특히 큰 도전에 직면한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b 바데커, 윌리엄, 마크 앨런입니다.형태학적 해석과 어휘적 정체성의 인식: "줄기 호모그래프의 마스크 프라이밍 연구"기억과 언어 저널 47.1 (2002) : 125~144.2014년 4월 27일 취득.
  2. ^ 태프트, 마커스, 케네스 1세포스터."다형어다형어의 사전 저장검색"언어학습과 언어행동 저널 15.6(1976) : 607~620.2014년 4월 27일 취득.
  3. ^ Lieberman, Henry; Alexander Faaborg; Waseem Daher; José Espinosa (January 9–12, 2005). "How to Wreck a Nice Beach You Sing Calm Incense" (PDF). MIT Media Library. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  4. ^ 음성 인식 문헌에서 자주 사용되는 예입니다.초기 예로는 N. Rex Dixon이 있습니다.제1회 패턴인식에 관한 국제공동회의, IEEE, 1973년 Mark Liberman에 인용된 "Undercking a beach, 2014년 8월 5일 로그 언어, 제1회 "연속음성 자동인식 및 패턴인식의 시사점"입니다.
  5. ^ Bertram, Raymond, Alexander Pollatsek, Juka Hyönae. "형태학적 해석과 핀란드 화합물 판독에서의 분할 단서의 사용"기억과 언어 저널 51.3 (2004) : 325 ~345.2014년 4월 27일 취득.
  6. ^ "General Introduction" (PDF). Archived from the original (PDF) on 2014-04-27. {{cite book}}:누락 또는 비어 있음 title=(도움말)
  7. ^ Juscyk, Peter W., 그리고 Derek M.휴스턴."영어 학습 유아들의 단어 분할의 시작"인지심리학 39(1999년): 159~207년.2014년 4월 27일 취득.
  8. ^ 존슨, 엘리자베스 K. 그리고 피터 W. 쥬시크."8개월 된 아이에 의한 단어 구분: 음성 신호가 통계보다 더 중요할 때"를 선택합니다.기억과 언어 저널 44 (2001) : 548 ~567.2014년 4월 27일 취득.
  9. ^ 타일러, 마이클 D, 앤 커틀러."음성 분할을 위한 사용의 교차 언어 차이"미국 음향학회지 126 (2009) : 367 ~ 376.2014년 4월 27일 취득.

외부 링크