Skip to main content

다른 음성 인식 기술은 무엇입니까?

몇 가지 음성 인식 기술은 음성 단어를 캡처하고 소프트웨어 프로그램에서 사용할 수있는 데이터로 변환하는 데 사용됩니다.말하는 내용을 결정하기 위해 연설을 분석하는 세 가지 광범위한 방법이 있습니다.첫 번째는 불연속 연설이라고하며, 한 번에 한 단어 만 사용됩니다.두 번째는 연결된 말로 알려져 있으며, 단어를 특정 방식으로 이해해야합니다.마지막으로, 대부분의 사람들이 일반적으로 말하는 방식입니다.

모든 유형의 음성 인식 기술에 사용되는 가장 일반적인 알고리즘은 숨겨진 Markov 모델 (HMM)입니다.이 시스템에는 음소의 큰 데이터 트리 또는 기본 사운드 및 음절이 포함되며,이 음절은 한 소리의 통계적 확률로 나뉘어져 있습니다.각 음소를 사운드 데이터 트리의 노드와 비교함으로써 실제 완성 된 단어는 비교적 짧은 시간 내에 높은 정확도로 결정될 수 있습니다.단어가 시작되고 끝나는 곳을 분리합니다.이 작업은 방의 배경 소음과 일부 음절에 단어 사이의 휴식과 유사한 오디오 서명이 있다는 사실에 의해 복잡합니다.이러한 이유로, 개별적이고 연결된 음성 인식 기술이 가장 정확합니다.

다른 음성 인식 기술을 분리하는 또 다른 요인은 소프트웨어 어휘의 문제입니다.연설을 해석하는 소프트웨어는 정확도가 높은 어휘가 매우 제한적이거나 특정 사용자의 개별 음성 패턴과 일치 해야하는 큰 어휘를 가질 수 있습니다.프로그램이 HMM을 조립하는 방법을 사용하면 이해되는 단어의 수가 적을수록 프로그램이 더 정확할 수 있습니다.이것은 대부분의 자동화 된 전화 시스템이 질문에 대한 번호 또는 질문에 대한 응답에 사용하는 방법입니다.이 프로그램은 말하는 사람의 언어 패턴을 이해하도록 훈련되어야하기 때문입니다.교육에는 소프트웨어에 대한 사전 제작 된 텍스트 단락을 읽는 것이 포함됩니다.읽는 단어는 알려져 있으므로 프로그램은 사용자와 관련된 음소의 통계 모델을 구축 할 수 있습니다.이것은 프로그램에 사용자를 이해할 수있는 훨씬 더 나은 기회를 제공하지만, 훈련을받지 않은 사람들에 대한 프로그램을 방해 할 수도 있습니다.많은 사람들은 단어를 함께 실행하고 다른 속도로 말하는 경향이 있으므로 연속적인 음성을 번역하는 프로그램의 정확성은 다른 방법보다 낮습니다.그럼에도 불구하고 이러한 유형의 연설을 번역 할 수있는 프로그램이 존재하며, 그 중 일부는 퍼지 논리 및 신경망을 사용하여 패턴을 인식하고 단어를 분리하는 데 도움이됩니다.