음성인식의 원리

카테고리 없음

음성인식의 원리

아이스아메리카노를따뜻하게뎁혀서개빨리마시지말고천천히마시고싶다 2023. 8. 28. 01:01

컴퓨터는 입력된 소리 중 필요한 음성만을 검출해야한다.

보통 사람의 목소리를 특정할 수 있는 주파수 대역은

여자는 200~250HZ, 남자는 100~150HZ이다.

그렇기에 컴퓨터는 잡음 제거 등 기술도 병행하며 음성에 해당하는 정보를 얻는다

이후 얻어진 음성을 초당 50회 정도로 쪼갠 후 음성이 변화하는 특징을 분석하기 쉽게 수치화 한다.

그런 후 각각의 데이터 간의 변화, 특징 벡터를 구하여 쪼개진 데이터가 어떤 음소에 매칭 되는지를 만들어내는 과정인 음향모델링을 진행하게 된다.

현재 음향 모델링은 대부분 딥러닝을 통해 이루어진다.

딥러닝에는 문장과 음성이 매칭 된 기본데이터가 필요하기에 정해진 원고를 사람이 읽게 하여 데이터를 만들거나 무작위로 수집된 음성을 사람이 직접 받아쓰기 하는 식으로 수작업을 동원해 학습 데이터를 생성한 후 이를 앞서 만든 특징 벡터와의 비교를 통해 음성 데이터의 변화가 개별 음소에 매칭 될 확률을 학습한다.

이후 언어 모델을 통해 음성 인식 결과가 문맥에 맞는 단어로 매칭 될 수 있도록 한다

따라서 많은 문장을 언어 모델로 학습할수록 문맥을 고려해 음성을 더욱 정확하게 인식시킬 수 있다.