음향 및 청취 음성학의 이해
서문
- 음성학 : 말소리의 생성과 인지를 다루는 학문
- 현대 음성학
- 말소리의 조음 및 청취적 특성 + 말소리의 음향적 특성
- 현대 음성학
- 음성학의 범위
- 기초 학문 분야
- 음성 공학
- 음성 의학
- and so on.
- 음성학 분야
- 음성학 고유 분야
- 수학
- 물리학
- 음향학
- 전자공학
- 컴퓨터공학
- 해부학
- 생리학
- 책에 관하여
- UC Berkeley의 Keith Johnson교수가 Acoustic and Auditory Phonetics를 출판
- 1판
- 음향 및 청취 음성학의 기본 개념들을 쉽게 설명
- 2판
- 음성 인지에 관한 내용 추가
- 책의 특성
- 사람의 이름이나 언어의 이름 등 고유 명사가 작주 등장
- 음성학의 인접 분야의 전문 용어가 많이 등장
- 언어 이름
- English
- 영어
- American English
- 미국 영어
- Egyptian Arabic
- 이집트 아랍어
- Mandarin
- 북경 중국어
- Cantonese
- 광동 중국어
- Icelandic
- 아이슬란드어
- Malayalam
- 말라얄람어
- English
- 언어 이름 다음에 ‘-어’를 붙임
- 어족을 나타낼 경우 ‘-어족’을 붙임
- 어족 내의 여러 언어를 통칭할 경우 ‘제어’를 붙임
차례
- 서론
- 1장 기초 음향학과 필터
- 1.1 소리의 지각
- 1.2 소리의 전파
- 1.3 소리의 종류
- 1.3.1 단순 주기파
- 1.3.2 복합 주기파
- 1.3.3 비주기파
- 1.4 음향 필터
- 2장 디지털 신호 처리
- 2.1 연속 신호 대 불연속 신호
- 2.2 아날로그-디지털 변화ㅣㄴ
- 2.2.1 표본 추출
- 2.2.2 양자화
- 2.3 신호 분석 방법
- 2.3.1 자기 상관 피치 검출
- 2.3.2 표본 제곱 평균 제곱근 진폭
- 2.3.3 빠른 푸리에 변환
- 2.3.4 디지털 필터
- 2.3.5 선형 예측 부호화
- 2.3.6 스펙트럼과 스펙트로그램
- 3장 기초 청각
- 3.1 주변 청취 체계 구조
- 3.2 소리 크기의 청지각
- 3.3 청취 체계의 주파수 반응
- 3.4 청취 표상
서론
- 주제
- 주요 음성 부류의 음향적 속성
- 음성 생성의 음향학적 이론
- 음성의 청취적 표상
- 음성 인지 등 음향 음성학
- 요약
- 1장부터 5장까지는 기초 음향학, 디지털 신호 처리, 청각, 음성 생성의 음향학적 이론, 음성 인지
- 6장부터 9장까지는 주요 음성 부류를 살펴보고, 음성 생성의 음향학적 이론에 의해 예측되는 각 음성 부류의 음향적 속성, 청취적 특성, 인지적 속성 등을 개확
- 각 장의 끝에 있는 연습 문제에서는 “Sufficient Jargon” 부분을 통해 각 장에 소개된 용어들을 강조 및 독자들이 개념을 응용하도록 함
- 본문
- 성도의 음향학적 결과
- 성도의 크기와 모양, 그리고 사용된 공기역학적 소음 생성 기제에 따라서만 달라지기 때문에 여러 언어와 화자로부터 음성 표본을 끌어 옴
- 음성의 이러한 측면은 해부학과 생리학에 의해 결정되며 문화적 혹은 개인적인 습관의 영역을 넘어섬
- 음향 음성학과 동시에 청취 음성학을 다룸
- 청취 체계는 음성신호를 매우 흥미로운 방법으로 왜곡
- 음성의 음향적 특성이 가지는 언어학적 중요성을 이해하고자 한다면 청취 체계에 관심
- 음성인지
- 2판부터 추가
- 6~9장까지 각장에 음성 인지 데이터 추가
- 음향 음성학의 언어학적 중요성은 인지 과학적 인지 처리 과정에 영향을 받기 때문
- 수학 공식으로 설명
- IPA (국제 음성 학회) 음성기호 사용
- 성도의 음향학적 결과
1장 기초 음향학과 필터
1.1 소리의 지각
- 모든 소리는 모종의 움직임(movement)과 관계가 있음
- movement로 인해 다른 음향 매질(acoustic medium)에 압력 변화(pressure fluctuation)가 생김
- 압력 변화가 고막에 이르면 고막이 움직이게 됨
- 고막의 움직임을 청취 체계가 신경 전달 신호(neural impulse)로 바꿈
- 신경 전달에서 일어나는 임펄스를 우리는 소리로 경험
소리는 압력의 변화가 고막에 영향을 미칠 떄 생성
- 음향 파형(acoustic waveform)
- 소리를 생성하는 압력 변화를 시간에 따라 기록한 것
- Ladeforged(1996), Fry(1979)
- 음향 매질(acoustic medium)
- 공기, 물, 헬륨(helium)
- 소리의 속성
- 매질의 종류
- 매질을 통해 전달되는 압력 변화의 속도
- 매질의 압력변화에 대한 저항
1.2 소리의 전파
- 고막에 영향을 미치는 압력의 변화로 소리를 지각
- 소리는 먼 거리를 이동 할 수 있음
- 음향 매질을 통해 전파되는 음파(sound wave)를 만들어 내기 때문
- 압축(compression)과 희박(rarefaction) 그리고 파(wave)
- 사람이 줄 서는 예제
- 소리 에너지 분산(dissipation)
- 신호 대 소음 비율(signal-to-noise ratio)
1.3 소리의 종류
- 소리는 주기적(periodic)인 소리와 비주기적(aperiodic)인 소리가 있음
- 주기적인 소리는 일정한 간격으로 반복되는 패턴을 가지고 있음
- 단순(simple)음과 복합(complex)음 두 종류가 있음
1.3.1 단순 주기파
- 단순 주기파(simple periodic wave)
- 사인파(sine wave)
- 추(pendulum)읜 운동과 같은 단순 조화 운동(simple harmonic motion)의 결과로 생김
- 어린 아이나 여성의 목소리가 상대적으로 단순 주기파에 속함
- 3가지 속성
- 주파수(frequecy) or 주기(period)
- 진폭(amplitute)
- 위상(phase)
1.3.2 복합 주기파
- 반복되는 파형 패턴이 나타나며 사이클을 가지고 있다는 점에서 단순 주기파와 같음
- 둘 이상의 사인파로 구성되어 있음
- 잔물결(ripple)
- 100Hz와 1000Hz 사인파를 합성 할 때, 1000Hz가 잔물결
- 기존주파수(fundamental frequency: F0)는 복합파의 패턴이 반복되는 빈도
- 파워 스펙트럼(power spectrum)
- 복합파의 구성 요소인 단순 사인파를 진폭 대 주파수로 보여주는 그림
- 푸리에가 발견했으며 푸리에 정리(Fourier’s theorem)라 함
1.3.3 비주기파
- 압력 변화가 불규칙한 소리를 “백색 소음(white noise)”
- 임펄스 특성(impulseness)는 한순간에만 나타지만 백색 소음성(white noiseness)는 모든 시점에서 나타남
- 파형의 짧은 구간을 취하여 푸리에 분석을 하는데 이것을 “분석 창(analysis window)”라고 함
- 비주기음 중 많이 나타나는 유형이 순간음(transient)
- 임펄스(impulse)
- 한 순간에만 신호가 있고 나머지 시점에 압력이 0인 이상적인 소리
1.4 음향 필터
- pass band (통과 대역)과 reject band(여과 대역)이 존재
- 고주파 통과(high-pass), 저주파 통과(loss-pass), 대역 통과(band-pass) 등이 존재
- 대역 통과(band-pass)
- 성도 및 청취 체계의 필토 작용을 모델화 하는데 사용
- 중심 주파수(center frequency)와 대역폭(bandwidth)으로 나타낼 수 있음
- 대역폭(bandwidth)
- 필터 사면에 의해 결정 됨
- 필터 사면은 치마처럼 펼쳐짐
- 중심 주파수를 중신으로 전체 면전의 반을 포함하는 주파수 영역
- 실제로 일률(power)의 반을 나타내는 대역폭은 필터의 중심 주파수 꼭대기로부터 3db아래에 형성 되는 필터의 폭을 구함
- 필터 사면에 의해 결정 됨
2장 디지털 신호 처리
- 컴퓨터로 음향 신호를 다루는 방법을 논의
2.1 연속 신호 대 불연속 신호
- 디지털 신호 처리(digital signal processing: DSP)
- 시간과 진폭을 파형으로 나타내는 방식으로 아래 2가지로 나눠짐
- 연속 신호 (continuous)
- 아날로그
- 모든 시간 및 모든 진폭에 연속 (실수?, 정보 많음)
- 불연속 신호 (discrete)
- 디지털
- 모든 시간 및 모든 진폭에 불연속 (자연수, 정보 적음)
- 연속 신호 (continuous)
- 시간과 진폭을 파형으로 나타내는 방식으로 아래 2가지로 나눠짐
2.2 아날로그-디지털 변환
- analog-to-digital conversion
- 표본(sample)
- 시간 값을 잘게 나눔
- 양자화(quantized)
- 진폭 값을 잘게 나눔
- 표본(sample)
2.2.1 표본 추출
- 표본 추출률(sampling rate)
- 아날로그-디지털 변환의 표본 추출 단계에서 가장 유의해야 할 것
- 주기적인 구성 요소를 포착하기 위해서는 그 파를 불연속적으로 나타냈을 때 사이클당 적어도 두 개의 표본이 필요
- 나이퀴스트 주파수(Nyquist frequency)
- 주어진 표본 추출률로 포착할 수 있는 최고 주파수 구성 요소
- 항상 표본 추출률의 반
- 예) 200Hz의 표본 -> 나이퀴스트 주파수 100Hz
- 가주파수 생성(aliasing)
- 연속 신호를 불연속 파형으로 나타낼 때 생기는 오류
- 연속 신호의 주파수가 표본 추출률의 반보다 높을 때 발생
- 예) 표본 추출률 : 200Hz, 연속 신호 주파수 : 101Hz
- 가주파수 생성 방지(anti-aliasing) 필터
- 모든 주파수 구성 요소들을 걸러내는 저주파수 통과 필터
- 예) 표본 추출률 : 200Hz, 절삭 주파수 70~75Hz 저주파 통과 필터
- low-pass filter
- 명사
- use a low-pass filter with a cutoff frequency of 7.5kHz
- 동사
- low-pass filter the signal at 7.5kHz
- 명사
2.2.2 양자화
자로 파형의 진폭을 재는 것
- 진폭 측정의 정확성
- 양자화 할 때 고려해야할 문제
- 충분히 정확하게(accurately enough)
- 음압(sound pressure)
- 전압 = 볼트(volt)
- 디지털로 나타낼 수 있는 진폭 값의 수로 양자화의 정확성을 정의
- 표현 가능한 진폭 값의 분할 수 (the number of separate amplitude levels that can be represented)
- 이진수 자리 수 (binary digit) = 디지털 수(digital numbers)
- 표현 가능한 진폭 값의 분할 수 (the number of separate amplitude levels that can be represented)
- 양자화 소음(quantization noise)
- 디지털 신호의 오차
- 연속 파형, 연속 -> 불연속 나타낸 파형, 연속 파형과 불연속 파형 사이의 차이를 나타낸 파형
- 백색 소음과 같은 준무작위(quasi-random)소음
- 진폭 단위 값의 변이 영역은 -1/2 ~ 1/2까지
- 양자화 단위 값의 수와 양자화 소음의 양은 반비례
- 신호 대 소음 비율(signal-to-noise ratio)는 양자화 단위 값의 수와 비례
- 손실
- 유손실 데이터 압축(lossy)
- 압
- 무손실 데이터 압축(lossless)
- 유손실 데이터 압축(lossy)
- 양자화 방법
- 신호의 input이 너무 작으면 모든 비트를 사용 못함
- 신호를 증폭하여 모든 비트로 진폭을 표현하는 것이 더 좋음
- 예) -10 ~ 10 volt로 측정하는데 소리는 -5 ~ 5 volt인 경우
- 소리 잘림(clipping)
- 소리의 크기가 디지털 파형의 기록 범위를 넘어선 경우
- 예) -10 ~ 10 volt로 측정하는데 소리는 -12 ~ 12 volt인 경우
- 신호의 input이 너무 작으면 모든 비트를 사용 못함
2.3 신호 분석 방법
- 음성 분석 프로그램의 분석 매개 변수 설정 관련
- 음향 음성학에서 흔히 사용되는 6가지 DSP 분석 기법을 논의
2.3.1 자기 상관 피치 검출
- 기본 주파수(F0)를 자동적으로 찾기 위함
- 성대 진동이 수반되는 음성의 속성을 이용
- 파형이 그 자체와 상관되어 있음
- 복합파의 연속된 주기 몇 개를 겹쳐 놓으면 높은 상관도가 있음
- 피치 트랙(pitch track)
- 성대 진동의 기본 주파수(F0) 추정치를 함수로 보임
- 일치된(aligned) 및 어긋난(misaligned) 등 피치 주기만큼 이동시켜 확인
- 다수의 주기를 포함하는 길이만큼 음향 파형의 일부(창(window))를 따서 가능한 주기의 길이의 영역에 걸쳐 상관 계수를 계산해서 최고의 상관 계수를 보이는 주기를 알려줌
자기 상관 피치 검출법
- 복합 주기파에서 두개의 겹치는 창이 존재
- 래그(lag)
- W1의 시작과 W2의 시작 사이의 간격
- 한 사이클의 길이?
- 최단 래그(shortest lag)와 최장 래그(longest lag)로 표시된 지점 사이의 모든 래그에 대해서 W1과 W2의 상관 계수를 계산
- W1과 W2사이의 상관 계수 중 가장 높은 값을 가진 래그의 길이를 한 주기의 길이 T
- F0 = 1/T
자기 상관법 속도
- 가능한 피치 주기 예상치의 영역을 제한하는 것
- 자기 상관 계수의 수를 줄일 수 있음
- 화자의 평균 F0나 가능한 F0값 영역의 추정치를 이용
- 매개변수이며 화자에 따라 변경해야 하는 경우가 많음
자기 상관 피치 검출법을 이용할 때의 오류
- F0 영역이 정확해도 발생 가능
- 프로그램의 매개 변수가 올바르게 설정 되어 있지 않으면 발생 가능
- 피치 반감(pitch-halving)
- 최단 래그가 W1의 첫 번째 피치 주기가 끝난 다음 나타날 때 발생
- 신호의 피치 주기를 실제 보다 긴 것으로 예상
- 예상되는 F0의 영역이 정확해도 발생할 수 있음
- 인접한 피치 주기들보다 더 유사할 때 발생
- 발성 유형(phonation type)
- 성대 튀김(vocal fry)
- 디플로포니아(diplophonia)
- 피치 배증(pitch-doubling)
- 분석되는 최단 래그가 피치 주기의 반이고 주기의 두 번째 반이 첫번째 반과 유사하게 보일 때 발생
- 전반부에서 골과 마루가 나타나고 후반부에서도 골과 마루가 나타나면 각 주기는 골과 마루가 두번 반복
- F0의 값은 실제의 두배가 됨
2.3.2 표본 제곱 평균 제곱근 진폭
- RMS 진폭(root mean square amplitude)은 음향 강도(acoustic intensity)의 척도
- 그 외 파형의 진폭을 측정할 음향 진폭 척도
- 단순 주기(사인)파
- 마루 진폭(peak amplitude)
- 마루-골 진폭(peak-to-peak amplitude)
- 단순 주기(사인)파
- 인지된 소리 크기(loudness)는 음향 진폭보다 음향 강도와 더 밀접한 관계 -> RMS
- RMS 계산
- (0, 3, 5, 2, 0, -3, -5, -2, 0)
- root(76/9) = 2.9 -(0, 5, 0, -5, 0, 5, 0, -5, 0)
- root(100/9) = 3.33
- 상기 두게의 마루 진폭은 동일하지만 RMS는 다름
- (0, 3, 5, 2, 0, -3, -5, -2, 0)
- RMS 진폭은 피치 기록 정보(pitch trace)와 유사한 진폭 기록 정보(amplitude trace)를 만들어내기 위해 사용
- 음성 신호에서 연속된 혹은 겹치는 창들로부터 측정한 진폭 값을 그린 것
RMS와 창의 크기
- 창이 길수록 진폭 곡선이 더 매끈함
- 창의 크기가 20ms이상이면 각각의 RMS 측정치는 창의 길이 전체에 걸쳐 제곱한 표본을 평균한 값
- 성대의 진동(glottal pulses)이 진폭 기록 정보에 별개의 마루로 나타나지 않음
- 진폭 기록 정보의 시간상의 정확성이 감소
- 긴 분석 창을 이용하면 진폭 기록 정보의 시간상 정확성이 감소
- 창의 크기가 증가함에 따라 RMS 기록 정보가 음향 파형의 갑작스런 변화를 보여줄 수 있는 능력이 떨어짐
- 예) 흡착음
2.3.3 빠른 푸리에 변환
- FFT는 신호를 푸리에 변환하여 스펙트럼을 계산하는 DSP 방법
- FFT 알고리즘을 이용할 때 실질적인 주관심사는 시간 해상도와 주파수 해상도
- 시간 해상도와 주파수 해상도는 역의 관계
- 창의 크기와 주파수 해상도 사이의 관계
- 시간 해상도와 주파수 해상도는 역의 관계
- 주파수 스펙트럼 : 0 Hz ~ 나이퀴스트 주파수 /2
- 등간격의 포인트 (FFT point)로 나타냄
- 포인트의 수는 표본이 수로 결정
- FFT는 2^n
- 예)
- 표본 추출률 22kHz
- 창의 크기 1,024
- 46.5ms = 1,024 / 22,000
- 스펙트럼에서 계산되는 포인트 간격 21.48Hz(22,000 / 1,024)
- 21.48Hz 사이의 간격은 보간법(interpolation)에 의해 포인트 사이의 값을 추정 할 수 있음
창 씌우기
- window, windowing, windowed
- 해밍(Hamming)
- 가장자리 표본들의 진폭을 낮추고 가운데 있는 표본들의 진폭을 그대로 둠
- FFT 분석 시 사용
- 디지털 파형의 일부분을 선택할 때, 처음과 마지막 표본값이 0인 경우가 드물어 순간음이 생성 될 수 있음
- FFT를 할 때, Hamming을 하면 좀 더 정확한 그래프가 나옴
- 사각(rectangular)
- 표본을 전혀 변화시키지 않음
- 자기 상관 피치 검출, RMS 진폭, LPC 분석 등에 사용
분석 창
- 긴 분석 창
- 스펙트럼의 해상도가 높음
- 표본
- 1024
- 조화음(harmonics)이 일정한 간격으로 나타나 있음
- 64
- 스펙트럼의 모양이 왜곡 되어있음
- 1024
- 짧은 분석 창
- 시간 해상도가 높음
영 채우기 (zero-padding)
- 스펙트럼 포인트 사이의 주파수 간격에 대해 걱정할 필요 없이 스펙트럼 분석 가능
- 임의의 시간 해상도와 스펙트럼 왜곡(spectral smearing)의 정도 선택 가능
- 분석 필터의 폭(width of the analysis filter)를 조절하기 위해 디지털 스펙트로그래프에서 사용하는 기법
2.3.4 디지털 필터
- 이동 평균 고르기(moving average smoothing)
- 데이터 고르기(data smoothing)
- 일단의 수를 평균하면 그 범위에 속하는 값들은 하나의 대표값으로 대체
- 시계열 데이터(a time series of data)에 대해 고르기를 하기 위해
- 인접한 표본들의 평균값으로 대체
- y(n) = (x(n-k) + .. + x(n-1) + x(n)) / k
- 1/k = 필터 계수 (filter coefficient)
- 이동 평균 고르기는 저주파수 통과 여과를 수행하기도 함
- 역 푸리에 연산(Inverse Fourier Transform, DFT(Inverse DFT))
- 이상적인 저주파수 통과 필터를 만들기 위해 적용 가능
유용한 방법(tricks of the trade)
- 저주파수 통과 필터를 고주파수 필터 통과로 바꾸는 것
- h(k) 에 -1을 곱함
- 중심 주파수 필터
- 중심 주파수를 가진 디지털 사인파를 h(k)와 곱함
2.3.5 선형 예측 부호화
- 스펙트럼 패턴을 보는 방법
- 영채우기 + 작은 분석창 FFT
- 선형 예측 부호화(linear predictive coding, LPC)
- 자기 상관과 비슷함
- 2ms의 주기 내에 한 피치 주기가 약 3번 반복
- a = 2ms, b = 0.66ms
고주파수 구성 요소 증폭 (pre-emphasis)
- 스펙트럼 분석에서 고주파수 구성 요소의 진폭을 증가시키는 것이 바람직 할 때가 있음
- y_n = x_n - px_n-1
2.3.6 스펙트럼과 스펙트로그램
- 파워 스펙트럼은 시간이 나타나지 않음
- 이중 모음의 역동적 특징을 간과할 가능성이 높음
- 음성 스펙트로그래프
- 이중 모음의 역동적 특징을 해결
- 스펙트로그래프(spectrograph) vs 스펙트럼(spectrogram)
- 전보기(telegraph) vs 전보(telegram)
- 스펙트로그래프
- 진폭 -> 색
- 수직 -> 주파수
- 수평 -> 시간
- 디지털 스펙트로그램
- FFT분석
- 분석 필터의 폭 조절 (영 채우기)
- 협대역(narrow-band) 스팩트로그램
- 긴 분석 창 사용
- 주파수 해상도 높음
- 시간 해상도 낮음
- 광대역(wide-band) 스펙트로그램
- 짧은 분석 창 사용
- 시간 해상도가 높음
- 각각의 성대 진동 펄스 확인 가능
- 스펙트로그램 뭉치가 심한 스펙트럼
- 음향 음성학에 이상적
- 스펙트럼의 전체적인 모양 및 시간상의 변화