음향 및 청취 음성학의 이해

서문

음성학 : 말소리의 생성과 인지를 다루는 학문
- 현대 음성학
  - 말소리의 조음 및 청취적 특성 + 말소리의 음향적 특성
음성학의 범위
- 기초 학문 분야
- 음성 공학
- 음성 의학
- and so on.
음성학 분야
- 음성학 고유 분야
- 수학
- 물리학
- 음향학
- 전자공학
- 컴퓨터공학
- 해부학
- 생리학
책에 관하여
- UC Berkeley의 Keith Johnson교수가 Acoustic and Auditory Phonetics를 출판
- 1판
  - 음향 및 청취 음성학의 기본 개념들을 쉽게 설명
- 2판
  - 음성 인지에 관한 내용 추가
책의 특성
- 사람의 이름이나 언어의 이름 등 고유 명사가 작주 등장
- 음성학의 인접 분야의 전문 용어가 많이 등장
언어 이름
- English
  - 영어
- American English
  - 미국 영어
- Egyptian Arabic
  - 이집트 아랍어
- Mandarin
  - 북경 중국어
- Cantonese
  - 광동 중국어
- Icelandic
  - 아이슬란드어
- Malayalam
  - 말라얄람어
언어 이름 다음에 ‘-어’를 붙임
어족을 나타낼 경우 ‘-어족’을 붙임
어족 내의 여러 언어를 통칭할 경우 ‘제어’를 붙임

차례

서론
1장 기초 음향학과 필터
- 1.1 소리의 지각
- 1.2 소리의 전파
- 1.3 소리의 종류
  - 1.3.1 단순 주기파
  - 1.3.2 복합 주기파
  - 1.3.3 비주기파
- 1.4 음향 필터
2장 디지털 신호 처리
- 2.1 연속 신호 대 불연속 신호
- 2.2 아날로그-디지털 변화ㅣㄴ
  - 2.2.1 표본 추출
  - 2.2.2 양자화
- 2.3 신호 분석 방법
  - 2.3.1 자기 상관 피치 검출
  - 2.3.2 표본 제곱 평균 제곱근 진폭
  - 2.3.3 빠른 푸리에 변환
  - 2.3.4 디지털 필터
  - 2.3.5 선형 예측 부호화
  - 2.3.6 스펙트럼과 스펙트로그램
3장 기초 청각
- 3.1 주변 청취 체계 구조
- 3.2 소리 크기의 청지각
- 3.3 청취 체계의 주파수 반응
- 3.4 청취 표상

서론

주제
- 주요 음성 부류의 음향적 속성
- 음성 생성의 음향학적 이론
- 음성의 청취적 표상
- 음성 인지 등 음향 음성학
요약
- 1장부터 5장까지는 기초 음향학, 디지털 신호 처리, 청각, 음성 생성의 음향학적 이론, 음성 인지
- 6장부터 9장까지는 주요 음성 부류를 살펴보고, 음성 생성의 음향학적 이론에 의해 예측되는 각 음성 부류의 음향적 속성, 청취적 특성, 인지적 속성 등을 개확
- 각 장의 끝에 있는 연습 문제에서는 “Sufficient Jargon” 부분을 통해 각 장에 소개된 용어들을 강조 및 독자들이 개념을 응용하도록 함
본문
- 성도의 음향학적 결과
  - 성도의 크기와 모양, 그리고 사용된 공기역학적 소음 생성 기제에 따라서만 달라지기 때문에 여러 언어와 화자로부터 음성 표본을 끌어 옴
  - 음성의 이러한 측면은 해부학과 생리학에 의해 결정되며 문화적 혹은 개인적인 습관의 영역을 넘어섬
- 음향 음성학과 동시에 청취 음성학을 다룸
  - 청취 체계는 음성신호를 매우 흥미로운 방법으로 왜곡
  - 음성의 음향적 특성이 가지는 언어학적 중요성을 이해하고자 한다면 청취 체계에 관심
- 음성인지
  - 2판부터 추가
  - 6~9장까지 각장에 음성 인지 데이터 추가
  - 음향 음성학의 언어학적 중요성은 인지 과학적 인지 처리 과정에 영향을 받기 때문
- 수학 공식으로 설명
- IPA (국제 음성 학회) 음성기호 사용

1장 기초 음향학과 필터

1.1 소리의 지각

모든 소리는 모종의 움직임(movement)과 관계가 있음
movement로 인해 다른 음향 매질(acoustic medium)에 압력 변화(pressure fluctuation)가 생김
압력 변화가 고막에 이르면 고막이 움직이게 됨
고막의 움직임을 청취 체계가 신경 전달 신호(neural impulse)로 바꿈
신경 전달에서 일어나는 임펄스를 우리는 소리로 경험

소리는 압력의 변화가 고막에 영향을 미칠 떄 생성

음향 파형(acoustic waveform)
- 소리를 생성하는 압력 변화를 시간에 따라 기록한 것
- Ladeforged(1996), Fry(1979)
음향 매질(acoustic medium)
- 공기, 물, 헬륨(helium)
- 소리의 속성
  - 매질의 종류
  - 매질을 통해 전달되는 압력 변화의 속도
  - 매질의 압력변화에 대한 저항

1.2 소리의 전파

고막에 영향을 미치는 압력의 변화로 소리를 지각
소리는 먼 거리를 이동 할 수 있음
- 음향 매질을 통해 전파되는 음파(sound wave)를 만들어 내기 때문
압축(compression)과 희박(rarefaction) 그리고 파(wave)
- 사람이 줄 서는 예제
소리 에너지 분산(dissipation)
신호 대 소음 비율(signal-to-noise ratio)

1.3 소리의 종류

소리는 주기적(periodic)인 소리와 비주기적(aperiodic)인 소리가 있음
주기적인 소리는 일정한 간격으로 반복되는 패턴을 가지고 있음
단순(simple)음과 복합(complex)음 두 종류가 있음

1.3.1 단순 주기파

단순 주기파(simple periodic wave)
- 사인파(sine wave)
- 추(pendulum)읜 운동과 같은 단순 조화 운동(simple harmonic motion)의 결과로 생김
어린 아이나 여성의 목소리가 상대적으로 단순 주기파에 속함
3가지 속성
- 주파수(frequecy) or 주기(period)
- 진폭(amplitute)
- 위상(phase)

1.3.2 복합 주기파

반복되는 파형 패턴이 나타나며 사이클을 가지고 있다는 점에서 단순 주기파와 같음
둘 이상의 사인파로 구성되어 있음
잔물결(ripple)
- 100Hz와 1000Hz 사인파를 합성 할 때, 1000Hz가 잔물결
기존주파수(fundamental frequency: F0)는 복합파의 패턴이 반복되는 빈도
파워 스펙트럼(power spectrum)
- 복합파의 구성 요소인 단순 사인파를 진폭 대 주파수로 보여주는 그림
- 푸리에가 발견했으며 푸리에 정리(Fourier’s theorem)라 함

1.3.3 비주기파

압력 변화가 불규칙한 소리를 “백색 소음(white noise)”
- 임펄스 특성(impulseness)는 한순간에만 나타지만 백색 소음성(white noiseness)는 모든 시점에서 나타남
파형의 짧은 구간을 취하여 푸리에 분석을 하는데 이것을 “분석 창(analysis window)”라고 함
비주기음 중 많이 나타나는 유형이 순간음(transient)
임펄스(impulse)
- 한 순간에만 신호가 있고 나머지 시점에 압력이 0인 이상적인 소리

1.4 음향 필터

pass band (통과 대역)과 reject band(여과 대역)이 존재
고주파 통과(high-pass), 저주파 통과(loss-pass), 대역 통과(band-pass) 등이 존재
대역 통과(band-pass)
- 성도 및 청취 체계의 필토 작용을 모델화 하는데 사용
- 중심 주파수(center frequency)와 대역폭(bandwidth)으로 나타낼 수 있음
- 대역폭(bandwidth)
  - 필터 사면에 의해 결정 됨
    - 필터 사면은 치마처럼 펼쳐짐
  - 중심 주파수를 중신으로 전체 면전의 반을 포함하는 주파수 영역
  - 실제로 일률(power)의 반을 나타내는 대역폭은 필터의 중심 주파수 꼭대기로부터 3db아래에 형성 되는 필터의 폭을 구함

2장 디지털 신호 처리

컴퓨터로 음향 신호를 다루는 방법을 논의

2.1 연속 신호 대 불연속 신호

디지털 신호 처리(digital signal processing: DSP)
- 시간과 진폭을 파형으로 나타내는 방식으로 아래 2가지로 나눠짐
  - 연속 신호 (continuous)
    - 아날로그
    - 모든 시간 및 모든 진폭에 연속 (실수?, 정보 많음)
  - 불연속 신호 (discrete)
    - 디지털
    - 모든 시간 및 모든 진폭에 불연속 (자연수, 정보 적음)

2.2 아날로그-디지털 변환

analog-to-digital conversion
- 표본(sample)
  - 시간 값을 잘게 나눔
- 양자화(quantized)
  - 진폭 값을 잘게 나눔

2.2.1 표본 추출

표본 추출률(sampling rate)
- 아날로그-디지털 변환의 표본 추출 단계에서 가장 유의해야 할 것
- 주기적인 구성 요소를 포착하기 위해서는 그 파를 불연속적으로 나타냈을 때 사이클당 적어도 두 개의 표본이 필요
- 나이퀴스트 주파수(Nyquist frequency)
  - 주어진 표본 추출률로 포착할 수 있는 최고 주파수 구성 요소
  - 항상 표본 추출률의 반
  - 예) 200Hz의 표본 -> 나이퀴스트 주파수 100Hz
- 가주파수 생성(aliasing)
  - 연속 신호를 불연속 파형으로 나타낼 때 생기는 오류
  - 연속 신호의 주파수가 표본 추출률의 반보다 높을 때 발생
    - 예) 표본 추출률 : 200Hz, 연속 신호 주파수 : 101Hz
  - 가주파수 생성 방지(anti-aliasing) 필터
    - 모든 주파수 구성 요소들을 걸러내는 저주파수 통과 필터
    - 예) 표본 추출률 : 200Hz, 절삭 주파수 70~75Hz 저주파 통과 필터
- low-pass filter
  - 명사
    - use a low-pass filter with a cutoff frequency of 7.5kHz
  - 동사
    - low-pass filter the signal at 7.5kHz

2.2.2 양자화

자로 파형의 진폭을 재는 것

진폭 측정의 정확성
- 양자화 할 때 고려해야할 문제
- 충분히 정확하게(accurately enough)
  - 음압(sound pressure)
  - 전압 = 볼트(volt)
디지털로 나타낼 수 있는 진폭 값의 수로 양자화의 정확성을 정의
- 표현 가능한 진폭 값의 분할 수 (the number of separate amplitude levels that can be represented)
  - 이진수 자리 수 (binary digit) = 디지털 수(digital numbers)
양자화 소음(quantization noise)
- 디지털 신호의 오차
- 연속 파형, 연속 -> 불연속 나타낸 파형, 연속 파형과 불연속 파형 사이의 차이를 나타낸 파형
- 백색 소음과 같은 준무작위(quasi-random)소음
- 진폭 단위 값의 변이 영역은 -1/2 ~ 1/2까지
- 양자화 단위 값의 수와 양자화 소음의 양은 반비례
- 신호 대 소음 비율(signal-to-noise ratio)는 양자화 단위 값의 수와 비례
손실
- 유손실 데이터 압축(lossy)
  - 압
- 무손실 데이터 압축(lossless)
양자화 방법
- 신호의 input이 너무 작으면 모든 비트를 사용 못함
  - 신호를 증폭하여 모든 비트로 진폭을 표현하는 것이 더 좋음
  - 예) -10 ~ 10 volt로 측정하는데 소리는 -5 ~ 5 volt인 경우
- 소리 잘림(clipping)
  - 소리의 크기가 디지털 파형의 기록 범위를 넘어선 경우
  - 예) -10 ~ 10 volt로 측정하는데 소리는 -12 ~ 12 volt인 경우

2.3 신호 분석 방법

음성 분석 프로그램의 분석 매개 변수 설정 관련
음향 음성학에서 흔히 사용되는 6가지 DSP 분석 기법을 논의

2.3.1 자기 상관 피치 검출

기본 주파수(F0)를 자동적으로 찾기 위함
성대 진동이 수반되는 음성의 속성을 이용
파형이 그 자체와 상관되어 있음
- 복합파의 연속된 주기 몇 개를 겹쳐 놓으면 높은 상관도가 있음
피치 트랙(pitch track)
- 성대 진동의 기본 주파수(F0) 추정치를 함수로 보임
- 일치된(aligned) 및 어긋난(misaligned) 등 피치 주기만큼 이동시켜 확인
- 다수의 주기를 포함하는 길이만큼 음향 파형의 일부(창(window))를 따서 가능한 주기의 길이의 영역에 걸쳐 상관 계수를 계산해서 최고의 상관 계수를 보이는 주기를 알려줌

자기 상관 피치 검출법

복합 주기파에서 두개의 겹치는 창이 존재
래그(lag)
- W1의 시작과 W2의 시작 사이의 간격
- 한 사이클의 길이?
최단 래그(shortest lag)와 최장 래그(longest lag)로 표시된 지점 사이의 모든 래그에 대해서 W1과 W2의 상관 계수를 계산
- W1과 W2사이의 상관 계수 중 가장 높은 값을 가진 래그의 길이를 한 주기의 길이 T
- F0 = 1/T

자기 상관법 속도

가능한 피치 주기 예상치의 영역을 제한하는 것
- 자기 상관 계수의 수를 줄일 수 있음
- 화자의 평균 F0나 가능한 F0값 영역의 추정치를 이용
  - 매개변수이며 화자에 따라 변경해야 하는 경우가 많음

자기 상관 피치 검출법을 이용할 때의 오류

F0 영역이 정확해도 발생 가능
- 프로그램의 매개 변수가 올바르게 설정 되어 있지 않으면 발생 가능
피치 반감(pitch-halving)
- 최단 래그가 W1의 첫 번째 피치 주기가 끝난 다음 나타날 때 발생
- 신호의 피치 주기를 실제 보다 긴 것으로 예상
- 예상되는 F0의 영역이 정확해도 발생할 수 있음
  - 인접한 피치 주기들보다 더 유사할 때 발생
  - 발성 유형(phonation type)
    - 성대 튀김(vocal fry)
    - 디플로포니아(diplophonia)
피치 배증(pitch-doubling)
- 분석되는 최단 래그가 피치 주기의 반이고 주기의 두 번째 반이 첫번째 반과 유사하게 보일 때 발생
- 전반부에서 골과 마루가 나타나고 후반부에서도 골과 마루가 나타나면 각 주기는 골과 마루가 두번 반복
- F0의 값은 실제의 두배가 됨

2.3.2 표본 제곱 평균 제곱근 진폭

RMS 진폭(root mean square amplitude)은 음향 강도(acoustic intensity)의 척도
그 외 파형의 진폭을 측정할 음향 진폭 척도
- 단순 주기(사인)파
  - 마루 진폭(peak amplitude)
  - 마루-골 진폭(peak-to-peak amplitude)
인지된 소리 크기(loudness)는 음향 진폭보다 음향 강도와 더 밀접한 관계 -> RMS
RMS 계산
- (0, 3, 5, 2, 0, -3, -5, -2, 0)
  - root(76/9) = 2.9 -(0, 5, 0, -5, 0, 5, 0, -5, 0)
  - root(100/9) = 3.33
- 상기 두게의 마루 진폭은 동일하지만 RMS는 다름
RMS 진폭은 피치 기록 정보(pitch trace)와 유사한 진폭 기록 정보(amplitude trace)를 만들어내기 위해 사용
- 음성 신호에서 연속된 혹은 겹치는 창들로부터 측정한 진폭 값을 그린 것

RMS와 창의 크기

창이 길수록 진폭 곡선이 더 매끈함
- 창의 크기가 20ms이상이면 각각의 RMS 측정치는 창의 길이 전체에 걸쳐 제곱한 표본을 평균한 값
- 성대의 진동(glottal pulses)이 진폭 기록 정보에 별개의 마루로 나타나지 않음
- 진폭 기록 정보의 시간상의 정확성이 감소
긴 분석 창을 이용하면 진폭 기록 정보의 시간상 정확성이 감소
- 창의 크기가 증가함에 따라 RMS 기록 정보가 음향 파형의 갑작스런 변화를 보여줄 수 있는 능력이 떨어짐
- 예) 흡착음

2.3.3 빠른 푸리에 변환

FFT는 신호를 푸리에 변환하여 스펙트럼을 계산하는 DSP 방법
FFT 알고리즘을 이용할 때 실질적인 주관심사는 시간 해상도와 주파수 해상도
- 시간 해상도와 주파수 해상도는 역의 관계
  - 창의 크기와 주파수 해상도 사이의 관계
주파수 스펙트럼 : 0 Hz ~ 나이퀴스트 주파수 /2
- 등간격의 포인트 (FFT point)로 나타냄
- 포인트의 수는 표본이 수로 결정
- FFT는 2^n
- 예)
  - 표본 추출률 22kHz
  - 창의 크기 1,024
  - 46.5ms = 1,024 / 22,000
  - 스펙트럼에서 계산되는 포인트 간격 21.48Hz(22,000 / 1,024)
    - 21.48Hz 사이의 간격은 보간법(interpolation)에 의해 포인트 사이의 값을 추정 할 수 있음

창 씌우기

window, windowing, windowed
해밍(Hamming)
- 가장자리 표본들의 진폭을 낮추고 가운데 있는 표본들의 진폭을 그대로 둠
- FFT 분석 시 사용
- 디지털 파형의 일부분을 선택할 때, 처음과 마지막 표본값이 0인 경우가 드물어 순간음이 생성 될 수 있음
- FFT를 할 때, Hamming을 하면 좀 더 정확한 그래프가 나옴
사각(rectangular)
- 표본을 전혀 변화시키지 않음
- 자기 상관 피치 검출, RMS 진폭, LPC 분석 등에 사용

분석 창

긴 분석 창
- 스펙트럼의 해상도가 높음
- 표본
  - 1024
    - 조화음(harmonics)이 일정한 간격으로 나타나 있음
  - 64
    - 스펙트럼의 모양이 왜곡 되어있음
짧은 분석 창
- 시간 해상도가 높음

영 채우기 (zero-padding)

스펙트럼 포인트 사이의 주파수 간격에 대해 걱정할 필요 없이 스펙트럼 분석 가능
임의의 시간 해상도와 스펙트럼 왜곡(spectral smearing)의 정도 선택 가능
분석 필터의 폭(width of the analysis filter)를 조절하기 위해 디지털 스펙트로그래프에서 사용하는 기법

2.3.4 디지털 필터

이동 평균 고르기(moving average smoothing)
- 데이터 고르기(data smoothing)
- 일단의 수를 평균하면 그 범위에 속하는 값들은 하나의 대표값으로 대체
- 시계열 데이터(a time series of data)에 대해 고르기를 하기 위해
- 인접한 표본들의 평균값으로 대체
- y(n) = (x(n-k) + .. + x(n-1) + x(n)) / k
- 1/k = 필터 계수 (filter coefficient)
- 이동 평균 고르기는 저주파수 통과 여과를 수행하기도 함
역 푸리에 연산(Inverse Fourier Transform, DFT(Inverse DFT))
- 이상적인 저주파수 통과 필터를 만들기 위해 적용 가능

유용한 방법(tricks of the trade)

저주파수 통과 필터를 고주파수 필터 통과로 바꾸는 것
- h(k) 에 -1을 곱함
중심 주파수 필터
- 중심 주파수를 가진 디지털 사인파를 h(k)와 곱함

2.3.5 선형 예측 부호화

스펙트럼 패턴을 보는 방법
- 영채우기 + 작은 분석창 FFT
- 선형 예측 부호화(linear predictive coding, LPC)
자기 상관과 비슷함
- 2ms의 주기 내에 한 피치 주기가 약 3번 반복
- a = 2ms, b = 0.66ms

고주파수 구성 요소 증폭 (pre-emphasis)

스펙트럼 분석에서 고주파수 구성 요소의 진폭을 증가시키는 것이 바람직 할 때가 있음
y_n = x_n - px_n-1

2.3.6 스펙트럼과 스펙트로그램

파워 스펙트럼은 시간이 나타나지 않음
- 이중 모음의 역동적 특징을 간과할 가능성이 높음
음성 스펙트로그래프
- 이중 모음의 역동적 특징을 해결
스펙트로그래프(spectrograph) vs 스펙트럼(spectrogram)
- 전보기(telegraph) vs 전보(telegram)
스펙트로그래프
- 진폭 -> 색
- 수직 -> 주파수
- 수평 -> 시간
디지털 스펙트로그램
- FFT분석
- 분석 필터의 폭 조절 (영 채우기)
협대역(narrow-band) 스팩트로그램
- 긴 분석 창 사용
- 주파수 해상도 높음
- 시간 해상도 낮음
광대역(wide-band) 스펙트로그램
- 짧은 분석 창 사용
- 시간 해상도가 높음
  - 각각의 성대 진동 펄스 확인 가능
  - 스펙트로그램 뭉치가 심한 스펙트럼
- 음향 음성학에 이상적
  - 스펙트럼의 전체적인 모양 및 시간상의 변화

Acoustic and Auditory Phonetics

from saturday study

음향 및 청취 음성학의 이해

서문

차례

서론

1장 기초 음향학과 필터

1.1 소리의 지각

1.2 소리의 전파

1.3 소리의 종류

1.3.1 단순 주기파

1.3.2 복합 주기파

1.3.3 비주기파

1.4 음향 필터

2장 디지털 신호 처리

2.1 연속 신호 대 불연속 신호

2.2 아날로그-디지털 변환

2.2.1 표본 추출

2.2.2 양자화

2.3 신호 분석 방법

2.3.1 자기 상관 피치 검출

자기 상관 피치 검출법

자기 상관법 속도

자기 상관 피치 검출법을 이용할 때의 오류

2.3.2 표본 제곱 평균 제곱근 진폭

RMS와 창의 크기

2.3.3 빠른 푸리에 변환

창 씌우기

분석 창

영 채우기 (zero-padding)

2.3.4 디지털 필터

유용한 방법(tricks of the trade)

2.3.5 선형 예측 부호화

고주파수 구성 요소 증폭 (pre-emphasis)

2.3.6 스펙트럼과 스펙트로그램

FEATURED TAGS

FRIENDS