Acoustic and Auditory Phonetics

from saturday study

Posted by Maguire1815 on September 13, 2019

음향 및 청취 음성학의 이해

서문

  • 음성학 : 말소리의 생성과 인지를 다루는 학문
    • 현대 음성학
      • 말소리의 조음 및 청취적 특성 + 말소리의 음향적 특성
  • 음성학의 범위
    • 기초 학문 분야
    • 음성 공학
    • 음성 의학
    • and so on.
  • 음성학 분야
    • 음성학 고유 분야
    • 수학
    • 물리학
    • 음향학
    • 전자공학
    • 컴퓨터공학
    • 해부학
    • 생리학
  • 책에 관하여
    • UC Berkeley의 Keith Johnson교수가 Acoustic and Auditory Phonetics를 출판
    • 1판
      • 음향 및 청취 음성학의 기본 개념들을 쉽게 설명
    • 2판
      • 음성 인지에 관한 내용 추가
  • 책의 특성
    • 사람의 이름이나 언어의 이름 등 고유 명사가 작주 등장
    • 음성학의 인접 분야의 전문 용어가 많이 등장
  • 언어 이름
    • English
      • 영어
    • American English
      • 미국 영어
    • Egyptian Arabic
      • 이집트 아랍어
    • Mandarin
      • 북경 중국어
    • Cantonese
      • 광동 중국어
    • Icelandic
      • 아이슬란드어
    • Malayalam
      • 말라얄람어
  • 언어 이름 다음에 ‘-어’를 붙임
  • 어족을 나타낼 경우 ‘-어족’을 붙임
  • 어족 내의 여러 언어를 통칭할 경우 ‘제어’를 붙임

차례

  • 서론
  • 1장 기초 음향학과 필터
    • 1.1 소리의 지각
    • 1.2 소리의 전파
    • 1.3 소리의 종류
      • 1.3.1 단순 주기파
      • 1.3.2 복합 주기파
      • 1.3.3 비주기파
    • 1.4 음향 필터
  • 2장 디지털 신호 처리
    • 2.1 연속 신호 대 불연속 신호
    • 2.2 아날로그-디지털 변화ㅣㄴ
      • 2.2.1 표본 추출
      • 2.2.2 양자화
    • 2.3 신호 분석 방법
      • 2.3.1 자기 상관 피치 검출
      • 2.3.2 표본 제곱 평균 제곱근 진폭
      • 2.3.3 빠른 푸리에 변환
      • 2.3.4 디지털 필터
      • 2.3.5 선형 예측 부호화
      • 2.3.6 스펙트럼과 스펙트로그램
  • 3장 기초 청각
    • 3.1 주변 청취 체계 구조
    • 3.2 소리 크기의 청지각
    • 3.3 청취 체계의 주파수 반응
    • 3.4 청취 표상

서론

  • 주제
    • 주요 음성 부류의 음향적 속성
    • 음성 생성의 음향학적 이론
    • 음성의 청취적 표상
    • 음성 인지 등 음향 음성학
  • 요약
    • 1장부터 5장까지는 기초 음향학, 디지털 신호 처리, 청각, 음성 생성의 음향학적 이론, 음성 인지
    • 6장부터 9장까지는 주요 음성 부류를 살펴보고, 음성 생성의 음향학적 이론에 의해 예측되는 각 음성 부류의 음향적 속성, 청취적 특성, 인지적 속성 등을 개확
    • 각 장의 끝에 있는 연습 문제에서는 “Sufficient Jargon” 부분을 통해 각 장에 소개된 용어들을 강조 및 독자들이 개념을 응용하도록 함
  • 본문
    • 성도의 음향학적 결과
      • 성도의 크기와 모양, 그리고 사용된 공기역학적 소음 생성 기제에 따라서만 달라지기 때문에 여러 언어와 화자로부터 음성 표본을 끌어 옴
      • 음성의 이러한 측면은 해부학과 생리학에 의해 결정되며 문화적 혹은 개인적인 습관의 영역을 넘어섬
    • 음향 음성학과 동시에 청취 음성학을 다룸
      • 청취 체계는 음성신호를 매우 흥미로운 방법으로 왜곡
      • 음성의 음향적 특성이 가지는 언어학적 중요성을 이해하고자 한다면 청취 체계에 관심
    • 음성인지
      • 2판부터 추가
      • 6~9장까지 각장에 음성 인지 데이터 추가
      • 음향 음성학의 언어학적 중요성은 인지 과학적 인지 처리 과정에 영향을 받기 때문
    • 수학 공식으로 설명
    • IPA (국제 음성 학회) 음성기호 사용

1장 기초 음향학과 필터

1.1 소리의 지각

  • 모든 소리는 모종의 움직임(movement)과 관계가 있음
  • movement로 인해 다른 음향 매질(acoustic medium)에 압력 변화(pressure fluctuation)가 생김
  • 압력 변화가 고막에 이르면 고막이 움직이게 됨
  • 고막의 움직임을 청취 체계가 신경 전달 신호(neural impulse)로 바꿈
  • 신경 전달에서 일어나는 임펄스를 우리는 소리로 경험

소리는 압력의 변화가 고막에 영향을 미칠 떄 생성

  • 음향 파형(acoustic waveform)
    • 소리를 생성하는 압력 변화를 시간에 따라 기록한 것
    • Ladeforged(1996), Fry(1979)
  • 음향 매질(acoustic medium)
    • 공기, 물, 헬륨(helium)
    • 소리의 속성
      • 매질의 종류
      • 매질을 통해 전달되는 압력 변화의 속도
      • 매질의 압력변화에 대한 저항

1.2 소리의 전파

  • 고막에 영향을 미치는 압력의 변화로 소리를 지각
  • 소리는 먼 거리를 이동 할 수 있음
    • 음향 매질을 통해 전파되는 음파(sound wave)를 만들어 내기 때문
  • 압축(compression)과 희박(rarefaction) 그리고 파(wave)
    • 사람이 줄 서는 예제
  • 소리 에너지 분산(dissipation)
  • 신호 대 소음 비율(signal-to-noise ratio)

1.3 소리의 종류

  • 소리는 주기적(periodic)인 소리와 비주기적(aperiodic)인 소리가 있음
  • 주기적인 소리는 일정한 간격으로 반복되는 패턴을 가지고 있음
  • 단순(simple)음과 복합(complex)음 두 종류가 있음

1.3.1 단순 주기파

  • 단순 주기파(simple periodic wave)
    • 사인파(sine wave)
    • 추(pendulum)읜 운동과 같은 단순 조화 운동(simple harmonic motion)의 결과로 생김
  • 어린 아이나 여성의 목소리가 상대적으로 단순 주기파에 속함
  • 3가지 속성
    • 주파수(frequecy) or 주기(period)
    • 진폭(amplitute)
    • 위상(phase)

1.3.2 복합 주기파

  • 반복되는 파형 패턴이 나타나며 사이클을 가지고 있다는 점에서 단순 주기파와 같음
  • 둘 이상의 사인파로 구성되어 있음
  • 잔물결(ripple)
    • 100Hz와 1000Hz 사인파를 합성 할 때, 1000Hz가 잔물결
  • 기존주파수(fundamental frequency: F0)는 복합파의 패턴이 반복되는 빈도
  • 파워 스펙트럼(power spectrum)
    • 복합파의 구성 요소인 단순 사인파를 진폭 대 주파수로 보여주는 그림
    • 푸리에가 발견했으며 푸리에 정리(Fourier’s theorem)라 함

1.3.3 비주기파

  • 압력 변화가 불규칙한 소리를 “백색 소음(white noise)”
    • 임펄스 특성(impulseness)는 한순간에만 나타지만 백색 소음성(white noiseness)는 모든 시점에서 나타남
  • 파형의 짧은 구간을 취하여 푸리에 분석을 하는데 이것을 “분석 창(analysis window)”라고 함
  • 비주기음 중 많이 나타나는 유형이 순간음(transient)
  • 임펄스(impulse)
    • 한 순간에만 신호가 있고 나머지 시점에 압력이 0인 이상적인 소리

1.4 음향 필터

  • pass band (통과 대역)과 reject band(여과 대역)이 존재
  • 고주파 통과(high-pass), 저주파 통과(loss-pass), 대역 통과(band-pass) 등이 존재
  • 대역 통과(band-pass)
    • 성도 및 청취 체계의 필토 작용을 모델화 하는데 사용
    • 중심 주파수(center frequency)와 대역폭(bandwidth)으로 나타낼 수 있음
    • 대역폭(bandwidth)
      • 필터 사면에 의해 결정 됨
        • 필터 사면은 치마처럼 펼쳐짐
      • 중심 주파수를 중신으로 전체 면전의 반을 포함하는 주파수 영역
      • 실제로 일률(power)의 반을 나타내는 대역폭은 필터의 중심 주파수 꼭대기로부터 3db아래에 형성 되는 필터의 폭을 구함

2장 디지털 신호 처리

  • 컴퓨터로 음향 신호를 다루는 방법을 논의

2.1 연속 신호 대 불연속 신호

  • 디지털 신호 처리(digital signal processing: DSP)
    • 시간과 진폭을 파형으로 나타내는 방식으로 아래 2가지로 나눠짐
      • 연속 신호 (continuous)
        • 아날로그
        • 모든 시간 및 모든 진폭에 연속 (실수?, 정보 많음)
      • 불연속 신호 (discrete)
        • 디지털
        • 모든 시간 및 모든 진폭에 불연속 (자연수, 정보 적음)

2.2 아날로그-디지털 변환

  • analog-to-digital conversion
    • 표본(sample)
      • 시간 값을 잘게 나눔
    • 양자화(quantized)
      • 진폭 값을 잘게 나눔

2.2.1 표본 추출

  • 표본 추출률(sampling rate)
    • 아날로그-디지털 변환의 표본 추출 단계에서 가장 유의해야 할 것
    • 주기적인 구성 요소를 포착하기 위해서는 그 파를 불연속적으로 나타냈을 때 사이클당 적어도 두 개의 표본이 필요
    • 나이퀴스트 주파수(Nyquist frequency)
      • 주어진 표본 추출률로 포착할 수 있는 최고 주파수 구성 요소
      • 항상 표본 추출률의 반
      • 예) 200Hz의 표본 -> 나이퀴스트 주파수 100Hz
    • 가주파수 생성(aliasing)
      • 연속 신호를 불연속 파형으로 나타낼 때 생기는 오류
      • 연속 신호의 주파수가 표본 추출률의 반보다 높을 때 발생
        • 예) 표본 추출률 : 200Hz, 연속 신호 주파수 : 101Hz
      • 가주파수 생성 방지(anti-aliasing) 필터
        • 모든 주파수 구성 요소들을 걸러내는 저주파수 통과 필터
        • 예) 표본 추출률 : 200Hz, 절삭 주파수 70~75Hz 저주파 통과 필터
    • low-pass filter
      • 명사
        • use a low-pass filter with a cutoff frequency of 7.5kHz
      • 동사
        • low-pass filter the signal at 7.5kHz

2.2.2 양자화

자로 파형의 진폭을 재는 것

  • 진폭 측정의 정확성
    • 양자화 할 때 고려해야할 문제
    • 충분히 정확하게(accurately enough)
      • 음압(sound pressure)
      • 전압 = 볼트(volt)
  • 디지털로 나타낼 수 있는 진폭 값의 수로 양자화의 정확성을 정의
    • 표현 가능한 진폭 값의 분할 수 (the number of separate amplitude levels that can be represented)
      • 이진수 자리 수 (binary digit) = 디지털 수(digital numbers)
  • 양자화 소음(quantization noise)
    • 디지털 신호의 오차
    • 연속 파형, 연속 -> 불연속 나타낸 파형, 연속 파형과 불연속 파형 사이의 차이를 나타낸 파형
    • 백색 소음과 같은 준무작위(quasi-random)소음
    • 진폭 단위 값의 변이 영역은 -1/2 ~ 1/2까지
    • 양자화 단위 값의 수와 양자화 소음의 양은 반비례
    • 신호 대 소음 비율(signal-to-noise ratio)는 양자화 단위 값의 수와 비례
  • 손실
    • 유손실 데이터 압축(lossy)
    • 무손실 데이터 압축(lossless)
  • 양자화 방법
    • 신호의 input이 너무 작으면 모든 비트를 사용 못함
      • 신호를 증폭하여 모든 비트로 진폭을 표현하는 것이 더 좋음
      • 예) -10 ~ 10 volt로 측정하는데 소리는 -5 ~ 5 volt인 경우
    • 소리 잘림(clipping)
      • 소리의 크기가 디지털 파형의 기록 범위를 넘어선 경우
      • 예) -10 ~ 10 volt로 측정하는데 소리는 -12 ~ 12 volt인 경우

2.3 신호 분석 방법

  • 음성 분석 프로그램의 분석 매개 변수 설정 관련
  • 음향 음성학에서 흔히 사용되는 6가지 DSP 분석 기법을 논의

2.3.1 자기 상관 피치 검출

  • 기본 주파수(F0)를 자동적으로 찾기 위함
  • 성대 진동이 수반되는 음성의 속성을 이용
  • 파형이 그 자체와 상관되어 있음
    • 복합파의 연속된 주기 몇 개를 겹쳐 놓으면 높은 상관도가 있음
  • 피치 트랙(pitch track)
    • 성대 진동의 기본 주파수(F0) 추정치를 함수로 보임
    • 일치된(aligned) 및 어긋난(misaligned) 등 피치 주기만큼 이동시켜 확인
    • 다수의 주기를 포함하는 길이만큼 음향 파형의 일부(창(window))를 따서 가능한 주기의 길이의 영역에 걸쳐 상관 계수를 계산해서 최고의 상관 계수를 보이는 주기를 알려줌
자기 상관 피치 검출법
  • 복합 주기파에서 두개의 겹치는 창이 존재
  • 래그(lag)
    • W1의 시작과 W2의 시작 사이의 간격
    • 한 사이클의 길이?
  • 최단 래그(shortest lag)와 최장 래그(longest lag)로 표시된 지점 사이의 모든 래그에 대해서 W1과 W2의 상관 계수를 계산
    • W1과 W2사이의 상관 계수 중 가장 높은 값을 가진 래그의 길이를 한 주기의 길이 T
    • F0 = 1/T
자기 상관법 속도
  • 가능한 피치 주기 예상치의 영역을 제한하는 것
    • 자기 상관 계수의 수를 줄일 수 있음
    • 화자의 평균 F0나 가능한 F0값 영역의 추정치를 이용
      • 매개변수이며 화자에 따라 변경해야 하는 경우가 많음
자기 상관 피치 검출법을 이용할 때의 오류
  • F0 영역이 정확해도 발생 가능
    • 프로그램의 매개 변수가 올바르게 설정 되어 있지 않으면 발생 가능
  • 피치 반감(pitch-halving)
    • 최단 래그가 W1의 첫 번째 피치 주기가 끝난 다음 나타날 때 발생
    • 신호의 피치 주기를 실제 보다 긴 것으로 예상
    • 예상되는 F0의 영역이 정확해도 발생할 수 있음
      • 인접한 피치 주기들보다 더 유사할 때 발생
      • 발성 유형(phonation type)
        • 성대 튀김(vocal fry)
        • 디플로포니아(diplophonia)
  • 피치 배증(pitch-doubling)
    • 분석되는 최단 래그가 피치 주기의 반이고 주기의 두 번째 반이 첫번째 반과 유사하게 보일 때 발생
    • 전반부에서 골과 마루가 나타나고 후반부에서도 골과 마루가 나타나면 각 주기는 골과 마루가 두번 반복
    • F0의 값은 실제의 두배가 됨

2.3.2 표본 제곱 평균 제곱근 진폭

  • RMS 진폭(root mean square amplitude)은 음향 강도(acoustic intensity)의 척도
  • 그 외 파형의 진폭을 측정할 음향 진폭 척도
    • 단순 주기(사인)파
      • 마루 진폭(peak amplitude)
      • 마루-골 진폭(peak-to-peak amplitude)
  • 인지된 소리 크기(loudness)는 음향 진폭보다 음향 강도와 더 밀접한 관계 -> RMS
  • RMS 계산
    • (0, 3, 5, 2, 0, -3, -5, -2, 0)
      • root(76/9) = 2.9 -(0, 5, 0, -5, 0, 5, 0, -5, 0)
      • root(100/9) = 3.33
    • 상기 두게의 마루 진폭은 동일하지만 RMS는 다름
  • RMS 진폭은 피치 기록 정보(pitch trace)와 유사한 진폭 기록 정보(amplitude trace)를 만들어내기 위해 사용
    • 음성 신호에서 연속된 혹은 겹치는 창들로부터 측정한 진폭 값을 그린 것
RMS와 창의 크기
  • 창이 길수록 진폭 곡선이 더 매끈함
    • 창의 크기가 20ms이상이면 각각의 RMS 측정치는 창의 길이 전체에 걸쳐 제곱한 표본을 평균한 값
    • 성대의 진동(glottal pulses)이 진폭 기록 정보에 별개의 마루로 나타나지 않음
    • 진폭 기록 정보의 시간상의 정확성이 감소
  • 긴 분석 창을 이용하면 진폭 기록 정보의 시간상 정확성이 감소
    • 창의 크기가 증가함에 따라 RMS 기록 정보가 음향 파형의 갑작스런 변화를 보여줄 수 있는 능력이 떨어짐
    • 예) 흡착음

2.3.3 빠른 푸리에 변환

  • FFT는 신호를 푸리에 변환하여 스펙트럼을 계산하는 DSP 방법
  • FFT 알고리즘을 이용할 때 실질적인 주관심사는 시간 해상도와 주파수 해상도
    • 시간 해상도와 주파수 해상도는 역의 관계
      • 창의 크기와 주파수 해상도 사이의 관계
  • 주파수 스펙트럼 : 0 Hz ~ 나이퀴스트 주파수 /2
    • 등간격의 포인트 (FFT point)로 나타냄
    • 포인트의 수는 표본이 수로 결정
    • FFT는 2^n
    • 예)
      • 표본 추출률 22kHz
      • 창의 크기 1,024
      • 46.5ms = 1,024 / 22,000
      • 스펙트럼에서 계산되는 포인트 간격 21.48Hz(22,000 / 1,024)
        • 21.48Hz 사이의 간격은 보간법(interpolation)에 의해 포인트 사이의 값을 추정 할 수 있음
창 씌우기
  • window, windowing, windowed
  • 해밍(Hamming)
    • 가장자리 표본들의 진폭을 낮추고 가운데 있는 표본들의 진폭을 그대로 둠
    • FFT 분석 시 사용
    • 디지털 파형의 일부분을 선택할 때, 처음과 마지막 표본값이 0인 경우가 드물어 순간음이 생성 될 수 있음
    • FFT를 할 때, Hamming을 하면 좀 더 정확한 그래프가 나옴
  • 사각(rectangular)
    • 표본을 전혀 변화시키지 않음
    • 자기 상관 피치 검출, RMS 진폭, LPC 분석 등에 사용
분석 창
  • 긴 분석 창
    • 스펙트럼의 해상도가 높음
    • 표본
      • 1024
        • 조화음(harmonics)이 일정한 간격으로 나타나 있음
      • 64
        • 스펙트럼의 모양이 왜곡 되어있음
  • 짧은 분석 창
    • 시간 해상도가 높음
영 채우기 (zero-padding)
  • 스펙트럼 포인트 사이의 주파수 간격에 대해 걱정할 필요 없이 스펙트럼 분석 가능
  • 임의의 시간 해상도와 스펙트럼 왜곡(spectral smearing)의 정도 선택 가능
  • 분석 필터의 폭(width of the analysis filter)를 조절하기 위해 디지털 스펙트로그래프에서 사용하는 기법

2.3.4 디지털 필터

  • 이동 평균 고르기(moving average smoothing)
    • 데이터 고르기(data smoothing)
    • 일단의 수를 평균하면 그 범위에 속하는 값들은 하나의 대표값으로 대체
    • 시계열 데이터(a time series of data)에 대해 고르기를 하기 위해
    • 인접한 표본들의 평균값으로 대체
    • y(n) = (x(n-k) + .. + x(n-1) + x(n)) / k
    • 1/k = 필터 계수 (filter coefficient)
    • 이동 평균 고르기는 저주파수 통과 여과를 수행하기도 함
  • 역 푸리에 연산(Inverse Fourier Transform, DFT(Inverse DFT))
    • 이상적인 저주파수 통과 필터를 만들기 위해 적용 가능
유용한 방법(tricks of the trade)
  • 저주파수 통과 필터를 고주파수 필터 통과로 바꾸는 것
    • h(k) 에 -1을 곱함
  • 중심 주파수 필터
    • 중심 주파수를 가진 디지털 사인파를 h(k)와 곱함

2.3.5 선형 예측 부호화

  • 스펙트럼 패턴을 보는 방법
    • 영채우기 + 작은 분석창 FFT
    • 선형 예측 부호화(linear predictive coding, LPC)
  • 자기 상관과 비슷함
    • 2ms의 주기 내에 한 피치 주기가 약 3번 반복
    • a = 2ms, b = 0.66ms
고주파수 구성 요소 증폭 (pre-emphasis)
  • 스펙트럼 분석에서 고주파수 구성 요소의 진폭을 증가시키는 것이 바람직 할 때가 있음
  • y_n = x_n - px_n-1

2.3.6 스펙트럼과 스펙트로그램

  • 파워 스펙트럼은 시간이 나타나지 않음
    • 이중 모음의 역동적 특징을 간과할 가능성이 높음
  • 음성 스펙트로그래프
    • 이중 모음의 역동적 특징을 해결
  • 스펙트로그래프(spectrograph) vs 스펙트럼(spectrogram)
    • 전보기(telegraph) vs 전보(telegram)
  • 스펙트로그래프
    • 진폭 -> 색
    • 수직 -> 주파수
    • 수평 -> 시간
  • 디지털 스펙트로그램
    • FFT분석
    • 분석 필터의 폭 조절 (영 채우기)
  • 협대역(narrow-band) 스팩트로그램
    • 긴 분석 창 사용
    • 주파수 해상도 높음
    • 시간 해상도 낮음
  • 광대역(wide-band) 스펙트로그램
    • 짧은 분석 창 사용
    • 시간 해상도가 높음
      • 각각의 성대 진동 펄스 확인 가능
      • 스펙트로그램 뭉치가 심한 스펙트럼
    • 음향 음성학에 이상적
      • 스펙트럼의 전체적인 모양 및 시간상의 변화