ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 시간 도메인 오디오 특징 종류
    Sound & Music🔊 2023. 4. 5. 09:36

    Max Amplitude  Value

    Max Amplitude Value란 각 프레임에서 제일 큰 진폭을 갖는 샘플 값을 의미한다.

     

    아래의 식에서 t는 프레임의 순번을 나타내고 k는 샘플의 순번을 내며 K는 한 프레임을 구성하는 샘플의 개수를 AE_t는 t번째 프레임에서의 Max Amplitude Value를 나타낸다. 

    각 프레임에서의 첫 번째 샘플의 순번은  프레임의 순번에 프레임을 구성하는 샘플의 개수를 곱하면 얻을 수 있고 마지막 샘플의 순번은 구하려는 프레임의 다음 프레임의 첫 번째 샘플의 순번을  구한 다음에 1을 빼주면 된다. 

    예를 들어 하나의 프레임이 100개의 샘플로 구성되어 있으면 3번째 프레임의 샘플을 첫 값과 끝값을 찾으려면 100*3 = 300이고 끝값은 100*4=400 -1 = 399이다. 

     

    위와 같이 프레임을 구성하는 샘플들의 위치를 구한 다음에 해당 샘플등 중에서 가장 진폭의 값이 큰 샘플의 진폭을 t 번째 프레임의 AE 값이라 한다. 각 AE 값은 프레임의 샘플들 중에서 가장 진폭이 큰 값을 추출한 것이기 때문에 특이값에 민감하다. 

    모든 프레임에 대해서 AE 값을 구하면 이 값들을 이용해 오디오의 전반적인 음량의 크기를 파악할 수 있으며 오디오 처리 과정 중에서 발생할 수 있는 왜곡이나 클리핑을 예방하기 위한 지표로 활용할 수 있다. 

     

    oneset detection이란 처리하고자하는 소리가 시작되는 시점을 포착하는 것을 의미하는데 , AE는 각 프레임에서의 소리 진폭 최댓값을 의미하므로 이를 지표로 하여 주위의 소음으로부터 구분 가능한 시점을 판별하는 데 이용하기도 한다.

     

     

    Root Mean Square Energy

    RMS 에너지는 각 프레임의 샘플 값들을 제곱 합 평균의 루트를 씌운 값으로 파형의 표준편차 값을 의미한다. 

    표준 편차는 중심으로부터 값들이 얼마나 퍼져있는가를 나타내는 지표로서 떨어진 거리를 알고 싶기 때문에 양과 음의 값이 서로를 상쇄하지 못하도록 제곱을 해주고 이 값들을 합의 평균을 구하면 평균적으로 점들이 중심으로부터 얼마나 떨어져 있느냐를 알 수 있다. 여기에 루트를 이용해 제곱으로 인해 커진 값을 다시 스케일링(축소)해준다. 

     

    RMS 에너지는 각 프레임을 구성하는 샘플들이 얼마나 중심(x축)으로부터 떨어져 있느냐를 의미하므로 해당 프레임의 진폭(Loudness)를 나타내는 지표이다. 모든 샘플들이 값에 반영되기 때문에 AE에 비해 특이값에 대한 값의 민감도가 적다. 

     

    Zero-crossing rate

    Zero-crossing rate는 각 프레임에서 파형이 x축을 몇번 가로질렀느냐를 나타내는 지표이다. 

     

     

    다음식을 통해 계산할 수 있는데 

    부호에 따라 값을 부여한뒤  k번째 샘플과 다음 샘플인 k+1번째 샘플의 값을 차이를 구하고 이들을 더하는 방식을 취한다. 

    양 -> 음 / 음 -> 양 처럼 값의 부호가 바뀌는 경우에는 절댓값 2가 나온다. 때문에 최종 결과값을 2로 나누어주면 

    얼마나 많이 x축을 통과했는지를 나타내는 지표로 활용이 가능하다. 

     


    댓글

Designed by Tistory.