카테고리 없음

노이즈 활동 검출을 위한 시스템 및 방법(SYSTEM AND METHOD FOR NOISE ACTIVITY DETECTION)

갈때까지가는거야 2018. 1. 26. 13:45

(19) 대한민국특허청(KR)
(12) 공개특허공보(A)
(11) 공개번호 10-2010-0051727
(43) 공개일자 2010년05월17일
(51) Int. Cl.

G10K 15/00 (2006.01)
(21) 출원번호 10-2010-7006039
(22) 출원일자(국제출원일자) 2008년08월22일
심사청구일자 2010년03월19일
(85) 번역문제출일자 2010년03월19일
(86) 국제출원번호 PCT/US2008/074102
(87) 국제공개번호 WO 2009/026561
국제공개일자 2009년02월26일
(30) 우선권주장
60/965,854 2007년08월22일 미국(US)
(71) 출원인
돌비 레버러토리즈 라이쎈싱 코오포레이션
미합중국, 캘리포니아 94103, 샌프란시스코 포트
레로 애비뉴100
(72) 발명자
틴저, 존 씨.
미국 캘리포니아 94022 로스 앨토스 라베른 웨이
888
(74) 대리인
특허법인이상
전체 청구항 수 : 총 20 항
(54) 노이즈 활동 검출을 위한 시스템 및 방법
(57) 요 약
노이즈 검출기는 임계대역폭 내에서 평균에너지를 산출하는 회로, 역치함수(Threshold Function)를 결정하는 회
로, 역치함수의 동적변환을 생 성시키는 회로, 역치함수에 의해 결정된 역치값 이상의 에너지를 가진 신호의 주
파수 성분을 식별하고 역치값 이상의 에너지를 가진 식별된 주파수 성분의 평균에너지를 나타내는 제1 평균에너
지 값을 알아내기 위한 회로, 역치함수에 의해 결정된 역치값 아래의 에너지를 가진 신호의 주파수 성분을 식별
하고 역치값 아래의 에너지를 가진 식별된 주파수 성분의 평균에너지를 나타내는 제 2평균에너지 값을 알아내기
위한 회로, 제1 평균에너지와 제2 평균에너지 중 적어도 하나를 오프셋(Offset)하기 위한 회로, 그 결과로 생긴
평균에너지를 상호비교하기 위한 회로 및 제1 평균
에너지 값이 제2 평균에너지 값 아래일 경우 노이즈의 존재를 표시하기 위한 회로를 포함한다.
대 표 도 - 도9
공개특허 10-2010-0051727
- 1 -
특허청구의 범위
청구항 1
신호에서의 노이즈 활동 지시(Indication)를 생성하는 방법으로서,
a) 임계대역폭에서 신호의 평균 에너지를 계산하는 단계;
b) 주파수 의존적인 역치 함수를 결정하는 단계;
c) 상기 평균 에너지를 이용하여 상기 주파수 의존적인 역치 함수의 동적 변환을 생성하는 단계;
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값을 넘는 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 넘는 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는
단계;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 아래의 에너지를 가진 상기 규정된 주파수의 평균 에너지를 나타내는 제2 평균 에너지 값을 결정하
는 단계;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 단계 ;
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 평균 에너지 값을 서로 비교하는 단계; 및
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균 에너지 값이 상기 결과적인 제2 평균 에너지 값 아래라
고 판단되는 경우, 노이즈 활동의 존재를 지시하는 단계를 포함하는, 노이즈 활동 지시를 생성하는 방법.
청구항 2
청구항 1에 있어서,
a)~h)절차는 다중 프레임 프로세스의 개별 프레임에서 실행되는, 노이즈 활동 지시를 생성하는 방법.
청구항 3
청구항 1에 있어서,
g)에서의 상기 비교하는 단계 전 필터링하는 단계를 더 포함하는, 노이즈 활동 지시를 생성하는 방법.
청구항 4
청구항 3에 있어서,
상기 필터링하는 단계는 지수필터를 사용하여 수행되는, 노이즈 활동 지시를 생성하는 방법.
청구항 5
청구항 3에 있어서,
불균형적인 상승과 하락 시간 상수를 이용한 필터링이, 역치를 넘는 에너지를 가지는 상기 규정된 주파수 성분
의 평균에너지와 역치 아래의 에너지를 가지는 상기 규정된 주파수 성분의 평균에너지를 나타내는 신호에 적용
되는, 노이즈 활동 지시를 생성하는 방법.
청구항 6
신호에서의 노이즈 활동 지시를 생성하는 노이즈 활동 검출기로서,
a) 임계 대역폭에서 평균 에너지를 계산하기 위해 구현된 제1 회로;
b) 주파수 의존적인 역치 함수를 결정하기 위해 구현된 제2 회로;
c) 상기 평균 에너지를 이용하여 주파수 의존적인 역치 함수의 동적 변환을 생성시키기 위해 구현된 제3 회로;
공개특허 10-2010-0051727
- 2 -
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값을 넘는 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값을 초과하는 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정
하기 위해 구현된 제4 회로;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 아래의 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
기 위해 구현된 제5 회로;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하기 위해 구현된 제6 회로;
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 평균 에너지 값을 서로 비교하기 위해 구현된 제7 회로; 및
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균 에너지 값이 상기 결과적인 제2 평균 에너지 값 아래라
고 판단되는 경우, 노이즈 활동의 존재를 지시하기 위한 제8 회로를 포함하는, 노이즈 활동 검출기.
청구항 7
청구항 6에 있어서,
상기 회로들은 다중 프레임 프로세스의 개별 프레임에서 그들의 기능을 수행하는, 노이즈 활동 검출기.
청구항 8
청구항 6에 있어서,
상기 비교 전에 필터링을 위한 필터를 더 포함하는, 노이즈 활동 검출기.
청구항 9
청구항 8항에 있어서,
상기 필터가 지수필터인 노이즈 활동 검출기.
청구항 10
청구항 8항에 있어서,
상기 필터가 불균형적인 상승 및 하락 시간 상수를 포함하는 적어도 하나의 필터를 포함하는, 노이즈 활동 검출
기.
청구항 11
신호에서의 노이즈 활동 지시를 생성하는 노이즈 활동 검출기로서,
a) 임계대역폭에서 신호의 평균 에너지를 계산하는 수단;
b) 주파수 의존적인 역치 함수를 결정하는 수단;
c) 상기 평균 에너지를 이용하여 상기 주파수 의존적인 역치 함수의 동적 변환을 생성하는 수단;
d) 해당하는 주파수에서 역치 함수에 의해 결정된 역치값을 넘는 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 넘는 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는
수단;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 아래의 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
는 수단;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 수단;
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 평균 에너지 값을 서로 비교하는 수단; 및
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균 에너지 값이 상기 결과적인 제2 평균 에너지 값 아래라
고 판단되는 경우, 노이즈 활동의 존재를 지시하는 수단을 포함하는, 노이즈 활동 검출기.
공개특허 10-2010-0051727
- 3 -
청구항 12
청구항 11에 있어서,
a)~h)절차는 다중 프레임 프로세스의 개별 프레임에서 실행되는, 노이즈 활동 검출기.
청구항 13
청구항 11에 있어서,
g)에서의 상기 비교 전에 필터링하는 수단을 더 포함하는, 노이즈 활동 검출기.
청구항 14
청구항 13에 있어서,
상기 필터링은 지수 필터를 사용하여 수행되는, 노이즈 활동 검출기.
청구항 15
청구항 13에 있어서,
불균형적인 상승과 하락 시간상수를 이용한 필터링이, 역치를 넘는 에너지를 가지는 상기 규정된 주파수 성분의
평균에너지와 역치 아래의 에너지를 가지는 상기 규정된 주파수 성분의 평균에너지를 나타내는 신호에
적용되는, 노이즈 활동 검출기.
청구항 16
신호에서의 노이즈 활동 지시를 생성하는 방법을 실행하기 위한, 기계에 의해 실행가능한 명령어들의 프로그램
을 포함하는, 기계에 의해 판독가능한 프로그램 저장장치로서, 상기 방법은,
a) 임계대역폭에서 신호의 평균 에너지를 계산하는 단계;
b) 주파수 의존적인 역치 함수를 결정하는 단계;
c) 상기 평균 에너지를 이용하여 상기 주파수 의존적인 역치 함수의 동적 변환을 생성하는 단계;
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값을 넘는 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값을 넘는 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는
단계;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 규정하
고, 역치값 아래의 에너지를 가진 상기 규정된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
는 단계;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 단계 ;
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 평균 에너지 값을 서로 비교하는 단계; 및
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균 에너지 값이 상기 결과적인 제2 평균 에너지 값 아래라
고 판단되는 경우, 노이즈 활동의 존재를 지시하는 단계를 포함하는, 프로그램 저장 장치 .
청구항 17
청구항 16에 있어서,
a)~h)절차는 다중 프레임 프로세스의 개별 프레임에서 실행되는, 프로그램 저장 장치.
청구항 18
청구항 16에 있어서,
g)에서의 상기 비교 전에 필터링을 더 포함하는, 프로그램 저장장치.
공개특허 10-2010-0051727
- 4 -
청구항 19
청구항 18에 있어서,
상기 필터링하는 단계는 지수필터를 사용하여 수행되는, 프로그램 저장장치.
청구항 20
청구항 18에 있어서,
불균형적인 상승과 하락 시간상수를 이용한 필터링이, 역치를 넘는 에너지를 가지는 상기 규정된 주파수 성분의
평균에너지와 역치 아래의 에너지를 가지는 상기 규정된 주파수 성분의 평균에너지를 나타내는 신호에
적용되는, 프로그램 저장장치.
명 세 서
기 술 분 야
본 발명은 일반적으로 예를 들어, 노이즈 감소 시스템에서 사용되는 노이즈 활동 검출기에 관한 것이다.[0001]
배 경 기 술
에코감쇠(Echo cancellation), 음성인식(Speech Recognition), 음성부호화(Speech Encoding), VoIP(Voice over[0002]
IP) 및 특정한 노이즈 감소 시스템과 같은 많은 신호 처리 어플리케이션에서, 신호의 노이즈에 관한 실시간 정
보와 통계를 수집하는 것이 중요하다. 이것은 유용한 양의 요구되는 신호(Desired Signal)가 있을 때를 검출하
고 그 신호의 일부분을 "노이즈가 아닌 것(Non-Noise)"으로 처리함으로써 얻어진다. 그외의 시간에서는 신호는
단순히 노이즈로만 여겨지고, 요구되는 정보 및 통계는 그러한 시간동안에 수집된다.
단일채널 시스템에서, 노이즈와 요구되는 신호는 혼합되고, 들어오는 혼합된 노이즈 신호는 요구되는 신호와 원[0003]
하지 않는 노이즈의 선형적 합으로 여겨진다. 혼합신호에 요구되는 신호가 존재하는 때를 검출함으로써, 노이즈
정보는 신호의 이 부분 동안에는 업데이트되지 않는다. 대신에 예를 들어 그외의 시간에서 노이즈 성질을 업데
이트하는 것은 예를 들어, 적당한 프로세스로 실행될 노이즈 감소를 허용한다.
혼합신호의 음성부분은 요구되는 부분(Desired Portion)이기 때문에, 음성 커뮤니케이션 시스템에서, 노이즈만[0004]
존재하는 기간(Noise Only Period)의 존재 결정에 대한 필요성은, 종종 음성검출(Voice Detection) 또는 음성
활동 검출(VAD, Voice Activity Detection)방법이라고 불리는 많은 음성 추출 방법의 확산을 증가시켰다.
이러한 방법은 보통 발화자들이 정확하게 그들의 말을 형성하기 위해 적어도 그들의 음성 일부분을 들어야 한다[0005]
는 사실에 기초한다. 안정적으로 자신이 말하는 것을 듣기 위해서는, 발화자들은 그들의 음성을 주변 또는 배경
의 노이즈 레벨보다 10dB정도 크게 유지해야 한다. 그래서 시끄러운 배경 노이즈의 존재 속에서, 자연스럽게 대
립하는 배경 노이즈레벨의 조금 위로 그들의 음성을 유지하기 위해서 발화자들은 자연스럽게 그들의 음성 레벨
을 높힌다.
음성 활동 검출방법(Voice Activity Detection Method)은 ,시간영역(Time Domain)에서 실행되던 주파수 영역[0006]
(Frequency Domain)에서 실행되던, 이러한 사실을 이용한다. 이러한 많은 시스템은 유입되는 노이즈가 있는 신
호(Noisy Signal)의 전체 에너지가 역치 위일 때 검출하는 방법에 기초하고 이 조건이 만족될 때 음성의 존재가
있다는 것을 표시한다. 물론, 역치는 신호의 배경 노이즈부분의 레벨 위가 되도록 조정되어야 하지만 결합된 음
성과 노이즈를 합한 레벨 아래여야 한다. 이 때문에 많은 복잡한 방법이 이러한 실시간 동적 역치 조정(Real-
Time Dynamic Threshold Adjustment)을 하기 위해 고안되어 왔다.
그러나, 노이즈 부분 그 자체의 직접적인 검출보다 노이즈 기간이 내포될 수 있는 요구되는 신호(Desired[0007]
Signal)를 검출하는 이러한 "역방향(Reverse)"방법은 결점을 가진다. 예를 들어, 약 90dB SPL(Sound Pressure
Level)위의 노이즈에서 음성의 세기를 더 높이는 것은 사람에게 거의 불가능하고 입력신호의 SNR(Signal to
Noise)은 보통 0dB(1:1)아래로 떨어진다.
SNR이 예를 들어, 10dB 아래로 낮을 때, 종래의 음성검출시스템은 제대로 작동하지 않거나 아예 작동하지 않았[0008]
다. 음성 신호 파워(Voice Signal Power)가 현저하게 노이즈 신호 파워(Noise Signal Power)위인 경우, 이러한
시스템은 음성의 존재를 검출할 수 있다. 그러나 노이즈가 증가하는 상황에서, 음성검출의 정확도는 이러한 시
공개특허 10-2010-0051727
- 5 -
스템이 전혀 작동하지 않을 때까지 감소한다.
또 다른 중요한 문제는 음성 검출 시스템에 사용되는 마이크 위로 공기가 흐를 때 생기는 바람 노이즈(Wind[0009]
Noise)를 검출하는 것이다. 휴대통신기기의 확산으로 바람 노이즈(Wind Noise)는 대단히 중요성을 가진다. 이러
한 노이즈는 매우 가변적인 특성을 보여서 바람 노이즈(Wind Noise)는 종종 이러한 시스템에서 잘못 분류된다.
이러한 일이 일어나면, 노이즈 템플릿(Noise Template)이 부적절하게 업데이트되기 때문에 VAD에 기초한 노이
즈 제거 시스템의 노이즈 제거는 제대로 작동하지 못한다. 더 많은 복잡도와 비용을 들여 바람 노이즈(Wind
Noise)가 올바르게 분류되기 위해서는 신뢰성 있게 검출하기 위한 부가적인 방법 또는 프로세스가 시행되어야
한다.
종래의 음성 검출 방식의 또 다른 어려움은 음성 신호가 갑자기 종료되는 것이 아니라 발성 후에 천천히 감쇠된[0010]
다는 것이다. 노이즈 파워 역치(Noise Power Threshold)위의 음성 파워(Voice Power)를 기초로 한 음성 검출은
음성신호의 감쇠하는 끝부분이 역치레벨 아래인 경우, 음성이 여전히 존재함에도 불구하고 음성이 끝난 것으로
잘못 검출할 수 있다. 그러므로 이러한 시스템은 보통 노이즈 지시(Noise indication)의 시작을 지연시키기 위
한 행오버 타이머(Hangover Timer)라고 불리는 것을 부가한다.
전통적인 음성 검출 방법은 배경 노이즈는 변하지 않거나 단지 천천히 변화하는 것으로 가정했다. 노이즈가 변[0011]
하는 환경(Non-Stationary Noise Condition)에서, 특히 노이즈의 급증과 같은 급격한 노이즈 레벨의 변화는 음
성 버스트의 시작과 구별되지 않아 음성 존재한다는 잘못된 검출을 했기 때문에 전통적인 음성 검출 방식은 신
뢰할 만하지 않았다.
이러한 음성 검출기는 또한 사용자 자신의 음성만을 실제로 요구되는 신호로 하는 시스템에서 배경 음성[0012]
(Background Voice)은 노이즈일 뿐이라도 사용자의 음성뿐만 아니라 주변음성의 존재에도 반응한다.
더욱이, 거의 모든 음성 검출 방법은 순간적인 현재의 상태보다 신호의 이전기록(Prior History)에 기초하여 하[0013]
나 이상의 역치를 설정하거나 업데이트하는 것에 의존한다. 이전 정보에 기초하는 것에 의해 이러한 역치는 빠
르게 갱신되지 못하고 음성 검출 출력은 배경 노이즈의 빠른 변화에 반응하기에는 느리고 시스템이 종국적으로
조정될 때까지 에러를 만든다.
음성검출방법의 문제는 지금까지 신호 파워 역치 검출(Signal Power Threshold Detection)의 기초적 원리에 향[0014]
상 방안들을 추가하면서 다루어져 왔다. 이러한 향상은 역치가 실시간으로 갱신될 수 있도록 노이즈 레벨을 추
적하는 방법, 독립된 바람 검출기 부가 방법, 더 낮은 SNR 상태에서 작동하기 위해 역치값이 보다 큰 정밀도로
세팅되도록 하는 향상된 감도 방법(Improved Sensitivity Method), 단지 발성의 끝에 음성이 역치 아래로 감쇠
하는 경우 음성이 끝났다고 잘못 인지하는 것을 방지하기 위해 부가된 행오버(Hangover)방법, 배경 노이즈 레벨
에서의 버스트(Burst) 또는 단계(Steps)를 수용하기 위한 시도를 위해 역치를 더욱 빠르게 조정한 후에 자연스
럽게 발생된 예정된 음성기간보다 긴 시간이 미뤄진 폐쇠기간(Lockout Period)을 만드는 것을 포함한다. 그러나
이러한 향상 방안들을 이용하는 것은 여전히 제한된 작동을 발생시키고 여전히 노이즈 신호만 있는 신호 상황의
잘못된 검출을 발생시킨다.
또 다른 음성 검출방법은 센서와 마이크의 집합체 같은 것으로부터 오는 복수의 신호 가능성에 기초하여 만들어[0015]
졌다. 그러나 이러한 시스템은 다수의 신호들이 있을 때만 동작하거나 다수의 센서들이 수용될 수 있는 곳에서
만 동작한다는 큰 단점을 가진다. 또한 이러한 방법은 시스템의 복잡도, 비용, 크기 및 파워 소비를
증가시킨다.
다른 알려진 방법들은 자기상관(Autocorrelation), 교차상관(Cross Correlation), 분산(Variance), 선형예측부[0016]
호계수(LPC, Linear Pridictive Coding Coefficient), 다양한 통계적 노이즈 예측변수(예를 들어, 가우시안,
라플라시안 및 감마분포), 안정성 방법(Stationarity Method) 등과 같은 복잡한 신호 처리 연산에 기초한다. 일
반적으로 이러한 해결책은 두드러지게 성능을 향상시키지 못하고 여전히 노이즈만 있는 기간(Noise Only
Period)자체의 검출보다 발성기간(Voicing Period)의 검출을 목표로 한다.
발명의 내용
해결하려는 과제
일반적으로 이러한 해결책은 두드러지게 성능을 향상시키지 못하고 여전히 노이즈만 있는 기간(Noise Only[0017]
Period)자체의 검출보다 발성기간(Voicing Period)의 검출을 목표로 한다.
공개특허 10-2010-0051727
- 6 -
과제의 해결 수단
여기에서 상술된 것처럼, 신호에서 노이즈 활동 지시를 생성하는 방법은,[0018]
a) 임계대역폭에서 신호의 평균에너지를 계산하는 단계;[0019]
b) 주파수 의존적인 역치함수를 결정하는 단계;[0020]
c) 평균에너지를 이용한 상기 주파수 의존적인 역치함수의 동적변환을 생성하는 단계;[0021]
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 위의 에너지를 가지는 신호의 주파수 성분을 지시하고,[0022]
역치값 위의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는 단계;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 지시하[0023]
고, 역치값 아래의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
는 단계;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 단계 ;[0024]
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 에너지 값을 서로 비교하는 단계; 및 [0025]
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균에너지 값이 상기 결과적인 제2 평균에너지 값 아래라고[0026]
판단되는 경우, 노이즈 활동의 존재를 지시하는 단계를 포함한다.
또한 여기에 상술된 것처럼, 신호에서 노이즈 활동 지시를 생성하는 노이즈 활동 검출기는[0027]
a) 임계 대역폭에서 평균에너지를 계산하기 위해 구현된 제1 회로;[0028]
b) 주파수 의존적인 역치 함수를 결정하기 위해 구현된 제2 회로;[0029]
c) 평균에너지를 이용한 주파수 의존적인 역치함수의 동적 변형을 생성시키기 위해 구현된 제3 회로;[0030]
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 위의 에너지를 가지는 신호의 주파수 성분을 지시하고,[0031]
역치값 위의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하기 위해
구현된 제4 회로;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 지시하[0032]
고, 역치값 아래의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
기 위해 구현된 제5 회로;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하기 위해 구현된 제6 회로;[0033]
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 에너지 값을 서로 비교하기 위해 구현된 제7 회로; 및[0034]
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균에너지 값이 상기 결과적인 제2 평균에너지 값 아래라고[0035]
판단되는 경우, 노이즈 활동의 존재를 지시하기 위한 제8 회로를 포함한다.
또한 여기에 상술된 것처럼 신호에서 노이즈 활동 지시를 생성하는 노이즈 활동 검출기는[0036]
a) 임계대역폭에서 신호의 평균에너지를 계산하는 수단;[0037]
b) 주파수 의존적인 역치함수를 결정하는 수단;[0038]
c) 평균에너지를 이용한 상기 주파수 의존적인 역치함수의 동적변환을 생성하는 수단;[0039]
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 위의 에너지를 가지는 신호의 주파수 성분을 지시하고,[0040]
역치값 위의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는 수단;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 지시하[0041]
고, 역치값 아래의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
는 수단;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 수단;[0042]
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 에너지 값을 서로 비교하는 수단; 및 [0043]
공개특허 10-2010-0051727
- 7 -
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균에너지 값이 상기 결과적인 제2 평균에너지 값 아래라고[0044]
판단되는 경우, 노이즈 활동의 존재를 지시하는 수단을 포함한다.
또한 여기에 상술된 것처럼, 신호에서 노이즈 활동 지시를 생성하는 방법을 실행하기 위한, 기계에서 실행가능[0045]
한 명령어들의 프로그램을 포함하는, 기계에 의해 판독가능한 프로그램 저장장치는 상기 방법으로,
a) 임계대역폭에서 신호의 평균에너지를 계산하는 단계;[0046]
b) 주파수 의존적인 역치함수를 결정하는 단계;[0047]
c) 평균에너지를 이용한 상기 주파수 의존적인 역치함수의 동적변환을 생성하는 단계;[0048]
d) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 위의 에너지를 가지는 신호의 주파수 성분을 지시하고,[0049]
역치값 위의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제1 평균 에너지 값을 결정하는 단계;
e) 해당하는 주파수에서 역치함수에 의해 결정된 역치값 아래의 에너지를 가지는 신호의 주파수 성분을 지시하[0050]
고, 역치값 아래의 에너지를 가진 상기 지시된 주파수의 평균에너지를 나타내는 제2 평균 에너지 값을 결정하
는 단계;
f) 제 1 및 제2 평균 에너지값 중 적어도 하나에 오프셋 값을 적용하는 단계 ;[0051]
g) 상기 오프셋 값의 적용 후, 결과적인 제1 및 제2 에너지 값을 서로 비교하는 단계; 및 [0052]
h) 만일, 상기 비교의 결과로, 상기 결과적인 제1 평균에너지 값이 상기 결과적인 제2 평균에너지 값 아래라고[0053]
판단되는 경우, 노이즈 활동의 존재를 지시하는 단계를 포함한다.
발명의 효과
노이즈 검출기로 입력되는 일반적인 노이즈 신호입력의 크기면에서 유사한 두 신호를 공급하여 만약 이 신호들[0054]
중 하나가 다른 신호의 오프셋인 경우, 입력신호에서 노이즈만 있는 부분의 검출이 간단하게 된다.
도면의 간단한 설명
이 명세서의 일부로 구성되고 포함되는 첨부된 도면은 하나 이상의 실시형태의 실시예를 보여주고 예시된 실시[0055]
형태의 설명과 함께 실시형태의 원리와 구성을 설명하는 것을 도와준다.
도면에서
도 1~7 은 다른 음향 환경에서 측정된 데이터의 그래프이고 각각은 노이즈 파워(Noise Power)를 나타내는 긴 대
시 선(Long Dashed Line) 모델 곡선과 평균 파워(Average Power)를 표현하는 짧은 대시 선(Short Dashed
Line)을 포함한다.
도 8은 노이즈활동 검출기(NAD)20이 사용되는 흐름을 보여주는 일반적인 커뮤니케이션 시스템 전단의 블록도이
다.
도 9는 NAD(20)에 의해 수행해질 수 있는 여러 가지 단계나 과업의 순서도이다.
도 10은 도 9의 순서도에서 개시된 과업을 수행하는 회로의 블록도이다.
도 11은 NAD(20)을 이용하는 장치의 동작을 나타내는 그래프이다.
발명을 실시하기 위한 구체적인 내용
이 문서에서 예시된 실시형태는 개별 회로 또는 프로세서 또는 수행되는 프로세스의 순서도 관점에서 서술되어[0056]
있다. 당업자는 후술할 설명이 단지 하나의 예이며 어떠한 방식의 제한을 의도한 것은 아니라는 것을 알 수 있
다. 공개의 이득을 가진 당업자에게 다른 실시형태는 쉽게 암시될 것이다. 첨부된 도면에 나타난 예시된 실시형
태의 구현에 대해 참조번호(Reference)가 상세하게 만들어질 것이다. 동일한 참조번호 지시(Reference
Indicator)는 어느 정도까지는 같거나 유사한 항목에 관한 도면과 후술할 설명에서 사용될 것이다.
명확성을 위해, 여기에서 개시된 구현의 모든 통상적인 특색이 나타나거나 설명되지 않았다. 물론, 실질적 구현[0057]
의 개발에 있어서 어플리케이션과 사업에 관련된 제약에 따른 개발자의 특정한 목표를 얻기 위해 수많은 구현과
구체적 결정이 만들어지고 이러한 특정한 목표가 하나의 구현에서 다른 구현에 따라, 하나의 개발자로부터 다른
공개특허 10-2010-0051727
- 8 -
개발자에 따라 변화하는 것은 인정될 수 있다. 또한 이러한 개발의 노력이 복잡할 수 있고 시간이 소모될 수 있
지만 그럼에도 불구하고 이 공개의 이득을 가지는 당업자에게는 엔지니어링의 통상적 일이 될 수 있다는 것은
이해될 수 있다.
여기에 기술된 구성요소, 진행단계 및/또는 데이터 구조는 이 공개에 부합되어 작동시스템, 연산플랫폼, 컴퓨터[0058]
프로그램 및/또는 다목적 장치의 다양한 형태를 이용하여 구현될 수 있다. 또한 당업자는 배선에 의해 접속된
장치(Hardwired Devices), FPGA(Field Programmable Gate Arrays), ASICS(Application Specific Integrated
Circuits), 또는 이와 유사한 것과 같은 비범용 장치(Less General Purpose Device))가 여기에 공개된 독창적
인 개념의 관점이나 의미로부터 벗어남 없이 사용될 수 있다는 것을 알 수 있다. 컴퓨터나 기계에 의한 일련의
진행단계들을 포함한 방법이 구현되고 상기 진행 단계들이 기계에 의해 판독 가능한 일련의 설명으로 저장될
수 있는 곳에서 상기 절차들은 컴퓨터 메모리 장치(예를 들어 ROM(Read Only Memory), PROM(Programmable Read
Only Memory), EEPROM(Electrically Eraseable Programmable Read Only Memory), FLASH Memory, Jump Drive
및 유사한 것), 자기 저장 매체(예를 들어 테이프, 자기 디스크 드라이브 및 유사한 것), 광학적 저장 매체(예
를 들어, CD-ROM, DVD-ROM, Paper Card, Paper Tape 및 유사한 것) 및 프로그램 메모리(Program Memory)의 다
른 타입 같은 유형의 매체상에 저장될 수 있다.
노이즈 활동 검출기라고도 언급되는 노이즈 검출기는 여기에 공개된 것처럼 특히 요구되는 신호(Desired[0059]
Signal)에서 다른 신호의 특색과 구별되는 노이즈의 독특한 특색에 기초하였다. 일반적으로 노이즈 검출기는 신
호가 노이즈만 존재하는 기간(Noise Only Period)의 검출에 적용되고 그러므로 신호가 노이즈만 존재하는 기간
(Noise Only Period)에 대한 정보가 그들의 함수에 특별히 필요한 노이즈 감소 시스템과 같은 시스템에서 특별
히 유용하다. 여기에서 공개된 방식은 특별히 말, 바람 및 음향 배경 노이즈(Acoustic Background Noise)를 가
질 수 있는 혼합된 마이크 입력신호의 음향 노이즈(Acoustic Noise)만을 가진 기간의 신뢰성 있는 검출을 겨냥
한 것이다. 음성 활동 검출기로써 대체하여 사용할 수 있다. 또한 특별히 그중에서도 셀룰러 폰(Cellular
Telephone), 블루투스 무선 헤드셋(Bluetooth® Wireless Headsets), 음성 명령 제어(Voice Command Control)
및 자동 음성 인식(Automatic Speech Recognition)과 같은 음성 품질 커뮤니케이션 시스템 및 장치(Voice
Grade Communication System and Device)를 겨냥한 것이다. 이 논의를 위해서, 세 가지 종류의 소리(음향 노이
즈(Acoustic Noise), 바람 노이즈(Wind Noise), 음성(Voice))를 알아본다.
도 1은 붐비는 레스토랑에서 다수의 사람에 의해 생성된 주변 배경 노이즈(Ambient Background Noise)를 측정한[0060]
데이타의 그래프로 측정된 신호 파워(Signal Power)를 Hz 단위의 주파수 대(vs) 데시벨(dB)로 좌표축에 나타낸
것이다. 약 300Hz에서 약 3000Hz의 인간 음성 커뮤니케이션 대역(Human Voice Communication Band)에 해당하는
관심 주파수 영역을 고려하면 측정된 노이즈 파워(Noise Power)는 증가하는 주파수에 따라 옥타브당 약 6dB씩
감소한다. 더 아래에서 상술된 편리성의 이유로, 평균 파워 레벨(Average Power Level)은 약 250Hz로부터 약
2500Hz의 주파수 범위에서 결정된다. 예시로 측정된 도1 데이터의 평균 파워 레벨(Average Power Level)은 약
-50dB이고 도면에서 짧은 대시 선(Short Dashed Line)으로 표현된다. 또한, 긴 대시 선(Long Dashed Line)은
실제의 노이즈 파워를 표현하기 위한 곡선을 모델링하기 위해 그려진다. 이 데이터와 이 특정 실시예에서 모델
선은 옥타브당 -6dB의 기울기를 가진 직선으로 선택된다. 선이라는 용어는 직선에 한정되지 않고 음 및 양의 다
른 기울기 또한 고려되기 때문에 옥타브당 -6dB로 그려진 기울기는 한정되지 않는다.
유효 주파수(Effective Frequency)로 불리는 700Hz 조금 넘은 곳에서 모델 곡선(긴 대시 선)이 평균 노이즈 레[0061]
벨 선(짧은 대시 선)과 교차하는 것을 주목하는 것이 유익하다. 모델 곡선이 선택되고 그려지는 방식이 되기 때
문에 유효 주파수의 중요성은 아래에서 상세하게 설명된다.
모델 곡선(긴 대시 선)은 상대적으로 정확하게 일반적인 노이즈 파워 주파수 특성 모양에 일치되기 위해서 올바[0062]
르게 결정되었다고 가정하고, 250Hz에서 2500Hz의 선택된 주파수 영역에서 모델 곡선의 평균 파워(Average
Power)는 두 평균 파워가 같아질 때까지 모델 곡선를 높이거나 낮춤으로써 측정된 데이타에서 실제 평균 노이즈
파워(Actual Average Noise Power)와 동일하도록 만들어진다. 이것은 모델 평균 파워(Average Model Power)가
측정된 실제 평균 파워(Actual Average Measured Power)에 맞춰지도록 하는 모델의 크기(Magnitude of the
Model)를 수학적으로 계산함으로써 행해진다. 모델과 실제 평균 파워 선이 교차하는 곳(즉, 동일한 곳)에서 유
효 주파수(Effective Frequency)가 결정된다. 사실상, 모델 곡선은 크기제곱 대 주파수 그래프(미도시)를 그렸
을 때 유효 주파수 교차점 위와 아래에서 그것과 평균 파워 선 사이에 동일한 영역을 만들도록 평균 파워 선을
지난다. 이 데이터에서 -6dB 기울기 모델은 약 700Hz를 지날 때 노이즈 데이터 성격에 가까운 근사치를 제공한
다는 것을 알 수 있다. 그래서 700Hz는 이 데이터 값에 있어서 유효 주파수로 결정된다.
공개특허 10-2010-0051727
- 9 -
측정된 데이터의 형태는 특정한 신호 픽업 시스템(Signal Pickup System)의 특성에 의존적이라는 것을 인지해야[0063]
한다. 다른 시스템에서는 곡선(직선이 아닌)이 시스템의 노이즈 응답을 위해 더욱 적절한 모델이 될 수 있다.
도 1에서 표현된 데이터에서, 측정 시스템은 200Hz에서 3400Hz범위에서 신호의 측정을 위해 눈금이 매겨지고 이
범위 밖에서의 그래프는 반드시 실제 주변 노이즈의 정확한 표현이라고 여겨져서는 안된다.
도 2는 교통량이 많은 거리에 근접하여 측정한 교통 노이즈(Traffic Noise)의 그래프이다. 위의 도 1처럼 수직[0064]
축은 dB단위의 노이즈 파워이고 수평축은 Hz단위의 주파수이고 짧은 대시 선은 250Hz에서 2500Hz까지의 주파수
영역에서 평균 노이즈 파워를 표현한 것이고 긴 대시 선은 옥타브당 -6dB의 기울기를 가지는 직선으로 그려진
모델을 표현한 것이다. 모델링한 선(긴 대시)은 평균 파워 선(짧은 대시)를 도 1의 레스토랑 노이즈에서와 거의
같은 유효 주파수에서 교차한다. 소스, 성격, 소리에서 매우 다른긴 하지만 교통 노이즈는 주파수가 증가함에
따라 옥타브당 약 6dB씩 노이즈 파워가 감소하는 레스토랑 노이즈와 매우 유사한 스펙트럼 패턴을 가지고 있다
는 것은 중요하게 언급되어야 한다.
도 3은 다른 노이즈 원인 없이 차가 창문을 닫고 저속으로 움직이는 동안 얻어진 측정치인 하단 그래프와 라디[0065]
오와 에어콘의 펜을 키고 한시간당 70마일의 속도로 달리는 차에서 얻어진 측정치인 상단 그래프로써, 차 선실
(Car Cabin)안에서 측정된 두 개의 노이즈 그래프를 보여준다. 짧은 대시 선과 긴 대시 선은 마찬가지로 노이즈
데이터의 평균 파워와 평균 모델 파워 "곡선"에 해당하는 -6dB 기울기로 모델 선을 나타낸다. 이 모델 선은 도
1의 경우에서 결정된 것과 동일한 효과적 주파수에서 평균 신호 파워 레벨을 교차하도록 만들어졌다는 것을 명
심해라. 비록 이전의 노이즈 케이스들과 많이 유사하지 않음에도 불구하고 차안 노이즈의 스펙트럼 형태는 여전
히 동일한 옥타브당 -6dB 모델에 의해 설명될 수 있음을 도 3으로부터 알 수 있다. 그럼에도 불구하고 이 선은
여전히 매우 합리적인 차 선실 노이즈의 모델이다.
도 4와 도 5는 각각 저속과 고속 바람 노이즈 그래프이다. 바람 노이즈(Wind Noise)는 개별 마이크 포트에서 기[0066]
류의 결과라는 점과 마이크가 있을 때에만 생긴다는 점에서 다른 소리와 다르다. 바람에 내제하여 마이크로폰에
의해 감지된 음향 노이즈라기 보다 마이크 포트에서 바람에 의해 유발된 노이즈로 마이크에 의해 감지되는 노이
즈이다. 그럼에도 불구하고 이러한 바람에 의해 유발된 노이즈(Wind Induced Noise)는 전기 마이크의 출력 신호
에 영향을 끼치고 일반적으로 바람 노이즈(Wind Noise)로 언급된다.
도 4는 바람 속도가 저속이고 결과적으로 마이크를 포화(Saturate)시키지 않았을 때 수집된 데이타를 나타낸다.[0067]
이 노이즈 신호는 높은 비유동성(High Stationarity)과 가파른 기울기의 파워 주파수 응답을 보이는 상대적으로
일관된 노이즈 버스트(Bursts)로 특징지어 진다. 도 5는 바람이 마이크를 포화시키고 집중적으로 부는(Bursty)
고속의 바람에서 수집된 데이터를 나타낸다. 이 경우 노이즈 신호는 짧고 집중적인 유동적(non-stationary)인
신호의 버스트(Burst)이라는 특성을 가진다. 중간 바람 조건(Intermediate Wind Condition)에서는 신호는 이
두 특성 사이에서 변화한다.
도 4와 5로부터 바람에 의해 유발된 노이즈(Wind Induced Noise)는 동적 패턴(Dynamic Pattern) 차이와 스펙[0068]
트럼 차이를 포함하여 많은 일반적 성향의 음향 노이즈와 중대하게 다른 특성을 가지고 있다는 것을 알 수
있다. 또한 통계적으로 이러한 노이즈는 다중 배열 시스템(Multi Array System)에서 각각의 센서 신호에 독립적
이다. 노이즈 억제 프로세스는 때때로, 그것을 별개로 취급하거나 혹은 음향 소스의 노이즈에 대해 반응하는 것
과는 다른 방식으로 처리하여, 이러한 바람에 의해 유발된 노이즈 신호를 무시해야 한다. 도 4와 5에서도 마찬
가지로 짧은 대시 수평선은 평균 파워 레벨로 그려져 있고, -6dB 기울기의 긴 대시 노이즈 모델 선이 보여지는
교차주파수에서 모델 평균 파워(Model Average Power)가 측정된 신호 파워에 상응하는 곳에서 나타난다.
여기에서 공개된 시스템이 사용되는 시스템으로 측정한 수많은 노이즈 신호를 분석함으로써, 모델 곡선(이 경우[0069]
에는 -6dB/oct 직선)이 750Hz에서 측정된 노이즈 신호 파워의 평균과 동일하도록 맞춰질 때 모델은 모든 음향
노이즈 신호에서 정말로 정확한 추정을 만들었다고 확정된다. 그러나 음향 노이즈 신호가 모델로부터 작은 편차
를 나타낸 반면에 음성(후술할)과 바람 노이즈(Wind Noise)는 모델로부터 큰 편차를 보여준다. 위에서 설명한
것처럼, 이 설명을 위한 목적으로 음향 노이즈(Acoustic Noise), 바람 노이즈(Wind Noise), 음성인 세 가지 타
입의 소가 정의된다. 일반적으로 음향노이즈(Acoustic Noise)는 바람 노이즈(Wind Noise)가 아니고 음성도 아닌
것을 포괄한다.
도 1~3에서의 노이즈 데이터가 모델(긴 대시)주변에서 가깝게 모여있는 반면에 바람 노이즈의 그래프인 도 4와[0070]
도 5는 그렇지 않다는 것을 그래프로부터 알 수 있다. 이러한 차이점은 다른 노이즈들로부터 바람 노이즈를 구
별해주는 차이점이 될 수 있다.
공개특허 10-2010-0051727
- 10 -
저속 바람 그리고 고속 바람에 의해 유발된 노이즈의 차이는 상대적인 개념이지만 그래프가 상당히 다르다는 것[0071]
을 알 수 있다. 바람 노이즈는 마이크의 포트에서 생성되기 때문에 도 4와 도 5의 결과 사이의 과도풍속
(Transition Wind Speed)는 얼마만큼은 마이크의 물리적 특색에 의존된다. 그러나 일반적인 관계에 가능한데,
즉, (물리적인 구성에 따라) 고속 바람은 상당히 더 높은 고주파 신호를 만들고 일반적으로 평평한 스펙트럼 응
답을 만들어 내는 반면에 저속 바람은 가파른 스펙트럼 곡선을 만든다. 도 4와 5의 그래프는 200Hz에서는 상당
히 유사하다는 것을 볼 수 있지만 도 5에서 고속 바람에서는 증가하는 주파수에 따라 계속적으로 더 큰 파워를
보이고 2000Hz에서는 상당히 더 큰 파워를 나타낸다. 이 곡선들은 하나의 마이크의 물리적 구성일 경우, 2½mph
와 5mph의 바람 속도와 관련되어 있고 다른 포트 디자인 및/또는 내장된 바람막이를 가진 하나의 마이크 시스템
일 경우에는 5mph와 10mph의 바람속도 각각과 관련되어 있다. 그러나 도 4와 도 5는 특정한 마이크가 바람속도
의 범위를 넘어서 만들어 내기 쉬운 바람에 의해 유발된 노이즈 변화를 나타낸다.
도 6과 7은 각각 조용한 방에서 발성된 말과 극심한 노이즈에서 발성된 말의 그래프이다. 도 7의 그래프에서 사[0072]
용된 노이즈는 분산-소스 시뮬레이션(Diffuse-Source Simulation)에서 다양한 방향으로부터 웅성거리는 음성과
혼합된 상업적으로 녹음된 음악을 포함하고 마이크에서 대략 85dB SPL노이즈를 만들어낸다. 이러한 상황에서 신
호의 SNR은 -3dB이다. 이 시뮬레이션은 공항, 극장휴식시간, 소매점 등과 같은 다양한 군중상황의 근사치로 의
도된다. 선행하는 도면의 경우처럼 평균신호파워 레벨(모든 음성 및/또는 노이즈를 포함한)은 짧은 대시의 수평
선으로 표현되고 -6dB 직선 모델은 긴 대시 선으로 나타난다. 도 6과 7의 그래프는 비록 많은 양의 노이즈가 음
성에 포함되어 있어도 상당한 음성 포먼트 스펙트럴 파워 피크(Voice Formant Spectral Power Peak)를 만들어내
는 음성의 특징적인 스팩트럼 패턴을 나타내고, 그러므로 어떠한 노이즈 상태에서보다 주파수에 따른 파워에서
더 큰 변화를 보인다. 스펙트럼 형태에서의 이러한 차이는 0아래의 SNR로 혼합된 입력신호에서조차도 손쉽게 노
이즈에서 음성을 구별한다.
여기에서 공개된 노이즈 활동 검출기(NAD)는 신호를 인식하고 신호의 노이즈만 있는 기간(Noise Only Peroid)을[0073]
검출하기 위해 상술된 특성을 이용한다. 이러한 작동을 위해 무수히 많은 어플리케이션이 존재한다. 예를 들어
스펙트럼의 차감 프로세스(Subtraction Process)에서 노이즈 템플릿을 업데이트하는 함수, 자동 마이크 매칭테
이블을 업데이트 하는 함수, 노이즈만 있을 때 증가하는 게인으로부터 자동 게인 회로를 차단하는 함수 등과 같
은 다른 함수를 게이트(gate)하는 제어신호를 제공하는 데 사용될 수 있다. 여기에 공개된 노이즈 활동 검출기
는 커뮤니케이션 시스템에서 오디오 신호의 측면에서 서술되어 있다. 그러나 여기에 공개된 방법은 단일 채널
(single-channel), 단일 밴드(single-band) 어플리케이션에 제한되지 않고 또한 다중 채널(multi-channel) 어
플리케이션과 다중 밴드(multi-band) 어플리케이션에 적용된다. 프로세스가 주파수 영역에서 수행되기 때문에
프로세스가 작동하는 주파수 영역의 선택은 쉽고 노이즈 검출기의 부가적 구성은 다른 주파수 영역에서 사용될
수 있다. 이러한 어플리케이션의 예는 다른 영역에 음성 및/또는 바람에 의해 유발된 신호가 있음에도 불구하고
각각의 영역에서 노이즈만이 있을 때 독립적으로 각각의 영역에서 노이즈 템플렛을 업데이트하는 데 필요한 다
중 밴드(multi-band) 스펙트럼의 차감(Subtraction)프로세스이다. 노이즈 활동 검출기는 또한 채널의 신호가 단
지 노이즈뿐일 때 각각의 채널에 지시를 주기 위한 멀티 채널 어플리케이션과 함께 사용될 수 있다. 비록 많은
다중 채널 시스템에서 각각의 입력 신호가 다른 센서가 받은 신호에 유사할 수 있음에도 불구하고, 바람에 의해
유도된 노이즈와 포트에서 작동자의 피부 또는 다른 물체와 물리적 접촉에 의해 기계적으로 생성된 노이즈 같이
이와 다른 많은 경우들이 있다.
가능한 어플리케이션의 예로써 멀티 채널 시스템의 각각의 채널에 해당하는 노이즈로부터의 제어신호는 채널 특[0074]
정 스펙트럼 차감법(channel-specific spectral subtraction) 프로세스에 사용될 수 있고/있거나 다른 채널에
서 노이즈 검출기로부터의 신호는 자동 마이크 매칭 프로세스(Automatic Microphone Matching Process)가 다수
의 마이크의 민감도 부분의 변화를 보상하도록 혼합될 수 있다. 후의 어플리케이션에서 채널이 특정된 노이즈
검출기는 마이크 매칭이 단일 채널(single channel)에 존재하는 노이즈를 맞출 수 없다는 것을 알 수 있을 것이
다.
도 8은 일반적인 노이즈 활동 검출기(20)가 사용되는 상황을 보여주는 일반적인 커뮤니케이션 시스템 전단의 블[0075]
록도이다. 노이즈 활동 검출기는 다중 밴드 프로세스로 작동하고 그래서 시간 도메인 신호는 다수의 주파수 영
역으로 나누어진다. 다중 밴드변환은 밴드패스필터(미도시)의 뱅크(bank)를 사용하거나 푸리에 변환 프로세스의
어플리케이션에 의해서나 그러한 변환을 위한 다른 프로세스에 의해 수행된다. 주파수 도메인으로의 변환은 예
를 들어 단시간 푸리에 변환(Short Time Fourier Transform(STFT))기술이나 다른 잘 알려진 주파수 도메인 변
환 방법을 사용하는 잘 알려진 프로세스이다. NAD(20)가 사용되는 시스템은 스펙트럼의 차감(Subtraction)과 같
은 마이크 감도 매칭 및/또는 자동 이득 조절 프로세스와 같은 다른 프로세스를 위해 단시간 푸리에 변환(STF
공개특허 10-2010-0051727
- 11 -
T)방법을 사용하기 쉽기 때문에 변환단계는 이미 이용하기 쉽고 NAD(20)는 약간의 부가적인 프로세싱을 요구한
다. 예시적인 실시예는 고속 푸리에 변환(Fast Fourier Transform)을 사용하고 NAD(20)의 프로세스는 주파수 도
메인에서 수행된다. 그러므로 예시된 시스템마다 여기서 공개된 프로세스가 적용되기 전에 입력 신호는 주파수
도메인으로 변환될 수 있다.
도 8에 관련하여 예를 들어, 마이크(미도시)로부터 아날로그 입력신호가 구조화 블록(10)(Framing Block)에서[0076]
구조화(frame)된다. 윈도잉 블록(12)(Windowing Block 12)는 윈도잉 적용블록(13)(Windowing Application
Block 13)에서 구조화된 데이터(Framed Data)에 적용되는 윈도우(Window)를 만드는데 사용된다. 프레임화
(Framed) 윈도우화(Windowed)된 데이터는 푸리에 변환 블록(14)(Fourier Transform Block 14)에서 (예를 들어
고속 푸리에 변환(FFT)이나 위에서 설명된 적당한 다른 변환 프로세스에 의해) 주파수 도메인으로 변환되고 주
파수 도메인 결과는 서브밴드 선택 블록(15)(Sub-band Selection Block 15)에 의해 하나 또는 선택적으로 2이상
의 서브 밴드(Sub-band)로 나뉠 수 있다.
예시적 실시형태에서 8 ksps(kilo-samples per second)의 샘플레이트(sample rate)를 가진 커뮤니케이션 오디[0077]
오 신호는 512-샘플 프레임으로 분리되고 해닝 윈도우(Hanning window)로 윈도윙(window)되어 고속 푸리에 변환
(FFT, Fast Fourier Transform)을 이용한 주파수 도메인으로 변환되고 250Hz에서 2500Hz 사이의 주파수 빈
(Frequency Bins)을 구성하는 단일 서브 밴드(single sub band)가 선택된다.
결과적인 서브밴드 빈(sub-band bin)값은 NAD (20)의 입력으로써 제공되고 이것의 출력은 특정한 커뮤니케이션[0078]
어플리케이션과 연관된 요구되는 프로세스의 차후의 제어를 위해 제공된다.
블록(16)은 노이즈 검출기가 사용되고 또한 특정한 어플리케이션의 기능인 시스템의 설계 중에 전문가에 의해[0079]
행해지는 주파수와 노이즈 모델의 결정 프로세스를 나타낸 것이다. 의도된 어플리케이션의 감지 시스템에 의해
감지된 일반적인 노이즈는 잘 알려진 곡선맞춤법(Curve fitting method)을 사용한 곡선 맞춤(Curve Fit)으로 분
석된다. 수학적으로 맞춰진 커브의 형태는 노이즈 모델이고 예를 들어 도 1~3에서 모델은 감소되는 긴 대시 선
으로 표현된 직선이다. 유효 주파수 는 또한 모델 파워가 평균 파워의 값과 동일한 곳에서의 주파수로 결정함
으로써 설계 프로세스 동안 결정된다.
블록(17)은 임계대역폭(Critical Bandwidth)의 결정을 나타낸다. 임계대역폭은 일반적으로 데이타가 모델에 맞[0080]
춰진 곳의 영역을 포함하는 인접한 주파수 범위이다. 도 1에서 3의 신호에서, 시스템의 측정된 데이터가 약
200Hz에서 2500Hz과 3000Hz사이의 어느 곳에 해당하는 주파수 영역 위에서 직선 모델에 맞춰지는 것을
보여준다. 일례로 250Hz에서 2500Hz에 이르는 주파수 영역이 선택될 수 있다. 고속 푸리에 변환 빈(FFT bins)
에 편리한 수(Convenient Number)를 제공하기 위해 선택된 주파수 영역의 작은 조정은 노이즈 검출기의 동작에
중대하게 영향을 끼치지 않는다. 본보기 실시예에서 대역폭은 둘의 균등한 파워로서(as an even power of two)
128 빈에 있는 평균파워를 계산하는 편리한 장치인 128 FFT bins로 구성된 노이즈 활동 검출기를 위해
이용된다.
임계대역폭, 노이즈 파워 모델 및 블록(16)과 (17)의 유효 주파수 결정 프로세스는 다음의 단계를 이용할 수 있[0081]
다.
ㆍ일반적인 입력 노이즈 상태 하에서 입력신호의 파워 스펙트럼을 검토한다. 임무를 위해 유용한 정보만을 가[0082]
지는 사용될 서브밴드(블록 (15))를 선택한다. 예를 들어, 단일 채널 음성 품질 커뮤니케이션 시스템에서는
250Hz로부터 3000Hz까지 확장된 서브밴드가 적용된다. 서브밴드 대역폭과 다른 시스템에 사용되는 서브밴드의
수가 쉽게 결정된다.
ㆍ각각의 서브밴드(그들이 각각의 서브밴드에 대하여 동일할 필요는 없다)에 대하여 모델과 모델 복잡도(블록[0083]
(16))를 선택한다. 다항식 곡선맞춤(Polynomial Curve Fitting)은 이 단계를 위해 사용할 수 있거나 다른 일반
적인 곡선 맞춤법이 적용된다. 단조함수가 선호된다. 위에서 설명된 실시예를 예로 들면 모델은 기울기와 절편
이 변수인 1차 곡선(직선)을 사용한다.
ㆍ일반적인 노이즈만 존재하는 데이터로부터 변수값을 결정한다. 예시된 구성에서 기울기는 주파수 응답 데이[0084]
터로부터 결정되고 절편은 평균에너지로부터 결정된다.
ㆍ유효 주파수 즉, 모델 파워 곡선 값이 평균 신호 파워와 동일한 주파수로 실제 측정된 노이즈 신호의 서브밴[0085]
드 부분에 포함된,를 계산한다. 도 1~3에서 나타나있듯이 이것은 그래프 상에서 짧은 대시 선이 긴 대시 모델
선을 교차하는 부분에서의 주파수로 746Hz이다. 물론 이 746Hz값이 여기에서 설명된 실시예에서 특정값이고 다
공개특허 10-2010-0051727
- 12 -
른 어플리케이션은 다른 유효 주파수를 가질 것이다.
블록 (16)의 프로세스는 보통 노이즈 활동 검출기(20,NAD)의 작동을 묘사하는 흐름도인 도 9에서 더욱 상세하게[0086]
기술되어 있다. 입력신호는 도 8의 서브밴드 선택 프로세스(15)(Sub-band Selection Process 15)에 의해 공급
되는 출력신호인 서브밴드 신호(22)(Sub-band Signal 22)이고 입력신호는 단계 30의 임계대역폭에서 평균에너지
를 계산하는 데 사용된다.
단계(28)에서 유효 주파수의 결정과 함께 노이즈 모델 결정은 단계(26)에서 실행된다. 단계(26)과 (28)은 도 8[0087]
의 블록(16)과 연관된다. 이전에 언급하였듯이 노이즈 모델 결정은 시각적 관찰에 기초하여 만들어 지거나 알려
진 곡선 맞춤 알고리즘(Curve Fitting Algorithms)으로 보다 철저하게 결정된다. 이런식으로 얼마나 특정 파워
곡선 모델이 측정된 신호 세기 데이터를 잘 표현하는지 결정된다. 도 1~3의 데이터의 경우 옥타브당 약 -6dB의
기울기를 가진 직선이 그래프에 묘사된 모든 노이즈 원인 데이터의 센서 시스 템응답을 합리적으로 잘 모델링하
고 마이크 시스템을 통해 측정된 노이즈 파워는 약 200Hz에서 2500Hz의 주파수범위 위의 직선 모델에 기본적으
로 맞춰짐을 알 수 있다. 그래서 임계대역폭의 결정(단계(17))은 단일 채널 시스템을 위한 이 대역폭을 사용하
거나 다중 채널 시스템을 위한 다중 임계 서브밴드(Multiple Critical Sub-band)를 사용한다. 다른 마이크 형태
는 다른 결과를 만들어 내고 노이즈 신호를 위한 직선 모델 대신에 곡선 모델이 요구될 수 있다. 곡선 맞춤의
엄격한 방법은 정확한 모델을 제공하기 위해 사용될 수 있지만 일반적으로 그렇게 하는 것이 요구되는 결과를
얻기 위해 요구되지 않고 더욱 모델을 복잡하게 할수록 더 많은 프로세싱 파워가 노이즈 검출기를 작동하는 데
에 요구된다.
유효 주파수 의 결정(단계(28))은 또한 전술된 것처럼 수행되고 이곳에서 더욱 충분히 설명된다. 노이즈 파[0088]
워 모델(26)(Noise Power Model 26)의 형태와 임계대역폭(17)(Critical Bandwidth 17)이 결정된 후에 파워 모
델은 평균 모델 파워 레벨을 결정하기 위해 임계대역폭에서 수학적으로 적분된다.
노이즈 파워 모델이 아래처럼 정의된다고 하자. 이 레벨이 노이즈 파워 모델 곡선과 교차하는 곳의 주파수가 유[0089]
효 주파수 이다.
(1)[0090]
여기서 은 노이즈 파워 모델(Noise Power Model)이고, 는 노이즈 파워 모델 형태 함수(Noise[0091]
Power Model Shape Function)이고 는 주파수이고 는 결정되어야 할 크기 등급 요소 (Magnitude Scale
Factor)이다. 형태 모델은 평균 노이즈 파워 모델 레벨을 생성하기 위해 임계 대역폭에서 적분되고 임계대역폭
에 의해 나누어진다.
서브밴드의 임계대역폭이 낮은 주파수 경계 와 높은 주파수 경계 에 의해 정의된다고 하자. 여기서 설[0092]
명되는 본보기 케이스에서는, 이고 이다 . 그러므로
(2)[0093]
이고 평균 노이즈 파워 모델 레벨은[0094]
(3)[0095]
유효 주파수 에서 평균 노이즈 모델 파워 레벨은 노이즈 파워 모델의 값과 동일하다. 즉[0096]
(4)[0097]
공개특허 10-2010-0051727
- 13 -
그러므로, 는 식 4를 계산하는 것에 의해 구해질 수 있다. 쉽게 알수 있는 것처럼, 단조적인 모델 곡선이[0098]
선호된다.
예시적인 경우로,[0099]
(5)[0100]
(6)[0101]
로 유효 주파수는 실질적으로 약 700Hz이다.[0102]
임계대역폭, 노이즈 파워 모델 및 유효 주파수의 파라메터는 노이즈 검출기의 설계 동안에 모두 미리 결정될 수[0103]
있고 실시간으로 계산될 필요는 없어 작동하는 시스템에 요구되는 계산 파워를 감소시킨다.
노이즈 활동 검출기(20)의 실시간 작동은 수행되는 다양한 단계 또는 임무의 흐름도를 보여주는 도 9에 개시되[0104]
어 있다. 이러한 임무들은 도 10에 나타난 전용 회로에 의해 수행되거나 하나 이상의 회로가 하나 이상의 임무
를 수행하기 위해 사용될 수 있다는 것이 이해될 것이다. 또한 임무를 수행하기 위해 싱글 프로세서나 여러 개
의 프로세서를 사용하는 것이 가능할 수 있고 각 프로세서는 하나 이상의 임무를 수행하는 하나 이상의 모듈을
가진다.
도 9의 단계(30)에서 에 있는 평균에너지가 계산되고 선택된 서브밴드를 위한 전체 임계대역폭의 파워는[0105]
현재폭 프레임의 신호의 평균 파워 레벨값을 만들어내기 위해 임계대역폭 에 의해 합쳐지고 나누어진다.
도 10의 회로(102)는 이 임무를 위해 제공된다. 평균 파워 레벨 값은 현재폭 데이터의 프레임에 고유의 역치 함
수 를 정의하기 위해 도 9의 단계(32)에 사용된다. 도 10의 회로(104)는 이러한 목적으로 제공된다.
정의된 역치 함수, , 단계(32)(와 회로(104))는 단계(26)에서 결정된 노이즈 파워 모델 과[0106]
단계(28)에서 결정된 유효 주파수 을 이용하여 데이타의 현재폭 프레임에서 평균 파워를 계산하고 모델의
레벨을 설정함으로써 동적 주파수 의존적 역치를 결정하고 따라서 현재폭 프레임을 위한 평균 파워 레벨이 유
효 주파수, 에서 모델의 값과 동일하도록 한다. 즉,
(7)[0107]
이고 여기서 는 현재 평균 파워 레벨이다. 그래서 데이타의 i 번째 프레임을 위한 역치 함수는 회로[0108]
(104)와 단계(32)에서 아래처럼 결정된다.
(8)[0109]
이 역치는 하나의 레벨이 아니고 데이터의 우선하는 프레임에 의존적이지 않고 이러한 다른 검출기에서 이러한[0110]
두 사실은 일반적임을 명심하자. 역치는 즉각적 -즉, 단지 현재 프레임을 위해 사용되거나 계산된다.-이기 때
문에 NAD(20)은 배경 노이즈의 빠른 변화를 따를 수 있다. 그래서 평균 에너지를 사용하는 주파수 의존적 역치
함수의 동적 변환이 사용된다.
역치함수 는 현재 프레임의 스펙트럼 데이터를 파워 데이터의 크기가 역치보다 작은 고속 푸리에 변환[0111]
공개특허 10-2010-0051727
- 14 -
주파수 빈(bin)과 파워 데이터의 크기가 역치보다 큰 고속 푸리에 변환 주파수 빈인 두 그룹으로 나누는데 사용
된다. 노이즈 활동 검출기(20)의 예시된 실시형태에 적용될 때, 바람 노이즈와 음성 특색을 묘사하는 도 4~7은
모두 각각의 관련된 그래프의 긴 점선에 의해 나타난 것처럼 역치함수를 생성하는 데이타를 나타낸다. 모든 고
속 푸리에 변환 주파수 빈은 하나의 프레임의 시간 기간에서 고속 푸리에 변환 주파수 빈의 주파수 대역폭에 있
는 신호 컨텐츠의 평균크기에 관련된 크기를 가지는 복잡한 값을 가지고 있다. 단계(30)의 에서 각각의
고속 푸리에 변환 주파수 빈에서의 크기는 제곱되고 제곱된 값은 평균 내어지고 프레임의 시간 기간에서 빈당
평균 에너지를 제공한다. 전술된 것처럼 단계(32)(회로(104))는 의 값과 가 프레임 인덱스인 현재 프레임
을 위한 역치함수 를 결정하기 위해 이 값을 사용한다. 단계(34)의 값 아래의 평균 에너지
를 계산하는 것은 역치보다 작은 크기의 빈의 크기제곱을 더하고 역치보다 작은 크기를 가진 빈의 수로 이 더
한 값을 나누고, 역치보다 작은 크기를 가진 빈에서 빈당 평균에너지를 도출하는 회로(106)에 의해 수행된다.
또한, 단계(36)의 값 위의 평균 에너지를 계산하는 것은 역치보다 큰 크기를 가진 빈의 크기제곱을 더
하고 역치보다 큰 크기를 가진 빈의 수로 이 더한 값을 나누고 역치보다 큰 크기를 가진 빈에서 빈당 평균에너
지를 도출하는 회로(108)에서 수행된다. 단계(36)이 신호 을 제공하는 반면에 단계(34)는 신호
를 공급한다.
에너지 평균 와 의 로그값은 각각 단계(38)과 (40)에서 계산되고 결과적인 값은 순차적인[0112]
프레임으로부터의 값에 영향을 주는 것에 의해 시간상에서 평활화 함수(Smoothing Function)를 만드는 필터에
공급될 수 있다. 도 10의 로그 회로(110)과 필터링 회로(112)는 이러한 함수를 제공한다. 비록 평활화
(Smoothing)가 이 어플리케이션의 노이즈 검출의 정확한 작동에 필요한 것은 아니지만 필요한 경우 이러한 필터
링은 더 긴 행오버(Hangover)시간을 만드는 데 이용될 수 있다. 그러나 검출기는 정확하게 음성의 존재를 결정
할 수 있기 때문에 입력신호에서 음성 파워가 노이즈 파워보다 꽤 작을 때 부가적인 행오버는 필요하지 않다.
필요한 경우 실시형태의 예시된 단계(38)과 (40)의 필터링은 아래 형태의 지수적 필터로 수행될 수 있다.[0113]
(9)[0114]
는 또는 이고, 는 0과 1 사이이고 일반적인 값이 0.1일 수 있는 평활화[0115]
(smoothing)의 정도를 결정하는 시간 상수이다. 첨자 는 가 와 의 경우 다
른 값을 가질 수 있음을 나타낸다 . 가 또는 가 될 수 있는 곳에서 는 어떠한 신호
가 평활화 될 것인지 지정하는 평활화된 출력신호이다.
평활화 필터(Smoothing Filter)의 복잡도와 타입에는 제한이 없고 당해 기술분야에서 많은 다듬기 필터들이 알[0116]
려져 있다. 불규칙한 상승과 하 락 시간 상수를 제공하는 더 복잡한 다듬기 필터가 사용될 수 있다. 행오버는
평활화 신호(ABOVE Smoothed Signal)가 아래로 움직 이는 것 보다 빠르게 위로 움직이는 것이 가능
할 때와 평활화 신호(BELOW Smoothed Signal)가 위로 움직이는 것보다 빠르게 아래로 움직이는 것
이 가능할 때 만들어진다.
전술된 접근방법은 노이즈 검출기(20)로 입력되는 일반적인 노이즈 신호입력의 크기면에서 유사한 두 신호를 공[0117]
급하여 만약 이 신호들 중 하나가 다른 신호의 오프셋인 경우, 입력신호에서 노이즈만 있는 부분의 검출이 간단
하게 된다. 시스템 디자인 중에 오프셋은 노이즈 신호가 노이즈 검출기 20의 입력신호가 되는 때 오프셋이 두
개의 로그신호에서 임의변환(Random Variation)보다 약간 큰, 오프셋 결정(Determine Offset)단계(42)에서 전
문가에 의해 결정된다. 이 오프셋의 양은 노이즈 검출기의 사실상 입력신호가 단지 노이즈일 때 노이즈가 아닌
다른 것이 존재한다는 잘못된 표시같은 잘못된 음의 트리거(negative trigger)를 방지한다. 이러한 잘못된 트리
거는 연관된 노이즈 감소(Associated Noise Reduction)의 작동에서나 노이즈 감지기가 사용되는 다른 프로세스
에서 에러를 만들지 않지만 이것은 어떤 것의 작동을 늦춘다. 그러므로 오프셋은 이러한 효과를 최소화하지 않
공개특허 10-2010-0051727
- 15 -
으면 안된다. 음수일 수 있는 오프셋는 오프셋 부가 단계(44)에서 단계(40)의 로그와 필터(Log