본문 바로가기

음향, 영상이야기/Rane_Project

Rane Project 8. 오디오 디지털 컨버터의 기초

Digital Dharma of Audio A/D Converters

Dennis Bohn, Rane Corporation

RaneNote 137 written 1997

  • Data Conversion 데이터 변환
  • Binary Numbers 이진수
  • The Story of Harry & Claude 해리와 클라우드
  • Quantization 양자화
  • Successive-Approximation 연속 근사법
  • PCM & PWM
  • Delta-Sigma Modulation & Noise Shaping 델타시그마 변환과 노이즈 형상
  • Dither 디더
  • Life After 16 -- A Little Bit Sweeter

Introduction 서문

'달마'라는 단어에 대한 정의들 중에는 어떤 것에 대한 필수기능이라든지 본질이라는 의미가 있습니다. 그게 바로 이 문서가 쓰여진 이유입니다. 즉, 아날로그-디지털 변환(A/D converter)의 본질과 필수적인 기능들에 대한 것들 말이죠. 이 세상의 다른 모든 것들처럼 오디오 산업도 디지털 혁명에 의해 상당히 급진적이면서도 다시 돌아오지 않을 변화를 겪고 있습니다. 세상의 본질이 아날로그인가 디지털인가, 즉 삶의 가장 근본적인 요소(달마)가 연속적인가(아날로그) 아니면 아주 작은 조각인가(디지털)이냐 하는 점에 대한 논쟁은 영원히 지속될 것입니다. 그러한 질문에 대한 답변은 당연히 여기에 없습니다. 우리는 여기에서 오디오의 A/D 변환에 대한 가장 기본적이고 근본적인 내용에 대한 이해를 풀어보고자 합니다.

Data Conversion 데이터 변환

디지털 오디오를 이해하고자 하는 탐험을 시작하는데 있어서 가장 중요한 점은, 신호의 파형이 디지털포맷으로 변환될 때, 그 파형의 음향 특성을 우연히 바뀌도록 하는 것은 어떤 것도 없다는 것입니다. (역; 아날로그 음향을 디지털로 변환할 때 발생하는 어떠한 종류의 변화도 반드시 근거가 있다는 의미) 또한 그 신호가 디지털 영역에 남아 있는 동안에는 그것들은 단지 숫자로 표현되는 디지털 언어일 뿐입니다. 디지털 변환 과정에서 사실상 실패하거나 변화된 데이터를 쓸 수 없도록 손실되거나 손상되는 많은 경우들로 인해 소리가 바뀌게 됩니다. 디지털 언어들은 단지 많은 수의 "0"과 "1"로 되어 있습니다. 거기에는 "1/2"도 '3/4"같은 것들도 존재하지 않습니다. 음향적으로 듣게 되는 시점은 변환 과정과 함께 시작하고 끝납니다. 때문에 디지털오디오에서 어떤 것도 데이터 변환보다 더 중요한 것은 없습니다.

그게 바로 데이터 변환에 반드시 그렇게 해야 하는 중요한 과정이 있는 겁니다. 정말로 그렇게 중요한거죠. 나머지 다른 모든 것들은 말 그대로 더 상세한 과정들일 뿐입니다. 우리는 다른 내용들은 모두 과학적인 디지털 오디오에서 예술적인 데이터 변환에 대해 좀더 깊게 들어가 볼 수 있 수 있는데, 이 데이터 변환이 원래의 소리가 그대로 보존되는지 아닌지에 대해 극단적으로 정의를 내릴 수 있는 요소입니다. (그리고 이 언급은 정말 좋은 데이터 변환에 사용되는 아주 거대하고 엄격한 과학을 분명히 부인하지 않는 내용입니다.)

아날로그 신호는 어떤 상태들의 무한한 변화 과정 사이에서 연속적으로 변화하고, 컴퓨터는 단지 두가지 상태만(역; 0과1)을 다룰 수 있기 때문에, 해당 아날로그 신호는 컴퓨터가 일할 수 있도록 하기 위해 반드시 바이너리 디지털 워드로 바뀌어져야 합니다. 각 디지털 워드는 정확한 시간에 하나의 정밀한 지점에서 그 신호의 값을 나타내줍니다. 현재 일반적인 워드의 길이는 16비트 혹은 32비트입니다. 즉 16개의 비트가 모여 하나의 묶음을 만들거나, 32개의 비트를 모아 하나의 묶음을 만들게 되죠. 한번 디지털 워드로 변환이 되면, 그 정보들은 컴퓨터 내부에서 저장, 전송 또는 연산하는 식으로 다루어지게 됩니다.

아날로그 세계와 디지털 세계 사이의 중요한 인터페이스를 제대로 탐험하기 위해서는 몇 가지 기본적인 내용과 역사를 훑어보는 것이 필요합니다.

Binary Numbers 이진수

우리가 '디지털'이라고 말할 때마다, 우리는 컴퓨터를 말합니다. (이 문서에서는 '컴퓨터'는 디지털 기반의 모든 종류의 오디오 장비를 의미합니다) 그리고 그 디지털의 핵심 중 핵심에 있어서의 컴퓨터는 사실 너무나 단순합니다. 왜냐하면 컴퓨터는 커뮤니케이션이나 정보에 있어서 가장 단순한 형태만을 이해할 수 있기 때문입니다; 예/아니오, 온/오프, 열림/닫힘, 있다/없다, 즉 가장 단순한 두 가지 부호로 표시될 수 있는 모든 형태의 것들로 나타낼 수 있는 것들만 말이죠. 두 문자, 두 숫자 두 색상, 두 높이, 두 기온, 두 변화.. 뭐든 상관없이 말이죠. 여러분이 단지 이러한 두 가지 상태만 인식할 수 있는게 아니라 좀더 다양한 상태를 인식하게 만들고 싶다면 그건 상관이 있겠죠. 이제 이걸 간단히 하기 위해서 우리는 두 가지 숫자 즉, 0,1만 선택합니다. 공식적으로는 이 것들은 라틴어의 bini 에서 나온 바이너리라고 알려져 있습니다. 수학에서 이것은 2진시스템이 되는데, 이는 우리가 0~9까지 10개의 숫자를 사용하기 때문에 10기반이라고 부르는 십진법에 대비되어 불리게 되었습니다.

이진법에서 우리는 '0'과 '1'이라는 두 숫자만 사용합니다. '0'은 아니오, 오프, 닫힘, 없음 등의 의미로 나타내기 좋고, '1'은 예, 온, 열림, 있음 등의 의미로 나타내기 좋습니다. 전자(electronics)에서 이러한 방식은 어떤 회로가 열렸는지 닫혔는지, 충전 중인지 아닌지, 전압이 있는지 없는지 등을 쉽게 표시할 수 있습니다. 따라서 이진법은 초기 컴퓨터에서부터 사용되었으며 지금까지도 변한 것은 없이 여전히 동일한 방식을 사용하고 있습니다. 컴퓨터는 믿을 수 없을 정도로 커진 메모리 크기와 작아진 크기에도 불구하고, 더 빨라지고 더 작아지고 더 저렴해졌을 뿐입니다.

이진시스템을 사용하는 데 있어서 만나게 되는 한가지 문제점은 숫자가 커지면서 갑자기 다루기 힘들어진다는 것입니다. 예를 들어, 내 나이를 이진법으로 나타내는 데는 여섯 자리가 필요하지만, 십진법으로는 두 자리이면 충분합니다. 그런데 이진법에서는 숫자들을 '디지트digits'라고 부르지 않는 편이 좋은데, 왜냐하면 '디지트'는 사람의 손가락이나 발가락으로 표현되는 '열 개'를 의미하기 때문에 혼돈하기 쉽기 때문입니다. 그러한 문제를 회피하기 위해서 벨 연구소에서 근무하던 존 터키는 정보의 기본 단위(나중에 새논에 의해 정의한)를 '비트bit'라고 생략하여 표시되는 '이진 단위' 또는 '이진수'라고 명명하였습니다. '비트'는 둘 중 하나의 상태를 표시할 수 있는 가장 단순한 단위의 메시지가 됩니다.

이제, 저는 여섯 비트 나이 입니다. 글쎄요, 꼭 정확히 맞는 표현이라고 하기는 어렵지만 그러나 내 나이를 표시하기 위해서는 여섯 비트를 사용해서 110111이라고 나타내게 됩니다. 자 이제 이게 어떻게 작동하는지 볼까요? 저는 55세입니다. 이제 십진수로는 '55'이고 1의자릿수 5에 십의 자릿수 5를 더했다는 것을 의미합니다. 여러분은 이 점에 대해 전에 생각해본 적은 없을 것 이지만, 우리의 일상생활에서 이 각각의 모든 숫자들은 0으로 시작하는 10의 추가적인 힘을 나타내게 됩니다. 이것은 첫 번째 자릿수는 한 자릿수(100)를 나타내고 두 번째 자릿수는 십의 자릿수(101)를, 세 번째 자릿수는 백 자릿수(102)를 나타내는 식입니다. 우리는 이제 아무리 큰 크기의 숫자도 이러한 축약된 표시법을 사용해서 나타낼 수 있습니다.

이진숫자의 표시도 같은 식으로 10의 힘을 채용하는 대신 2의 힘을 사용해서 나타냅니다. (어떤 수의 진법에서도 이러한 방식으로 표현하게 됩니다) 따라서 가장 오른쪽 자릿수에서 왼쪽으로 이동하면서 각각의 연속된 비트들은 20 = 1, 21 =2, 22 =4, 23 =8, 24 = 16, 25 =32을 의미합니다. 이제 이진법으로 '110111'로 나타낼 수 있는 제 나이는 1이 한 개, 2가 한 개, 4가 한 개, 8은 없고, 16이 한 개, 32가 한 개를 의미하게 되고 이는 1+2+4+0+16+32 = 55 가 되는군요. 그림1은 이 두 가지 진법에 대한 표시방식의 예를 보여줍니다.

그림1. 숫자 표시 시스템

이제 이 모든 것이 어떻게 쓰이는지 살펴봅시다.

The Story of Harry & Claude 해리와 클라우드에 대한 이야기

프랑스 수학자 푸리에는 잘 알려져 있지는 않지만 18세기 후반에 이미 A/D 컨버젼에 대한 기반을 놓았습니다. 모든 데이터 컨버젼 기술은 특정 시간마다 아주 정확한 시점에서 해당 아날로그 신호 값을 나타내는 디지털 워드를 만드는 작업, 즉 샘플링을 어떻게 하느냐가 중요한 요소가 됩니다. 우리가 아는 사실은 이러한 작업이 나이키스트에 의해서 이루어 졌다는 점입니다.

해리 나이키스트는 20세기후반에 벨연구소에서 근무하면서 현재 우리가 샘플링 데이터 시스템이라고 알고 있는 것에 대한 기준을 제시하는 중요한 논문 한 편을 쓰게 됩니다.[1] 나이키스트는 우리가 주기함수에 대해서 관심 있는(얻고자 하는) 신호의 최고 주파수보다 적어도 두배 이상 빠른 비율로 샘플링을 한다면 그 샘플링 데이터를 다시 복원하는 경우, 어떠한 정보(데이터)도 손실되지 않을 것이라는 점을 증명하였습니다. 그리고 이미 앞서 푸리에가 이미 밝혔던 대로, 모든 주기 교류 신호는 사인/코사인 파형의 체 배 주파수의 합으로 만들어진다는 사실과 함께 (역;이 점이 퓨리에 변환의 핵심 내용입니다) 오디오 신호는 모두 주기 신호이기 때문에, 나이키스트 이론에 근거하여 어떤 정보의 손실도 없이 샘플링 될 수 있습니다. 이 신호의 주파수는 손실없이 정확하게 샘플링 될 수 있는 나이키스트 주파수라고 알려졌으며, 이는 당연히 샘플링 주파수의 1/2이 됩니다. 예를 들어, 오디오 CD(compact disc)시스템에서의 나이키스트 주파수는 22.05KHz가 되고, 이는 CD의 표준 샘플링 주파수 인 44.1KHz의 절반에 해당합니다.

나이키스트의 발견만큼 큰 약점이 있습니다. 가장 큰 점은 얼라이어싱 주파수입니다. 나이키스트 이론에 따르면 어떠한 정보도 손실이 없다는 점을 보장합니다. 그렇지만 그렇다고 어떤 정보도 더 얻어지지 않는다는 점을 보장하지는 않습니다.(역; 없는 정보가 얻어지는 것도 데이터의 변형) 아주 정밀한 시간 간격마다 아날로그 신호를 샘플링 하는 동작이 명확하지는 않더라도 샘플링 간격에 의해 입력 신호가 증식해서 나타나게 됩니다. 이는 원래의 원본 신호와 구분할 수 없는 잘못된 신호를 만들어낼 가능성을 유도하게 됩니다. 다른 말로, 주어진 샘플 값에서는 우리가 유도된 샘플링 데이터를 하나의 유일한 신호와 연계할 수 없음을 의미합니다. 아래 그림2에서 보듯이, 서로 다른 세가지 주파수 파형으로부터 동일한 샘플링 데이터 값을 얻을 수 있고, 샘플링 주파수와 샘플링이 되는 주파수와의 모든 가능한 합과 차이로부터 유도되는 주파수로부터도 같은 샘플링 데이터를 얻게 됩니다. 샘플링된 데이터에 부합하는 이러한 모든 잘못된 주파수들을 '에일리어스'라고 부릅니다. 오디오에서 이러한 주파수들은 대부분 '상호변조 왜곡'으로 드러나게 됩니다. 그리고 이것들은 모든 전자장비 시스템에서 나타나는 화이트 노이즈나 초음파 신호로 나타나게 됩니다. 이 에일리어싱 주파수에 대한 문제점을 해결하는 방안이 나오면서 오디오 컨버젼 시스템을 현재의 놀라운 수준까지 향상 시키게 됩니다. 그리고 새논 클라우드가 바로 그 길을 제시한 사람입니다.

역; 아래 그림의 예를 보면 샘플링 포인트가 다섯 곳(녹색 세로줄)이 있는데 따라서 그림상 2주기(2Hz)인 적색 신호에 대해서 신호의 손실 없이 복원할 수 있는 데이터를 얻을 수 있습니다. 그러나 예상치 못하게 3Hz인 청색 신호선도, 12Hz인 흑색 신호선도 만들어 내게 되는데 이게 에일리어스 주파수가 됩니다. 즉, 2Hz 적색 신호로부터 샘플링 주파수를 얻었지만 이게 다시 원래 신호로 복원하고자 할 때는 돌아 갈 수 있는 여러가지 경우의 수가 발생하기 때문에 원래 신호로의 복원이 어렵고 완전히 신호를 바꿔 버리게 될 수도 있다는 겁니다.

그림2. 에일리어싱 주파수

새논은 정보이론의 아버지로 불리고 있습니다. 그가 1948년에 벨 연구소에서 젊은 엔지니어로 있을 때, 완전히 새로운 과학 분야를 정의했습니다. 이미 그 이전에 그의 천재성은 그가 MIT에서 공부하던 22살짜리 학생이었을 때, 19세기 중반 영국 수학자이던 조지 부울에 의해 어떻게 대수학이 발명되었는지에 대해 연구한 그의 스승의 논문에서 보여주었는데, 이 내용은 전자회로에 대해 적용될 수 있었습니다. 그때부터 부울 대수학은 디지털 로직과 컴퓨터 설계에서의 단단한 기반이 되어 왔습니다.[2]

새논은 나이키스트의 업적에 대해 자세히 연구하고, 언뜻 보기엔 단순하지만 쉽지 않은 추가적인 내용을 내 놓았습니다. 그는 여러분이 입력 신호의 대역폭을 샘플링 주파수의 절반 이내로 제한을 한다면 발생할 수 있는 에일리어싱에 의한 어떠한 에러도 발생하지 않을 것이라는 사실을 관찰하고 증명해냈습니다. 즉 샘플링 주파수의 절반이 넘지 않도록 여러분의 입력의 대역폭 제한을 하면 어떠한 에일리어싱이 발생하지 않을 것이라는 점을 보장한다는 것입니다. 대단하군요. 단지 그게 불가능하지만요~~

해리의 '기준'과 클라우드 '제한'을 통해 만들어진 새논 제한을 만족시키기 위해서는 여러분에게는 아주 큰 장애가 있는데요, 바로 무한대 기울기를 가진 필터입니다. 글쎄요, 이건 절대 있을 수가 없겠죠, 아마도 이 현실 세계에서는 말이죠. 여러분은 나이키스트 주파수 바깥 범위에서 어떠한 신호(노이즈를 포함)도 절대 없다고 보장할 수 없습니다. 다행히 이 문제 주변엔 방법이 있습니다. 사실, 여러분은 이 문제에 대해 모든 길로 가볼 수 있고, 여러 방면에서 바라볼 수 있습니다.

여러분이 그런 에일리어싱이 발생하지 않는 입력 대역폭을 제한할 수 없다면, 다른 방식으로 문제를 해결하세요. 어차피 발생하게 되는 에일리어싱 요소가 초음파 주파수 대역에서 발생하도록 하고 나서, 단순한 원폴 저역패스필터로 효과적으로 다룰 수 있게 하는 것입니다. 이 점이 바로 '오버샘플링'이라는 항목이 필요한 곳입니다. 전체 청감 오디오 신호에 대한 샘플링 주파수는 적어도 40KHz는 되어야 합니다. 이는 보통의 사람들이 들을 수 있는 제한치인 이론적인 가청주파수 20KHz에 대한 값이죠. 이 샘플링 주파수 40KHz보다 아주 높게 샘플링 하는 것을 '오버샘플링'이라고 합니다. 지난 짧은 몇 해 동안, 우리는 표준 CD 시스템에서의 44.1KHz과 프로음향 세계에서 거의 표준이 되어버린 48KHz정도 수준에 비해 8배 내지는 16배까지 오버샘플링해서 350KHz와 700KHz정도까지 샘플링 주파수가 올라가는 것을 보고 있습니다. 이러한 높은 샘플링 주파수에서는 더 이상 에일리어싱 이슈는 문제가 되지 않습니다. (역; 왜냐하면 에일리어싱 주파수는 샘플링 주파수보다 높은 주파수가 되는데 샘플링 주파수 자체가 높기 때문에 이에 의해 발생하는 에일리어싱 주파수는 이보다 한참 더 높게 되어서 저역패스 필터로 제거하기 아주 쉽기 때문입니다)

좋습니다. 그럼 오디오 신호는 샘플링 주파수를 충분히 높게 가져가면 에일리어싱 효과 없이 디지털 워드(디지털화)로 어떠한 정보의 손실도 없이 변환될 수 있습니다. 이게 어떤 식으로 될까요?

Quantization 양자화

양자화는 비트나 기본 전압의 개수에 의해 정해지는 숫자로 정해지는 값이 현재 샘플링 된 신호의 원래 값에 가장 가까운 값이 무엇인지를 정하는 과정입니다. 즉, 여러분이 해당 샘플의 크기에 대한 개수를 정하는 것입니다. 이러한 정의에 의해 양자화는 두 가지 값 사이에서 결정하는 과정으로 이어지게 되고 이 과정에서 반드시 항상 에러가 발생합니다. 에러가 얼마나 큰가, 얼마나 원래 값에 비슷한가 하는 점은 비트의 수에 달려 있습니다. 더 많은 비트를 써서 나타낸다면 더 좋은 결과를 가져옵니다. A/D 변환기는 2n에 의해 나누어지는 기준 전압을 가지고 있습니다. 여기에서 n은 비트의 개수입니다. 각 파트는 동일한 값을 의미합니다. 문제는 이보다 더 작은 값으로는 해당 신호의 크기를 표시할 수 없기 때문에 에러가 발생한다는 점입니다. 즉 변환 과정에는 항상 에러가 있는 거죠. 이게 바로 정밀도 이슈입니다.

그림 3. 8비트 해상도

비트의 수(역; 몇 비트짜리냐 하는)는 변환 정밀도를 정의합니다. 8비트 경우에는 28 = 256 즉, 256단계로 가능한 레벨을 나눌 수 있습니다.(그림3 참조) 신호는 음, 양으로 오르락 내리락 하기 때문에 음, 양 각 단계에서 128단계씩 존재하게 됩니다. 신호의 레퍼런스 전압이 ±5 V라고 가정하면,[3] 이는 각 단계(다른 말로 각 비트)는 39mV(5/128 = 0.039)가 됩니다. 따라서, 8비트 시스템은 39mV보다 더 작은 변화는 나타낼 수 없게 됩니다. 이는 최악의 경우 0.78%의 정밀도 에러가 발생한다는 것을 의미합니다. 표1에서는 16비트, 20비트, 24비트 시스템에 의해 얻을 수 있는 에러율 감소와 정밀도 향상이 얼마나 되는 비교해 볼 수 있습니다.(주의; 이 표는 단지 기준 전압을 사용하는 방법으로만 사용되는 게 아닙니다. 실제 코딩(프로그래밍)을 하는 데에는 다양한 방법이 있지만 이 표가 적용되는 기본적인 원리를 잘 나타내줍니다) 각 단계의 크기 (기준 전압을 비트수로 나타내는 동일한 구간의 개수로 나눈 결과)는 모두 같고, 이 것은 양자단위, 또는 양자 구간으로 부릅니다. 그림4 참조. 원래는 이 단계는 LSB(least significant bit)라고 하는데 가장 작은 코드 단위 비트의 값과 같기 때문입니다. 그렇지만 이는 수학적으로 처리하는 데에는 비논리적인 선택인데 그래서 좀 더 정확한 양자 단위로 대치되어 불려왔습니다.

# Bits

# Divisions 

Resolution/Div 

Max % Error 

Max PPM Error 

8 

27=128

39 mV 

0.78 

7812.00 

16 

215=32,768

153 µV 

0.003 

30.50 

20 

219=524,288

9.5 µV 

0.00019 

1.90 

24 

223=8,388,608

0.6 µV 

0.000012 

0.12 

표1. ±5 볼트 기준 전압에서의 양자화 단위

그림4. 양자화 예제 --3비트, 5V

양자화 과정에서 발생하는 에러를 양자화오류(quantizing error)라고 합니다. 앞서 언급한 것처럼 신호를 샘플링 할 때마다 에러는 반드시 발생하게 됩니다. 여기에 분명하지 않은 부분이 있는데요; 양자화에러는 완전한 최초의 오리지널 신호에 양자화 과정이 추가되면서 생기는 원하지 않는 신호로 여겨질 수 있다는 것입니다. 다음의 좋은 예를 보겠습니다. 샘플링 된 입력 신호 값을 임의의 값으로 골라 봅시다. 2볼트라고 해볼까요? 그리고 5V 레퍼런스의 3비트 시스템이 있다고 가정해봅시다. (역; 0~5V까지의 값을 3비트로 표현할 수 있는 시스템이라는 의미) 3비트는 이 레퍼런스 전압에 대해 8개(23=8)의 균등한 파트로 나눌 수 있으며 이는 그림4에서 보는 것처럼 각 단계를 0.625V로 나누게 됩니다. 이제 우리가 앞서 가정한 2V 입력신호에 대해 생각해보면 이 변환 시스템은 반드시 1.875V 또는 2.50V 둘 중 하나의 값을 골라야만 하고, 이 경우 1.875가 2.50보다 더 2V에 가깝기 때문에 최선의 선택이 될 겁니다. 이는 -0.125V의 양자화 에러를 가져옵니다. 다시 말해 양자화된 결과값은 0.125V 정도 원래 신호보다 작게 된다는 의미입니다. 만약 입력 신호값이 2.2V 라고 한다면 이때는 양자화 결과값이 2.5V가 되고 따라서 양자화 에러는 +0.3V가 되는데 이는 양자화 에러값이 0.3V가 된다는 의미입니다.

이러한 양자화 과정에서 추가되는 원하지 않는 부가적으로 발생하는 신호들이 양자화 에러 파형을 만들게 되는데 통상 이렇게 해서 변형되는 파형은 원래 신호와 전혀 상관없이 전 대역에 걸친 노이즈의 형태로 나타나게 되는데 우리는 이를 양자화 노이즈라고 부릅니다. 양자화 에러는 반드시 랜덤(무작위)하게 즉, 입력신호와 전혀 상관없는 형태로 나타나기 때문에 이를 전 대역에서 동일한 에너지를 가진 노이즈인 화이트 노이즈와 유사하게 생각해볼 수 있습니다. 이는 온도특성 노이즈와 완전히 같지는 않지만 비슷하게 볼 수 있습니다. 이때 추가된 노이즈의 에너지는 DC(0 Hz)부터 샘플링 주파수의 절반에 이르는 전체 대역에 대해 동일한 양으로 뿌려지게 됩니다. 이점이 가장 중요한 점이고, 나중에 델타-시그마에 컨버터와 이들이 사용하게 되는 극단적인 오버샘플링 방식에 대해 설명할 때 다시 살펴보게 될 것 입니다.

Successive Approximation 연속 근사

연속근사는 아날로그-디지털 컨버터 기술의 가장 초기 기술들 중 하나이면서도 가장 성공적인 기술입니다. 따라서 이 기술이 초기 디지털 오디오 혁명의 시기에 가장 기본이 되는 수단이 된 것은 놀랄만한 것이 아닙니다. 연속근사 기법은 다음에 따라오게 되는 델타-시그마 기술로 넘어가게 되는 길을 닦아 놓게 됩니다.

A/D 컨버터의 가장 핵심은 비교기(comparator)입니다. 비교기는 두 개의 입력단자로 들어오는 신호를 비교해서 둘 중의 하나를 출력단자로 내보내는 전자 회로 부품입니다. 만약 포지티브 단자로 들어오는 신호의 크기가 네거티브 단자로 들어오는 신호보다 크다면 출력 단자로 나가는 신호는 포지티브 단자 쪽 신호가 됩니다. 만약 네거티브 입력단자로 들어오는 신호가 다른 쪽보다 크다면 출력단자의 신호는 네거티브 단자의 신호가 됩니다. 따라서 한쪽 입력단자에 기준 전압을 가지는 신호를 넣고, 다른 입력단자에는 우리가 크기를 알고자 하는 모르는 신호를 넣어주면 이제 이 회로(부품)는 어느 신호가 더 큰지를 알려주는 기능을 하게 됩니다. 따라서 이 비교기는 입력신호가 기준 전압보다 높다면 여러분에게 높은 출력 ('1'이라고 할 수 있는)이라고 알려주고, 그렇지 않다면 낮은 출력('0'이라고 할 수 있는)이라고 알려주게 됩니다. 이 비교기는 그림 5A,5B에서 볼 수 있는 것처럼 연속근사 기법에서 가장 중요한 요소가 됩니다.

그림 5A. 연속 근사 예

그림 5B. 연속 근사 A/D 컨버터

연속 근사라는 이름은 데이터 변환이 어떻게 이루어지는지에 대해 가장 잘 나타내줍니다. 회로는 각각의 샘플링 신호를 검증해서 가장 근사값의 이진 값으로 표시되는 디지털 워드(여러 개의 이진수의 조합)를 만들어냅니다. 이 과정은 사용할 수 있는 비트 수만큼과 동일한 단계를 거치게 됩니다. 다시 말해, 16비트 시스템에서는 각 샘플신호마다 16단계를 거치게 됨을 의미합니다. 해당 샘플링된 아날로그 신호는 해당 코드에서 가장 큰 비트 값을 정하는 것을 시작으로 디지털 코드를 정의하기 위해 연속해서 비교를 해 나가기 시작합니다.

대니얼 샤인골드의 Analog-Digital Conversion Handbook에서는 연속 근사 기법이 어떻게 작동하는지에 대한 가장 좋은 비유를 찾아볼 수 있습니다. 그 과정은 그림 5 A에서처럼 금광에서의 광부들의 저울이나 화학실험에 쓰이는 천징저울과 정확히 같은 방식으로 동작합니다. 이러한 종류의 저울은 점차 무게가 줄어 드는 기준 저울추들을 모아서 하나의 세트로 사용하는데 이때 이 세트의 각각의 저울추는 이전 무게의 절반의 무게를 가집니다. 즉, 1그램, 1/2그램, 1/4그램…같은 식으로요.. 이제 여러분은 모르는 샘플을 하나 저울에 올려놓고는 저울 추 중에 가장 무거운 추를 맞은편에 올려놓아서 비교해 봅니다. 만약 저울추를 올렸을 때 저울이 움직인다면 그 저울추를 제거하고, 움직이지 않았다면 그대로 둡니다. 이제 다음으로 무거운 추(앞에 올린 추의 1/2무게)를 올려 놓습니다. 마찬가지로 움직이면 그 추를 내려 놓고, 움직이지 않는다면 그대로 둡니다. 이런 식으로 저울추 세트 중 가장 저울추까지 계속 진행해 나갑니다. (여러분이 마지막 저울추를 올려 놓았을 때 저울이 움직이지 않았다면, 그 이전에 가장 가벼웠던 추를 다시 올려 놓습니다. 이제 이 값이 최상의 근사값이 됩니다. 역; 마지막 값에서 둘 중의 하나를 결정하는 단계) 이제 저울 위에 놓인 저울추들의 합이 여러분이 알고자 한 샘플의 무게에 가장 가까운 값이 됩니다.

디지털 도메인에서는 우리는 이러한 예에 대해서 저울 위에 올렸다가 제거된 무게 추들은 '0'이라고, 저울 위에 남겨진 무게 추들에 대해서는 '1'이라는 값으로 정의해 볼 수 있습니다. 사실 무게 추들의 숫자와 동일한 비트 수들을 가지고 값을 모르는 샘플의 값에 대응한 디지털 워드 값을 만들어내는 거죠.

앞서 정의된 것과 같이 연속근사 기법은 각 샘플마다 이러한 과정을 되풀이 하게 됩니다. 오늘날의 기술에서도 이 기법은 시간이 상당히 소모되는 과정이고 여전히 샘플링 레이트를 느리게 하는 제한 요소가 됩니다. 그러나 이 기법으로 인해 우리는 16비트, 44.1 KHz라는 디지털 음향 세계로 들어서게 되었습니다.

PCM (Pulse Code Modulation) and PWM (Pulse Width Modulation)

데이터 변환에서의 연속근사 기법은 PCM(Pulse Code Modulation)의 한 예가 됩니다. 샘플링, 양자화 그리고 미리 정해진 길이만큼의 디지털 워드로 바꾸는 인코딩이라는 세가지 요소가 필요합니다. 반대 과정은 이 PCM코드에서 아날로그 신호를 재추출하는 과정입니다. PCM시스템의 출력은 연속된 디지털 워드들이고 이 워드의 길이는 사용할 수 있는 비트수로 정해집니다. 예를 들어 출력이 8비트 워드인지, 16비트 워드인, 20비트 워드인지 등으로 말이죠, 또한 이러한 길이의 하나의 워드는 하나의 샘플값을 나타냅니다. (역; 워드는 이진수들의 묶음을 의미합니다. 11100001, 10101010, 111100001111000…)

PWM (Pulse Width Modulation)은 꽤 단순하고, PCM과는 좀 다릅니다. 그림6을 봅시다. 일반적인 PWM시스템에서는 우리가 변환하고자 하는 아날로그 신호가 비교기의 한쪽 입력단자로 들어가게 되고, 다른 입력 단자에는 기준 전압으로 사용될 신호가 들어가는 데, 이 신호는 샘플링 주파수와 동일한 주파수를 갖는 삼각파형입니다. 이 단순한 형태의 구성을 아날로그 변환기(analog modulator)라고 부릅니다.

 

그림 6. Pulse Width Modulation (PWM)

이 변환(모듈레이션)과정을 이해하는 간단한 방법은, 입력신호 단에 0V 전압을 일정하게 유지하는 신호를 넣어보는 것입니다. 이 상태에서 출력 단자에서 나오는 출력신호는 50% 듀티사이클 (50%는 하이, 50%는 로우)을 갖는 사각파형이 됩니다. 입력이 없다면(0V라면) 출력은 안정적으로 사각파형을 유지하게 됩니다. 입력단이 0V가 아니게 되면 출력은 바로 펄스폭이 변환된(Pulse-Width Modulated) 파형이 됩니다. 0V가 아닌 입력 신호가 삼각파형의 기준전압과 비교되어서 출력 파형이 하이가 되든 로우가 되든 그 길이가 달라지게 됩니다.

예를 들어, 입력단자에 일정한 전압의 DC 신호가 들어가고 있다고 해봅시다. 이제 모든 샘플링 신호에서 기준신호인 삼각파형의 전압이 입력 신호보다 낮은 경우에는 출력신호는 로우(0)가 됩니다. 그리고 모든 샘플링 신호에서 삼각파형의 전압이 입력신호보다 높게 되면, 출력은 하이(1) 상태로 바뀌게 되고 계속 유지되게 됩니다. 따라서 삼각파형이 입력신호보다 높으면 출력은 하이가 됩니다; 다음 번 샘플링 주기에서도 삼각파형이 계속 입력신호보다 높으면 출력도 여전히 하이로 남아 있게 됩니다; 이러한 상태는 삼각파가 파형의 꼭지(정점)을 찍고 내려오기 시작할 때까지는 계속됩니다; 특별히 이 삼각파형의 전압이 입력 신호보다 더 낮게 되면 출력은 로우가 되고, 이 기준 삼각파형의 전압이 다시 입력신호보다 더 높아지기 전까지 계속 로우 상태가 됩니다.

결과적으로 펄스폭 변환 출력(Pulse-Width modulated output)은 평균시간에 대해서 정확한 입력신호의 전압을 알려줍니다. 예를 들어 전체 샘플링 시간의 50% 동안 5V전압이 나오고, 나머지 50%의 시간동안 0V 전압을 내보내준다면, 출력 신호의 평균 전압은 2.5V가 될 것 입니다.

이는 또한 대부분의 D클래스 스위칭 방식의 파워앰프의 가장 중요한 핵심 동작 원리가 됩니다. 아날로그 입력 신호는 출력 신호를 스위칭하는 트랜지스터를 동작시키는 목적으로 사용되는 다양한 길이의 pulse-width 스트림 형태로 변환됩니다. 아날로그 출력 전압은 간단히 포지티브와 네거티브 출력을 켜는 on 시간에 대한 평균 값이 됩니다. 이는 기준 삼각파형 신호를 가지는 단순한 비교기에서 나오는 것 치고는 정말 놀라운 기능이죠.

이를 다른 방식으로 살펴보자면 이 간단한 장치(비교기)는 사실 1비트짜리 정보를 계속 코딩하게 됩니다. 다시 말하자면 비교기는 1비트 A/D 컨버터라는 겁니다. PWM은 1비트 A/D 인코딩시스템의 하나의 예입니다. 그리고 1비트 A/D인코더는 델타-시그마 모듈레이션의 핵심 요소가 됩니다.

Delta-Sigma Modulation & Noise Shaping

델타-시그마 변환 & 노이즈 쉐이핑

거의 30년이나 지난 후에서야 델타-시그마 변환(또는 시그마-델타{[4])이 최근에서야 가장 성공적인 오디오 A/D 변환 기술로 등장하고 있습니다. 이 기술은 반도체 업계가 아날로그와 디지털 회로를 동일 IC 칩에 통합하는데 필요한 기술을 개발할 때까지 끈기 있게 기다려왔습니다. 오늘날의 아주 빠른 처리속도의 혼합 신호(mixed-signal) IC 처리 기술은 상당 양의 델타-시그마 데이터 변환처리 장치를 만드는 데 필요한 모든 회로 부품과 요소들을 모두 하나의 칩 위에 통합할 수 있게 했습니다.[5]

이 이름이 어떻게 생겼는지에 알아보는 건 꽤 흥미롭습니다. 비교기의 동작원리를 살펴보는 다른 설명은, 앞서 설명한 방식으로 생성된 1비트짜리 정보가 출력 신호의 전압이 입력 신호의 변환을 기준으로 해서 어떤 쪽으로 움직이게 할지를 말해줄 수 있다는 것입니다. 이 비교기는 들어오는 입력 신호를 계속 살펴보고 입력 신호를 바로 직전 샘플링 신호와 비교해서 새로 들어온 신호가 이전 신호에 비해 더 큰지, 작은지를 비교합니다. 이게 바로 정보의 전달입니다; 더 큰지 작은지, 증가하는지 감소하는지에 대한 정보 말이죠. 만약 이 입력신호가 이전보다 크다면 비교기는 출력 신호가 계속 증가하라고 알려주고, 만약 입력신호가 이전 신호보다 작다면 출력 신호가 증가하는 것을 멈추고 감소하기 시작하라고 알려줍니다. 이는 단순히 변화(입력 신호)에 대한 반응(출력 신호)일 뿐이죠. 수학자들은 이러한 작은 편차나 변화 값들에 대해 델타(delta, Δ)라는 그리스 문자를 기호로 사용합니다. 바로 이러한 특성이 이 과정에 대한 이름이 '델타 변환'이라고 붙여지게 되었는지를 말해줍니다. (역; 델타변환은 입력 신호에 대한 변화 값을 출력에 적용하게 되는 과정이기 때문입니다.) '시그마'라는 이름은 델타 변환을 수행하기 이전에 디지털 출력과 함께 신호를 더하고 적분하는 과정으로부터 얻어지는 아주 중요한 성능 향상에 대한 부분에서 나오게 되었습니다. 이에 대해서 수학자들은 더한 다는 의미가 필요할 때는 그리스 문자 중에 시그마(Sigma, Σ) 라는 기호를 사용합니다. 따라서 '델타-시그마'는 실제 동작 방식에서 나온 아주 자연스러운 이름이 되었습니다.

델타-시그마 변환은 오디오 신호를 아주 낮은 해상도(1비트짜리) A/D 컨버터를 아주 높은 샘플링 주기에 맞춰서 디지털 화 합니다. 이게 바로 오버샘플링 비율이 되고, 시그마 변환이 없는 단순한 델타 변환과정과는 구분이 되는 디지털 프로세싱이 됩니다.

양자화 에러에 대해 앞서 언급했던 내용을 참조해보면, 이상적인 사인파형에 대한 n이라고 정의할 수 있는 특정 비트 수를 갖는 A/D 컨버터의 신호대잡음비(S/N비)를 계산해 보는 것은 가능합니다. (실제로는 신호대에러 비율이지만 우리가 논의하고자 하는 목적에서는 두 항목을 같이 봐도 괜찮을 것 같습니다.) 수학적인 계산을 좀 해보면 다음과 같은 내용을 알 수 있습니다. 최대 입력 신호 크기에 연관되어 이 신호에서 얻는 양자화 노이즈(S/N비)는 이상적인 사인파형에 대해서는 6.02n+1.76dB라고 알려져 있습니다. 예를 들어, 이상적인 16비트 시스템에서 얻을 수 있는 S/N비는 98.1dB가 됩니다. 그러면 우리가 앞서 언급한 1비트짜리 아주 낮은 해상도의 A/D 컨버터에서의 S/N비도 계산해 볼 수가 있는데 이는 7.78dB뿐이 되지 않음을 알 수 있습니다.

이에 대해 직관적인 감으로 뭔가를 유추해보기 위해서, 1비트짜리 시스템을 가정해 봅시다. 그러면 양자화 과정에 발생 가능한 에러의 최대값은 1/2비트가 됩니다. 이는 다시 말하자면 이 컨버터는 1비트짜리이기 때문에 값을 선택할 때 최대값(1) 아니면 최소값(0) 둘 중 하나만 취할 수 있다는 의미이기 때문에 어떠한 경우에도 에러는 최대 1비트의 절반이 될 수 있을 것입니다. 이는 S/N비(신호대 에러비)가 2:1 정도로 감소 시킨다는 것을 알 수 있고, 이는 6dB정도에 해당합니다.

누군가 델타-시그마 컨버터에 대한 다른 모든 것들 위에 정말 빛나는 진리를 추가해서 이 컨버터가 최고의 오디오 컨버터가 되도록 만들었습니다.;바로 단순함입니다. 1비트 기법의 단순함은 변환 과정을 아주 빠르게 만들었고, 이 아주 빠른 변환 과정은 아주 극단적인 오버샘플링이 가능하도록 해주었습니다. 그리고 이 극단적인 오버샘플링은 양자화 노이즈들과 앨리어싱과 같은 디지털화에서 발생하는 부작용들을 저 멀리 보내버렸는데, 여기서는 아주 쉽게 디지털필터를 써서 제거할 수 있게 해주었습니다. (일반적으로 64배 정도의 오버샘플링이 쓰이는데, 이는 샘플링 주파수를 대략 3MHz정도 대역까지 밀어 올리게 됩니다.)

오버샘플링이 어떻게 가청 주파수 대역에서의 양자화 노이즈를 감쇄하게 되는지 좀 더 잘 이해하기 위해서는, 노이즈 파워라는 점에 대해 생각해 볼 필요가 있습니다. 여러분은 학창 시절의 물리시간에 에너지(파워, 전력 등등)는 보존된다는 것을 배웠을 것입니다. 다시 말하자면 우리는 이 파워의 형태를 바꿀 수는 있지만, 새로 만들거나 없앨 수는 없습니다. 자, 양자화 노이즈의 파워도 비슷합니다. 오버샘플링을 함으로 원래 신호의 주파수 밴드보다 훨씬 넓게 오버샘플링 비율만큼 신호의 밴드가 넓어지게 되는 데, 따라서 양자화 노이즈 파워도 이 넓어진 밴드 전체로 퍼지게 됩니다. 예를 들어 64배짜리 오버샘플링 이라면 노이즈 파워는 64배 더 넓은 주파수 밴드로 퍼지게 되고, 가청 주파수 밴드에서의 노이즈 파워는 1/64 만큼 줄어들게 됩니다. 그림 7A-E까지를 보면 오버샘플링으로 인해 재구성되고 감소되는 노이즈파워에 대한 그림과, 노이즈 쉐이핑, 디지털 필터링 등을 알 수 있습니다.

노이즈 쉐이핑은 가청 주파수 내의 노이즈를 감소시키는 데에 도움을 줍니다. 오버샘플링을 하면 노이즈를 밀어내기는 하지만, 전 밴드에서 동일한 레벨로 퍼지게 됩니다. 즉 스펙트럼 측면에서는 여전히 플랫인 상태인거죠. 노이즈 쉐이핑은 이 플랫인 상태를 바꿉니다. 노이즈 쉐이핑은 아주 똑똑하고 복잡한 알고리즘과 회로를 사용해서 노이즈의 형태를 바꾸어서 가청 주파수 대역에서는 노이즈 레벨을 줄이고 여기서 줄어든 에너지를 비가청 주파수 대역으로 보내서 그쪽에서의 노이즈 레벨을 늘이게 됩니다.여전히 에너지 보존 법칙은 유효하고 전체 노이즈 파워는 동일합니다. 그러나 가청 밴드에서 존재하는 노이즈의 양은 감소되고, 동시에 가청 밴드 외부에서의 노이즈 레벨은 커지게 되고, 이런 상태에서 디지털 필터를 사용해서 비가청 주파수 대역의 노이즈 전체를 제거합니다. 아주 깔끔하죠.

그림8에서 보는 것처럼, 델타-시그마 모듈레이터는 세가지 요소로 이루어져 있습니다. 아날로그 모듈레이터, 디지털 필터, 부호화 회로 입니다. 아날로그 모듈레이터는 앞서 설명한 것과 같이 델타 변환이 이루어지기 전에 아날로그 신호에 대한 적분기가 있는 1비트 컨버터입니다.(아날로그 신호를 적분하는 것은 아날로그 신호 자체를 변경하는 게 아니라 코딩이 되는 것이고 이는 일반적인 델타 변환 같은 것입니다) 오버샘플링과 노이즈 쉐이핑은 엘리어싱이나 양자화 노이즈 등의 온갖 나쁜 부산물들을 앞서 설명한 방식으로 줄이고 변형시킨 후에 디지털 필터가 비가청 대역에서 이 것들을 제거하게 됩니다. 부호화 회로는 디지털 회로인데 시스템에서 정해진 대로 16,20,24비트등의 형태로 디지털 워드를 만들어서 원하는 출력 샘플 주파수에 맞춰 저장합니다. 이렇게 디지털 샘플링 비율을 감소하게 되는데 이를 digital sample rate reduction filter라고 부르고 때로는 오버샘플링과 반대되는 개념으로 '다운샘플링,downsampling'이라고 하는데, 이 파트에서 64배 빨라진 샘플링 데이터가 일반적인 CD와 같은 44.1KHz나 혹은 오디오 업계에서 사용하는 48KHz, 96KHz와 같은 비율로 되돌려지기 때문입니다. 최종 결과는 더 좋은 해상도와 더 넓은 다이내믹 레인지, 증가된 S/N비, 연속 근사 기법에 비해 더 적은 디스토션 등을 얻게 되는데, 이 모든 것이 저렴한 가격으로 구현 가능하게 됩니다.

Figure 8. Delta-Sigma A/D Converter

Dither -- Not All Noise Is Bad [6]

디더 – 항상 모든 노이즈가 나쁜 것은 아니다[6]

이제 오버샘플링의 도움으로 나쁜 노이즈를 날려보내게 되었습니다. 그럼 좋은 노이즈를 추가해 보겠습니다. – 이게 디더 노이즈입니다.

디더(dither)가 뭘까요? 좀 웃기는 발음의 단어라는건 제쳐 놓고, 이 디더가 무엇을 하는가를 보면 놀랍도록 정확한 선택이라는 점을 알게 됩니다. 'dither'라는 단어는 12세기 영어에서의 '떨다'라는 의미에서 파생되었습니다. 오늘날 이 단어는 불분명한 불안한 상태에 있거나 아직 어떤 행동을 할지 결정하지 못한 불안한 상태를 의미합니다. 이제 여러분이 이 의미를 생각하며 보면, 이 단어는 노이즈를 묘사하는데 나쁘지 않네요.

디더는 생활 중에서 자주 다뤄지는 거래들 중 하나입니다. 여기에서의 거래 내용은 노이즈와 해상도 사이에서 이루집니다. 믿든지 말든지, 우리는 디더(노이즈 형태)를 가져와서 아주 작은 값을 다룰 때 나오는 문제를 해결하는 우리의 능력을 향상 시킬 것입니다. 사실 우리가 가진 가장 작은 비트 값보다 작은 값들이 아주 좋은 적용 대상이 됩니다. 아마도 여러분은 이 디더와 안티락 브레이크 시스템 사이의 유사점을 발견해서 그 컨셉을 짐작하기 시작했을 것 같네요. 그런가요?

그렇지 않다고요? 좋아요. 여기 이 유사점이 어떻게 작동하는지 봅시다. 일반적인 브레이크 시스템에서는 여러분이 만약 그냥 브레이크를 꽉 밟으면 차에 안전하지 않은 도로에 미끄러지는 스키드 상황을 만들 수도 있습니다. 좋은 생각이 아니지요. 대신에 여러분이 브레이크를 아주 빠르게 짧게 밟으면 여러분은 차가 미끄러지지 않고 멈추도록 통제할 수 있을겁니다. 우리는 이러한 상황을 '브레이크를 디더링 한다'라고 부를 겁니다. "우리가 한건 노이즈(탭핑)를 아주 빠르게 바이너리(온 또는 오프) 동작 하도록 하는겁니다."??

따라서, 우리가 아날로그 신호를 '탭핑'하면, 우리는 이 아날로그 신호를 분석하는 능력을 향상 시킬수 있습니다. 노이즈를 추가해서 컨버터의 출력이 두 개의 양자화 레벨 중 어떤 상태도 정확하지 않는 경우에 두 레벨 중 하나를 바로 선택하지 않고 두 개의 레벨 사이를 빠르게 변하도록 하는 거죠. 음향적으로는 이러한 방식은 불연속적인 에러 상태로 나타나는 것보다 노이즈로 나타나게 됩니다. (역; 디지털 도메인에서의 이러한 불연속인 에러 상태는 심각한 디지털 노이즈로 나타나게 됩니다) 주관적으로 볼 때, 디스토션으로 인지하게 되는 것이 이제는 노이즈로 들리게 되는거죠.

이 점에 대해서 좀 더 자세히 살펴봅시다. 디더가 도움이 될 수 있는 경우는 컨버터가 각각의 데이터 비트마다 둘 중의 하나의 값(0 또는 1)중 하나를 골라야만 하는 상황에서 발생하게 되는 양자화 에러에 대해서 입니다. 이 컨버터의 출력이 레벨들 사이의 값을 선택을 할 수는 없고, 반드시 특정 레벨 들 중에서 선택해야만 합니다. 16비트 시스템에서 고주파 대역에서의 낮은 레벨 신호에 대한 디지털파형은 겨우 몇 계단만 가지는 아주 거친 형태의 계단처럼 보입니다. 이러한 디지털 파형에 대해서 주파수 분석기로 살펴보면 아주 거친 사운드 디스토션이 많다는 것을 알 수 있습니다. 우리는 이러한 파형에 대해 비트수를 더 늘리거나 아니면 디더 노이즈를 추가해서 개선할 수 있습니다. 1997년 이전에는 더 나은 해상도를 얻기 위해 비트수를 더 추가하는 것이 바로 직접적인 개선책이었으나 비용이 많이 들었기 때문에 디더 노이즈를 만드는 것이 덜 비용이 드는 타협책이었습니다. ; 그러나 오늘날에는 그 효용성을 잃어가고 있지요.

디더 노이즈가 디지털로 변환이 되기 이전의 낮은 레벨의 신호에 추가됩니다. 이렇게 혼합이 된 노이즈는 원래의 낮은 레벨의 신호의 크기를 어느 정도 크게 해서 이제 컨버터가 이 혼합 신호를 디지털로 변환할 때, 어느 특정 두 레벨 중 하나를 선택하는 것이 아니라 이 두 레벨값이 사이를 빠르게 왔다가하며 선택하도록 합니다. 이제 디지털화 된 파형은 여전히 거친 계단 형태이기는 하지만 각 계단은 부드럽게 되는 형태 대신에 베네치아 형식의 버티컬 블라인드 형태의 아주 좁은 스트립 라인 모양을 갖게 됩니다. 이 파형에 대한 주파수 분석기는 거의 어떠한 디스토션도 보여주지 않습니다.

그림 9. A. Input Signal. B. Output Signal [no dither]. C. Total Error Signal [no dither]. D. Power Spectrum of Output Signal [no dither]. E. Input Signal. F. Output Signal [with dither]. G. Total Error Signal [with dither]. H. Power Spectum of Output Signal [with dither]. [8]

Life After 16 -- A Little Bit Sweeter

현재(글이 쓰여지던 당시)의 디지털 레코딩의 표준은 16비트시스템이고, 아직은 모든 종류의 시스템에 대해서 16비트 기술이 기본이 된다고 말할 수 있습니다. 시스템을 업그레이드 할만한 능력이 있는 사람들은 20비트나 24비트 컨버터를 사용하고, (임시로 DVD-audio가 일상화 될때까지) 16비트로 디더링하고 있습니다.

20비트를 사용해서 얻게 되는 것들은:

  • 24 dB more dynamic range
  • 24dB 향상된 다이나믹 레인지
  • 24 dB less residual noise
  • 24dB 줄어드는 노이즈
  • 16:1 reduction in quantization error
  • 16:1의 비율로 줄어드는 양자화 에러
  • Improved jitter (timing stability) performance
  • 타이밍이 향상되어 얻는 지터 특성

만약 24비트라면 24dB 더 향상되고 256:1의 비율로 줄어드는 양자화 에러에 지터가 거의 발생하지 않는 효과를 더 얻게 될 것입니다.

이 문서의 서두에 언급했던거처럼, 오늘날의 아날로그-디지털-아날로그 변환 기술은 어떤 장비의 음질을 결정하는 요소가 되고, 이게 완벽하게 이루어지지 않는 다면, 다음에 따라오는 모든 것들은 성능에 대해서 어느정도 타협을 하게 됩니다.

20비트 고해상도 변환에서는 낮은 레벨의 신호에 대해서도 상세한 해상도를 얻을 수 있습니다. 이러한 해상도의 향상은 낮은 레벨 신호의 양자화 에러를 줄여주어서 잘 드러나게 됩니다. 특정 상황에서는 이러한 양자화 에러들이 데이터가 변환될 때 청감 대역에서 원래 신호에는 없던 하모닉스를 만들어 낼 수도 있습니다. 이러한 양자화 에러의 청감 특성은 일반적인 아날로그 신호에서의 디스토션보다 훨씬 더 심각하게 되고 이는 'granulation noise'라고 불리우기도 합니다. 20비트 시스템은 이러한 granulation 노이즈를 제거해 줍니다. 일반적으로 이러한 상황의 예는 음악적인 페이딩 인데 예를 들면 리버브의 잔향, 심벌즈의 마지막 감쇄 등 입니다. 이러한 상황에서 16비트만으로 작업을 하게 되면 사운드가 부드럽게 페이딩 되지 않고 노이즈들이 뭉쳐서 깨지는 듯 들리게 됩니다.

가장 중요한 점은 아주 작은 신호를 측정할 때입니다. 큰 신호를 측정할 때는 그다지 큰 차이점이 없습니다. 만약 여러분이 인치 단위로 측정할 수 있는 자를 가지고 10피트(120인치)를 측정한다면, 1/2인치 정도의 오차로 잴 수 있을 겁니다. 뭐 큰 차이는 아니죠. 하지만 여러분이 만약 채 1인치가 되지 않는 길이를 잰다면 역시 1/2정도의 오차가 발생할 것이고 이제는 아주 큰 정밀도 문제에 직면하게 될 것입니다. 바로 이게 아주 작은 오디오 신호를 디지털변환 할 때 발생하게 되는 문제입니다. 우리가 가진 오디오 신호에 대한 디지털 자를 정밀하게 만든다는 것은 우리가 더 작은 신호 레벨을 더 정밀하게 분석할 수 있다는 것이며, 이는 우리가 음악적으로 더 디테일한 부분을 잡아낼 수 있다는 것을 의미합니다. 정확한 답을 얻으면 음악을 재생할 때 더 나은 결과를 얻게 됩니다.

A/D Converter Measuring Bandwidth Note

A/D 컨버터 측정 대역폭 주의사항

델타-시그마 컨버터의 오버샘플링과 노이즈 쉐이핑 특성으로 인해, 신호를 측정할 때는 적절한 대역폭을 사용해야만 하고 그렇지 않으면 정확하지 않는 결과값을 얻게 됩니다. 잘못된 대역폭을 사용해서 측정하면 s/n, 다이내믹 레인지, 디스토션과 같은 특성 값들에서 오류가 발생합니다. 노이즈 쉐이핑 기법은 노이즈를 들을 수 없는 고주파대역으로 의도적으로 이동시켜서 가청대역에서의 노이즈를 줄이기 때문에 특성을 측정할 때, 20KHz 이상되는 더 넓은 대역을 대상으로 측정하게 되면 실제 듣게 되는 가청 대역에서의 특성과 관련이 없는 결과를 얻게 됩니다. 따라서 의미있는 데이터를 얻기 위해 정확한 측정 대역을 설정하는 것이 중요합니다.

Footnotes / References

1 Nyquist, Harry, "Certain topics in Telegraph Transmission Theory," published in 1928.

2 See Clive Maxfield's book Bebob to the Boolean Boogie (HighText ISBN 1-878707-22-1, Solana Beach, CA, 1995) for the best treatment around.

3 A single +5 V supply is probably more common today, but this illustrates the point.

4 The name delta-sigma modulation was coined by Inose and Yasuda at the University of Tokyo in 1962, but due to a translation misunderstanding, words were interchanged and taken to be sigma-delta. Both names are still used, but only delta-sigma is actually correct.

5 Leung, K., et al., "A 120 dB dynamic Range, 96 kHz, Stereo 24-bit Analog-to-Digital Converter," presented at the 102nd Convention of the Audio Engineering Society, Munich, March 22-25, 1997.

6 This section is included because of the confusing surrounding the term. However, it is noted that with the truly astonishing advances made in A/D converter resolution technology of the past two years, the need for dither in A/D converters has essentially disappeared, making this section more of historical interest. Dither is still necessary for word-length reduction in other digital processing.

7 Thanks to Bob Moses, Island Digital Media Group, for this great analogy.

8 From Pohlmann, Principles of Digital Audio, 3rd ed., p.44.

9 Historical Footnote: The reason the British divided up the pound into 16 ounces is not as arbitrary as some might suspect, but, rather, was done with great calculation and foresightedness. At the time, you see, technology had advanced to where 4-bit systems were really quite the thing. And, of course, 4-bits allows you to divide things up into 16 different values (since 24 = 16). So one pound was divided up into 16 equal parts called "ounces," for reasons to be explained at another time. Similarly, the roots of a common American money term come from a simple 3-bit system. A 3-bit system allows eight values (since 23 = 8), so if you divide up a dollar into eight parts, each part is, of course, 12.5 cents. Therefore you would call two parts (or two-bits, as we Americans say) a "quarter" ... obvious.

  1. Candy, James C. and Gabor c. Temes, eds. Oversampling Delta-Sigma Data Converters: Theory, Design, and Simulation (IEEE Press ISBN 0-87942-285-8, NY, 1992).
  2. "Delta Sigma A/D Conversion Technique Overview," Application Note AN 10 (Crystal Semiconductor Corporation, TX, 1989).
  3. Pohlmann, Ken C. Advanced Digital Audio (Sams ISBN 0-672-22768-1, IN, 1991).
  4. Pohlmann, Ken C. Principles of Digital Audio, 3rd ed. (McGraw Hill ISBN 0-07-050469-5, NY, 1995).
  5. Sheingold, Daniel H., ed. Analog-Digital Conversion Handbook, 3rd ed. (Prentice-Hall ISBN 0-13-032848-0, NJ, 1986).
  6. "Sigma-Delta ADCs and DACs," 1993 Applications Reference Manual (Analog Devices, MA, 1993).
  7. The American Heritage Dictionary of the English Language, 3rd ed. (Houghton Miffin ISBN 0-395-44895-6, Boston, 1992).
  8. Watkinson, John. The Art of Digital Audio, 2nd ed. (Focal Press, ISBN 0-240-51320-7, Oxford, England, 1994).

"Digital Dharma of Audio A/D Converters" This note in PDF.

Translated by YUNSONG SIM (WAVE SIM)

BLOG : soundoflife.tistory.com

WEB Site : www.hajuso.com