연구모임활동
[어싱크(Async)] 세상 모든 소리를 만들어낼 생성 AI 개발
2023.05.31
본문
IT기자 공부모임인 '어싱크(Async)'가 지난 5월 31일 두번째 모임을 가졌습니다. 연구모임(간사: 임민철 아주경제 차장)에서 제공한 강의 내용을 공유합니다.
□ 주제 : 세상 모든 소리를 만들어낼 생성 AI 개발
□ 강사 : 전상배 가우디오랩 최고과학책임자(CSO)
<어싱크 연구모임 회원들이 전상배 가우디오랩 CSO의 강의를 듣고 있는 모습>
최근 ‘인공지능’이란 단어는 기계에 사람처럼 말하고 글 쓰게 하는 능력을 부여하는 기술과 거의 동의어로 취급됩니다. 혹은 기계가 사람처럼 그림을 그리거나 사진을 합성하는 재주를 떠올리게 합니다. 이는 인간의 ‘오감’ 가운데 주로 시각을 통해 처리되는 정보를 기계로 대신하는 기술의 영역입니다. 단일 매체(monomedia) 기술이라고 할까요? 기술 발전의 의미가 단순한 능력에서 시작해 점점 더 복잡한 수준으로 나아가는 것이라고 본다면, 인공지능 기술도 단일 매체가 아니라 다중 매체, 즉 멀티미디어(multimedia)를 다루는 방향으로 나아가야 발전한다고 할 수 있겠죠. 인공지능이 멀티미디어를 다루기 위해 우선 필요한 요소는 시각 외에도 인간이 받아들이는 오감 가운데 비중이 큰 청각 능력일 것입니다. 시각을 통해 처리할 수 있는 정보가 사물의 이미지나 언어를 나타내는 글자 등으로 나뉘듯이, 청각으로 처리되는 정보 또한 사물의 소리와 언어를 담은 음성 등으로 세분화합니다.
여기에 사물과 공간의 ‘소리’에 목숨을 걸었다고 자처하는 인공지능 회사가 있네요. ‘가우디오랩’입니다. 2015년경 가상현실(VR)이라는 멀티미디어 최전선의 신흥 영역이 주목받을 무렵에 창업했죠. VR 콘텐츠나 플랫폼에 필요한 입체적이고 실감나는 음향, 소리를 구현하는 방법을 연구해 왔다고 해요. 이 분야에 인공지능 기술을 접목하기 시작한 게 2019년 말, 2020년 초부터입니다. 설립 이래 오디오 분야 연구로 각국에서 수십 개 특허를 확보했고 최근 3년 가량 지속해서 인공지능 연구 인력을 충원하면서 오디오 생성 인공지능 분야를 선도하고 있죠. '어싱크' 회원들은 5월 31일 저녁 가우디오랩의 전상배 최고과학책임자(CSO)를 강연자로 초청해 오디오 영역에 초점을 맞춘 생성 인공지능 기술 동향을 짚어봤습니다.
기자나 일반인이 접하는 생성 인공지능 기술은 대부분 어떤 조건이나 정보가 주어지면 그에 맞게 생성 작업을 수행하고 만들어진 결과물을 이용자에게 되돌려주는 응용 서비스입니다. 이 생성 작업을 실제로 수행하는 부분을 생성 모델이라고 부릅니다.
전상배 CSO는 생성 모델의 개념을 설명하는 것부터 시작했습니다. 주어진 조건이나 정보로 분류나 예측을 수행하는 인공지능은 ‘판별(discriminative) 모델’이라고 합니다. 개나 고양이의 사진에서 둘의 차이점을 학습하고, 이후 네 발 동물 사진을 보고 ‘개’와 ‘고양이’로 분류하는 것이 대표적이죠. 반대로 주어진 정보를 ‘일반화’하고 유사한 결과물을 만들어내는 인공지능이 바로 ‘생성(generative) 모델’이라고 하고요. 대상의 공통점을 학습하고, 이후 개나 고양이 그림을 그려 달라고 하면 앞서 학습한 이미지에서 개나 고양이의 특징을 뽑아 흉내낸 결과물을 보여주는 것입니다.
오디오는 사람의 말소리인 ‘음성’, 곡과 가사로 구성된 ‘음악’, 이 둘을 제외한 나머지 소리로 구분합니다. 오디오 인공지능을 개발할 때 이 셋 중 무엇을 다루는가에 따라 별개의 이론과 기술이 개발되고 있죠. 우선 음성 언어 처리(Speech Processing) 영역을 보면, 말소리를 기계로 인식해 글자로 바꿔 주는 ‘자동 음성 인식(ASR)’과 그 반대로 기계가 텍스트로 표기된 언어를 말소리로 바꿔 주는 ‘음성 합성(TTS)’ 분야가 있네요. 녹음되거나 합성한 말소리의 특징을 바꿔 주는 ‘스타일 전이(Style Transfer)’ 분야도 있고요. TTS와 스타일 전이를 위해 오디오 생성 모델을 활용할 수 있어요.
음악 처리(Music Processing) 영역은 좀 생소한데요. 크게 노래의 가사, 가수의 발성, 악기 소리의 특징을 텍스트와 부호로 나타낸 미디(MIDI) 정보를 오디오로 만드는 ‘가창 음성 생성(Singing Voice Generation)’ 및 ‘악기 음원 합성(Instrument Sound Synthesis)’ 분야가 있어요. 거꾸로 음악 소리에서 각 구성요소를 인식, 추출하거나 청자의 ‘취향’과 같은 특징을 인식해 다른 음악을 추천하는 기술도 있고요. 가창 음성 생성과 악기 음원 합성 모두 생성 모델을 활용할 수 있습니다. 그리고 노랫말 텍스트와 MIDI 정보를 갖고 자동 작곡을 한다든지, 음악 소리에 맞춘 반주 생성(Accompaniment Generation) 기술에도 생성 모델이 적용되죠.
말소리와 음악을 뺀 나머지 일상적 사물과 공간 소리도 음원 처리(Sound Processing)라는 분야로 연구됩니다. 생성 모델에 텍스트로 사물이나 공간에 대한 정보를 입력해서 그에 맞는 소리를 만들어내는 것이 ‘효과음 생성(Effect Generation)’이죠. 녹음했거나 합성한 소리에서 잡음을 걸러내고 용도에 맞는 소리를 더 뚜렷하게 들리도록 만들 수도 있고요.
작곡과 연주를 위해 이미 존재했던 데이터인 MIDI와 텍스트 정보(이것을 뭉뚱그려 ‘Sound Symbolic Representation’이라고 함)로 소리를 만들어내는 방법이 비교적 오래 전부터 연구돼 왔고 기술적 난도가 낮은 편입니다. 그런데 최근 생성 인공지능 기술이 발전해 음악, 음향과 무관한 정보로 소리를 만들 수 있게 됐다고 해요. 구글의 ‘MusicLM’은 자동으로 작곡을 하는 자기회귀 모델이고, 가우디오랩의 ‘SSG’는 효과음을 생성하는 디퓨전(Diffusion) 모델입니다.
우리말로 ‘확산’이라고 번역하는 '디퓨전'은 맑은 물에 떨어뜨린 잉크 방울이 시간 흐름에 따라 균일하게 퍼지는 움직임, 이러한 물리 현상을 뜻합니다. 과거 연구자들이 이 잉크가 퍼지는 과정을 어떤 ‘신호’가 점차 ‘노이즈’로 바뀌는 것이라고 정의하고, 어떤 시점에서 1초 전, 0.1초 전, 이런 일정 시간을 되돌렸을 때 잉크가 퍼진 상태를 예측할 수 있는 방법을 수식(알고리즘)으로 만들어 놓았다고 해요. 이 수식을 활용한 인공지능 모델로 이미지 생성을 시켜서 유명해진 것이 ‘스테이블 디퓨전’이죠. 가우디오랩은 이 디퓨전을 이용한 오디오 생성 모델(Denoising Diffusion Probabilistic Models)로 소리를 생성하는 기법을 연구했습니다. 개 짖는 소리, 총 쏘는 소리, 키보드 타이핑 소리, 오토바이 소리 등 사물을 지칭하는 텍스트를 입력해 그에 해당하는 소리를 만들 수 있게 됐죠. 여기에 기존 이미지 인식 기술을 결합해 그림 속 사물과 배경에 어울리는 소리도 들려줍니다. 지금은 정지된 장면에 맞춰 짧은 소리를 합성하는 정도지만, 조만간 여러 이미지가 연속해 만들어지는 영상 데이터에도 그에 맞는 소리를 만들어 넣을 수 있게 될 것으로 예상합니다. 가우디오랩은 이렇게 만든 소리가 영상 속에 필요한 순간에 맞물리도록 만드는 게 목표라고 하네요.
전상배 CSO는 이런 기술이 실용화하면 “영화를 찍고 나서 화면만 있으면 사운드 스튜디오에 안 가고 (오디오 제작을) 다 해줄 수 있을 것”이라면서 “전통적인 미디어인 영화나 OTT, 게임에 필요한 소리를 만들어내는 것은 쉬운 일이 아닌데 이것을 자동화한다면 생산성이 굉장히 높아질 것”이라고 내다봤습니다. 그에 따르면 지금은 한국에서 자체 영상 콘텐츠 제작이 활발한데 국내 사운드 스튜디오에 몰리는 일감을 다 소화하지 못하는 실정이고, 중국이나 다른 나라로 일이 넘어갈 정도라고 합니다. 인공지능에 일자리를 빼앗길 것을 걱정할 상황은 아니라는 것이죠. 그리고 VR 기반 실감형 메타버스나 ‘제페토’처럼 2D 스크린으로 이용하는 아바타 기반의 메타버스에서는 디지털 세계 속 상호작용에 필요한 소리를 미리 다 만들어 놓고 제공하지 못하기 때문에, 이런 기술이 훨씬 유용할 수 있다고 강조했습니다.
<어싱크 연구모임에서 전상배 가우디오랩 CSO의 강연 모습>