연구모임활동
[어싱크(Async)] 'AI 아바타'의 진화 방향
2023.08.23
본문
IT기자 공부모임인 '어싱크(Async)'(간사:임민철 아주경제 차장)가 8월 16일 모임을 가졌습니다.
연구모임 부간사인 김윤희 지디넷코리아 기자가 정리한 내용을 공유합니다.
□ 주제 : 'AI 아바타'의 진화 방향
□ 강사 : 굳갱랩스 안두경 대표, 김재철 CTO
각자의 개성을 온라인 공간에서 표현할 수 있는 '아바타' 자체는 누구나 한 번쯤 만들어본 적이 있을 겁니다. 인터넷이 확산된 초반부터 아바타 생성을 지원하는 사이트들이 많았습니다. 헤어스타일과 착장, 표정, 아바타의 한 마디 등을 편집하면서 즐거운 고민을 안긴 서비스들이 많았죠.
아바타 또한 최신 AI를 만나 급변하는 서비스 중 하나입니다. 단순한 그림에 그치는 것이 아니라 3D 형태로서 실시간으로 이용자와 연동되고, 여러 가지 비언어적 요소가 어우러져 나타나는 사람의 분위기까지 재현하는 시도가 이뤄지고 있습니다.
8월 어싱크 모임에서는 이런 기술을 전문적으로 연구하고 있는 굳갱랩스의 안두경 대표와 김재철 CTO를 만났습니다.
굳갱랩스는 사람의 영상이나 음성 또는 텍스트에 따라 실시간으로 아바타의 모습을 생성하는 AI 기반 기술인 '마리오네트 API'를 중점적으로 소개했습니다.
이런 기술을 구축하기 위해 먼저 실제 사람이 실시간 음성 및 영상을 주고받는 화상회의 과정에서 원활한 소통을 돕는 비언어적 요소들이 어떤 것인지, 각각 중요도는 어떠한지를 파악했습니다. 실제로 소통에 대한 기여도는 비언어적 요소가 70%를 차지해, 언어적 요소보다 훨씬 많은 비중을 차지한다고 합니다.
아바타의 재현도를 극대화하는 기술을 선도 중인 기업은 애플입니다. 얼굴 표정을 52개의 데이터 값으로 정의하고, 표정 변화에 따라 이 값이 바뀌는 딥러닝 모델이 업계 표준처럼 쓰이고 있는데요, 이는 애플이 정의한 규격이라고 합니다. 모바일 기기에서 애니메이션 아바타 서비스를 제공하기 위해 관련 회사를 인수하고, 이런 기술 표준을 제공하고 있습니다.
굳갱랩스도 이런 기술 표준에 따라 마리오네트 API를 구축했습니다. 이용자를 실시간으로 본뜨는 아바타를 제공하기 위해, 입력 데이터를 토대로 52개 결과값 중 알맞은 것을 택해 이미지를 생성해 내는 과정을 거칩니다. 이런 작업을 지원하는 딥러닝을 구축하기 위해 원본 데이터 32만 장, 이 데이터를 증강해 총 250만 장 규모의 데이터 셋이 쓰이고 있다고 합니다. 인종, 성별, 나이, 아바타에 맞는 적절한 배경 등을 생성하기 위해 쓰이는 자원입니다.
화상회의조차 어려운 상황에서 아바타가 원활한 소통을 지원할 방법도 모색했습니다. 문자나 음성으로 이용자를 파악해 아바타로 전달하는 '텍스트2아바타' 기능입니다. 이용자 영상 대신 이런 정보들이 AI에 입력값으로 쓰이는 거죠.
아직 메타버스 등에서 아바타로 대화를 하면, 대면 소통과 비슷한 느낌을 얻긴 어렵습니다. 굳갱랩스가 연구 중인 AI 기반 아바타 기술이 고도화되고, 활발히 상용화되는 단계에 이른다면 지금 온라인상에서 이뤄지는 아바타 간 소통의 완성도가 훨씬 높아지겠죠. 이를 위해서는 단순히 수준 높은 AI만 필요한 것이 아니라, 다양한 이용자 환경에서 문제없이 작동할 수도 있어야 합니다.
이를 위해, 입력값 원본인 영상 데이터가 아니라 메타 데이터를 전송하는 기법 등을 사용해 통신 대역 폭도 최소화했다고 합니다. 사람 얼굴이 아바타로 변환되기까지의 시간도 최소화할 뿐 아니라 일정하게 나타나도록 하는 등 상용화 준비를 하고 있다고 밝혔습니다.