[어싱크(Async)] 2023년 가을의 거대 언어 모델 이슈들 > 지원사업

연구모임활동

[어싱크(Async)] 2023년 가을의 거대 언어 모델 이슈들

2023.10.27

본문

IT기자 공부모임인 '어싱크(Async)'(간사:임민철 아주경제 차장)가 10월 18일 모임을 가진 후, 연구모임 간사인 임민철 기자가 정리한 내용을 공유합니다.

□ 주제 : 2023년 가을의 거대 언어 모델 이슈들

□ 강사 : 신정규 래블업 창업자 겸 대표

<어싱크 회원들이 신정규 래블업 대표의 강의를 듣고 있다.>

2022년 11월 챗GPT 등장 이후 인공지능(AI) 기술의 핵심 기반으로 거대 언어 모델(LLM)이 주목받고 있습니다. LLM을 만들고 최적화하기 위해서는 컴퓨터의 그래픽처리장치(GPU)와 중앙처리장치(CPU), 메모리와 넓은 데이터 통로를 결합한 고성능 하드웨어 시스템이 필요한데요. 이런 시스템을 구성하고 자원을 효율적으로 배분하는 작업은 사람이 수작업으로 하기에 까다롭기 때문에 일정한 노하우가 투입된 AI 모델 개발 및 서비스용 인프라 관리 솔루션이 필요합니다. 한국의 스타트업인 래블업(Lablup)이 이러한 솔루션을 ‘백엔드닷에이아이(Backend.AI)’라는 이름으로 개발했고 삼성전자, KT, LG, CJ, 롯데, NHN클라우드, 한국은행, ETRI, TTA 등을 고객사로 확보했습니다. 일반 사용자들이 스마트폰이나 스마트홈 기기를 통해 접할 수 있는 AI 서비스 대부분이 개발되는 과정에 백엔드닷에이아이가 쓰였을 것으로 짐작할 수 있어요. 언론인 연구모임 어싱크는 10월 정기 활동에 래블업의 신정규 창업자 겸 대표를 강연자로 모셨습니다. 신 대표는 한국의 수많은 스마트 기기 사용자들에게 다가가고 있는 AI의 개발 환경에 중추적 솔루션을 제공하고 있는 래블업의 창업자로서 어싱크 회원들에게 통해 올해 3분기까지 전개된 전 세계 LLM 연구 개발 동향과 주요 흐름을 짚고 전망을 제시했어요.

“올해 여름 7~9월 사이에 언어 모델이 1만개 정도 나왔어요. 허깅 페이스에 매일 수백 개씩 올라와요. 9월 기준으로 1만5000개가 검색돼요. 여기서 사전 훈련용으로 방대한 텍스트를 입력해 처음부터 만들어낸 언어 모델은 10가지 남짓인데요. 이걸 과거 모델 훈련 방식으로 언어 (특정 주제에 맞게 다듬은) 질문과 답변 데이터 쌍을 훈련하는 걸 파인튜닝이라고 하는데, 그렇게 응용하는 모델이 100가지 정도 있어요. 이걸 사용하는 곳에서 말투를 다듬거나 조직에 필요한 수준으로 조정하는 변경을 거친 것들이 나머지 1만여 개 정도예요.”

신 대표에 따르면 LLM을 만드는 데는 방대한 지식을 주입하는 과정이 있는데 이걸 ‘사전훈련’이라고 합니다. 사람으로 치면 초등학교부터 중학교, 고등학교, 대학교까지 정규 교육 과정을 이수하게 하는 16~20년 동안의 학습에 해당하는데 그만큼 장기간과 많은 비용이 필요하다는 것이죠. 이제 취업을 해서 어떤 조직의 구성원으로 일하기 위해 받는 한달짜리 교육이 있다면 그게 ‘파인튜닝’에 해당한다고 보면 된다고 해요. 만들어진 LLM을 가져와 응용한 모델을 만드는 덴 2주 정도가 필요하고, 파인튜닝을 해서 실용성을 높이는 데는 20시간, 고가의 장비를 사용해 빠르면 4시간만에도 할 수 있다고 합니다. 이제 파인튜닝 작업은 의지에 달린 문제로 인식되기 시작했다는 설명입니다. 그리고 신 대표는 기업들이 너도 나도 LLM에 관심을 쏟게 된 배경이 단지 챗GPT와 같은 챗봇 서비스를 만들기 위해서만은 아니라고 합니다.

“LLM은 실제로 언어를 다루는 게 아닙니다. 2020년에 언어모델 개발 세계에서 특이점이 발견됐는데, 사람이 사전 처리를 하지 않고 단순히 길기만 한 문장으로 이뤄진 온갖 데이터를 훈련용으로 집어넣었고, 단순히 말을 잘 이어 가도록 훈련을 시켰어요. 그랬더니 가르치지 않은 지식을 답하고 심지어 잘 모르는 것을 지어내서까지 답하기 시작했죠. 여기서 가장 특이한 현상은 (벌어진 사건의) 이유를 찾아 내는 것(reasoning)과 인 컨텍스트 러닝(in-context learning)이라고 하는 맥락 내 동작이에요. 말을 잘 하는 모델을 만들었다는 건, 말만 잘 하는 게 아니라 답을 듣는 사람, 상대의 논리구조를 이해할 수 있는 로직을 만든 것이죠. 그래서 과거에 대부분 어렵다고 생각했던 일을 LLM으로 해결할 수 있게 됐어요. 챗봇으로 텍스트를 만들어내기만 하는 게 아니라 어떤 실행 계획을 짜고 정책을 만들고 추진하고. 유일하게 안 되는 것은 (할루시네이션이라고 불리는) ‘헛소리’를 하지 않고, 실제 세상에 맞물리도록 하는 것이죠. 언어는 일종의 규약이고 정보를 여기에 담아 보내면, 그 규약에 맞게 되돌려주는 게 LLM이라는 거예요. 작은 언어 모델은 정보 처리 용량이 작아서 안 되는데 LLM은, 예를 들어 챗GPT 모델은 2200억 파라미터로 추정된다고 하고 극단적으로 큰 모델 연구 주제를 보면 1조개 이상 파라미터를 쓴 모델도 있어요.”

신 대표는 자신이 구글의 LLM 기반 챗봇인 ‘바드’에 AI 반도체 기업 엔비디아의 분기 재무제표 이미지 파일을 보여 주고 이 기업의 수익률을 분석해 보도록 시킨 결과를 소개했습니다. 바드가 설명한 내용에서 숫자 단위에 좀 오류가 있었지만, 신 대표는 자신이 바드에 텍스트를 입력하지도 않았고, 재무제표 내용이 들어간 ‘이미지 파일’을 입력해서 그걸 분석한 결과가 상당히 정교해서 놀라웠다고 합니다. 그는 최근까지 알려진 주요 LLM 몇 가지도 소개했습니다. 올해 5월 소개된 구글의 팜2(PaLM 2)는 여타 영미권의 LLM과 달리 한국어와 일본어에 특화해 개발된 게 특징이고 올해 말 Gemini 버전이 공식 출시되면 더 개선될 것으로 보인다고 합니다. 6월 등장한 ‘팰컨 LLM’은 공개된 언어 모델 가운데 가장 많은 1800억개 파라미터를 다루는데, 기존 모델이 아랍어를 잘 처리하지 못하는 문제를 보이자 아랍에미리트에서 마이크로소프트 애저 클라우드를 이용해 아랍어, 영어 데이터를 학습해 만들었고 아무런 라이선스 제한 없이 공개한 모델로 영미권에서 반향이 컸다고 해요. 7월에는 앤트로픽이라는 회사가 엄청나게 큰 프롬프트(10만토큰)를 입력할 수 있는 ‘클로드2’를 만들어 공개했고 메타(전 페이스북)에선 상업적 용도로 쓸 수 있는 ‘라마2’를 만들어서 주목을 받았죠.

LLM은 그 규모 때문에 개발과 운영에 필요한 방대한 자원을 제공하려면 클라우드가 필수적으로 요구된다고 여겨졌는데요. 최근 들어서는 전문 분야에 AI 서비스를 활용하려는 시도와 함께 ‘좀 덜 거대한 언어 모델’을 활용하는 방법이 검토되고 있습니다. LLM으로 나타난 특이점을 반드시 활용하지 않더라도 일정 규모 이내에서 주어진 과제를 잘 해결할 수 있다면 만족할 수 있다는 판단에서죠. ‘Small Large Language Model’이라는 좀 이상한 어구를 축약한 ‘sLLM’이라는 용어가 등장한 배경입니다.

“모든 사람이 클라우드를 통해 엄청나게 큰 모델을 가져와 쓸 수 밖에 없구나 생각했는데 지금은 그렇게 생각하는 곳이 별로 없어요. 많은 곳에서 (튜닝 가능한 오픈소스 모델을) 공개했기 때문에 내가 써야 할 돈이 몇천 억에서 몇 억 수준으로 줄었죠. 스타트업 같은 곳도 언어 모델을 ‘오픈 AI만 만들 수 있는 게 아니다’ 라면서 자기네 모델을 만들어 공개하기 시작했어요. 학계에는 모델 크기가 너무 거대해서 이걸 줄이면서 기존 성능을 유지할 수 있게 만들어 보려는 시도가 있는데요. 영국에서 진행된 한 실험이 실제로 데이터를 작게 만드는 대신 고품질로 정제해 BERT 기반 모델을 훈련했더니 10억 개 파라미터 규모 모델로 100억 개 파라미터 모델 성능을 따라잡았다는 결과가 나오기도 했어요.”

신 대표는 이날 LLM을 비롯한 AI가 산업계 기술 발전 관점을 넘어 주권이나 전략 자산으로 인식되는 관점이 올초부터 급부상했고 국가와 회사 사이에도 일종의 마찰이 있다고 귀띔했습니다. 기업에 모든 것을 맡길 수 없고 정부 차원에서 필요한 전략 기술을 확보하기 위해 노력하는 움직임, 일종의 국가-기업 간 연합과 경쟁 상황도 벌어지고 있다고 하네요. 앞으로 이러한 분위기는 더욱 확대될 것 같습니다.