[잡다(Job-多)한 Ai 연구소] Ai, 여론조사업을 대체할 수 있을까?
작성일 25.09.02
본문
'잡다(Job-多)한 Ai 연구소'는 Ai에 관심이 많은 5~8년 차 주니어 기자들이 모여 Ai가 다양한 직업군을 대체할 수 있을지에 대해 탐구하고 있습니다. 지난 8월 24일 김봉신 부대표, 이경미 과장, 유하림 대리(메타보이스)를 초청해 'Ai, 여론조사업을 대체할 수 있을까?' 주제로 강의를 들었습니다. 모임에서 제공한 내용을 공유합니다.
저장한 적 없는 번호로 전화가 걸려옵니다. 느낌이 왔어요. 혹시나 해서 받았더니 역시나입니다. 스피커 너머 저편에서 들려오는 딱딱한 기계음. 부모님보다, 친구보다 더 간절하게 내 생각을 궁금해하는 존재. 바로 여론조사 전화입니다. 중요한 선거를 앞둔 때면 더더욱 기승인데다, 꼭 한창 바쁜 시간대만 골라 어김없이 걸려오는 이 전화에 눈살이 찌푸려지기도 합니다. 하지만 우리는 사회적 동물. 중요한 결정을 내리기 전에 다른 사람들 생각이 궁금해지는 건 당연한 일입니다. 남몰래 독심술을 할 게 아니라면 공신력 있는 조사 기관에서 실시한 여론조사 결과를 참고해야겠죠. 여러 사람의 의견을 두루 물어, 데이터를 바탕으로 사회 현상을 읽어내는 일. Ai는 얼마나 해낼 수 있을까요?
1. 여론조사, 어떻게 진행될까?
잡다한 Ai 연구소는 선거뿐 아니라 다양한 사회 현안을 조사하는 여론조사업체 '메타보이스'와 만났습니다. 김봉신 부대표와 이경미 과장, 유하림 대리가 함께 챗GPT를 활용해 보았습니다.
메타보이스는 사람들의 생각을 모으는 방식을 크게 정성조사와 정량조사로 나눌 수 있다고 했습니다. 정량조사는 우리가 흔히 떠올리는 설문지·ARS 방식처럼 선택지를 제시하고 답을 수치화하는 형태입니다. 반면 정성조사는 조사자와 응답자가 직접 만나, 보다 깊이 있는 대화를 나누며 의견을 파악하죠. 여론조사는 크게 아래 네 단계로 진행됩니다.
(1) 조사 설계: 기존 조사·연구·기사·문헌 등을 바탕으로 배경지식을 확보하고, 필요한 경우 예비조사를 실시해 가설을 세웁니다.
(2) 실사 준비 및 진행: 조사 대상을 설정하고, 면접원 교육 및 질문 방식의 표준화를 진행합니다. 전화면접의 경우 무작위 감청으로 편향·부실 응답 여부를 점검하기도 합니다.
(3) 자료처리 및 분석: 통계 분석을 위한 데이터 전처리가 이루어지는 과정. 텍스트 형태로 되어있는 설문지 내 보기를 컴퓨터가 이해할 수 있는 형태로 변환하고 통계 프로그램으로 분석합니다.
(4) 보고서 작성: 분석 내용을 시각화하고, 해석을 덧붙여 한 편의 보고서로 완성합니다.
2. 신입사원 vs 챗GPT
메타보이스는 챗GPT 같은 LLM 기반 AI가 여론조사 업무에서 신입급 연구원, 혹은 전산 인력의 보조 역할을 할 만큼의 성능을 보여주었다고 평가했습니다. 특히 위 4가지 단계 중에서도 조사설계, 자료처리 및 분석, 보고서 작성 단계에서 유용했습니다.
고객의 요구사항을 바탕으로 관련 자료를 수집해서 제안서 작성을 돕는다거나, 국내 검색엔진에서 찾기 어려운 해외 자료를 찾아내서 번역해 제공하는 일을 잘 해냈습니다. 통계 처리를 위한 엑셀 코드 작성이나 로데이터 가공 등은 오히려 신입 사원보다 더 빠르고 정확했다고 합니다. 조사 이후 생성된 원본 데이터에서 특정 조건에 맞는 값만 떼어내 필터링을 한다든지, 변수의 값을 분석하기 좋게 적절하네 변환시키거나 재처리하는 작업을 무리 없이 해낸 것입니다. 전산 업무에서만큼은 신입 사원보다도 더 뛰어난 '경력직' 사원에 준하는 퍼포먼스를 보여준 셈입니다.
다만, 예측이나 해석 단계에서는 한계가 뚜렷했습니다. 정치인 지지도 조사를 위한 사전 작업의 일환으로 '2026년도 지방선거에서 서울시장 출마자로 누가 거론되느냐'라고 물었는데, 실제와 다소 동떨어진 결과가 나오기도 했죠. 이는 챗GPT가 기존 언론 기사 등 온라인 자료를 기반으로 학습·생산되기 때문입니다. 그러니 언론 노출 없이 조용히 활동하고 있는 후보군까지 파악하긴 어려운 것입니다. 이를 역으로 해석하면 ‘챗GPT에서 언급되지 않는 후보는 언론 노출을 늘릴 필요가 있다’는 식의 시사점을 얻을 수도 있었습니다.
보고서 작성은 어떨까요? 1차 결과물을 빠르게 만들 수는 있었습니다. 다만 외부에 공개할 정도의 품질을 보장하기 위해서는 결국 연구원이 프롬프트 작성에 상당한 시간을 써야 했다고 합니다. 사실과 다른 허위 정보를 임의로 생성하는 ‘할루시네이션’ 문제도 여전했습니다.
분석된 조사 결과를 해석해서 사회적 함의나 인사이트를 도출하는 작업 역시 Ai가 따라오기는 힘든 지점이었습니다. 대표적으로 정치인 지지도 조사 결과 데이터를 넣고 분석 작업을 주문해 보았는데, 결국 여러 답변 항목을 교차로 비교, 분석해 결론을 이끌어내는 작업은 아무리 반복 작업을 시켜도 쉽지 않았다고 하네요.
3. 실사 과정의 혁신, Ai에 기대를 걸어보다.
현재 메타보이스가 가장 주목하는 AI의 활용 분야는 실사 단계입니다. 비용을 크게 줄일 수 있는 기회로 삼을 수 있기 때문입니다. 실사는 준비된 질문지를 활용해 실제로 응답을 모으는 과정을 뜻합니다. 이때 돈이 많이 드는 이유는 심플합니다. (ARS가 아닌 전화면접조사나 그룹 인터뷰 형태라면) 상당한 수준의 인건비가 들기 때문입니다. 조사원들을 구해 일일이 교육하고, 이들이 직접 응답자에게 일일이 질문지 순서대로 말을 걸어야 하기 때문입니다. 정성조사는 더 복잡합니다. 여러 사람을 한 자리에 모아놓고 토론하듯 대화를 주도하고, 이 내용을 다시 데이터화를 해야 하니 여간 오랜 시간이 걸리는 것이 아닙니다.
챗봇이나 보이스봇 등 다양한 형태로 시간과 노동력, 비용을 아낄 수 있는 조사 방법은 각계각층에서 다각도로 개발되고 있는 추세입니다. 챗봇을 사용하면 응답자가 선호하는 시간대에 보다 편하게, 대면해서 답하기 껄끄러울 수 있는 질문들에도 쉽게 답할 수 있다는 장점이 있죠.
메타보이스에서도 가상 설문 인터페이스 중 하나로 응답자와 상호 소통이 가능한 챗봇 ‘귀귤이’를 개발 중에 있습니다. ARS처럼 정해진 순서대로 질문하는 것이 아니라 응답자의 답변 내용을 바탕으로 키워드를 파악해, 추가 심층 질문을 하는 방식입니다. 연구원은 사전에 설문의 주제를 정하고 질문의 방식도 세부적으로 설정할 수 있습니다. 현재 ‘귀귤이’는 내부 베타 테스트를 반복하면서 성능을 업그레이드하는 중이라고 합니다. 챗봇을 활용한 정성조사용 그룹 인터뷰도 가능한데요, 원래 방식을 최대한 그대로 차용하기 위해서 챗봇이 동시 다발적으로 여러 응답자에 대한 조사를 진행한다고 합니다. 예컨대 응답자 A의 답변 내용 중 일부를 반영해 이를 응답자 B에게 질문하는 등의 방식인 것이지요.
하지만 이처럼 Ai를 활용한 실사에는 여전히 우려점이 많습니다. 가장 큰 문제가 이른바 ‘탈옥’인데요. 설문을 담당하는 조사원은 챗봇의 질문 방식은 통제할 수 있지만 질문자의 답변까지 컨트롤할 수는 없습니다. 이 때문에 특정 답변자가 악의적인 의도를 가지고 조사용 Ai의 작동 방식 자체를 무력화시킬 수 있다는 위험성이 존재합니다. 예를 들어 Ai에게 기존에 진행되어 왔던 모든 응답을 무시하라거나, 앞으로 나올 답변을 왜곡하라는 취지의 명령 프롬프트를 넣을 경우 도미노처럼 앞뒤 설문에 영향을 미칠 가능성이 있는 것이지요. 특히 챗봇이 하나의 시스템을 기반으로 동시에 다수 인터뷰이와 대화하는 구조를 갖고 있으니 더 위험합니다. 응답자가 마음대로 허위 응답을 하는 것 역시 완전히 통제하기 어렵고요. 메타보이스에서는 이런 단점을 보완하기 위해 탈옥 감시용 Ai를 추가로 도입하거나, 응답자의 불성실 응답을 자체적으로 필터링해 집계 및 분석 대상에서 배제하는 방안도 고심 중입니다.
4. Ai, 설문지 좀 짜줘!
잡다한 Ai 연구소는 챗GPT 등 생성형 Ai를 활용해 설문지 초안을 만드는 작업을 사전과제로 각자 해 보았습니다. 사실 일선 여론조사 업체에서도 설문지 작성은 Ai에 절대 맡기지 않는 작업 중 하나라고 합니다. 굉장히 예민하고 섬세한 작업이기 때문입니다. 실제로 사회조사에 쓰이는 설문지를 작성할 때에는 여러 원칙을 잘 지켜야 합니다. 조사의 방향성이 왜곡되거나 편향되어서는 안 되고요, 질문이 특정 응답을 유도하지는 않는지, 보기 항목들이 서로 배타적인지 등 신경 써야 할 부분이 많습니다.
결국 이 모든 원칙을 지켜가면서 초안을 작성하고, 이에 대해 수없이 피드백을 받고 고치는 과정을 반복하는 지난한 과정을 거쳐야 합니다. 이 때문에 설문지를 작성하는 것은 저연차 연구원에게 잘 맡기지 않을 정도로 까다로운 작업이라고 합니다. 김봉신 메타보이스 부대표는 질문이 딱 1개짜리인 설문지 작성에 꼬박 일주일이 걸린 적도 있었다고 했습니다.
사실 기자로 일하다 보면 보도용 여론조사를 의뢰할 일이 꽤나 많습니다. 그런 만큼 어깨너머로 질문지 짜는 작업을 종종 지켜볼 수 있고, 때로는 직접 질문지 작성에 참여하기도 합니다. 아래는 흉악범의 신상 공개에 대한 찬반 여론조사를 하는 상황을 가정하고, 챗GPT에 아무 가이드라인 없이 질문지를 짜달라고 한 결과입니다. 조사 개요부터 표본설계방식, 가중치, 전화조사의 품질관리 방안까지 기대했던 것보다 훨씬 자세한 답변을 내놓았지만, 그보단 설문 내용 본문 위주로 살펴보겠습니다.
Q1. (기본 찬반) 강력범죄자의 신상 공개 제도에 대해 어떻게 생각하십니까?
1) 찬성
2) 반대
3) 잘 모르겠다/모름
Q2. (공개 범위) 찬성하시는 분께 여쭤봅니다. 신상 공개 시 어떤 정보까지 공개하는 것이 적절하다고 생각하십니까? (중복 응답 가능)
1) 이름
2) 나이/성별
3) 사진
4) 주소 또는 거주 지역
5) 범죄 경력 및 수사 내용
6) 기타 (직접 입력)
7) 모름
Q3. (공개 이유) 찬성하시는 이유는 무엇이라고 생각하십니까? (개방형 혹은 선택)
1) 범죄 예방 효과
2) 시민 안전 확보
3) 범죄자에 대한 사회적 경고
4) 피해자 권리 보호
5) 기타
6) 모름
Q4. (반대 이유) 반대하시는 분께 여쭤봅니다. 반대 이유는 무엇입니까? (중복 응답 가능)
1) 인권 침해 우려
2) 재사회화/재범 방지 어려움
3) 범죄자 가족이나 주변인 피해
4) 범죄 예방 효과 불확실
5) 기타
6) 모름
Q5. (처벌 강화 의견) 강력 범죄에 대한 처벌 수위를 강화하는 것에 대해 어떻게 생각하십니까?
1) 매우 찬성
2) 찬성
3) 반대
4) 매우 반대
5) 모름
Q6. (공개 방식) 신상 공개를 한다면 어떤 방식을 선호하십니까? (중복 응답 가능)
1) 인터넷 사이트 공개
2) 언론(신문/뉴스) 공개
3) 지역 사회 공고(게시판 등)
4) 경찰·행정기관 통보
5) 기타
6) 모름
Q7. (기존 공개 사례 인식) 우리나라에서 이미 강력범죄자의 신상이 공개된 사례가 있습니다. 이에 대해 들어보신 적이 있습니까?
1) 예, 잘 알고 있다
2) 예, 들어본 적 있다
3) 아니오, 잘 모른다
Q8. (기존 사례 평가) 기존에 공개된 범죄자 신상 정보가 범죄 예방이나 시민 안전에 효과적이었다고 생각하십니까?
1) 매우 효과적이었다
2) 어느 정도 효과적이었다
3) 별 효과 없었다
4) 전혀 효과 없었다
5) 모름
Q9. (인구통계) 성별, 연령대, 거주지(시·도/시군구), 학력, 직업, 가구소득, 정치 성향 등
처음 이 내용을 받았을 때, 질문의 예시를 준 것도 아니고 전반적인 흐름을 정해 준 것도 아닌데 꽤나 갖춰진 질문지가 나타나서 퍽 놀라웠습니다. 이 초안을 메타보이스와 꼼꼼하게 뜯어봤습니다. 대강 훑어봤을 때엔 꽤나 잘 썼다고 생각했는데 세부적으로 확인해 보니 문제가 많았습니다. 일단 1번 문항의 ‘어떻게 생각하십니까?’는 선명하지 않은 질문입니다. 응답자가 답변하기까지 고민이 길어질 수 있기 때문에 ‘찬성하십니까, 반대하십니까?’와 같이 보다 직관적이고 선명하게 질문해야 하죠. 또한 2번 문항에서는 2번/4번/5번 보기에 2개 이상의 선택지가 합쳐져 있다는 문제가 눈에 띕니다. 한 보기에서는 반드시 하나의 항목만 다뤄야 합니다. 찬/반 이유를 묻는 3-4번 문항 역시 중복 선택을 보장하지 않을 거라면 ‘가장 찬성하는 이유’ ‘가장 반대하는 이유’ 등으로 표현을 명확하게 고쳐 써야 하겠습니다. 이 문항들은 보기로 주어진 선택지 내용들이 서로 배타적이지 않다는 문제도 있습니다. Q3의 1)과 2) 번 보기는 각각 '범죄 예방 효과'와 '시민 안전 확보'는 사실상 의미가 겹치는 부분이 있으니, 정리가 필요해 보입니다.
이외에도 세부적으로 손볼 곳이 많았습니다. 당장 현장 실사에 투입할 최종본과는 완성도에 있어서 다소 거리가 있었죠. 그럼에도 메타보이스는 이렇게 평가했습니다. 설문지 작업은 원래 어려운 일이라고요. 그러니 Ai를 활용한 작업물은 질문지의 뼈대를 빠르게 세우는 용도 정도로만 참고할 수 있을 것으로 보입니다. 본격적인 검토와 수정 작업은 역시나 사람이 직접 개입해야 하는 영역이었습니다.
결국 여론조사란 숫자를 세는 일인 동시에, 사람의 마음을 읽는 일이기도 합니다. 숫자는 Ai가 훌륭히 세어주겠지만, 왜 그 숫자가 나왔는지 해석하는 건 여전히 사람의 몫이겠지요. 사람 대신 챗봇과 마주 앉아 내 의견을 이야기하는 세상은 이미 우리 앞에 와 있습니다. 하지만 어떤 어조로 묻느냐, 특정 질문이 향하는 사회적 맥락이 무엇이냐를 읽어내는 감각은 여전히 인간이 가지고 있는 타고난 영역에만 존재하는 것인 듯합니다.