지원사업

연구모임활동

[지속 가능한 저널리즘] 2024년 데이터저널리즘 동향

2024.11.19

본문

'지속 가능한 저널리즘'이 지난 11월 13일 모임을 가졌습니다. 연구모임에서 제공한 강의 내용을 공유합니다.


□ 주제 : 2024년 데이터저널리즘 동향

□ 강사 : 함형건 YTN 데이터랩장

0a23b62a5152d795a9fdd368f58a0e05_1732004809_6422.jpg
<지속 가능한 저널리즘 회원들이 함형건 랩장의 강의를 듣고있다>


□ 언론사 외 참고할 만한 데이터저널리즘 사이트

* 퓨 리서치 인터랙티브= 자체 통계로 질 높은 데이터저널리즘 생산

* The Pudding= 유머러스한 아이디어 주목


□ 블룸버그 3/8 

- 챗 GPT 편향성 보여주는 기사. 같은 스펙으로 이름만 바꿔서 1,000번 채용 반복했을 때 리크루터가 인종적 편견을 보여준 결과


□ 뉴욕타임스 8/10  China’s Great Wall of Vallages 

- 히말라야 국경 영토 분쟁 지역에 중국이 조성한 마을 59개를 위성사진으로 찾고, 전문가 검증 거쳐 국경 이주 현실 보도. 

- RAIC 랩스 = AI로 위성영상 스캔해 분석하는 업체. CNN 가자지구 폭격 보도 때 분석했던 회사. 


□ 우크라이나 감정의 회전목마 

- 텔레그램 문구를 대상으로 감정적 조작 수준을 측정해 표현. 인기 채널 50개 7600여개 게시물을 AI로 분석. Llama로 분석. 


□ 니혼게이자이 3/22 중국의 미사일 기술 북한 이전 보도

- 중국에서 북한으로 미사일 기술이 이전된 정황을 학술 연구를 통해 추적. 학술 데이터 9,000만 건 중 북한 국제 공동연구논문 657건 공동저자 네트워크 분석. 80% 이상이 중국에서 넘어갔다. 이 중 111건은 제재 위반 가능성. 


□ 더 푸딩

- 미국 주별로 임신 중지가 얼마나 어려운가를 미로 이미지로 시각화. 미로가 단순한 주, 복잡한 주 직관적으로 볼 수 있게 한 아이디어 탁월


□ YTN 기후재난의 이면 보도 

- 파푸아뉴기니 산사태 지역의 토양함수율 추이를 위성사진 속 정보 받아서 분석. 토양함수율이 높을 때가 아니라 오히려 떨어졌을 때 산사태가 났다는 것. 전문가 결론은 암반균열 때문. 기후 위기를 단순하게 보도할 수 없다. 


□ Google Earth Engine 원격 탐사 

- 장점은 위성사진으로 분석하니까 직접 가서 취재할 수 없는 곳을 분석, 보도할 수 있음. 전처리가 돼 있는 자료를 구할 수 있음. 장기 시계열 분석 가능. 

- 단점은 위성사진에 담긴 정보를 이해해야 함. 진입장벽이 있음. 분석 플랫폼에 따라 분석 용량 제한 있음. 


□ YTN 침수 위험 있는 우리 동네 반지하 주택

- 반지하주택 밀집 지역 분포 밀도 높은 곳 뜨거운 온도로 표시한 온도지도 제작. 건축물대장 데이터 분석한 것. 이 자료는 공개돼 있지만 내용이 난삽해서 이용이 어려움. 5,000가지 기타 용도를 일일이 가려내서 입력해야. 총 데이터 2,000만건 수준. 엑셀로는 안 되고 코딩을 해야 함. 


□ YTN 산양 폐사

- 산양 1,200마리 폐사한 사건을 보도 왜 그럴까? 폐사 발견된 지역을 지도에 표시해 보니 아프리카 돼지열병 차단을 위한 광역울타리 주변. 울타리 때문에 서식지 내에서 이동하지 못하고 뛰다가 지쳐 죽는 것 아닌가 추정. 눈 때문이라는 가설도 검증. 종합해 보면 둘 다 영향을 미친 것으로 보임. 


<토론>

Q. 어떤 아이템을 고르나. 기준은? 


A. 데이터 만드는 것 자체가 너무 어렵다. 외국과 한국 데이터저널리즘 가장 큰 차이가 데이터가 너무 없다는 것. 당연히 있어야 할 데이터가 없는 것을 보고 취재 시작한 것이 많다. 왜 없지?라는 생각이 기사 동기이자 야마가 된다.  


데이터 없어서 시작한 것도 있고, 기존 출입처에서 해보고 싶었던 것도 있다. 처음 부서 만들어서 본격적으로 일하기 앞서 휴식기에 아이템 탐색을 많이 했었다. 거의 이때 축적한 아이디어들을 취재했다. 


Q. 우리나라에 원래 데이터가 없는 건가, 분석할 수 있게 입력이 안 돼 있는 것인가.


A. 아예 없는 게 많다. 공무원들에게 데이터를 모아야 한다는 동기부여가 없는 것 같다. 자료가 없으면 감시 대상이 되지 않고 아무도 비판 안 하니까. 노동자 산재 신청 데이터가 누락된 사실을 추적한 보도도 있다. 


침수 지도가 부정확한 이유도 20년, 30년 전 하수관거가 어떻게 배열돼 있는지 잘 모른다. 이 정보가 있어야 알고리즘 학습할 수 있는데 정보가 없어서 정확도 떨어지는 지도가 나오는 것. 그래도 행안부보다는 각 지역 지자체들이 더 정확히 알고 있다. 상습 침수하면 지도 업데이트한다. 구청장 바뀌고 인사 나서 경험 없는 이들이 실무 맡으면 업데이트가 잘 안된다.