[모두를 위한 인공지능] 5. 우리에게 '데이터'는 어떤 의미인가

IT동아 · 2022.08.24 14:42:50

[편집자주 / '인공지능(AI)'은 더 이상 SF영화에서나 보던 상상의 기술이 아닙니다. 이미 현실과 실제가 되어, 알게 모르게 우리 일상에 스며들고 있습니다. 이에 인공지능에 관한 보편적 지식은 현대인이라면 누구라도 가볍게 알아 둘 만합니다. 이 연재에서는 인공지능의 역사부터 일상/산업 내 융합, 국내외 인공지능 산업 현황, 인공지능 관련 최신 트렌드, 근미래의 인공지능 융합기술 등, 필자가 오랜 동안 현업에서 얻은 다양한 경험과 지식을 하나씩 독자와 공유합니다.]

1부 - 환갑이 훌쩍 넘은 인공지능의 어제와 오늘 (https://it.donga.com/102301/)

2부 - 인공지능 기술을 활용해 비즈니스 가치를 높여라 (https://it.donga.com/102418/)

3부 - 인공지능 산업/기업을 지원, 육성하기 위해 필요한 것 (https://it.donga.com/102543/)

4부 - 인공지능이 아무리 발전해도 결국 사람의 '경험'이 중요하다 (https://it.donga.com/102629/)

요즘 언론과 주변에서 '데이터(Data)'의 의미와 그 중요성에 대해 자주 언급한다. 데이터를 미래의 석유 또는 식량에 비유하기도 한다. 데이터가 이렇게 중요하다고는 하는데, 그럼 무엇 때문에 데이터가 중요한 것일까? 그리고 디지털 생태계의 D.N.A(데이터.네트워크,인공지능), 디지털 시대의 데이터 댐/데이터 레이크(lake)/데이터 폰드(Pond) 같은 파생어는 또 무슨 뜻일까? 인공지능이 중요해짐에 따라 데이터 학습, 빅데이터 분석도 거론된다.

혼란스럽기도 하고 굳이 알 필요도 없을 수 있다. 하지만 데이터는 지금도 우리 주변에서 일상에 대단히 밀접해 있으니 생각을 바꿔야 한다. 스마트폰이나 PC 등으로 이 글을 보는 이 순간에도, 우리는 끊임 없이 데이터를 만들어 내고 있다.

데이터의 양

먼저 '데이터의 양'에 대해 이야기해보자. 데이터가 중요해진 이유는 디지털 기술의 발전 때문이다. 디지털 기술이 급격히 발전하면서 데이터 생성과 복제가 무척 쉬워졌고, 사물인터넷(IoT) 기술과 개인의 디지털 기기 사용으로 엄청난 양의 데이터가 생성되고 있다.

요즘은 유튜브나 페이스북 같은 미디어에서 개인 디지털 콘텐츠가 폭발적으로 생산되고, 각자 사용하는 스마트기기, 신용카드 거래, 거리의 수 많은 CCTV 등 일상 전반에 걸쳐 각종 디지털기기를 통해 데이터가 매일매일 쌓여간다. 대략적으로 이런 데이터의 양은 얼마나 될까?

KT경제경영연구소에 따르면, 인류가 파피루스를 시작으로 종이에 기록을 남기기 시작한 이후 2000년대초까지 생산된 데이터가 약 20 엑사바이트(exabyte)라 추정한다. 엑사바이트는 0이 18개 붙는 단위라, 조를 넘어 100경에 달라는 단위다. 즉 2,000경 바이트가 되는 셈이다. 가늠조차 하기 어려운 숫자다.

파피루스가 고대 이집트에서 발명된 종이 비슷한 것이고, 기원전 3,000년 전 정도로 추정되니 5,000년 동안 생성된 데이터가 약 20 엑사바이트인 셈이다. 그런데 2000년대 초반부터 2021년까지 생산된 전 세계 데이터 총량이 약 50 제타바이트(zettabyte)라고 한다. 엑사바이트의 상위 단위가 제타바이트라, 이는 5만 엑사바이트에 해당된다.

불과 20여년 동안 생산된 데이터가 5,000년간 데이터의 2,500배를 넘어서는 것이다. 현재 인류가 가진 데이터의 약 90%는 지난 10년 간 생산됐음을 의미한다. 물론 이후로도 데이터 생산 속도는 더욱 빨라질 것이다.

2015년 ~ 2025년 데이터 증가 예상치 / 출처:IDC. 2018

IDC에 따르면, 인류의 디지털 정보, 즉 데이터의 연간 성장률은 20%에 달한다. 영국의 한 물리학자는 이렇게 데이터가 쌓이게 되면, 앞으로 150~350년 사이에 지구에 존재하는 원자 수보다 디지털 정보의 최소 단위인 비트의 수가 더 많아질 것이라 예측했다.

폭발적으로 증가하는 데이터, 부작용은?

이렇게 데이터가 폭증해도 아무 문제가 없이 우리 일상에 도움이 되는 걸까? 생산 속도가 빠른 '빅데이터'는 생산될 때마다 어딘가에는 저장해둬야 한다. 디지털 데이터라 특별한 전자장치에 저장해야 한다. 전자장치는 SSD나 하드디스크 같은 저장장치(스토리지)다.

스토리지는 실물 장치라 물리적 공간이 필요한데, 현재 기술로는 디지털의 최소단위인 1비트를 저장하는데 약 25제곱 나노미터가 필요하다. 25제곱 나노미터라면 머리카락의 1/50,000의 두께로, 사람 눈에 보이지 않는 크기긴 하다. 다만 앞서 말한 대로, 전 세계에서 매일 쏟아지는 빅데이터를 온전히 저장하려면 스토리지의 물리적 공간 역시 커질 수 밖에 없다.

영국 포츠머스 대학의 멜빈 봅슨(Melvin Vopson) 교수는 스토리지의 물리적 공간이 몇 백년 내에 지구의 총 질량을 초과할 수 있다고 예측했다(현재의 기술 수준 기준). 스토리지 공간 외에도, 디지털 데이터 저장에는 에너지도 필요하다. 클라우드 기반의 데이터센터는 이미 전 세계 전력 생산의 약 1%를 소비하고 있다. 이는 네트워크로 데이터를 전송하거나 모바일기기에서 데이터를 사용할 때 소비되는 에너지는 제외한 것이다.

하지만 언제나 그랬듯, 이러한 걱정, 문제거리에 당면하면 인류는 늘 새로운 방안을 찾는다. 전자가 아닌 광자를 활용하거나, 직접도를 높이기 위해 바이오 물질에 데이터를 저장하고, 에너지를 한계 상황 이하로 낮춰 동작하는 기기를 개발하는 등 연구 개발을 지속하고 있다.

빅데이터의 활용 - 데이터 댐, 데이터 레이크

앞서 말한 대로, 현재 인류는 디지털 시대를 살며 상상할 수 없을 엄청난 양의 데이터를 생산하고 있다. 이렇게 저장된, 쌓인 데이터는 그럼 어떻게 활용할 수 있을까? 정부가 발표하는 '데이터 댐'이나 '디지털 생태계' 관련 내용을 한번 쯤은 들어봤을 듯하다.

우선 데이터 댐이 무언지 알아야 하겠다. 그래야 데이터 댐이 왜 D.N.A 생태계의 기반이 되는지 이해할 수 있다. 참고로, '댐'이라 표현하는 건, 미국 경제 대공황 시절 '후버 댐' 건설을 통해 일자리 창출과 경기부양 효과, 전력생산, 관광산업 및 도시 개발 등의 효과를 얻은 사례를 빗댄 것이다. 즉 데이터 댐 사업은 한국판 뉴딜 또는 디지털 뉴딜 사업의 일환이다.

데이터를 저장한 댐은 수돗물이나 농경수를 공급하듯, 데이터 그 자체로 공급할 수 있고, 전기처럼 다양한 용도로 변환해 제공할 수도 있다. 인공지능 학습용 데이터로 가공하거나, 빅데이터 분석 도구와 함께 개인 맞춤형 서비스를 개발하는데 활용될 수 있다. 의료, 교육, 제조 등 다양한 연관 분야에 새로운 비즈니스를 만들 수 있는 바탕이 되기도 한다. 이때 사물인터넷, 5G 통신 같은 ICT 기술을 접목하면, 빅데이터를 실시간으로 활용하는 비즈니스로 확장할 수도 있다. 새로운 부가가치를 만드는 융합산업으로 확장하는 것이다.

정부의 데이터 댐 개념도 / 출처: 정부 공식 홍보 블로그

이렇게 댐에 저장되는 데이터의 약 75%가 개인 데이터다. 즉 이 데이터의 주인은 바로 우리라는 뜻이다. 우리가 별 고민 없이 공유 동의한 개인 데이터가 현재 다양한 서비스에 활용된다. 데이터 활용에 동의하고 우리는 그 다양한 서비스를 대부분 무료로 사용하고 있다. 현재는 아주 자연스러운 일이다.

스마트폰 내비게이션 서비스가 대표적인 예다. 운전자와 차량의 위치와 운행 데이터 등을 내비게이션 업체에 제공하는 대신, 길 안내 서비스나 도로정보 서비스 등을 무상으로 사용하고 있다. 유튜브나 넷플릭스 같은 OTT 서비스, 페이스북이나 인스타그램 같은 SNS도 사용자가 한두 번 본 콘텐츠 중심으로 유사한 콘텐츠를 추천해 준다. 사용자의 시청/관람 데이터를 서비스 업체에게 제공했기에(제공을 동의했기에) 가능한 일이다. 원하는 콘텐츠를 일일이 찾지 않아도, 인공지능 알고리즘이 적절히 찾아 보여주니 편리하긴 편리하다. 물론 이런 추천 알고리즘을 원치 않는 사용자도 많을 것이다.

이 같은 콘텐츠 추천 인공지능을 학습시키기 위해서는 사용자의 데이터가 필요하다. 인공지능은 학습을 위한 데이터가 많을수록 똑똑해진다. 상대적으로 적은 양의 데이터로도 학습 효과를 높이는 방법이나, 확보된 데이터를 토대로 가상 데이터를 만들어 학습해 높은 품질의 추론 결과를 얻는 방법도 연구되고 있다.

빅데이터 분석을 위한 데이터 활용 방법은 인공지능 학습 방법과는 조금 다르다. 빅데이터의 정의도 다양하게 기술되고 있다. 가트너는 빅데이터를 '큰 용량 과 빠른 속도'를 기반한 데이터로 정의했다(2021). 필자는 여기서 '큰 용량'은 빅데이터 분석 목적을 달성하기 위한 한 과정이라 생각한다. 빅데이터 분석은 가능한 모든 데이터를 분석하여 불확실성을 없애기 위한 방법론이다. 그렇기에 데이터 양이 많아 질 수 밖에 없다.

빅데이터 분석과 관련해선, 미국의 유통업체인 '타겟(Target)'의 일화가 유명하다. 고객 이탈에 대해 조사하던 중 여성 고객층이 임신 중에는 이탈률이 높다는 것을 파악하고, 임신 고객을 찾아 출산/육아 관련 각종 혜택 등을 제공하기 시작했다. 고객들의 제품 검색 패턴/데이터 등을 분석한 뒤, 한 여중생에게 임신 축하 메시지와 관련 제품 홍보자료를 발송했는데, 얼마 후 그 아버지로부터 항의 연락을 받았다. 자신의 딸은 중학생인데 메시지를 잘못 보냈다는 내용이었다. 업체는 즉각 사과했지만, 나중에 알고 보니 그 여중생의 임신은 사실이었다. 아버지는 몰랐지만, 빅데이터는 여중생의 데이터를 정확히 분석한 것이다.

빅데이터 분석으로 가장 성공한 업체는 '넷플릭스'가 아닐까 싶다. 넷플릭스가 짧은 시간에 미디어 업계의 절대 강자로 성장하게 된 배경에는 데이터가 있다. 넷플릭스는 '블럭버스터'라는 비디오/DVD 대여 업체로 출발했는데, 대여 업계의 시장 한계를 깨닫고 2004년에 동영상 스트리밍 서비스를 시작했다. 이후 디지털 시대의 흐름에 맞춰 체질을 완전히 변경했고, 고객/사용자 데이터를 적극 활용해 인공지능 기반의 대고객 서비스를 지속적으로 개발했다. 시대의 변화를 잘 읽고 과감한 변신을 시도한 좋은 성공 사례다.

넷플릭스와 블럭버스터의 매출액 추이 / 출처: 구글 이미지 캡처

당시에는 넷플릭스의 비즈니스 모델 변경이 무모한 시도라는 이야기가 많았는데, 넷플릭스는 철저한 데이터 분석을 통해 사용자가 무엇을 원하는 지를 파악했고, 그에 따른 효과적인 마케팅 전략을 세웠다. 인공지능을 활용해 사용자에게 동영상 추천 서비스를 제공했고, 사용자의 75%가 추천 동영상을 선택했다. 현재는 콘텐츠를 직접 제작하거나 제작 투자를 진행하고 있다. 물론 여기에도 빅데이터를 충분히 활용한다.

이렇듯 데이터 분석은 불확실성을 줄이고 성공 가능성을 높여준다. 이게 가능하려면 엄청난 양의 빅데이터를 처리하는 시스템이 필요하다. 현재 광주광역시에는 지난 연재에서 언급한 '국가인공지능데이터센터'가 구축 중이다. 여기서는 인공지능 학습용 데이터 수집/가공 뿐 아니라, 빅데이터 처리에 필요한 컴퓨팅 자원과 도구가 제공된다.

국가인공지능데이터센터는 컴퓨팅 자원과 다양한 빅데이터 활용 도구를 제공한다

2022년 8월 현재, 전체 구축되는 저장용량 107 페타바이트(petabyte)의 10%인 10.7 페타바이트의 데이터를 저장하고 가공할 수 있는 '데이터 레이크(Data Lake)' 도구를 제공하고 있다(1 페타바이트는 1,024 테라바이트). 데이터 댐보다는 작은 규모의 데이터 호수인 셈이다. 하둡이나 스파크 같은 빅데이터 처리 소프트웨어 등도 포함되어, 데이터 기업의 빅데이터 분석을 돕는다. 내년 국가인공지능데이터센터가 완공되면, 전국의 많은 인공지능 융합기업을 비롯해, 빅데이터 분석/활용 기업을 대단위로 지원할 수 있는 체제가 비로소 갖춰지게 된다.

[참고]

1 바이트 = 8 비트

1 메가바이트 = 100만 바이트

1 기가바이트 = 1,024 메가바이트

1 테라바이트 = 1,024 기가바이트

1 페타바이트 = 1,024 테라바이트

1 엑사바이트 = 1,024 페타바이트

1 제타바이트 = 1,024 엑사바이트

글 / 인공지능산업융합사업단 곽재도 본부장

미국 뉴욕 소재 로체스터 대학에서 인공지능 분야를 공부한 뒤, 문화체육관광부 문화기술 PD로 재직하며 연구개발 사업을 기획했다. 현재 대통령 소속 지식재산위원회 4,5,6기 전문위원으로 활동 중이며, 인공지능산업융합사업단 소속으로 국가 인공지능 데이터센터를 비롯해 인공지능 산업융합 생태계 조성을 위한 집적단지 조성사업을 추진하고 있다.

정리 / IT동아 이문규 (munch@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

▶ [모두를 위한 인공지능] 4. 인공지능이 아무리 발전해도 결국 사람의 '경험'이 중요하다 ▶ [스타트업人] "인사팀은 회사와 직원의 협업을 돕는 '브릿지'다", 제네시스랩의 피플팀 이야기 ▶ [혁신스타트업 in 홍릉] 피플스헬스 “문진 데이터 플랫폼 ‘아는의사’로 선진 의술 개막”

번호	제목	글쓴이	작성일	조회	추천
설문	축의금 적게 내면 눈치 줄 것 같은 스타는?	운영자	24/11/11	-	-
1667	델타항공이 디트로이트 공항에 구축한 '평행현실'은 어떤 기술?	IT동아	22.08.25	127	0
1666	[IT하는법] 구글 번역으로 PDF 전체 번역하는 방법	IT동아	22.08.25	981	0
1665	[기고] 변화/진화하는 미술시장, 미술품 가치평가의 역할이 중요	IT동아	22.08.25	93	0
1664	교육과 VR이 만났다... "VR에선 기존 틀에서 벗어난 새로운 경험 가능해"	IT동아	22.08.25	101	0
1663	[스타트업 리뷰] 입맛 까다로운 반려동물 입맛도 사로잡는 건강 펫푸드 ‘푸티’	IT동아	22.08.25	86	0
1662	서울과기대 창업지원단의 전문랩 선정, '상품성 진단부터 양산까지 가능한 덕분'	IT동아	22.08.25	97	0
1661	줄잇는 친환경 포장재 관련 정책, 일부 아쉬움의 목소리도	IT동아	22.08.24	97	0
1660	재외국민, 우리나라 비대면 진료받을 길 열린다 [14]	IT동아	22.08.24	1320	1
1659	동의 없이 녹음하면 징역 10년? '통화녹음 금지법' 논란 일파만파	IT동아	22.08.24	250	0
1658	쿼터백 "로보어드바이저 통하면 누구나 자산관리 서비스 받을 수 있다"	IT동아	22.08.24	93	0
1657	델 테크놀로지스 포럼 2022 개최··· 산업 공유부터 신제품까지 한 자리에	IT동아	22.08.24	114	0
	[모두를 위한 인공지능] 5. 우리에게 '데이터'는 어떤 의미인가	IT동아	22.08.24	78	0
1655	[박진성의 블록체인 바로알기] 5. NFT 입문 전 꼭 알아야 할 것	IT동아	22.08.24	92	0
1654	구글 안드로이드 13, 무엇이 바뀌었나?	IT동아	22.08.24	157	0
1653	[리뷰] PS5와 찰떡궁합? 씨게이트 파이어쿠다 530 히트싱크 M.2 NVMe SSD [4]	IT동아	22.08.23	752	0
1652	[기고] NFT 비롯한 블록체인 산업, 네거티브 규제로 법적 명확성 확보해야	IT동아	22.08.23	90	0
1651	"여성은 예뻐야 한다"... 뷰티 콘텐츠가 퍼뜨리는 성차별적 인식 [126]	IT동아	22.08.23	3401	6
1650	[리뷰] 듀얼 모니터도 가전처럼 편리하게, 루밍 듀얼 패키지 [1]	IT동아	22.08.23	134	0
1649	[IT강의실] HWP로 이력서, EGG로 포트폴리오 보내지 말란 말 나오는 이유는?	IT동아	22.08.23	127	0
1648	내 집 마련 위한 주택담보대출, 어디가 좋을까?…대출 비교 앱 '뱅크몰' 써보니	IT동아	22.08.23	89	0
1647	[뉴스줌인] 12세대 코어 일체형PC 출시, 쓸만 할까? [4]	IT동아	22.08.22	1522	2
1646	규제로 멍든 '간편 송금' 시장··· 해외 사례도 다르지 않아	IT동아	22.08.22	131	0
1645	연비 아끼고 냄새 잡는 자동차 에어컨 사용법	IT동아	22.08.22	101	0
1644	[리뷰] 차세대 기술로 강해진 변신 노트북, 레노버 요가7i 16IAH7 [43]	IT동아	22.08.22	2091	1
1643	[기고] 미술 문화 즐기기 어렵지 않아요, 미술관&갤러리 관람 가이드 [1]	IT동아	22.08.22	1302	3
1642	[리뷰] 노트북에 사운드바? 브리츠 USB 사운드바 'BA-R1'	IT동아	22.08.19	136	0
1641	[농업이 잇(IT)다] 가야바이오 “기능성 배합사료 개발로 사람과 환경 지킬 것”	IT동아	22.08.19	113	0
1640	[기고] NFT 비즈니스의 성장, 디지털 세상의 인프라 블록체인 발전으로 이어진다.	IT동아	22.08.19	94	0
1639	[리뷰] PC/콘솔 넘나드는 프리미엄급 게이밍 헤드셋, 스틸시리즈 아크티스 노바 프로 무선	IT동아	22.08.19	96	0
1637	배터리 교환형 충전 기술…전기차로 확대될까	IT동아	22.08.19	95	0
1636	[IT신상공개] 세로로 보는 55인치 커브드 모니터, 삼성 오디세이 아크 [4]	IT동아	22.08.19	966	0
1635	[모빌리티 인사이트] 경량화부터 생산 효율화까지, 자동차를 찍어내는 3D 프린팅 기술	IT동아	22.08.19	79	0
1634	소상공인 디지털 전환 돕는 ‘스마트 상점 기술보급 지원사업’ 신청 방법은?	IT동아	22.08.19	78	0
1633	[IT강의실] 여름철 이어폰으로 인한 귓병 예방하려면? [22]	IT동아	22.08.18	4996	7
1632	[리뷰] 합리적 구성의 OLED 패널 노트북 , 에이수스 비보북 프로 15	IT동아	22.08.18	105	0
1631	[IT애정남] 까다로운 중고폰 구매, 무엇을 확인해야 하나요?	IT동아	22.08.18	115	0
1630	[홍기훈의 ESG 금융] ESG와 채권 (1) 채권투자에 ESG 반영하기	IT동아	22.08.18	108	0
1629	"맛도, 식감도, 모양도 진짜 고기 같네?" 진화 거듭하는 식물성 대체육 [2]	IT동아	22.08.18	185	0
1628	中 폴더블 스마트폰 공세, 낮은 완성도와 수출 차질 등 잡음도 [8]	IT동아	22.08.18	1896	3
1627	[앱으리띵] 돈도 아끼고, 쓰레기도 줄인다? 마감할인 플랫폼 '라스트오더'	IT동아	22.08.17	121	0
1626	자율주행 로봇이 24시간 순찰하는 시대 임박 [34]	IT동아	22.08.17	2348	13
1625	[리뷰] 깔끔한 재택근무를 위한 준비물, 델 옵티플렉스 7400 올인원	IT동아	22.08.17	140	0
1624	스틸시리즈 코리아 이혜경 지사장 “게이머들의 승리가 우리의 목표” [5]	IT동아	22.08.17	1454	2
1623	서울먹거리창업센터 바다드림·만제별주부전 “제주 제철 수산물, 고스란히 식탁으로”	IT동아	22.08.17	90	0
1622	'저작물 사용에도 조건이 있다'... 저작권에 대한 대표적 오해는? [2]	IT동아	22.08.17	1773	7
1621	[박진성의 블록체인 바로알기] 4. NFT의 실재 - PFP, P2E, P2M	IT동아	22.08.16	101	0
1620	[혁신스타트업 in 홍릉] 알트메디칼 “미토콘드리아를 치매 정복 초석으로”	IT동아	22.08.16	91	0
1619	[기고] 침수차 정의와 구분법은? [1]	IT동아	22.08.16	686	4
1618	[모두를 위한 인공지능] 4. 인공지능이 아무리 발전해도 결국 사람의 '경험'이 중요하다 [5]	IT동아	22.08.16	2746	4
1617	홍보 모델부터 야구 시구까지…’가상인간 열풍’의 원인과 전망은? [4]	IT동아	22.08.12	351	1

최근 방문

즐겨찾기

즐겨찾기 갤러리

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[IT동아 갤러리]

갤러리 본문 영역

데이터의 양

폭발적으로 증가하는 데이터, 부작용은?

빅데이터의 활용 - 데이터 댐, 데이터 레이크

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결