디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱

IT동아갤로그로 이동합니다. 2022.04.12 08:23:06
조회 1484 추천 2 댓글 7
[IT동아 차주경 기자] 나날이 발전하는 사진 인공지능 기술이 사람의 능력을 뛰어넘을 기세다. 문장 한두 마디를 듣고 그 설명을 고스란히 그림이나 사진으로 묘사하는 인공지능이 등장했다. 사람의 목소리를 들으면 그 사람의 얼굴 생김새를 추측해 그리는 인공지능도 주목 받는다.

미국 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 개발한 사진 인공지능 ‘DALL-E 2’는 특정 문장 한두 마디를 입력하면 이를 토대로 사진이나 그림을 만든다.


오픈AI DALL-E 2가 문장을 듣고 만든 그림과 사진. 출처 = 오픈AI



위 그림과 사진은 DALL-E 2가 각각 ‘우주에서 고양이와 농구 하는 우주 비행사’와 ‘해변가에 앉은 웰시코기 강아지’를 듣고 만든 것이다. 앞서 인공지능 기술 개발 기업 엔비디아가 이와 비슷한 기술 ‘GauGAN2’를 공개했다. 문장을 듣고 그대로 사진으로 만드는 인공지능이다. 오픈AI의 DALL-E 2는 엔비디아의 GauGAN2보다 사진을 더 선명하게, 고해상도로 만든다. 배경 흐림, 빛 묘사 등 고급 사진 기술도 넣는다.

DALL-E 2는 문장을 듣고 사진에 피사체를 추가하거나, 사진의 구도를 바꾸는 능력도 가졌다. 방 사진을 인식한 후 DALL-E 2에게 ‘방 구석에 노란 색 소파’라고 입력하면 그대로 표현한다. ‘방 왼쪽 구석’을 입력하면 방 사진에는 없는 구석을 스스로 묘사한다. 단, 복잡한 문장이나 표현은 인식하지 못한다. 그림자나 빛의 방향을 다소 어색하게 표현할 때도 있다.

유사한 기술로, 앞서 미국 매사추세츠 공과대학교(MIT)의 컴퓨터 과학·인공지능 연구소(CSAIL) 소속 과학자들이 공개한 목소리 인식 인공지능 기술 ‘Speech2Face’가 화제가 됐었다. 이 인공지능은 사람의 목소리를 듣고 억양과 높낮이, 단어와 발음을 토대로 그 사람의 얼굴 생김새를 추론한다.


실제 사람 사진(왼쪽)과 이들의 목소리를 들은 Speech2Face가 묘사한 인물 사진. 출처 = 깃허브



CSAIL 과학자들은 유튜브에 올라온 동영상 수백만 개를 활용해 사람 얼굴과 목소리의 특성, 관계를 연구했다. 그 결과, Speech2Face는 사람의 목소리만 듣고도 놀라울 정도로 정확하게 그 사람의 얼굴을 재현했다.

이 두 인공지능 기술도 일부 사진 인공지능 기술의 사례와 마찬가지로 나쁘게 쓰일 가능성이 제기됐다. 기술 개발자들은 여러 제한과 안전 장치를 둬서 부작용을 막는다고 밝혔다.

오픈AI는 DALL-E 2가 나쁘게 쓰이지 않도록 음란·폭력·증오 관련 단어와 문구를 데이터베이스에서 지웠다. 사람의 얼굴도 만들지 못하게 설계하고, 이 기술을 일반 소비자에게는 제공하지 않는다. CSAIL은 Speech2Face를 만들 때 유튜브의 동영상을 활용한 만큼, 데이터 분포가 균등하지 않다고 밝혔다. 이어 이 기술을 사람의 목소리의 특징을 연구하고 더 많은 응용 프로그램을 만들기 위해 개발했다고 강조했다.

글 / IT동아 차주경(racingcar@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 반도체 수급난, 러시아 침공 등 이어지는 악재에 광학 기기 가격 줄인상▶ 고가·고급 미러리스 딛고 디카 시장 부활 기미, 낙관 경계론도▶ 창과 방패의 대결, 인공지능 가짜 사진 vs 가짜 사진 판별 인공지능



추천 비추천

2

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 인터넷 트랜드를 가장 빠르게 알고 있을 것 같은 스타는? 운영자 24/11/25 - -
1086 일론 머스크의 트위터, 어떻게 변할까 [10] IT동아갤로그로 이동합니다. 22.04.27 2213 6
1085 '불법·유해 콘텐츠 방치하면 과징금 폭탄'…EU 디지털 서비스 법안 주요 내용은? [12] IT동아갤로그로 이동합니다. 22.04.26 1650 1
1084 [뉴스줌인] "실명계좌 발급 없으면 가상자산 거래소 생존 어려워" IT동아갤로그로 이동합니다. 22.04.26 149 1
1083 비싼 배달비·수수료 불만, 대안으로 ‘하이퍼 로컬’ 부상 [17] IT동아갤로그로 이동합니다. 22.04.26 3690 5
1082 [리뷰] 초고속 충전에 1억 800만 화소 카메라까지, 샤오미 레드미노트11 프로 5G [1] IT동아갤로그로 이동합니다. 22.04.26 187 0
1081 [스케일업] 웍스메이트 (2) 건설 업계에 선한 영향력 미칠 '기업 문화' 만들기 IT동아갤로그로 이동합니다. 22.04.26 100 1
1080 EU, 충전기 단일화 나서··· '아이폰도 USB-C 단자 채용할까?' [9] IT동아갤로그로 이동합니다. 22.04.26 1570 8
1079 [인터뷰] 정말 '모두의 골프' 문화를 만들고 있는 엑스골프 조성준 대표 [8] IT동아갤로그로 이동합니다. 22.04.25 2757 0
1078 [뉴스줌인] 인체공학 적용해 손목 부담 덜어주는 '버티컬 마우스' IT동아갤로그로 이동합니다. 22.04.25 138 0
1077 [주간투자동향] 데이원컴퍼니, 350억 원 규모의 시리즈D 투자 유치 IT동아갤로그로 이동합니다. 22.04.25 115 0
1076 [IT애정남] 거품 빠진 그래픽 카드, 지금 구매할까요? 더 기다릴까요? [32] IT동아갤로그로 이동합니다. 22.04.25 2023 2
1075 [홍기훈의 ESG 금융] ESG가 베타에 미치는 영향 Part 7: 아폴로 병원의 내부수익률과 기준 자본비용 산정과정 IT동아갤로그로 이동합니다. 22.04.25 72 0
1074 [NFT산업현장] 1. "NFT는 다양한 산업에서 발전할 것" IT동아갤로그로 이동합니다. 22.04.22 245 0
1073 우주개발의 꿈에 바짝 다가간 토종 스타트업, 컨텍 이성희 대표 IT동아갤로그로 이동합니다. 22.04.22 106 0
1072 묻지마 NFT 잔치 끝났다…'옥석 가리기' 시작 IT동아갤로그로 이동합니다. 22.04.22 122 0
1071 [뉴스줌인] 1080p급 게이밍을 위한 보급형 그래픽카드, 라데온 RX 6400 IT동아갤로그로 이동합니다. 22.04.22 126 0
1070 [리뷰] 최대 18TB의 용량에 USB 허브 기능까지, 씨게이트 원터치 허브 데이터복구 IT동아갤로그로 이동합니다. 22.04.22 388 0
1069 [스타트업人] 흙·농작물에 반한 젊은 농부, 퍼밋 스마트팜 재배 관리자 이야기 IT동아갤로그로 이동합니다. 22.04.22 91 0
1068 [리뷰] 최상의 sRGB 작업 환경을 원한다면, 벤큐 PD3205U 아이케어 [4] IT동아갤로그로 이동합니다. 22.04.22 535 1
1067 [스케일업] 부엔까미노 (1) 재미있는 저축 펀 세이빙, 성장의 열쇠는 ‘네트워크 효과’ IT동아갤로그로 이동합니다. 22.04.22 67 0
1066 "엄마, 아빠보다 더 친한 '알렉사' "... 음성AI와 정서적 교류 맺는 포스트팬데믹 세대 IT동아갤로그로 이동합니다. 22.04.21 174 0
1065 뮤직카우, 급제동 대신 제도권 연착륙 기회 받았다 IT동아갤로그로 이동합니다. 22.04.21 68 0
1064 [스케일업] 드리머리 (2) 전문가 제언, “마케팅 방법에서 브랜딩 방향으로” IT동아갤로그로 이동합니다. 22.04.21 62 0
1063 [혁신스타트업 in 홍릉] 벨베리온 “팬데믹, 살바이러스 방역복으로 대응해야” IT동아갤로그로 이동합니다. 22.04.21 63 0
1062 Z세대 사로잡은 AR, 돈 되는 기술로 떠올랐다 IT동아갤로그로 이동합니다. 22.04.21 87 0
1061 [리뷰] 감성의 영역에 접어든 무선 청소기, 벨레 트윈버드 TB70 IT동아갤로그로 이동합니다. 22.04.21 61 0
1060 [모빌리티 인사이트] 전기차 배터리의 Next level? 무선 충전 vs 교체 IT동아갤로그로 이동합니다. 22.04.21 1082 0
1059 금성오락실에서 만난 42형 LG 올레드 evo…’게이머들 홀릴만하네’ [11] IT동아갤로그로 이동합니다. 22.04.21 1765 2
1058 [WIS 2022] 국내 ICT 최전선을 가다…월드IT쇼 2022 IT동아갤로그로 이동합니다. 22.04.20 757 0
1057 [뉴스줌인] PC 튜닝의 필수요소 된 RGB LED, 그런데 ARGB는 또 뭐야? IT동아갤로그로 이동합니다. 22.04.20 116 0
1056 [스타트업-ing] 브이스페이스 조범동 대표 “UAM을 개발하고 있습니다" IT동아갤로그로 이동합니다. 22.04.20 58 0
1055 [뉴스줌인] 카카오브레인의 초거대 이미지생성 AI 'RQ-Transformer'란? IT동아갤로그로 이동합니다. 22.04.20 73 0
1054 한국기술벤처재단 이영호 사무총장 “창업 지원 20년, 기술창업 기반을 마련하다” IT동아갤로그로 이동합니다. 22.04.20 65 0
1053 AMD, 라이젠 프로 6000 CPU로 기업 시장 공략나서 IT동아갤로그로 이동합니다. 22.04.20 100 0
1052 러시아 침공·부품 수급난 속 스마트폰 시장, 2022 1Q 11% 감소 [4] IT동아갤로그로 이동합니다. 22.04.20 569 2
1051 최초로 QD-OLED 적용한 ‘끝판왕’ 게이밍 모니터, 델 에일리언웨어 AW3423DW [11] IT동아갤로그로 이동합니다. 22.04.19 1787 5
1050 박선기 퍼밋 대표 “사람이 최우선, 농민들 고민 해결하는 스마트팜 될 것” IT동아갤로그로 이동합니다. 22.04.19 113 1
1049 [스타트업ing] 패밀리 김주희 대표, “당신에게 맞는 건강한 음식을 추천합니다” IT동아갤로그로 이동합니다. 22.04.19 113 0
1048 모바일 게임으로 브랜드/제품을 알리는 '애드버게이밍'의 부상 IT동아갤로그로 이동합니다. 22.04.19 75 0
1047 국립어린이청소년도서관 "3D 동화체험, 디지털기술이 아이의 세계를 넓힌다" IT동아갤로그로 이동합니다. 22.04.19 75 0
1046 [스타트업-ing] 칼렛바이오 권영삼 대표, “친환경 포장재, 쉽게 주문하고 제작할 수 있습니다” [2] IT동아갤로그로 이동합니다. 22.04.19 1195 0
1045 트위터 입맛대로 주무르려는 머스크…이사회는 '독약 처방' [26] IT동아갤로그로 이동합니다. 22.04.18 2781 13
1044 [리뷰] 디지털로 한계를 극복하다, 후지필름 인스탁스 미니 에보 [4] IT동아갤로그로 이동합니다. 22.04.18 1524 0
1043 [주간투자동향] 파스토, 800억 원 규모의 시리즈C 투자 유치 IT동아갤로그로 이동합니다. 22.04.18 130 0
1042 [스케일업] 웍스메이트 (1) 건설 인력 '양과 질' 확보가 승패 가른다 IT동아갤로그로 이동합니다. 22.04.18 545 0
1041 [스케일업] 웍스메이트 (1) 건설 인력 '양과 질' 확보가 승패 가른다 IT동아갤로그로 이동합니다. 22.04.18 70 0
1040 홍익대 학생들, 가비아와 손잡고 ‘글꼴’ 제작 나선 이유는? [1] IT동아갤로그로 이동합니다. 22.04.15 162 1
1039 AI 산업 트렌드와 발전상 한눈에…제5회 국제인공지능대전 IT동아갤로그로 이동합니다. 22.04.15 121 0
1038 [IT애정남] 현장 증거 확보하는 바디캠, 일반인이 사용해도 괜찮을까요? IT동아갤로그로 이동합니다. 22.04.15 145 0
1037 [스타트업-ing] 참약사 김병주 대표, “그저 약만 판매하던 약국을 바꾸고자 합니다” IT동아갤로그로 이동합니다. 22.04.15 96 0
뉴스 [포토] 김재원-연우, 선남선녀 디시트렌드 11.28
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2