디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱

IT동아갤로그로 이동합니다. 2022.04.12 08:23:06
조회 1446 추천 2 댓글 7
[IT동아 차주경 기자] 나날이 발전하는 사진 인공지능 기술이 사람의 능력을 뛰어넘을 기세다. 문장 한두 마디를 듣고 그 설명을 고스란히 그림이나 사진으로 묘사하는 인공지능이 등장했다. 사람의 목소리를 들으면 그 사람의 얼굴 생김새를 추측해 그리는 인공지능도 주목 받는다.

미국 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 개발한 사진 인공지능 ‘DALL-E 2’는 특정 문장 한두 마디를 입력하면 이를 토대로 사진이나 그림을 만든다.


오픈AI DALL-E 2가 문장을 듣고 만든 그림과 사진. 출처 = 오픈AI



위 그림과 사진은 DALL-E 2가 각각 ‘우주에서 고양이와 농구 하는 우주 비행사’와 ‘해변가에 앉은 웰시코기 강아지’를 듣고 만든 것이다. 앞서 인공지능 기술 개발 기업 엔비디아가 이와 비슷한 기술 ‘GauGAN2’를 공개했다. 문장을 듣고 그대로 사진으로 만드는 인공지능이다. 오픈AI의 DALL-E 2는 엔비디아의 GauGAN2보다 사진을 더 선명하게, 고해상도로 만든다. 배경 흐림, 빛 묘사 등 고급 사진 기술도 넣는다.

DALL-E 2는 문장을 듣고 사진에 피사체를 추가하거나, 사진의 구도를 바꾸는 능력도 가졌다. 방 사진을 인식한 후 DALL-E 2에게 ‘방 구석에 노란 색 소파’라고 입력하면 그대로 표현한다. ‘방 왼쪽 구석’을 입력하면 방 사진에는 없는 구석을 스스로 묘사한다. 단, 복잡한 문장이나 표현은 인식하지 못한다. 그림자나 빛의 방향을 다소 어색하게 표현할 때도 있다.

유사한 기술로, 앞서 미국 매사추세츠 공과대학교(MIT)의 컴퓨터 과학·인공지능 연구소(CSAIL) 소속 과학자들이 공개한 목소리 인식 인공지능 기술 ‘Speech2Face’가 화제가 됐었다. 이 인공지능은 사람의 목소리를 듣고 억양과 높낮이, 단어와 발음을 토대로 그 사람의 얼굴 생김새를 추론한다.


실제 사람 사진(왼쪽)과 이들의 목소리를 들은 Speech2Face가 묘사한 인물 사진. 출처 = 깃허브



CSAIL 과학자들은 유튜브에 올라온 동영상 수백만 개를 활용해 사람 얼굴과 목소리의 특성, 관계를 연구했다. 그 결과, Speech2Face는 사람의 목소리만 듣고도 놀라울 정도로 정확하게 그 사람의 얼굴을 재현했다.

이 두 인공지능 기술도 일부 사진 인공지능 기술의 사례와 마찬가지로 나쁘게 쓰일 가능성이 제기됐다. 기술 개발자들은 여러 제한과 안전 장치를 둬서 부작용을 막는다고 밝혔다.

오픈AI는 DALL-E 2가 나쁘게 쓰이지 않도록 음란·폭력·증오 관련 단어와 문구를 데이터베이스에서 지웠다. 사람의 얼굴도 만들지 못하게 설계하고, 이 기술을 일반 소비자에게는 제공하지 않는다. CSAIL은 Speech2Face를 만들 때 유튜브의 동영상을 활용한 만큼, 데이터 분포가 균등하지 않다고 밝혔다. 이어 이 기술을 사람의 목소리의 특징을 연구하고 더 많은 응용 프로그램을 만들기 위해 개발했다고 강조했다.

글 / IT동아 차주경(racingcar@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 반도체 수급난, 러시아 침공 등 이어지는 악재에 광학 기기 가격 줄인상▶ 고가·고급 미러리스 딛고 디카 시장 부활 기미, 낙관 경계론도▶ 창과 방패의 대결, 인공지능 가짜 사진 vs 가짜 사진 판별 인공지능



추천 비추천

2

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 가족과 완벽하게 손절해야 할 것 같은 스타는? 운영자 24/06/24 - -
1031 ‘타다 넥스트’ 정식 출시, 서비스 고급화 및 택시 기사와의 공생 강조 [1] IT동아갤로그로 이동합니다. 22.04.14 1085 1
1030 [스타트업-ing] 모픽 신창봉 대표, “평면 디스플레이에 3D를 구현합니다” IT동아갤로그로 이동합니다. 22.04.14 79 0
1029 [리뷰] GPU 경쟁 시작됐다··· 베일 벗은 '인텔 A350M 그래픽 카드' [8] IT동아갤로그로 이동합니다. 22.04.14 1894 6
1028 [모빌리티 인사이트] 도심항공 모빌리티(UAM)는 어디에서 타나요? IT동아갤로그로 이동합니다. 22.04.14 204 0
1027 5G만큼 빠른 Wi-Fi 7 시대 성큼, 브로드컴 샘플 칩 출하 IT동아갤로그로 이동합니다. 22.04.14 91 0
1026 요즘 2030세대는 AI로 투자한다.. 다만, 전문가는 "고수익 좇긴 어렵다" 당부 [17] IT동아갤로그로 이동합니다. 22.04.14 1733 2
1025 델컴퍼니 “IoT로 범위 넓히는 조명 업계, 파트너십과 신제품 발굴이 관건” IT동아갤로그로 이동합니다. 22.04.13 124 0
1023 [리뷰] LED로 밝히다, 카멜마운트 고든 HMA2 RGB 싱글 모니터 암 IT동아갤로그로 이동합니다. 22.04.13 77 0
1022 [스케일업] 드리머리 (1) BM분석 - 뷰티, 커머스가 아닌 콘텐츠 플랫폼이다 IT동아갤로그로 이동합니다. 22.04.13 48 0
1021 뱅앤올룹슨의 한국 사랑, 아시아 최대 매장에 주문 제작 서비스까지 [10] IT동아갤로그로 이동합니다. 22.04.12 1788 3
1020 플링크 "화상회의, 실시간의 이점을 살려야 합니다" IT동아갤로그로 이동합니다. 22.04.12 55 0
1019 [IT애정남] 외장 SSD, 완제품과 조립형 케이스 중 어떤 게 좋을까요? IT동아갤로그로 이동합니다. 22.04.12 148 0
1018 비보의 첫 폴더블 스마트폰 ‘X 폴드’ 삼성 갤럭시 Z 폴드3와 비교해보니 [6] IT동아갤로그로 이동합니다. 22.04.12 1368 1
1017 [BIT 인사이트저널] 집 앞까지의 마지막 한 걸음, '뉴빌리티'의 도전 IT동아갤로그로 이동합니다. 22.04.12 67 0
1016 [스타트업-ing] 로드시스템 장양호 대표, “스마트폰 속 여권을 인증하고 있습니다” IT동아갤로그로 이동합니다. 22.04.12 57 0
1015 삼성전자, 재생 부품 활용해 갤럭시 수리비 줄인다 [12] IT동아갤로그로 이동합니다. 22.04.12 1159 2
인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱 [7] IT동아갤로그로 이동합니다. 22.04.12 1446 2
1013 [리뷰] 샤오미 버즈 3T 프로, 강력한 노이즈 캔슬링에 하이파이 음질까지 IT동아갤로그로 이동합니다. 22.04.11 130 0
1012 [주간투자동향] 이스크라, 420억 원 규모의 시드 투자 유치 IT동아갤로그로 이동합니다. 22.04.11 52 0
1011 '채굴 빙하기' 앞둔 이더리움, 가상자산 시장에도 친환경 물결 IT동아갤로그로 이동합니다. 22.04.11 104 0
1010 교육용 컴퓨터도 성능 고려해야, '학습용 컴퓨터'를 고르는 기준은? IT동아갤로그로 이동합니다. 22.04.11 76 0
1009 [스케일업] 딥파인 (2) 증강현실 상업이냐 기술이냐, 방향 정하고 차별화하라 IT동아갤로그로 이동합니다. 22.04.11 1337 0
1008 [뉴스줌인] 강력한 패스스루 기능이 매력적, 엘가토 HD60 X 캡처카드 IT동아갤로그로 이동합니다. 22.04.10 65 0
1007 넷플 "OCA로 비용 줄일 수 있어" vs SKB "망 이용은 무료 아냐" [2] IT동아갤로그로 이동합니다. 22.04.08 183 1
1006 [스타트업人] IT 스타트업의 숨은 해결사, 당근마켓 프로덕트 매니저(PM) 이야기 IT동아갤로그로 이동합니다. 22.04.08 87 0
1005 [기고] 조각투자 규제, 일변도식 접근 삼가야... '법 제도적 뒷받침 필요' IT동아갤로그로 이동합니다. 22.04.08 91 0
1004 "인생네컷은 MZ세대의 문화··· 네이버웍스 도입으로 더 효율화" [23] IT동아갤로그로 이동합니다. 22.04.08 3727 2
1003 [스케일업] 트랜쇼 (1) BM분석 - 패션 풀필먼트의 비밀병기, 사입삼촌! IT동아갤로그로 이동합니다. 22.04.08 96 0
1002 반도체 수급난, 러시아 침공 등 이어지는 악재에 광학 기기 가격 줄인상 [3] IT동아갤로그로 이동합니다. 22.04.08 1179 0
1001 슈나이더 일렉트릭, 스마트 공장 위한 통합 자동화 솔루션 다수 공개 IT동아갤로그로 이동합니다. 22.04.07 136 0
1000 베일 벗은 국내 최대 '애플 명동'…제품, 서비스 다음은 콘텐츠? IT동아갤로그로 이동합니다. 22.04.07 778 0
999 "유수의 테크기업도 카카오T 모델로 간다", 카카오모빌리티가 비친 자신감 IT동아갤로그로 이동합니다. 22.04.07 85 0
998 델, 2022년형 기업용 컴퓨터 출시··· '비대면 업무에 최적' [4] IT동아갤로그로 이동합니다. 22.04.07 2226 2
997 스타트업 성공을 위한 ‘SW 시장성 테스트’ IT동아갤로그로 이동합니다. 22.04.07 102 0
996 [모빌리티 인사이트] 자동차도 신발이 중요합니다 IT동아갤로그로 이동합니다. 22.04.07 82 0
995 [뉴스줌인] 샤오미 레드미노트 11 국내 출시, 경쟁자는 갤럭시 A23/53? [21] IT동아갤로그로 이동합니다. 22.04.06 1224 4
994 타다 이후로도 모빌리티의 질주는 계속된다.."최종 목적지는 완전자율주행" IT동아갤로그로 이동합니다. 22.04.06 111 0
993 기발한 아이디어 거래하는 '아이디어 시장', 새로운 공유경제 개척한다 IT동아갤로그로 이동합니다. 22.04.06 118 0
992 로지텍, 새 통합 브랜드로 '크리에이터' 시장 정조준 IT동아갤로그로 이동합니다. 22.04.06 1056 0
991 이름도 어려운 디지털 사이니지, '카멜 솔루션'이 손쉬운 사용 돕는다 IT동아갤로그로 이동합니다. 22.04.06 102 0
990 6월 16일 열릴 애플 WWDC, iOS 16 포함한 새 운영 체제 기대 IT동아갤로그로 이동합니다. 22.04.06 140 0
989 "잘 할 수 있는 걸 하겠다" 3000억 들인 카카오의 상생 해법 [5] IT동아갤로그로 이동합니다. 22.04.06 607 0
988 고가·고급 미러리스 딛고 디카 시장 부활 기미, 낙관 경계론도 IT동아갤로그로 이동합니다. 22.04.06 117 0
987 [김 소장의 ‘핏(FIT)’] “구글플레이에서 티빙 결제하면 더 비싸다구요?” IT동아갤로그로 이동합니다. 22.04.06 78 0
986 어도비, 디지털 경제 실현을 위한 새로운 개인화 경험 기능 발표 IT동아갤로그로 이동합니다. 22.04.06 103 0
985 단종 후 오히려 ‘역주행’ 하는 갤럭시 A52s, 어째서? [12] IT동아갤로그로 이동합니다. 22.04.05 1989 12
984 소니, 게임 구독으로 MS에 맞불? 사실은 소심한 견제구 IT동아갤로그로 이동합니다. 22.04.05 159 0
983 "현실이랑 다른 게 뭐야?"... 카카오·디즈니+도 버추얼 프로덕션에 뛰어든다 [7] IT동아갤로그로 이동합니다. 22.04.05 3173 2
982 [IT강의실] 애플을 위한 제품, MFi 프로그램이란? IT동아갤로그로 이동합니다. 22.04.05 152 0
981 창과 방패의 대결, 인공지능 가짜 사진 vs 가짜 사진 판별 인공지능 [11] IT동아갤로그로 이동합니다. 22.04.05 1428 4
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2