디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱

IT동아갤로그로 이동합니다. 2022.04.12 08:23:06
조회 1445 추천 2 댓글 7
[IT동아 차주경 기자] 나날이 발전하는 사진 인공지능 기술이 사람의 능력을 뛰어넘을 기세다. 문장 한두 마디를 듣고 그 설명을 고스란히 그림이나 사진으로 묘사하는 인공지능이 등장했다. 사람의 목소리를 들으면 그 사람의 얼굴 생김새를 추측해 그리는 인공지능도 주목 받는다.

미국 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 개발한 사진 인공지능 ‘DALL-E 2’는 특정 문장 한두 마디를 입력하면 이를 토대로 사진이나 그림을 만든다.


오픈AI DALL-E 2가 문장을 듣고 만든 그림과 사진. 출처 = 오픈AI



위 그림과 사진은 DALL-E 2가 각각 ‘우주에서 고양이와 농구 하는 우주 비행사’와 ‘해변가에 앉은 웰시코기 강아지’를 듣고 만든 것이다. 앞서 인공지능 기술 개발 기업 엔비디아가 이와 비슷한 기술 ‘GauGAN2’를 공개했다. 문장을 듣고 그대로 사진으로 만드는 인공지능이다. 오픈AI의 DALL-E 2는 엔비디아의 GauGAN2보다 사진을 더 선명하게, 고해상도로 만든다. 배경 흐림, 빛 묘사 등 고급 사진 기술도 넣는다.

DALL-E 2는 문장을 듣고 사진에 피사체를 추가하거나, 사진의 구도를 바꾸는 능력도 가졌다. 방 사진을 인식한 후 DALL-E 2에게 ‘방 구석에 노란 색 소파’라고 입력하면 그대로 표현한다. ‘방 왼쪽 구석’을 입력하면 방 사진에는 없는 구석을 스스로 묘사한다. 단, 복잡한 문장이나 표현은 인식하지 못한다. 그림자나 빛의 방향을 다소 어색하게 표현할 때도 있다.

유사한 기술로, 앞서 미국 매사추세츠 공과대학교(MIT)의 컴퓨터 과학·인공지능 연구소(CSAIL) 소속 과학자들이 공개한 목소리 인식 인공지능 기술 ‘Speech2Face’가 화제가 됐었다. 이 인공지능은 사람의 목소리를 듣고 억양과 높낮이, 단어와 발음을 토대로 그 사람의 얼굴 생김새를 추론한다.


실제 사람 사진(왼쪽)과 이들의 목소리를 들은 Speech2Face가 묘사한 인물 사진. 출처 = 깃허브



CSAIL 과학자들은 유튜브에 올라온 동영상 수백만 개를 활용해 사람 얼굴과 목소리의 특성, 관계를 연구했다. 그 결과, Speech2Face는 사람의 목소리만 듣고도 놀라울 정도로 정확하게 그 사람의 얼굴을 재현했다.

이 두 인공지능 기술도 일부 사진 인공지능 기술의 사례와 마찬가지로 나쁘게 쓰일 가능성이 제기됐다. 기술 개발자들은 여러 제한과 안전 장치를 둬서 부작용을 막는다고 밝혔다.

오픈AI는 DALL-E 2가 나쁘게 쓰이지 않도록 음란·폭력·증오 관련 단어와 문구를 데이터베이스에서 지웠다. 사람의 얼굴도 만들지 못하게 설계하고, 이 기술을 일반 소비자에게는 제공하지 않는다. CSAIL은 Speech2Face를 만들 때 유튜브의 동영상을 활용한 만큼, 데이터 분포가 균등하지 않다고 밝혔다. 이어 이 기술을 사람의 목소리의 특징을 연구하고 더 많은 응용 프로그램을 만들기 위해 개발했다고 강조했다.

글 / IT동아 차주경(racingcar@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 반도체 수급난, 러시아 침공 등 이어지는 악재에 광학 기기 가격 줄인상▶ 고가·고급 미러리스 딛고 디카 시장 부활 기미, 낙관 경계론도▶ 창과 방패의 대결, 인공지능 가짜 사진 vs 가짜 사진 판별 인공지능



추천 비추천

2

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 가족과 완벽하게 손절해야 할 것 같은 스타는? 운영자 24/06/24 - -
3973 [스타트업 첫걸음] 창업지원기관, 어떻게 찾아야 할까 IT동아갤로그로 이동합니다. 12:05 2 0
3972 업무 문화 혁신 중, KB국민은행은 ‘애자일(Agile)에 진심’이었습니다 IT동아갤로그로 이동합니다. 02:00 17 0
3971 [스케일업] 파나띠꼬 [1] BM분석 – 선택ㆍ집중 통한 기업과 제품 정체성 구축 필요 IT동아갤로그로 이동합니다. 06.26 30 0
3970 [스케일업] 말랑탱크 [1] BM분석 “눈 건강 솔루션으로 틈새 시장 개척, 방향성 유지가 중요” IT동아갤로그로 이동합니다. 06.26 24 0
3969 브이디컴퍼니 x 골프존파크 “서빙로봇과 24시간 매장으로 변신” IT동아갤로그로 이동합니다. 06.26 30 0
3968 [리뷰] 조명을 더한 감성 스피커 ‘브리츠 BZ-CML200’ IT동아갤로그로 이동합니다. 06.26 776 1
3967 [자동차와 法] 차량 결함으로 의심되는 급발진 교통사고의 문제점 IT동아갤로그로 이동합니다. 06.25 46 0
3966 [인터뷰] 실사용 의료데이터 분석으로 성공적인 임상연구 돕는 ‘메디플렉서스’ IT동아갤로그로 이동합니다. 06.25 54 0
3965 [자동차 디자人] 프리미엄 소형차 ‘MINI 디자인’ 이끄는 ‘올리버 하일머’ IT동아갤로그로 이동합니다. 06.25 799 0
3964 [칼럼] IPO 열풍 속 IT 인프라 변화, 클라우드 전환의 필요성과 전략적 접근 IT동아갤로그로 이동합니다. 06.25 50 0
3963 ‘성능? 호환성?’ AI(인공지능) PC 시대, 선택의 기준은? IT동아갤로그로 이동합니다. 06.25 533 0
3962 엔슬파트너스·콴티파이 “유망 초격차 10대 스타트업 적극 육성” IT동아갤로그로 이동합니다. 06.25 41 0
3961 [혁신스타트업 in 홍릉] 두뇌싱긋연구소 “게임으로 노년층에게 즐거운 삶을” IT동아갤로그로 이동합니다. 06.25 45 0
3960 [SBA x IT동아] 넷스파 “폐어망 재활용으로 해양 폐기물 문제 해결에 기여하겠습니다” IT동아갤로그로 이동합니다. 06.25 41 0
3959 [뉴스줌인] 성능은 UP, 가격은 동결, ‘갤럭시 A35’ 이모저모 [3] IT동아갤로그로 이동합니다. 06.25 863 1
3958 [스케일업] 운약근답올핏 [1] “시장·영업·스케일업 전략 명확하게 제시하라” IT동아갤로그로 이동합니다. 06.24 55 0
3957 업비트·빗썸, 가상자산 투자대회 개최 '투자 심리 회복 기대' IT동아갤로그로 이동합니다. 06.24 62 0
3956 뷰소닉 데이빗 첸 “한국 빔프로젝터 시장, 우리 경쟁력 높일 기회의 땅” [3] IT동아갤로그로 이동합니다. 06.24 804 0
3955 브이디컴퍼니 x 타임빌라스 수원 “대형 매장 서빙, 로봇으로 거뜬히” [2] IT동아갤로그로 이동합니다. 06.24 852 1
3954 [정구태의 디지털자산 리터러시] 디지털자산 갈라파고스 탈출을 위한 제언 2. 실명계좌 제도 개선 IT동아갤로그로 이동합니다. 06.24 47 0
3953 헷갈리는 우회전 교통법규 숙지하기! [이럴땐 이렇게!] [13] IT동아갤로그로 이동합니다. 06.24 2429 3
3952 [르포] ‘페라리’ 전동화 전초 기지 ‘e-빌딩’ 현장 살펴보니 IT동아갤로그로 이동합니다. 06.21 112 0
3951 AWS 지용호 마케팅 총괄 “클라우드 강자 AWS, 생성형 AI 혁신도 주도” IT동아갤로그로 이동합니다. 06.21 115 0
3950 차트분석 도구 ‘트레이딩뷰’ 파고들기 - 16 IT동아갤로그로 이동합니다. 06.21 121 0
3949 [생성 AI 길라잡이] 대화형 생성AI도 골라서 쓰자, GPT와 클로드, 제미나이 IT동아갤로그로 이동합니다. 06.21 4410 5
3948 [농업이 IT(잇)다] 마늘 분류에 비전인식 AI 접목한 '젠틀파머스' IT동아갤로그로 이동합니다. 06.21 113 0
3947 “NFT가 가상자산?” NFT 법적 성격 판단 기준 나왔다 IT동아갤로그로 이동합니다. 06.20 729 0
3946 삼성전자, 빌트인 가전 브랜드 '데이코' 전시·판매 확대로 B2C 시장 공략 [2] IT동아갤로그로 이동합니다. 06.19 2470 0
3945 KIAT, 광주 가전산업 위기 극복 위해 기업과 머리 맞대 IT동아갤로그로 이동합니다. 06.19 127 0
3944 [스케일업] 두디스 [1] BM분석 - "유튜브 영상 분석 플랫폼, 첨예한 접근 필요" IT동아갤로그로 이동합니다. 06.19 127 0
3943 브이디컴퍼니 x 향촌흑염소 "서빙로봇, 대형 요식업 매장에 어울려” IT동아갤로그로 이동합니다. 06.19 145 0
3942 [월간자동차] 24년 5월, 국산 ‘기아 카니발’·수입 ‘테슬라 모델 3’ 판매 1위 IT동아갤로그로 이동합니다. 06.19 683 0
3941 초기 스타트업에 대한 전문적·객관적 평가, '상품성 진단' 들여다보니 IT동아갤로그로 이동합니다. 06.19 118 2
3940 AKG, 라이프스타일에 맞춘 새로운 N 시리즈 ‘N5·N9 하이브리드’ [1] IT동아갤로그로 이동합니다. 06.18 2106 0
3939 세일즈포스, 월드투어 코리아서 AI CRM의 현주소·영향력 입증 IT동아갤로그로 이동합니다. 06.18 111 0
3938 뜨거운 미국 증시 시장, 투자 전 확인해야 될 것들 IT동아갤로그로 이동합니다. 06.18 110 0
3937 [신차공개] ‘캐스퍼 일렉트릭’ 티저 공개·’뉴 레인지로버 벨라’ 사전계약 실시 IT동아갤로그로 이동합니다. 06.17 127 0
3936 ‘인공지능’ 처리하는 AI PC 시대 개막, PC 시장이 움직인다 IT동아갤로그로 이동합니다. 06.17 113 0
3935 [정구태의 디지털 자산 리터러시] 디지털자산 갈라파고스 탈출을 위한 제언 1. 법인참여 허용 IT동아갤로그로 이동합니다. 06.17 114 0
3934 [스케일업] 스크램블러 [1] BM 분석 “뷰티? 스토리테크? 선택과 집중이 필요” IT동아갤로그로 이동합니다. 06.17 116 0
3933 [리뷰] 과감한 디자인 속 탄탄한 기본기, 에이수스 터프 게이밍 F16 IT동아갤로그로 이동합니다. 06.17 953 2
3932 [주간투자동향] 고피자, 1000만 달러 규모 투자 유치 IT동아갤로그로 이동합니다. 06.17 111 0
3931 음향기기, 물에 빠졌다면 이렇게![이럴땐 이렇게!] [1] IT동아갤로그로 이동합니다. 06.17 1156 3
3930 [생성 AI 길라잡이] 갤럭시 AI 활용하기 - '서클 투 서치' IT동아갤로그로 이동합니다. 06.14 210 0
3929 [시승기] 원형 OLED 탑재·차체 키워 7년 만에 돌아온 ‘뉴 미니 컨트리맨’ IT동아갤로그로 이동합니다. 06.14 188 0
3928 루나레이크·애로우레이크로 이원화된 인텔 CPU, 라인업 구분은? IT동아갤로그로 이동합니다. 06.14 193 0
3927 금융위원회 “가상자산 사업자 영업 종료 규제 강화한다” IT동아갤로그로 이동합니다. 06.14 825 0
3926 서울 중구-동국대 캠퍼스타운, 대학과 지역이 함께 고민하는 자원순환 문제 IT동아갤로그로 이동합니다. 06.14 139 0
3925 [SBA x IT동아] ‘마이크로바이옴’으로 보다 나은 삶 만들 것, 윤여민 메가랩 대표 IT동아갤로그로 이동합니다. 06.14 132 0
3924 [스타트업리뷰] 건설인력 노무관리 원 클릭 시스템, 웍스메이트 ‘가다오피스’ IT동아갤로그로 이동합니다. 06.14 133 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2