디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[AI 리뷰] 사람처럼 보고 듣고 말하는 ‘GPT-4o’

리뷰타임스갤로그로 이동합니다. 2024.07.11 08:30:53
조회 2933 추천 4 댓글 1
[리뷰타임스=김우선 기자] OpenAI의 최신 자연어 처리 모델이자 차세대 생성형 AI인 GPT-4o(옴니를 의미하는 o)가 새롭게 공개됐다. 단순한 챗봇 이상의 가능성을 지닌 혁신적인 AI 모델이라는 게 OpenAI의 설명이다. SF 영화 속에 등장하는 인간과 자연스럽게 대화하는 고차원의 AI가 완성되고 있는 것이다.



생성형 AI의 혁신으로 일컬어지는 GPT-4o


 

GPT-4o를 한마디로 표현하면 ‘보고 듣고 말할 수 있는 복합적 AI’이다. 실제로 오픈AI가 공개한 데모 영상을 보면 GPT-4o는 사람처럼 자연스럽게 대화하는 데다 유머 실력까지 갖추고 있다. 기존 AI와 대화는 딱딱할 뿐 아니라, 사람이 말한 내용을 AI가 듣고 나서 답하는 형태였는데 GPT-4o와 대화는 그야말로 물 흐르듯 자연스레 이어진다.



텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성한다. 오디오 입력에 대해서 반응속도가 232밀리초 안에 응답할 수 있으며, 평균 320밀리초로 인간의 응답 시간과 비슷하다.



챗GPT가 말하는 와중에 사람이 끼어들어 말할 수 있고, 여러 명의 목소리도 동시에 인식한다. GPT-4o가 응답하는 데 걸리는 시간은 평균 0.32초로 사람과 거의 비슷한 수준으로 진화했다. 기존 GPT-4의 응답 속도는 5.4초였다.



기존 유료모델인 ‘GPT-4 Turbo’보다 2배 빨라졌고, 절반이나 저렴하다. GPT-4 Turbo는 한 번에 12만 8천 개의 ‘토큰(단어량)’을 처리할 수 있고, 월 구독료는 20달러인데 반해 GPT-4o는 ‘GPT-3.5’ 모델처럼 모든 사용자에게 무료로 제공되는데 단, 유료 구독자는 무료 이용자보다 5배 이상 더 많은 메시지를 사용할 수 있다.



GPT-4o 모델 이름에서 o는 옴니(omni)의 줄임말로 ‘모든 것’, ‘어디에나 있다’는 뜻을 포함하고 있다. 오픈AI가 GPT-4o를 ‘AI 종합판’이라고 부르며 자신감을 드러낸 데는 기존 그리고 타 모델과 차별화된 5가지 옴니 기능 때문이다. 아래는 5가지 옴니 기능을 설명한 아이콘이다.




GPT-4o의 5가지 옴니 기능


 

-      텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(multi modal) 기능

-      이미지를 분석하고 설명하며 생성하는 강화된 비전(vision) 기능

-      실시간 웹 정보 검색을 통해 얻은 최신 정보를 기반으로 한 깊이 있는 답변 기능

-      외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(function call) 기능

-      데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능 등이다.



주요 특징으로는 △향상된 언어 이해 능력: 이전 모델에 비해 더 높은 정확도로 텍스트를 이해하고 생성할 수 있다. 복잡한 문장 구조와 미묘한 뉘앙스까지 파악하여 자연스러운 대화를 이끌어낸다. △강화된 학습 데이터: 방대한 양의 최신 데이터로 학습된 GPT-4o는 최신 트렌드와 정보를 반영, 이를 통해 사용자에게 더욱 신뢰성 있는 정보를 제공한다. △다양한 언어 지원: GPT-4o는 다국어 지원 능력이 향상되어 다양한 언어를 능숙하게 처리하고 여러 언어 간 번역 능력도 뛰어나다. △맞춤형 응답: 사용자의 요구에 맞춘 개인화된 응답을 생성할 수 있어, 더 유연하고 적절한 대화가 가능하다.



다국어의 경우 기존에도 번역과 통역 기능은 있었지만 거의 즉각적으로 다른 언어 번역이 가능하도록 업그레이드됐다. 이에 따라 한국어 등 20개 언어를 토크나이저 압축으로 기능이 개선됐다. 아이언맨 영화에서 자비스를 장착한 수준으로 실시간 통역이 가능해 영어공부를 더 이상 할 필요가 없는 세상이 올지도 모른다.



GPT-4o에서 무엇보다 주목할 점은 AI가 카메라로 세상을 들여다본다는 점이다. 사람과 자연스럽게 대화가 가능해진 건 카메라를 통해 상대방 표정을 읽어내기 때문이다. 예를 들어, 사람이 수학 문제를 푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하는 것도 가능해졌다.




AI가 카메라를 통해 대화가 가능해졌다.


 

GPT-4o는 기존 'GPT-4' 'GPT-4V' 'GPT-4 터보' 등 기존 모델보다 더 빠르고 저렴하며 오디오와 비전 같은 입력으로부터 더 많은 정보를 유지하는 점에서 크게 개선됐다는 설명이다. 기술적으로는 기존에 대형언어모델(LMM)을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다.



이미지 인식과 음성 인식, 대답 등을 하나의 모델에서 추론함으로써 모든 대기 시간을 줄이고 사람이 하는 것과 동일한 수준으로 업그레이드됐다. 그 결과 입력된 소리에서 감정을 분석하여 대응할 수 있다. 예를 들어 거친 숨소리를 입력하면 '진정해, 긴장하지마' 라고 말해준다. 또한 데스크톱에서는 코딩을 함께 보면서 이 코딩에서는 어떤 부분을 고쳐야 하는지 음성으로 대화하면서 사람과 영상통화를 하면서 도움을 받는 듯한 느낌마저 준다.



기존 모델들은 여러 다른 모델들을 연결하고 오디오 및 비주얼과 같은 다른 매체를 텍스트로 변환한 후 다시 변환하는 방식을 사용했지만, 새로운 GPT-4o는 단일 모델에서 처음부터 멀티미디어 토큰으로 훈련, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있다는 것이다.



종합해보면 GPT-4o는 ‘보고 들으면서 말할 수 있는 복합 지능을 가진 AI’라고 할 수 있다. 인공지능 비서와 실제로 사랑에 빠지는 영화 Her가 점점 현실로 다가오고 있다.



GPT-4o는 모든 글로벌 이용자들에게 무료로 제공하지만, 기존 유료 이용자는 무료 이용자보다 5배 많은 질문을 할 수 있다. GPT-4o는 이날부터 사용 가능하며, 개발자는 이제 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있다. 앞으로 ChatGPT Plus 내에서 GPT-4o 알파 버전의 음성 모드 새 버전을 출시할 예정이다.

 

<ansonny@reviewtimes.co.kr>

<저작권자 ⓒ리뷰타임스, 무단전재 및 재배포 금지〉 



review_times

추천 비추천

4

고정닉 0

7

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
2456 [전기차] 푸조, 국내 소형 전기차 대전 참여…전기차 2종 최대 1,400만원 할인 리뷰타임스갤로그로 이동합니다. 07.19 233 0
2455 [여행] ‘스리랑카&몰디브’ 기획전 출시 리뷰타임스갤로그로 이동합니다. 07.19 197 0
2454 [전기차 리뷰] 올 상반기 테슬라 국내 신차등록 사상 최고 리뷰타임스갤로그로 이동합니다. 07.19 184 0
2453 [AV] 다이슨, 새로운 하이파이 노이즈 캔슬링 헤드폰 ‘다이슨 온트랙’ 공개 리뷰타임스갤로그로 이동합니다. 07.19 332 0
2452 [커피 전문점 리뷰] 캐나다 국민커피 프랜차이즈 ‘팀홀튼’ 국내 1호점 신논현점 방문기 리뷰타임스갤로그로 이동합니다. 07.19 223 0
2451 [DIY 리뷰] 4:3 구형 모니터로 아빠표 레트로 게임기 만들기 [2] 리뷰타임스갤로그로 이동합니다. 07.19 2451 11
2450 [메시지] 뿌리오, 카카오톡 자동 발송 가능한 연동서비스 오픈 리뷰타임스갤로그로 이동합니다. 07.18 188 0
2449 [안전] 해외직구 안전성 위협...속옷서 발암물질 '아릴아민' 검출, 화장품 14개 국내기준 초과 리뷰타임스갤로그로 이동합니다. 07.18 209 0
2448 [AI] 삼성전자, 영국 ‘옥스퍼드 시멘틱 테크놀로지스’ 인수 리뷰타임스갤로그로 이동합니다. 07.18 169 0
2447 [암호화폐 리뷰] 리플(XRP) ‘나홀로 상승’…그 이유는? 리뷰타임스갤로그로 이동합니다. 07.18 212 0
2446 [AI] 딥엘, GPT-4·구글·MS 능가하는 번역 서비스에 차세대 LLM 도입 [5] 리뷰타임스갤로그로 이동합니다. 07.18 1279 2
2445 [웨어러블 리뷰] 젊은층 둘 중 하나는 스마트워치에 무선이어폰 사용 중 [7] 리뷰타임스갤로그로 이동합니다. 07.18 1436 0
2444 [부동산] 전국 임대 아파트 정보 한눈에! ‘임대청약지도’ 서비스 출시 리뷰타임스갤로그로 이동합니다. 07.18 887 0
2443 [PC] 성수동 델 AI PC 팝업 체험존 ‘북적북적’ 성료 리뷰타임스갤로그로 이동합니다. 07.17 554 0
2442 [서울 리뷰] 도심에서 즐기는 휴가, 영화도 보고 맥주도 마시고 리뷰타임스갤로그로 이동합니다. 07.17 576 1
2441 [식당리뷰] 매일 바뀌는 점심 식사, 합정 난 리뷰타임스갤로그로 이동합니다. 07.17 206 0
2440 [식당 리뷰] 제주 두루치기 맛집 ‘동성식당’, 생고기에 야채 듬뿍 리뷰타임스갤로그로 이동합니다. 07.17 206 0
2439 [서울 리뷰] 이런 것도 가능?...하반기 '서울 라이프'가 달라진다 [2] 리뷰타임스갤로그로 이동합니다. 07.16 5251 2
2438 [대회] 예스24, 2024년 제21회 어린이 독후감 대회 개최… 9월 22일까지 접수 리뷰타임스갤로그로 이동합니다. 07.16 204 0
2437 [모집] 한국 정보 오류 신고하세요...‘대한민국 바로알림단’ 모집 리뷰타임스갤로그로 이동합니다. 07.16 198 0
2436 [스마트폰] 갤럭시 Z 폴드6·Z 플립6 ‘드론 배송 서비스’ 시행 [2] 리뷰타임스갤로그로 이동합니다. 07.16 2196 0
2435 [스포츠] 2024년 스포츠 카드 시장 보고서 발간 [1] 리뷰타임스갤로그로 이동합니다. 07.16 1968 2
2434 [식품 리뷰] 도드람 캔돈 삼겹살 2차 리뷰 후기 "캠핑용으로 안성맞춤" 리뷰타임스갤로그로 이동합니다. 07.16 195 0
2433 [국방] 휴니드, 한국형 MANET 기반 영상전송 장비세트 육군에 최초 납품 [2] 리뷰타임스갤로그로 이동합니다. 07.16 1931 2
2432 [AI] 마이크로소프트•한국폴리텍대학 부산캠퍼스, ‘마이크로소프트 클라우드 AI 경진대회’ 성료 리뷰타임스갤로그로 이동합니다. 07.16 150 0
2431 [도서] 예스24 ‘알파 세대’ 10대 도서 판매 동향 및 트렌드 공개 [1] 리뷰타임스갤로그로 이동합니다. 07.15 183 1
2430 [트레킹 리뷰] 북한산 둘레길 21구간 완주기 [1] 리뷰타임스갤로그로 이동합니다. 07.15 5407 3
2429 [등산 리뷰] 우리나라에서 제일 긴 폭포 '설악산 토왕성폭포' 전망대에 오르다 리뷰타임스갤로그로 이동합니다. 07.15 229 0
2428 [쇼핑] A세대의 쇼핑 앱은 ‘쿠팡’ 리뷰타임스갤로그로 이동합니다. 07.15 391 0
2427 [음료] 메가MGC커피, 출시 100일만에 3초당 1잔씩 팔린 음료 리뷰타임스갤로그로 이동합니다. 07.15 192 0
2426 [제품 리뷰] 방탄 섬유를 품은 버바팀 케블라 LED 전력측정 충전 케이블 리뷰타임스갤로그로 이동합니다. 07.15 217 0
2425 [음식 칼럼] 내가 먹은 수박 주스 진짜야? 가짜야? 리뷰타임스갤로그로 이동합니다. 07.15 512 1
2424 [식당 리뷰] ‘밥이보약’, 이름 그대로 보약 같은 ‘속이 편한’ 한 끼 리뷰타임스갤로그로 이동합니다. 07.14 190 0
2423 [식품] 올 초복엔 삼계탕 말고 돼지고기 어때요? 리뷰타임스갤로그로 이동합니다. 07.12 305 0
2422 [여성] ‘서울우먼업 여성개발자 양성과정’ 참여자 모집… 교육비 전액 지원 리뷰타임스갤로그로 이동합니다. 07.12 270 0
2421 [제품 리뷰] 웨어러블의 끝판왕 ‘절대반지’ 갤럭시 링, 무엇에 쓰는 물건인고? [33] 리뷰타임스갤로그로 이동합니다. 07.12 7737 6
2420 [중고] 리셀 시계 거래 1위는 롤렉스… 전체 거래량의 68% [6] 리뷰타임스갤로그로 이동합니다. 07.12 2693 0
2419 [컨퍼런스] 2024 스시 테크 도쿄 성료…7개 기업 결선 진출 리뷰타임스갤로그로 이동합니다. 07.12 209 0
2418 [음악] 12월 코엑스 공연 ‘어게인 2024 투란도트’에 플라시도 도밍고 지휘자로 선다 리뷰타임스갤로그로 이동합니다. 07.12 206 0
2417 [AI] 라쿠텐 심포니, AI 기반 무인 사업장 운영 효율화 IoT 솔루션 ‘Rakuten NEO’ 출시 리뷰타임스갤로그로 이동합니다. 07.12 192 0
2416 [식품 리뷰] ‘산도’ 등급 표시 없는 국내산 올리브유, 믿을 수 있나? 리뷰타임스갤로그로 이동합니다. 07.12 2616 10
2415 [요리] 여름철 기력 보충에 좋은 한우 보양식은? 리뷰타임스갤로그로 이동합니다. 07.11 213 0
2414 [여행 리뷰] "엄마, 나랑 제주 갈래?"...모녀가 나란히 떠나는 제주 여행 명소 5선 [16] 리뷰타임스갤로그로 이동합니다. 07.11 5854 2
2413 [주류] 지평주조, 캐주얼 프리미엄 막걸리 ‘봄이’ 출시 리뷰타임스갤로그로 이동합니다. 07.11 312 0
2412 [광고] 폴더블폰 시장 점유율 화웨이가 삼성 제쳐 리뷰타임스갤로그로 이동합니다. 07.11 237 0
2411 [IT] ‘갤럭시 링·갤럭시 워치7·갤럭시 워치 울트라’ 공개 [2] 리뷰타임스갤로그로 이동합니다. 07.11 3011 1
2410 [보안] 여름휴가 때 보안담당자를 위한 11가지 보안수칙 리뷰타임스갤로그로 이동합니다. 07.11 193 0
[AI 리뷰] 사람처럼 보고 듣고 말하는 ‘GPT-4o’ [1] 리뷰타임스갤로그로 이동합니다. 07.11 2933 4
2408 [종교] ‘재밌는 불교 2탄’…부산서도 국제불교박람회 열린다 리뷰타임스갤로그로 이동합니다. 07.11 164 0
2407 [봉사] 코이카, 글로벌 서포터스 ‘위코 WeKO’ 6기 130명 모집 리뷰타임스갤로그로 이동합니다. 07.10 178 0
뉴스 다비치, 새 미니앨범 'Stitch' 발매…한층 깊어진 감성+하모니 기대 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2