디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

오늘 o3-mini 시연으로 보여준 것

ㅇㅇ(121.178) 2024.12.21 17:55:02
조회 26231 추천 145 댓글 229

7cec9e36ebd518986abce895478276698dfc

1. o3-mini(hard)에게 mac에서 o3-mini API를 사용해서 코드를 생성하고 바로 실행하는 프로그램을 UI와 함께 만들라고 지시


다음과 같은 내용에 대한 Python 스크립트를 작성해주세요:

HTML 파일을 로컬에서 서버로 실행하는 스크립트가 필요합니다. 이 HTML 파일에는 큰 텍스트 상자가 있어야 합니다. 텍스트 상자에 내용을 입력하고 제출 버튼을 누르면:


-해당 요청을 OpenAI의 o3-mini API로 전송해야 하며, medium reasoning_effort 설정을 사용합니다

-API로부터 받은 코드를 데스크톱의 임시 파일로 저장합니다

-새로운 파이썬 터미널에서 그 파일을 실행합니다


추가 세부사항:


-API 키는 ~/api_key 위치에서 찾을 수 있습니다

-API 요청 시 원시 코드만 반환하고 포매팅이나 마크다운을 전혀 포함하지 않도록 추가 프롬프팅을 넣어주세요

-Mac 노트북에서 실행될 예정입니다


7fef9e36ebd518986abce89544857268782e

2. 그렇게 해서 만든 코드



7eee9e36ebd518986abce89543897d69403.

3. o3-mini(hard)가 직접 만든 터미널


이제 저기에 아무거나 입력하고 submit을 누르면

o3-mini(medium) API를 통해 코드를 생성하고,

생성된 코드를 임시파일로 저장하고,

임시파일로 저장된 코드를 파이썬으로 실행하는 것 까지 수행


프롬프트에는 위처럼 간단하게 openai를 프린트하고 아무 숫자나 프린트하라고 시킴



79e99e36ebd518986abce8954f81706471

4. 실행 결과


openai 41 이라고 결과가 나온 모습

(즉, o3-mini API로 프롬프트를 보내서 코드를 짰고, 그 코드의 실행 결과가 openai 41이 된 것)



78e89e36ebd518986abce8954488776bd2d5

5. 이제 좀 더 난이도를 높여서, o3-mini에게 너 자신의 GPQA 점수를 직접 평가하라는 프롬프트를 만듬


-특정 url로 들어가서 평가 데이터셋을 다운 받고, API 사용방법에 따라 제대로 코드를 짜야하고,

다운받은 데이터셋을 o3-mini(low) API로 보내서 결과를 얻고,

나온 결과를 Answer: 형태로 깔끔하게 나오게 해서 평가가 가능할 수 있게 해야함

그리고 async를 사용해서 병렬처리가 가능하게 하고, api 콜이 실패하지 않도록 robust하게 만들어야함


등의 지시 사항이 담김


7beb9e36ebd518986abce8954787776ae54f

6. 그렇게 해서 나온 결과


61.62%라고 점수가 바로 계산됨

자기 자신이 스스로를 원큐에 평가한 것


7. 그 뒤에 멘트들


"내년에는 모델에게 너 자신을 개선해라 라고 명령해봐야겠네요"



이 과정이 라이브에서 찐빠없이 이루어진게 개인적으론 매우 놀라웠음


o3-mini가 이정도면 o3는 그냥 말이 안되는 수준일듯


o3 벤치마크가 가지는 의미



Codeforces, FrontierMath, GPQA 하나같이 다 인간 최상위권들 수준의 문제들임

어느 정도일까?

Codeforces : 코딩 고인물들만 참가하는 대회


22ee9025ead63da061add5b0059f2e2df30978cb90c58aa061353a




2eb2d423e3dd2aa56bac96b01ade6a2d9131f9f26265dd26f38801d088


2eb2d423e3dd2aa56bac96a717c52d33e573aee7aeec9acb8edc66813ee9a69c9ed8


여기서 99832명 중 50위 내, 즉 상위 0.05% 달성

보통 Candidate Master만 되도 인간 최상위권인데, 그 중에서만 따져도 0.7% 내에 들음


ELO 2500점만 되도 국제올림피아드 진출권이라는 걸 생각하면, 보통 인생 살면서 이 정도로 코딩 잘하는 사람은 보기도 힘듬



22ee902be4c630e66cbad8b61edc252f1b461d2ee3dc1fdb08372f71d36fa66c13



AIME(미국 수학 올림피아드) 96.7%, GPQA (박사 수준 추론 질문) 87.7%


웬만한 사람은 아무리 공부해도 이 정도에 도달하는 건 불가능


참고로 GPQA는 해당 분야 박사 학위도 평균 65%의 정답률을 보임



22ee9020f7dd36b267bac4b817c52c73a2cd4f5e18d6939a8db943c1c6ba

FrontierMath : 대놓고 현존하는(했던) 인공지능들 엿먹이려고 만든 수학 벤치마크


수학 평생 공부하면서 박사까지 전공한 사람들도 자기 분야랑 딱 맞는 거 아니면 못 푸는 문제들만 있음


공식 사이트(https://epoch.ai/frontiermath)에 있는 언급 :

Terence Tao : 이 문제들 ㅈㄴ 어려움. AI가 이거 풀려면 적어도 몇 년 걸릴 듯

Timothy Gowers(필즈 메달 수상자) : 이거 다 푸는 건 고사하고, 한 문제 제대로 푸는 것도 우리가 지금 할 수 있는 걸 넘어선다

Evan Chen (국제수학올림피아드 코치) : 정말로 어려운 문제들이고, 대부분 내 능력을 뛰어넘는다



22ee9027f7d175a769b698a518d60403a7080af494fef0f7f4


ARC-AGI (일반 추론 평가) : 진짜 인간다운 추론을 하는지 테스트하기 위해 만든 데이터셋


일반적인 사람이 풀었을 때 85% 정도의 정답률을 보임


o3는 여기서 생각 시간에 따라 76%-87%의 정답률을 보임



걍 기존 벤치딸들과는 차원이 다른 수준임


GPQA, FrontierMath, ARC-AGI 얘네들은 전체 문제는 비공개고 예시를 위한 일부 문제만 공개돼있기 때문에,


벤치 미리 학습했네 이 ㅈㄹ도 못함


오늘 발표에서 가장 놀라웠던 부분. NO.1






0e9ff574c0851af523e8f4e7429c701863cc2bb40d30c958c530770226d38c1781b9dff7179fd4fe5cb663bd79a58f5141492208


사진을 보면 알다시피 o3는 코드포스에서 2727점을 기록.

759bf47fb2876bf0239cf496439c701faba1ba48031eb76180d4a0266d8294c30456eadf6c5b61217077b3d5f707d1bd23f725bc85


“o3는 최고 세팅에서 거의 2727과 같은 결과를 얻을 수 있었습니다.”

0e9ef375b6f619f423e9f3e5309c706bd7567bb5465a7e34c79db3701b2f66f5c17924edab3cce6c0c75d376bd89c9a6bc7abcfffa



“샘: 아주 좋습니다. 당신(가운데 앉아있는 엔지니어 마크 첸)의 기록은 어떻습니까? 마크 첸: 저의 최고 점수는 약 2500이었습니다.”

0ced817fc6f6618023e980e3429c706d20a7ab621026224fa3356c38cde1825fec3170a945cd28f8e43f12f9c7dec482be793ed554



“우리의 수석 과학자도 이 점수를 넘지 못했는데, 이 점수는 수석 과학자 야코프의 점수를 능가합니다.”


789bf600bdf361fe239d8693309c706f9b21b9c2114d668e6a231a6bb127d3786c2e8813e070fc06fe588d3fcc236c8405872b22ea



아마 한 명이 더 높은 점수를 낸 것 같습니다.” “점수는 아마 OpenAI에서 3000점을 유지하는 사람이 한 명 있는 것 같아요.”

7de88074b2f41dfe23ecf5944e9c70184457dd62acc94a915e3777952d6051d09832ae8898e9cab97ece4adefde976d38344d7db55


“그 점수도 몇 달 더 지나면 가능할 것 같아요.”




이번에 o3가 코드포스에서 2727점을 기록했으며,
가운데 앉아있는 초엘리트급 엔지니어 마크 첸(자긴 2500점대라 주장함), 심지어 일리야 후임인 야코브(현 OpenAi 수석과학자 아래 인물)마저 뛰어넘고 유일하게 오픈AI 내에서 3000점 이상인 사람이 딱 한명만 존재함…ㄷㄷㄷ

09e9887fc6f76dff23e88094339c701fbd0c32110eacae7a057359147318b9711c176af37b17267bb8a19126a6d962f2072a7cbe






“FEEl THE AGI.”





[OpenAI] 방금 역사상 가장 똑똑한 AI가 탄생하였음





어제부터 시작된 심상치 않은 분위기



7cec8168efc23f8650bbd58b36857d6ccde3



7fef8268f5dc3f8650bbd58b3689706da5



7eee8368efc23f8650bbd58b3684776c9374



79e98468efc23f8650bbd58b36807c6526e41a



78e88568f5dc3f8650bbd58b36857665445073



7beb8668efc23f8650bbd58b36807d688213df



7aea8768efc23f8650bbd58b36837c6b312451



75e58868efc23f8650bbd58b368076680b1d





그리고 갑자기 The Information 기사가 하나 올라오는데...





74e48968f5dc3f8650bbd58b36837d6b24be3e




그리고 약속의, 새벽 3시.




1ebec223e0dc2bae61ab96e74683707027f14afc811be72e495d91da306c37444de739c0aab2c6f3984a5ea79b271e3113963d3ea2



담담하게 발표하는 그들...




"O3 모델은 아주 아주 똑똑한 모델입니다. 그리고 O3 Mini 모델도 믿을 수 없을 정도로 똑똑한 모델이에요."




----------






SWE-bench Verified (Software Engineering):


실제 GitHub 이슈를 바탕으로 하여, 코드베이스를 수정하여 문제를 해결할 수 있는지를 평가. 소프트웨어 개발자로서 충분히 생산적인지를 확인.


Codeforces (Competition Code):


프로그래밍 경쟁 대회. 다양한 난이도의 알고리즘 문제를 해결하는 능력을 평가. 다양한 알고리즘 문제를 효과적으로 해결할 수 있는지를 확인.


7cf3c028e2f206a26d81f6e24282736c

모두 0-shots


Github 이슈, 실제 프로덕트에 대한 실질적인 해결 능력이 71%까지 올라갔다는 것을 의미함과 동시에,


7cf08168f5dc3f8650bbd58b3680746a523fa3

2cee8277e08a6cf13becd0b04785753bfbb7348d17c37adc9efac5cfc40d4cd1a247b68039ba1c678191c3379e352670e237da264ef05985

7cea8372b28360f23fee98a518d604035bda1d29e578194759

1ebec223e0dc2bae61ab96e74683707027f14afc811be72e495f91dc316c3140c125defa82080dbcdd9969c82144c6d1b7dfa2

1ebec223e0dc2bae61ab96e74683707027f14afc811be72e495f91dc306c3741a7e55da791728ec6ebed708dc784197b0d04ac8e


전세계 상위 0.2% 국제적인 그랜드마스터급 실력(정확히는 전세계 175위)의 알고리즘 문제 해결 능력을 보유했다는 것을 의미.




AIME 2024 (Competition Math):


중고등학생 수학 경시 대회. 기하학, 조합론, 정수론, 대수학 등 다양한 분야에서 창의적이고도 고도의 논리력과 사고력을 요구하는 문제들로 구성되며, 여기서 만점을 받는다는 것은 영재 중의 영재이자 추후 수학의 신계가 될 자들만이 가능함. 애초에 응시하는 것부터가 AMC라는 대회에서 상위 5% 미만이어야지만 응시 가능.


Questions (GPQA Diamond) (Phd-level Science):


박사 수준의 생물학, 물리학, 화학 문제를 해결하는 능력을 평가. 해당 분야의 박사들조차 평균 65%의 정답률밖에 달성하지 못함.


7ff3c028e2f206a26d81f6ed44887c6d

7ff08168f5dc3f8650bbd58b36887d64708e

7ff08268f5dc3f8650bbd58b36847065a2a6


해당 부문들에 있어서 대략적으로 인간 전문가를 한참 뛰어넘었다고 볼 수 있겠다.




EpochAI Frontier Math (Research Math):


60명 이상의 최고급 수학자들이 참여하여 만든 역대급 수학 문제들. 14명의 국제수학올림피아드 금메달리스트와 필즈상 수상자들(테렌스 타오, 티모시 고워스, 리처드 보처드)이 머리를 싸매고 만든 수학 시험. 전문 수학자도 딱 한 문제 해결에 수 시간부터 수 일이 소요. 단순한 패턴 매칭이나 기존 학습 데이터만으로는 해결할 수 없는 진정한 수학적 추론 능력을 측정.


7ef3c028e2f206a26d81f6e64e86756d


기존의 모든 AI들은 2.0%의 수준밖에 안 되었는데, o3는 25.2%까지 끌어올렸다.



ARC-AGI:


일반인공지능(AGI)의 핵심인 추상화와 추론 능력을 측정하는 테스트. 단순한 패턴 매칭이나 통계적 학습이 아닌, 진정한 지능을 측정하고자 설계.


인간 평균 수준은 70%.


79f3c028e2f206a26d81f6e44486706e20


ARC Prize 창립자왈:


"OpenAI의 o3 모델은 ARC-AGI 벤치마크에서 뛰어난 성능을 보여주며, 기존 LLM의 한계를 극복하고 지식 재조합 능력을 향상시켰습니다. 이는 단순한 성능 향상을 넘어, AI가 새로운 과제에 적응하는 능력이 크게 발전했음을 보여줍니다. ARC Prize는 새로운 벤치마크를 통해 AI 연구 발전을 계속해서 추진할 것입니다."




나머지


Structured Outputs:


개발자가 제공한 스키마에 따라 출력을 정확하게 구조화하는 능력. JSON, 데이터베이스, 자동화된 처리 등에 적합한 일관된 형식의 출력을 보장.


Function Calling:


외부 도구나 API와 상호작용할 수 있게 해주는 능력. 텍스트 생성을 넘어 실제 작업을 수행하고 데이터를 검색 및 처리할 수 있음.


Function Calling with Structured Outputs:


Function Calling과 Structured Outputs을 결합한 고급 능력.


LiveBench Coding:


다양한 코딩 능력 평가 시험. 문제 이해 능력, 기존 코드 기능 파악, 누락된 부분 완성 능력 등을 다양한 문제들로부터 평가.


78f3c028e2f206a26d81f6e44388736dde







출처: 특이점이 온다 갤러리 [원본 보기]

추천 비추천

145

고정닉 51

20

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 2024년 가장 기억에 남는 인터넷 이슈는? 운영자 24/12/23 - -
291417
썸네일
[기갤] 2025년 3월부터 비둘기한테 먹이주면 벌금 낸다.jpg
[287]
ㅇㅇ갤로그로 이동합니다. 12.23 14900 68
291416
썸네일
[야갤] CiA효과 떳다 교수 입구컷 ㅋㅋㅋㅋㅋ
[1267]
ㅇㅇ(211.235) 12.23 81795 2443
291414
썸네일
[싱갤] 싱글벙글 미국인들이 집 안에서 신발을 신는 이유
[311]
수인갤러리갤로그로 이동합니다. 12.23 29416 73
291413
썸네일
[기갤] 눈비 쏟아지면 전자파 쏜다, 북한 감시 '24시간 풀가동'.jpg
[167]
ㅇㅇ갤로그로 이동합니다. 12.23 17416 90
291411
썸네일
[판갤] 포항화재기부사건 다루는 유튜버 있길레 뭔가 했는데
[110]
인터네코갤로그로 이동합니다. 12.23 18314 233
291408
썸네일
[잡갤] 나인뮤지스 탈퇴 멤버가 캐나다에서 제2의 삶이 행복한 이유.jpg
[383]
감돌갤로그로 이동합니다. 12.23 33065 318
291407
썸네일
[야갤] "한국의 시위문화, 권위주의 저항의 표본 될 것"
[387]
마스널갤로그로 이동합니다. 12.23 17454 102
291405
썸네일
[싱갤] 싱글벙글 사실상 어벤져스 1대장이라는 히어로.jpg
[148]
최강한화이글스팬갤로그로 이동합니다. 12.23 24496 192
291404
썸네일
[러갤] 사채 갚아줄 남자 찾으러 결정사에 연락한 여자
[284]
배터리형갤로그로 이동합니다. 12.23 35278 225
291402
썸네일
[기갤] 뉴욕 지하철서 잠든 여성에게 불 질러, 지켜보더니 사라진 남성.jpg
[292]
ㅇㅇ갤로그로 이동합니다. 12.23 25773 146
291401
썸네일
[유갤] 일본에서의 마지막 캠핑
[26]
댕댕이애호가갤로그로 이동합니다. 12.23 7082 24
291399
썸네일
[싱갤] 싱글벙글 도라에몽은 빙산의 일각인촌
[184]
ㅇㅇ갤로그로 이동합니다. 12.23 31559 252
291398
썸네일
[기갤] 다큐에 나온 12.3 계엄 당일 국회 직원들 상황.jpg
[291]
ㅇㅇ갤로그로 이동합니다. 12.23 15827 119
291396
썸네일
[야갤] 경기종료)) 헌재, 송달 간주 결정.. 탄핵 심판 27일 진행
[522]
라면타도갤로그로 이동합니다. 12.23 22822 324
291395
썸네일
[싱갤] 현재 부동산 확장에 눈 돌아간 대통령 ㄷㄷ
[454]
ㅇㅇ갤로그로 이동합니다. 12.23 40689 427
291392
썸네일
[기갤] "남친 카드 긁었다가 욕 먹음.. 그 뒤로 서먹해진 사이".jpg
[766]
ㅇㅇ갤로그로 이동합니다. 12.23 39630 172
291390
썸네일
[디갤] 논산 션샤인 스튜디오 고봉밥
[34]
원찍맨갤로그로 이동합니다. 12.23 11873 18
291389
썸네일
[싱갤] 싱글벙글 5분만에 초중고 생활기록부 보는법
[375]
하무열갤로그로 이동합니다. 12.23 53847 208
291387
썸네일
[해갤] 대만 똑똑하네
[674]
ㅇㅇ(194.195) 12.23 31785 902
291386
썸네일
[기갤] "윤 대통령, 수사 응해야... 박근혜도 수사 피하다.."jpg
[329]
ㅇㅇ갤로그로 이동합니다. 12.23 15367 72
291384
썸네일
[국갤] 민주당 조급해졌다. 흐름이 불리해지자 장관 줄탄핵한다.
[559]
ㅇㅇ(121.135) 12.23 30857 937
291383
썸네일
[카연] 현성과 자존감 자판기.manhwa
[80]
슈퍼사워갤로그로 이동합니다. 12.23 12417 98
291381
썸네일
[싱갤] 주물럭주물럭 뇌 업데이트 -전기편-
[175]
싱갤러(222.120) 12.23 13655 65
291380
썸네일
[기갤] 임영웅 ‘뭐요’ 때린 유튜버 “무서워 살겠나” 고소·협박 토로.jpg
[529]
ㅇㅇ갤로그로 이동합니다. 12.23 33023 532
291378
썸네일
[동갤] [분석글] 동덕여대 NEW 빨간맛 학꾸에 대해 알아보자.
[100]
폭동덕갤로그로 이동합니다. 12.23 17831 265
291375
썸네일
[기갤] "드론 계속 날아와, 계속", 북한군 추정 남성 격한 증언.jpg
[121]
ㅇㅇ갤로그로 이동합니다. 12.23 18767 79
291374
썸네일
[국갤] 이승환 구미공연 취소 내막이래ㅋㅋㅋㅋㅋㅋㅋ
[640]
ㅇㅇ갤로그로 이동합니다. 12.23 32896 1005
291372
썸네일
[싱갤] 싱글벙글 실베간 자위대 마스코트 작가 고소 선언
[170]
니도모에갤로그로 이동합니다. 12.23 18851 115
291371
썸네일
[중갤] 尹 비난못 참아, 조기대선으로 분열 유도"홍준표 CIA에 신고한 누리꾼
[1424]
00갤로그로 이동합니다. 12.23 16297 186
291369
썸네일
[야갤] "선 넘었다" 관광객 분노 폭발…모두 '똑같이' 했던 말이
[299]
마스널갤로그로 이동합니다. 12.23 24339 54
291368
썸네일
[기갤] 계엄군은 빙산의 일각, 부총리가 제출한 A4 원본.jpg
[247]
ㅇㅇ갤로그로 이동합니다. 12.23 14598 78
291366
썸네일
[싱갤] 와들와들 대한민국의 바다가 불법어선으로 신음하던 그 날.jpg
[189]
최강한화이글스팬갤로그로 이동합니다. 12.23 17758 300
291365
썸네일
[국갤] 이석기 석방·간첩 연루·윤미향·중국인 트랙터 시위 지원한 민주당
[333]
헬기탄재매이갤로그로 이동합니다. 12.23 18482 744
291363
썸네일
[미갤] 12월 23일 시황
[24]
우졍잉갤로그로 이동합니다. 12.23 9254 22
291362
썸네일
[싱갤] 싱글벙글 요즘 오프라인 서점 근황
[365]
니지카엘갤로그로 이동합니다. 12.23 35697 275
291359
썸네일
[기갤] 트럼프, '머스크 대통령설'에 "그건 불가능".jpg
[175]
ㅇㅇ갤로그로 이동합니다. 12.23 17621 73
291357
썸네일
[야갤] 실시간 cia 신고로 쫒겨난사람 영상뜸 ㅋㅋㅋㅋㅋㅋㅋ.jpg
[717]
야갤러(121.174) 12.23 42315 1073
291356
썸네일
[잡갤] 궁금하긴 하지만 피하고 싶은 김치 .jpg
[79]
감돌갤로그로 이동합니다. 12.23 20370 17
291354
썸네일
[이갤] 뻑가 신상공개 결정됨 ㄷㄷ
[523]
ㅇㅇ(185.253) 12.23 52837 190
291353
썸네일
[싱갤] 싱글벙글 한한령의 중국본심 ㅋㅋ
[220]
ㅇㅇ갤로그로 이동합니다. 12.23 23035 171
291351
썸네일
[기갤] "유럽이면 머리에 총알 구멍", 트랙터 시위 경찰 글 파장.jpg
[477]
ㅇㅇ갤로그로 이동합니다. 12.23 19547 94
291350
썸네일
[야갤] 정시 모집 일주일 전 증원 백지화 외치는 안철수
[389]
ㅇㅇ갤로그로 이동합니다. 12.23 30508 1187
291348
썸네일
[일갤] 교토 뭐시깽이 간사이 여행기 4편 - 몽키파크, 우지, 후시미이나리
[17]
호랑신갤로그로 이동합니다. 12.23 5540 17
291347
썸네일
[새갤] 노상원 수첩에 “NLL에서 北 유도”...경찰 “외환죄도 수사”
[224]
ㅇㅇ갤로그로 이동합니다. 12.23 10610 90
291346
썸네일
[싱갤] 싱글벙글 일본 경제산업성, 통보 없이 삼성 용인 클러스터 부지 시찰
[398]
ㅇㅇ(121.161) 12.23 15512 86
291344
썸네일
[해갤] 유시민 상고 포기...한동훈에 3천만원 배상 확정
[267]
포만한갤로그로 이동합니다. 12.23 20227 397
291342
썸네일
[기갤] 송민호, 근무 마지막 날도 병가…소집해제는 23일 예정대로
[371]
ㅇㅇ갤로그로 이동합니다. 12.23 23623 382
291341
썸네일
[필갤] [연말결산] 올해의 나
[19]
MILKA갤로그로 이동합니다. 12.23 6249 23
291339
썸네일
[국갤] 트럼프"영주권자 시민권자 추방하겠다"
[520]
ㅇㅇ(119.198) 12.23 26607 804
291338
썸네일
[싱갤] 싱글벙글 공개를 앞둔 오징어게임의 콜라보 규모
[226]
수인갤러리갤로그로 이동합니다. 12.23 21057 108
뉴스 천우희, 취약계층 난방비 지원 2천만원 기부 [공식] 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2