갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
천애명월도 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
추가한 갤러리가 없습니다.
0/0
타 갤러리 천애명월도 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 싱글벙글 부대찌개 만들어 먹는 외국인.JPG 최강한화이글스
- 윤석열, 계엄 당일 "국립병원 폐쇄시켜라" 지시.JPG ㅇㅇ
- ”순간 내 눈을 의심했다“.. 단보도에 킥보드 주차 황당ㅋㅋ 옾핖칲
- 싱글벙글 칠레 대지진으로 붕괴된 광산의 영웅 광부의 불륜 사건 니지카엘
- “퐁퐁남이 여혐이라고? 억울하다 말도 못하나 페미니즘 해도 너무해” 감돌
- 싱글벙글 오늘자 가요대축제 베이비복스 재결합 jpg 코카코
- 목적이 확실한 장항준 ㅇㅇ
- 체육 선생님을 사랑했던 노사연 감돌
- 탄핵집회, 중국인 조직적 정치집회 개입확인 헬기탄재매이
- 삼성전자 DS사업부 이례적인 PI200 + 보너스 200만원 지급 ㅇㅇ
- VOA 뉴스에 이재명 등장 ㄷㄷㄷㄷㄷㄷ ㅇㅇ
- ‘침대축구’ 사라져가는데 윤석열·이재명 ‘침대재판’ 논란 포만한
- 尹 탄핵 반대 광화문 집회 ··· 대규모 보수 단체 총결집! 빌애크먼
- 헌재, 이진숙 탄핵심판 내년 연기…尹심판 속도 낼 듯 tensuck
- 민노총 테X 주의보 123번뇌왕
오늘 o3-mini 시연으로 보여준 것
1. o3-mini(hard)에게 mac에서 o3-mini API를 사용해서 코드를 생성하고 바로 실행하는 프로그램을 UI와 함께 만들라고 지시다음과 같은 내용에 대한 Python 스크립트를 작성해주세요:HTML 파일을 로컬에서 서버로 실행하는 스크립트가 필요합니다. 이 HTML 파일에는 큰 텍스트 상자가 있어야 합니다. 텍스트 상자에 내용을 입력하고 제출 버튼을 누르면:-해당 요청을 OpenAI의 o3-mini API로 전송해야 하며, medium reasoning_effort 설정을 사용합니다-API로부터 받은 코드를 데스크톱의 임시 파일로 저장합니다-새로운 파이썬 터미널에서 그 파일을 실행합니다추가 세부사항:-API 키는 ~/api_key 위치에서 찾을 수 있습니다-API 요청 시 원시 코드만 반환하고 포매팅이나 마크다운을 전혀 포함하지 않도록 추가 프롬프팅을 넣어주세요-Mac 노트북에서 실행될 예정입니다2. 그렇게 해서 만든 코드3. 3. o3-mini(hard)가 직접 만든 터미널이제 저기에 아무거나 입력하고 submit을 누르면o3-mini(medium) API를 통해 코드를 생성하고,생성된 코드를 임시파일로 저장하고,임시파일로 저장된 코드를 파이썬으로 실행하는 것 까지 수행프롬프트에는 위처럼 간단하게 openai를 프린트하고 아무 숫자나 프린트하라고 시킴4. 실행 결과openai 41 이라고 결과가 나온 모습(즉, o3-mini API로 프롬프트를 보내서 코드를 짰고, 그 코드의 실행 결과가 openai 41이 된 것)5. 이제 좀 더 난이도를 높여서, o3-mini에게 너 자신의 GPQA 점수를 직접 평가하라는 프롬프트를 만듬-특정 url로 들어가서 평가 데이터셋을 다운 받고, API 사용방법에 따라 제대로 코드를 짜야하고,다운받은 데이터셋을 o3-mini(low) API로 보내서 결과를 얻고,나온 결과를 Answer: 형태로 깔끔하게 나오게 해서 평가가 가능할 수 있게 해야함그리고 async를 사용해서 병렬처리가 가능하게 하고, api 콜이 실패하지 않도록 robust하게 만들어야함등의 지시 사항이 담김6. 그렇게 해서 나온 결과61.62%라고 점수가 바로 계산됨자기 자신이 스스로를 원큐에 평가한 것 7. 그 뒤에 멘트들"내년에는 모델에게 너 자신을 개선해라 라고 명령해봐야겠네요"이 과정이 라이브에서 찐빠없이 이루어진게 개인적으론 매우 놀라웠음o3-mini가 이정도면 o3는 그냥 말이 안되는 수준일듯- o3 벤치마크가 가지는 의미Codeforces, FrontierMath, GPQA 하나같이 다 인간 최상위권들 수준의 문제들임어느 정도일까?Codeforces : 코딩 고인물들만 참가하는 대회여기서 99832명 중 50위 내, 즉 상위 0.05% 달성보통 Candidate Master만 되도 인간 최상위권인데, 그 중에서만 따져도 0.7% 내에 들음ELO 2500점만 되도 국제올림피아드 진출권이라는 걸 생각하면, 보통 인생 살면서 이 정도로 코딩 잘하는 사람은 보기도 힘듬AIME(미국 수학 올림피아드) 96.7%, GPQA (박사 수준 추론 질문) 87.7%웬만한 사람은 아무리 공부해도 이 정도에 도달하는 건 불가능참고로 GPQA는 해당 분야 박사 학위도 평균 65%의 정답률을 보임FrontierMath : 대놓고 현존하는(했던) 인공지능들 엿먹이려고 만든 수학 벤치마크수학 평생 공부하면서 박사까지 전공한 사람들도 자기 분야랑 딱 맞는 거 아니면 못 푸는 문제들만 있음공식 사이트(https://epoch.ai/frontiermath)에 있는 언급 : Terence Tao : 이 문제들 ㅈㄴ 어려움. AI가 이거 풀려면 적어도 몇 년 걸릴 듯 Timothy Gowers(필즈 메달 수상자) : 이거 다 푸는 건 고사하고, 한 문제 제대로 푸는 것도 우리가 지금 할 수 있는 걸 넘어선다 Evan Chen (국제수학올림피아드 코치) : 정말로 어려운 문제들이고, 대부분 내 능력을 뛰어넘는다ARC-AGI (일반 추론 평가) : 진짜 인간다운 추론을 하는지 테스트하기 위해 만든 데이터셋일반적인 사람이 풀었을 때 85% 정도의 정답률을 보임o3는 여기서 생각 시간에 따라 76%-87%의 정답률을 보임걍 기존 벤치딸들과는 차원이 다른 수준임GPQA, FrontierMath, ARC-AGI 얘네들은 전체 문제는 비공개고 예시를 위한 일부 문제만 공개돼있기 때문에,벤치 미리 학습했네 이 ㅈㄹ도 못함- 오늘 발표에서 가장 놀라웠던 부분. NO.1사진을 보면 알다시피 o3는 코드포스에서 2727점을 기록.“o3는 최고 세팅에서 거의 2727과 같은 결과를 얻을 수 있었습니다.”“샘: 아주 좋습니다. 당신(가운데 앉아있는 엔지니어 마크 첸)의 기록은 어떻습니까? 마크 첸: 저의 최고 점수는 약 2500이었습니다.”• “우리의 수석 과학자도 이 점수를 넘지 못했는데, 이 점수는 수석 과학자 야코프의 점수를 능가합니다.”아마 한 명이 더 높은 점수를 낸 것 같습니다.” “점수는 아마 OpenAI에서 3000점을 유지하는 사람이 한 명 있는 것 같아요.”“그 점수도 몇 달 더 지나면 가능할 것 같아요.”이번에 o3가 코드포스에서 2727점을 기록했으며,가운데 앉아있는 초엘리트급 엔지니어 마크 첸(자긴 2500점대라 주장함), 심지어 일리야 후임인 야코브(현 OpenAi 수석과학자 아래 인물)마저 뛰어넘고 유일하게 오픈AI 내에서 3000점 이상인 사람이 딱 한명만 존재함…ㄷㄷㄷ“FEEl THE AGI.”- [OpenAI] 방금 역사상 가장 똑똑한 AI가 탄생하였음어제부터 시작된 심상치 않은 분위기그리고 갑자기 The Information 기사가 하나 올라오는데...그리고 약속의, 새벽 3시.담담하게 발표하는 그들..."O3 모델은 아주 아주 똑똑한 모델입니다. 그리고 O3 Mini 모델도 믿을 수 없을 정도로 똑똑한 모델이에요."----------SWE-bench Verified (Software Engineering):실제 GitHub 이슈를 바탕으로 하여, 코드베이스를 수정하여 문제를 해결할 수 있는지를 평가. 소프트웨어 개발자로서 충분히 생산적인지를 확인.Codeforces (Competition Code):프로그래밍 경쟁 대회. 다양한 난이도의 알고리즘 문제를 해결하는 능력을 평가. 다양한 알고리즘 문제를 효과적으로 해결할 수 있는지를 확인.모두 0-shotsGithub 이슈, 실제 프로덕트에 대한 실질적인 해결 능력이 71%까지 올라갔다는 것을 의미함과 동시에,전세계 상위 0.2% 국제적인 그랜드마스터급 실력(정확히는 전세계 175위)의 알고리즘 문제 해결 능력을 보유했다는 것을 의미.AIME 2024 (Competition Math):중고등학생 수학 경시 대회. 기하학, 조합론, 정수론, 대수학 등 다양한 분야에서 창의적이고도 고도의 논리력과 사고력을 요구하는 문제들로 구성되며, 여기서 만점을 받는다는 것은 영재 중의 영재이자 추후 수학의 신계가 될 자들만이 가능함. 애초에 응시하는 것부터가 AMC라는 대회에서 상위 5% 미만이어야지만 응시 가능.Questions (GPQA Diamond) (Phd-level Science):박사 수준의 생물학, 물리학, 화학 문제를 해결하는 능력을 평가. 해당 분야의 박사들조차 평균 65%의 정답률밖에 달성하지 못함.해당 부문들에 있어서 대략적으로 인간 전문가를 한참 뛰어넘었다고 볼 수 있겠다.EpochAI Frontier Math (Research Math):60명 이상의 최고급 수학자들이 참여하여 만든 역대급 수학 문제들. 14명의 국제수학올림피아드 금메달리스트와 필즈상 수상자들(테렌스 타오, 티모시 고워스, 리처드 보처드)이 머리를 싸매고 만든 수학 시험. 전문 수학자도 딱 한 문제 해결에 수 시간부터 수 일이 소요. 단순한 패턴 매칭이나 기존 학습 데이터만으로는 해결할 수 없는 진정한 수학적 추론 능력을 측정.기존의 모든 AI들은 2.0%의 수준밖에 안 되었는데, o3는 25.2%까지 끌어올렸다.ARC-AGI:일반인공지능(AGI)의 핵심인 추상화와 추론 능력을 측정하는 테스트. 단순한 패턴 매칭이나 통계적 학습이 아닌, 진정한 지능을 측정하고자 설계.인간 평균 수준은 70%.ARC Prize 창립자왈:"OpenAI의 o3 모델은 ARC-AGI 벤치마크에서 뛰어난 성능을 보여주며, 기존 LLM의 한계를 극복하고 지식 재조합 능력을 향상시켰습니다. 이는 단순한 성능 향상을 넘어, AI가 새로운 과제에 적응하는 능력이 크게 발전했음을 보여줍니다. ARC Prize는 새로운 벤치마크를 통해 AI 연구 발전을 계속해서 추진할 것입니다."나머지Structured Outputs:개발자가 제공한 스키마에 따라 출력을 정확하게 구조화하는 능력. JSON, 데이터베이스, 자동화된 처리 등에 적합한 일관된 형식의 출력을 보장.Function Calling:외부 도구나 API와 상호작용할 수 있게 해주는 능력. 텍스트 생성을 넘어 실제 작업을 수행하고 데이터를 검색 및 처리할 수 있음.Function Calling with Structured Outputs:Function Calling과 Structured Outputs을 결합한 고급 능력.LiveBench Coding:다양한 코딩 능력 평가 시험. 문제 이해 능력, 기존 코드 기능 파악, 누락된 부분 완성 능력 등을 다양한 문제들로부터 평가.https://youtu.be/SKBG1sqdyIU
작성자 : ㅇㅇ고정닉
트리하우스 지점들 리뷰 + 특징 정리
나무집은 명실상부한 세계 최고의 크래프트 브루어리 중 하나이기에 뉴잉글랜드 지역에 여행을 오는 사람들에게 항상 추천해주는 곳인데, 지점이 이제 꽤 많아져서 그런지 어디를 가는게 좋을지 물어보는 분들이 있었어요. 그래서 각 트리하우스 지점들에 대해 알려주기 위한 정보 글을 적어봐야겠단 생각이 들었습니다.아 그리고 평소에 글을 쓸때는 대충 의식의 흐름대로 쓰는데, 나중에 보면 말투가 반말 존댓말 왔다갔다 정신이 없더라고요. 요건 되도록 일관성을 유지하기 위해 가능한 예쁜 말투로 적어볼게요! (사실 원래는 저렇게 왔다갔다 하는게 평소 말투에 가깝긴 함)트리하우스는 현재 총 5군데(Charlton, Tewksbury, Sandwich, Deerfield, Woodstock)에 위치해 있어요. 위 사진의 목록에서 Boston과 Saratoga는 현재 To Go 전용 매장이기 때문에 제외하고 하나씩 리뷰해볼게요!먼저 트리하우스의 본점인 Charlton입니다. 본점답게 부지가 굉장히 넓고, 주변도 엄청 잘 꾸며두었어요. 자리도 굉장히 많고, 요렇게 야외와 숲 속에도 아늑한 자리들이 여기저기 숨어있어요.겨울에는 벽난로도 피워줍니다. 나름 경쟁률이 높은 자리에요. 굿즈샵도 아늑한 분위기로 꾸며져 있어요.보통 평일/주말에 따라 1개 이상의 푸드트럭이 와있기 때문에 먹을게 필요하면 여기서 사다 드시면 됩니다. 아쉽지만 본점에서는 자체적으로 키친을 따로 운영하고 있지 않아요. 대신 외부 음식이든 뭐든 다 가져오셔도 되기 때문에, 오기 전에 맛있는걸 따로 포장해오시는 것도 좋아요.이건 어느 날인가의 탭 메뉴판. Happy New Year 2024가 꽂혀있는걸 보니, 아마 올해 초였나봐요. 메뉴판이 있긴 하지만, 탭 메뉴는 웹사이트에서도 볼수 있기 때문에 보통 기다리는 동안 이미 다 골라가는 경우가 많아요.건물 안쪽에서는 나무집 맥주들이 만들어지는 풍경을 한눈에 볼수 있어요. 건물 안쪽의 한쪽 면 전체가 이렇게 브루어리 공간으로 트여있는데, 처음 보면 꽤 멋져요.여기는 캔 픽업하는 곳. 사람들이 엄청 밝은 얼굴로 저기 보이는 카트에 몇 박스씩 실어가는 모습을 쉽게 볼수 있어요.본점은 대체로 언제나 사람이 많아요. 평일 오전 같은 특별한 시간대가 아니면 거의 항상 붐비고 있어요.첫번째는 주말 오후에 찍은 사진, 두번째는 평일 오후에 찍은 사진이에요. 그래도 평일에는 주차장에 빈자리가 꽤 있는 것을 볼수 있어요. 주차장은 엄청나게 넓기 때문에, 주차 공간 자체가 부족할 일은 없지만 꽤 멀리 주차해야하는 경우는 있어요.Charlton 지점의 특징을 정리해보면, 본점이라는 상징성과 함께 압도적인 규모와 멋진 풍경을 가지고 있지만 항상 사람이 많아요. 탭 주문하는데만 30분씩 기다려야하는 경우도 있음. 여기 위치는 보스턴에서 차로 1시간 정도 거리인데, 만약 맥주 로드 트립 중이라면 보스턴에서 Fidens가 있는 Albany까지 가는 경로 상에 있기 때문에 동선이 좋아요.다음은 Tewksbury입니다.여기는 보스턴에서 가장 가까운 지점인데, 보스턴 시내에서 차로 20분 정도 거리에 위치해있고 Great Boston Area에 속하는 도시이기도 해요. 여기 지점이 생길 때 “Hello, Great Boston”이라는 맥주를 릴리즈했었고, Boston 팝업이 오픈하면서 “Hello, Boston”, 그리고 이번에 Saratoga 오픈하면서 “Hello, Saratoga”를 릴리즈했어요.특이하게 여기는 골프장을 같이 운영하고 있어요. 골프 좋아하시는 분은 예약해보셔도 좋아요. 트리하우스 맥주를 마시며 라운딩을 즐길수 있어요.야외 자리에서 라운딩하는걸 구경하면서 마시는 것도 나름 재밌어요. 골프장들이 대체로 그렇듯이 여기도 조경을 잘 해두었기 때문에 풍경이 예뻐요.이건 나무집 공통인데, 주차장에 이런 픽업 전용 자리가 있어요. 픽업 주문을 미리 넣어둔 후에 도착해서 여기에 주차한 다음, 주문 확인 링크에서 도착했다고 주차장 번호를 남기면 직원분이 와서 실어줍니다.물론 안에서 직접 주문할수도 있는데, 재밌는게 요런 맥주 엘리베이터를 통해 주문한 맥주가 올라와서 두근두근하며 기다릴수 있어요.클럽하우스를 함께 운영하다보니 굿즈샵에서는 나무집 마크가 들어간 골프 용품들을 많이 팔고 있어요.또한 여기는 피자를 상시 운영하고 있기 때문에 언제나 맛있는 화덕피자와 함께 피맥을 즐길수 있어요. 전체적인 분위기는 요렇습니다. 자리는 야외까지 있어서 넉넉한 편이지만 아무래도 외부에 앉기 어려운 추운 계절에는 거의 꽉 차는 편이에요. 위쪽 3개 사진들은 평일 오전이라 사람이 없지만, 주말에는 맨 밑 사진처럼 사람이 많아져요. Tewksbury 지점의 특징을 정리해보면, 일단 골프장+브루어리라는 개성 있는 조합에 규모는 작지만 보스턴에서 가깝기 때문에 차 없이 가서 맘편히 마시고 오는게 가능한 곳이에요. 물론 렌트해서 가는게 편하긴 하지만, 만약 운전 걱정 없이 맘껏 마시고 싶다면 보스턴 시내에서 우버로 50달러 정도 하니까 나쁘지 않은 선택이에요. (요걸 위해서는 주말은 피해서 가셔야 해요. 금토일은 인당 3잔 제한이 있음.)다음은 Sandwich입니다. 여기는 Cape Cod라는, 메사추세츠에서 굉장히 유명한 휴양지의 초입부에 위치해 있어요. Cape Cod는 미국 다른 지역에서도 많이들 방문하는 곳인데, 일단 바다가 예쁘고 역사적으로도 메이플라워 호가 미국 대륙에 최초로 상륙했던 곳이기 때문에 의미가 있는 지역이기도 해요. (여기서 배를 정비한 후에 실제 정착은 좀 더 안쪽의 플리머스에 했지만, 지도를 보시면 여기에 어쩌다 들리게 되었는지 납득이 가는 특이한 지형을 보실수 있어요.) 나무집 Sandwich는 그런 바닷가에 붙어있기 때문에 분위기가 너무 좋아요.시원하게 탁 트인 바다를 보며 맥주를 즐길수 있는 곳이라서 제가 정말 좋아하는 지점이기도 해요. 야외 자리에서도 햇볕을 쬐며 한잔 할수 있어요. 저기 보이는 컨테이너 같은 곳은 피자 받아오는 곳이에요. 계절에 따라 랍스터 롤이나 클램 차우더 등 다른 음식도 팔아요. 랍스터 롤은 맛있기는 한데, 핫도그 정도 크기에 피자 한판보다 비싸기 때문에 가성비가 쫌 별로에요. (주문은 건물 안에서 하고 저기서 픽업만 하면 됨)내부 자리는 요런 느낌이에요. 이건 탭 주문하는 곳여기는 날씨와 계절의 영향을 제일 크게 받는 지점이기도 해요. 날씨가 안 좋을 때는 요렇게 뭔가 싸늘한 분위기가 됨. 요것도 나름 운치 있기는 하지만요.날씨가 좋을 때에는 이렇게 바닷가에서 노는 아이들을 볼수 있어요. 얘네들은 물어보니 게 잡는 중이라고 하더라고요. 근데 한여름에도 물이 진짜진짜 차가워서 수영을 하기는 쉽지 않을 것 같아요. 사실 수영을 조심해야할 이유가 하나 더 있는데, 백상아리가 자주 출몰하는 곳이라고 해요. 물개도 자주 나오는 곳인데, 저는 물개는 종종 봤지만 상어는 한번도 못 봤어요. 딱 한번 옆에 있던 할아버지가 지금 저쪽 바다에 상어가 있다고 말해주신적 있지만 저한테는 안 보이더라고요.. Sandwich의 특징을 정리해보면, 바다 옆이라 풍경이 예쁘고 휴양지 주변이라 바로 다른 곳으로 놀러가기도 좋은 곳! 다만 아까도 이야기했지만 여기는 되도록 날씨 좋을 때 낮에 방문하시는걸 추천드려요. 어디든 그렇지만, 특히나 여기는 규모도 정말 작은 곳이라서 비오는 날 밤에 방문한다거나 하면 아무것도 안 보여서 실망하실 수 있어요.사진 수 제한에 걸렸어요.. Deerfield와 Woodstock은 다음 글에서 이어서 작성할게요!- dc official App
작성자 : 저끼고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.