디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

퓨리오사AI, 핫 칩스 2024서 2세대 반도체 '레니게이드(RNGD)' 정식 공개

IT동아갤로그로 이동합니다. 2024.08.30 18:14:25
조회 235 추천 0 댓글 0
[IT동아 남시현 기자] 반도체 팹리스 기업 퓨리오사AI가 현지시간으로 8월 28일, 미국 캘리포니아 주 스탠퍼드 대학에서 진행된 ‘핫 칩스 2024(Hot Chips 2024)’ 행사에서 2세대 신경망 처리 장치(NPU) ‘레니게이드(RNGD)’를 정식 공개했다. 이번에 공개된 RNGD는 1세대 워보이(Warboy)에 이어 두 번째로 공개되는 AI 가속기로, 총 48GB HBM3 메모리와 엔비디아 L40S 대비 최대 60% 이상 높은 전력 소모대 성능비를 갖춘다.


백준호 퓨리오사AI 대표가 핫 칩스 2024에서 발표 및 질의응답을 하고 있다 / 출처=IT동아



핫 칩스 2024는 1989년부터 미국 실리콘 밸리 일대에서 개최되는 마이크로프로세서 및 관련 직접회로 산업 콘퍼런스로, 칩 설계자와 시스템 엔지니어, 국가 연구소 및 학계에서 약 500여 명 이상이 참석해 임베디드 및 FPGA, 양자 컴퓨팅, 나노 구조, 무선 칩, 네트워크 및 보안, 고급 패키징 기술 등의 주제를 논의한다.

올해 콘퍼런스는 퀄컴, AMD, 인텔, 삼성전자, 엔비디아 등 주요 반도체 기업은 물론 퓨리오사AI, 삼바노바(SambaNova), 엘리얀(eliyan), 플로 컴퓨팅(FLOW computing), 암페어 컴퓨팅 등 업계에서 주목받는 스타트업들도 대거 참가했다. 아울러 한국과학기술원, 울산과학기술원에서도 뉴럴 칩, 에너지 효율 AI 가속기, 자율주행용 시스템온칩(SoC) 등의 논문을 발표했다.

핫 칩스 2024, 글로벌 기업과 스타트업의 AI 각축전


핫 칩스는 대중 행사가 아닌 반도체 학술 행사지만, 대규모 자본 및 개발 과정이 수반되는 반도체 개발 특성상 빅테크 기업이 주로 참여한다. 엔비디아는 칩 설계용 AI와 LLM 지원, 차세대 냉각 시스템, 생성 AI 및 가속 컴퓨팅 지원을 위한 엔비디아 블랙웰 플랫폼을 발표했고, 인텔은 AI PC용 루나레이크 및 서버용 인텔 제온 6, 가우디 3 AI 가속기, 칩렛 기술 등을 주로 소개했다.

AMD는 사물인터넷용 버설 AI 칩과 젠 5 아키텍처, AI 개발 과정 등을 발표했고, 퀄컴은 엣지 디바이스의 열 관리 및 스냅드래곤 X 엘리트 오라이온 CPU 등의 세부 사항을 밝혔다. 아울러 IBM, 텐스토렌트, SK하이닉스, 오픈 AI, 삼바노바, 브로드컴, 테슬라, 마이크로소프트, 암페어 컴퓨팅, 중국과학원 등도 발표를 진행했다. 관련 프레젠테이션 자료 및 라이브스트리밍 영상은 오는 12월에 모든 대중에게 무료로 공개된다.


핫 칩스 2024 주요 스폰서십 정리 / 출처=IT동아



퓨리오사AI의 발표는 AI 프로세서를 주제로 하는 8월 26일 오후에 진행됐다. 앞서 엔비디아 블랙웰, 삼바노바 SN40L RDU, 인텔 가우디 3, AMD 인스팅트 MI300X, 브로드컴 ASIC에 대한 주요 발표가 진행됐고, 퓨리오사AI는 이날 마지막으로 발표했다. 주요 기업들의 발표가 이어진 뒤 등장하는 스타트업의 AI 가속기인 만큼 학계 및 업계 관계자들의 시선이 집중된 참이었다.

백준호 퓨리오사AI 최고경영자는 “AI 모델은 우리 일상 속으로 스며들고 있으며, 추론은 물이나 전기 같은 사회 인프라가 될 것이다. 우리는 개인 맞춤화하고, 효율적이면서 고성능의 AI 반도체를 구축하기 위해 이 칩을 만들었다”라면서, “21년까지 진행한 초기 설계는 당시 최고 모델에 맞췄으나, 다섯 배 이상 더 큰 GPT3의 등장으로 우리는 디자인에 큰 변화를 줬다. 스타트업이 이런 규모의 개발을 하는데 따른 위험이 컸지만, 미래 잠재력을 믿고, 사람들이 유능한 AI 모델을 선호할 것이라고 믿으며 개발을 시작했다”라고 말했다.


RGND 칩 주요 스펙 및 정보 / 출처=IT동아



백준호 대표는 “레니게이드는 현재와 미래의 가장 발전된 AI 모델을 처리하기 위한 추론 장치다. 512테라플롭스의 컴퓨팅 성능과 BF16 및 INT4 처리 지원, 48GB 고대역폭 메모리와 256MB SRAM을 갖췄다. 메모리는 전체 성능에 많은 영향을 미치는 것을 감안해 의도적으로 더 높은 성능과 용량으로 설계했다”라고 설명했다.


2개의 24GB HBM3로 총 48GB 메모리를 맞췄고, SoC는 TSMC 5nm로 제작됐다 / 출처=IT동아



퓨리오사AI가 의도한 열설계전력(TDP)은 150W다. 열설계전력이 낮으면 그만큼 발열도 적기 때문에 밀집도를 올릴 수 있고, 데이터 서버 냉각 비용 등을 절감할 수 있다. 레니게이드는 쿨링팬이 없어 공랭식 기반 데이터 센터에 적합하다. 또한 TSMC 5nm 공정을 활용해 가격대 성능비를 끌어올리고, SoC 다이 하나에 약 400억 개의 트랜지스터를 구축했다. 여기에 HBM 모듈과 SoC를 단일 실리콘으로 통합하는 CoWoS-S(칩온웨이퍼-온서브스트레이트)를 사용해 내부 데이터 통신 속도를 끌어올렸다.


RNGD와 엔비디아, 인텔, 구글의 동급 수준 AI 가속기에 대한 성능 비교 / 출처=IT동아



AI 가속기의 성능을 변별력 있게 시험하는 MLPerf 결과를 토대로 RNGD의 성능과 엔비디아 L40S, 인텔 가우디 2, 구글 TPU v5e를 비교했다. 이때 RNGD는 GPT-J 6B 모델 벤치마크 시나리오에서 FP8 기준 초당 11.5 쿼리를 처리했으며 소비전력은 185W였다. 반면 엔비디아 L40S는 성능은 초당 12.3 쿼리로 소폭 높았지만, 소비전력은 두 배에 가까운 320W다. 와트당 성능으로 비교하면 RNGD가 L40S 대비 60% 앞선다. 인텔 가우디 2와 구글 TPU의 소비전력 정보가 없지만, 실용 수준에서는 확실히 높은 효율성이다.

백준호 대표는 “AI 영향력은 하드웨어 성능에서만 비롯되는 건 아니다. 하드웨어 효율성과 소프트웨어 효율성, 알고리즘 등이 조합되고, 모델의 광범위한 기술도 고려해야 한다. 우리는 양자화를 위한 아키텍처 소프트웨어 자동화를 매일 개선하고 있고, 모든 계층에서 효율성을 혁신하고 통합하고 있다”라고 덧붙였다.

텐서 자체를 처리··· 데이터 재사용으로 효율 높여



RNGD는 텐서 축약, 그리고 데이터 재사용 등의 기술을 활용해 AI 가속 효율을 높였다 / 출처=IT동아



RNGD의 구조적 배경에는 텐서 축약(Tensor Contraction)이 있다. 백준호 대표는 “AI 아키텍처는 효율뿐만 아니라 자체적으로 진화하도록 적응성과 프로그래밍이 되어야 한다. 하드웨어 유연성 없이 특정 기능에만 최적화하면 전반적인 효율성 경쟁에서 뒤처진다. 우리는 7년 간 신경망 처리의 핵심인 텐서 처리를 개선하는 것에 초점을 맞춰왔다”라며 설명을 시작했다.

텐서 축약은 행렬 곱셈(Matrix Multiplication)을 더 높은 차원으로 계산하는 방식이다. 현재 일반적인 AI 가속기는 데이터를 여러 차원으로 나눠서 담는 텐서로 만들어 처리하고, 이를 축약해 처리한다. 축약 과정에서 행렬 곱셈으로 처리하는 것은 텐서의 병렬성과 데이터 지역성을 살리지 못하고, 또 데이터를 재사용하는 범위도 제한된다. RNGD는 텐서축약 자체를 처리하는 방식으로 데이터를 대규모로 병렬 처리하고, 데이터도 재사용해 효율성을 끌어올린다.

쉽게 설명하면 기존 방식은 색연필을 필요할 때마다 하나씩 꺼내서 조금씩 색칠하고 다시 넣고를 반복한다. 반면 텐서 축약 방식은 색연필을 한 번에 꺼내 모든 그림을 색칠한 후 다시 넣는 식이다. 덕분에 시간을 줄이고 속도도 빨라진다.


RNGD SoC 내부 구조 및 칩 간 통신 구조도 / 출처=IT동아



텐서 축약 프로세서의 구체적인 내부 구조도도 소개됐다. RNGD는 내부에 8개의 프로세싱 엘리멘트(PE)로 데이터를 처리한다. 각 요소는 칩 내 네트워크(NoC)로 연결돼 있으며, 각 PE가 1.5TB 대역폭의 HBM으로 통신한다. 호스트 인터페이스는 PCIe 5세대 16레인이 사용되며, 이를 통해 단일 서버에 최대 20개의 RNGD 칩을 탑재할 수 있다.

하드웨어뿐만 아니라 소프트웨어 지원에도 큰 비중



퓨리오사AI의 LLM 소프트웨어 지원 관련 구조도 / 출처=IT동아



백준호 대표는 “모든 자사 NPU의 구성 요소는 수직 통합되고 최적화됐다. 이미지는 새로운 모델에 대해 고성능을 제공하기 위한 소프트웨어 스택 개요다. 현재 우리는 파이토치 2.0 지원에 중점을 두며, 첫 단계에서 낮은 정밀도로 모델을 양자화한다. 그다음 여러 개의 PE를 대상으로 하는 파이프라인 또는 텐서 수준의 병렬 처리 등의 전략을 여러 칩에 적용한다”라고 설명했다


퓨리오사AI의 주요 소프트웨어 지원 전략 및 설명 / 출처=IT동아



아울러 엔드 투 엔드 모델 최적화와 서비스 프레임워크의 중요성도 강조했다. 퓨리오사AI는 다양한 AI 모델이 문제없이 작동하도록 컴파일러 및 소스 코드의 데이터 내부 구조인 IR(Intermediate Representation) 단위에서 최적화하고, 메모리 레이아웃을 최적화해 접근 성능은 높이고, 이동은 최소화한다. 또 연산자 융합, 텐서 분할 등 다양한 최적화 기법을 적용한다.

서비스 프레임워크 측면에서 퓨리오사 컴파일러와 런타임은 가상 메모리 및 페이징 구조를 참고로 딥러닝 어텐션을 계산할 때 효율적인 페이지드 어텐션, 토큰 계산 시 반복 계산되는 값을 재사용하는 KV 캐시 등에 영향을 미친다. 또한 앤드 투 앤드 단위에서 자동으로 양자화를 진행하며, 트랜스포머 블록의 어텐션 그래프 패턴을 분석해 양자화에 적합한 부분을 찾아낸다. BF16, INT8, FP8, INT4 등 다양한 수치상 설계(numerical scheme) 지원 및 AWG(Adaptive Weight Quantization), GPTQ(GPT Quantization) 등의 최신 양자화 기법도 지원한다.

닻 올린 퓨리오사AI, 2세대 반도체로 시험길에 오르다


발표 말미에 백준호 퓨리오사AI 대표는 “퓨리오사AI 소프트웨어는 전적으로 역언어(Inverse Language)로 작성되었으며, 레지스터 트랜스퍼 레벨 개발을 위해 언어 학자 수준의 언어를 쓰고 있다. 이것은 스케줄에 맞춰 생산되는 칩 중에서는 가장 독창적인 것이라 생각한다”라면서, “퓨리오사AI는 백여 명 이상의 엔지니어를 보유한 스타트업이다. 우리는 항상 진보된 개발 방법론을 찾기 위해 노력하고, 최신의 기술과 언어를 지원하고자 최선을 다할 것”이라고 말했다.


퓨리오사AI의 2세대 반도체 ‘RNGD’의 실물 / 출처=퓨리오사AI



핫 칩스 2024를 계기로 퓨리오사AI의 2세대 반도체 RNGD가 세계 무대에 공식 등판했다. 국내 AI 가속기로는 놀라운 성과고, 글로벌 반도체 시장 전체를 포함해도 주목할만한 행보다. 이번 발표를 앞두고 퓨리오사AI는 2세대 반도체의 성공적인 시장 데뷔를 위해 꾸준히 물밑작업을 해왔다.

글로벌 반도체 성능 지표라 할 수 있는 MLPerf의 LLM 항목에 대한 테스트는 지금도 작업이 한창이고, 또 광주광역시에 위치한 인공지능산업융합사업단(AICA)의 ‘AI 반도체 시험검증 환경조성’ 사업(과학기술정보통신부, 광주광역시, 정보통신산업진흥원)을 통한 AI반도체 시험장비 활용 지원 프로그램의 도움을 받아 RNGD를 PCI-SIG의 통합 리스트에 등재하기도 했다.

RNGD는 오는 9월 초부터 공식 판매를 시작한다. 우선은 계약된 기업 대상으로 판매를 시작하고, 연말쯤에는 전체 시장을 대상으로 제품을 공급한다. 특히 엔비디아 등 대규모 AI 반도체 기업이 부족한 부분을 집중 공략하고, 소프트웨어를 직접 지원하는 방식으로 시장 경쟁력 확보에 나선다. 퓨리오사AI의 항해는 이제부터 시작이다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI 종합 기업 꿈꾸는 AMD··· ZT시스템즈, 사일로 AI 인수 배경은?▶ 주가 폭락, 대규모 감원까지··· 격랑의 AI 반도체 시장▶ [리뷰] AI 시대의 워크스테이션 노트북, 델 프리시전 5690



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
4556 전문가가 제시하는 스타트업 ESG 경영 전략…’2024 서울 스타트업 ESG 포럼’ IT동아갤로그로 이동합니다. 19:51 13 0
4555 수원대학교 'WoW 스타트업 브랜치 오픈이노베이션' 개최 IT동아갤로그로 이동합니다. 17:01 16 0
4554 [스타트업리뷰] 로닉 “인공지능 맞춤형 음식 도우미, AI 로봇셰프 큐브” IT동아갤로그로 이동합니다. 16:33 1385 0
4553 [IT기획자의 탄생] 3. IT기획자에게 필요한 상상력과 글로벌 전략 IT동아갤로그로 이동합니다. 10:43 32 0
4552 [IT’s 가성비] 삼성 크리스탈 UHD TV, 2024년형/85인치 모델에 눈길? IT동아갤로그로 이동합니다. 09:07 1777 0
4551 [스케일업] 클리카 [3] 피터 노빅과의 대담으로 살펴본 'AI 스타트업'의 방향성 IT동아갤로그로 이동합니다. 09:06 31 0
4550 [생활 속 IT] LG 가전 활용도 넓히는 'LG ThinQ' 연결 및 사용법 IT동아갤로그로 이동합니다. 08:21 25 0
4549 [생활 속 IT] 소프트웨어 활용 습관 바꿔줄 윈도 11 ‘가상 데스크톱’ [1] IT동아갤로그로 이동합니다. 11.20 74 0
4548 [부산창경 BEF 2024] 기술로 문제 풀이와 오답 노트 작성 효율 높인 ‘프라이머스’ IT동아갤로그로 이동합니다. 11.20 46 0
4547 IBM-연세대, 슈퍼컴 능가하는 127 큐비트 양자컴퓨터 국내 첫 도입 [3] IT동아갤로그로 이동합니다. 11.20 4756 4
4546 [주간스타트업동향] 휴머닉스, 위플로 CES 2025 혁신상 수상 外 IT동아갤로그로 이동합니다. 11.20 94 0
4545 [부산창경 BEF 2024] 만만한녀석들 “모듈형 집기로 친환경 MICE 산업 선도한다” IT동아갤로그로 이동합니다. 11.20 45 0
4544 [부산창경 BEF 2024] 나누기월드 “외국인 유학생, 장애인 문제 해결에 기여” [3] IT동아갤로그로 이동합니다. 11.20 247 0
4543 선박 제조업의 디지털 전환 이끄는 ‘버추얼 트윈’ 기술 IT동아갤로그로 이동합니다. 11.19 74 0
4542 에릭슨엘지 “네트워크도 API로 제공…개발자 참여 독려해야” IT동아갤로그로 이동합니다. 11.19 74 0
4541 [IT애정남] 노트북 SSD의 OEM 파티션, 삭제해도 되나요? IT동아갤로그로 이동합니다. 11.19 78 0
4540 [부산창경 BEF 2024] 그린에너지(주) “산업 현장 악취·유해물질 플라즈마로 해결” IT동아갤로그로 이동합니다. 11.19 78 0
4539 [자동차와 法] 행락철 교통사고 책임과 법적 대처 방안 IT동아갤로그로 이동합니다. 11.19 667 0
4538 아이작 컨셉츠 김태영 대표, "반도체·열유체 공학의 산학협력 교두보 만들겠다" IT동아갤로그로 이동합니다. 11.19 75 0
4537 [시승기] 돋보이는 디자인과 안전 사양 ‘KGM 액티언’ [1] IT동아갤로그로 이동합니다. 11.18 351 0
4536 +불필요한 PC 앱, 지우려면 이렇게! [이럴땐 이렇게!] [1] IT동아갤로그로 이동합니다. 11.18 5089 5
4535 [스케일업] 반프 [3] 정예솔 전략총괄 “반프의 가치, 글로벌 시장에서도 매력적” IT동아갤로그로 이동합니다. 11.18 107 0
4534 [주간투자동향] 숨빗AI, 50억 원 규모 시드 투자 유치 外 IT동아갤로그로 이동합니다. 11.18 99 0
4533 [투자를IT다] 2024년 11월 2주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 11.16 199 0
4532 [스케일업] 보라웨어 [2] 전영복ㆍ이효주 “구성원 복지ㆍ기업 성장이 공존하는 곳” IT동아갤로그로 이동합니다. 11.15 193 0
4531 [생성 AI 길라잡이] 8종의 AI 모델 골라 쓰는 ‘SKT 에이닷’ 웹 버전 IT동아갤로그로 이동합니다. 11.15 181 0
4530 디지포레, “제조산업의 디지털 전환, ‘팩토리얼 프로’로 앞당길 것" IT동아갤로그로 이동합니다. 11.15 174 0
4529 [리뷰] 모니터링 헤드폰의 새로운 기준점 제시, 소니 MDR-M1 [5] IT동아갤로그로 이동합니다. 11.15 6191 1
4528 [2024 고려대] 스페이스점프 “자영업·소상공인 기자재의 모든 것, 소상공간” IT동아갤로그로 이동합니다. 11.15 166 0
4527 퀄컴, 온디바이스 AI·차량 전동화에 초점 맞춘 최신 솔루션 선보여 IT동아갤로그로 이동합니다. 11.15 186 0
4526 [창업도약+경북대] 비빔블 “비커스ㆍ버튜디오로 상상 이상의 가상경험 제공할 것” IT동아갤로그로 이동합니다. 11.15 143 0
4525 [AI와 미래] 기존 저작물은 AI 학습에 어디까지 활용할 수 있을까? IT동아갤로그로 이동합니다. 11.15 1363 0
4524 [월간자동차] 24년 10월, 신차 등록 두 달 연속 증가…싼타페 판매 1위 IT동아갤로그로 이동합니다. 11.15 138 0
4523 [리뷰] 10G 업링크 지원 네트워크 스위치, 넷기어 GS108MX IT동아갤로그로 이동합니다. 11.14 166 0
4522 데이터 주권 강조하는 소버린 AI, 진정한 의미는? [1] IT동아갤로그로 이동합니다. 11.14 698 0
4521 [스케일업] 스쿨버스 [3] 통학버스 전문 플랫폼 개발자 인터뷰 IT동아갤로그로 이동합니다. 11.14 168 0
4520 [UDC 2024] 다양한 산업을 변화시키는 블록체인의 힘 IT동아갤로그로 이동합니다. 11.14 161 0
4519 로봇과 문화예술의 만남, 브이디컴퍼니x장 줄리앙의 종이세상 IT동아갤로그로 이동합니다. 11.14 317 0
4518 [IT애정남] 갤럭시워치를 아이폰과 연결해서 쓸 수 있나요? IT동아갤로그로 이동합니다. 11.13 4653 0
4517 [신차공개] BMW ‘뉴 4시리즈 그란 쿠페’·로터스 ‘에메야’ 공식 출시 [3] IT동아갤로그로 이동합니다. 11.13 4755 1
4516 [스타트업-ing] 오아시스 스튜디오 “OVP·오닉스·디보틀로 콘텐츠 에코시스템 구축” IT동아갤로그로 이동합니다. 11.13 172 0
4515 [생활 속 IT] 취업 서류, 정부24에서 내려받는 법 IT동아갤로그로 이동합니다. 11.12 206 0
4514 기한 지나면 과태료…운전면허 적성검사 및 갱신 방법 살펴보니 IT동아갤로그로 이동합니다. 11.12 2385 3
4513 [창업도약+경북대] 준컴퍼니 “자동차 구매부터 판매까지 아우르는 모빌리티 통합 플랫폼 꿈꾼다” IT동아갤로그로 이동합니다. 11.12 196 0
4512 [스케일업] 모넷코리아 [2] HDC랩스와 협업 통해 AIoT 기반 부동산 관리 플랫폼 고도화 IT동아갤로그로 이동합니다. 11.12 229 0
4511 [2024 고려대] R2C컴퍼니 “데이터 수요·공급자 만족 이끄는 플랫폼” IT동아갤로그로 이동합니다. 11.12 647 0
4510 갤럭시 스마트폰의 위젯 기능, 제대로 쓰려면? IT동아갤로그로 이동합니다. 11.12 255 1
4509 [AWS 인더스트리 위크 2024] 국내 금융/핀테크 기업에 AWS 솔루션은 이렇게 적용됐다 [1] IT동아갤로그로 이동합니다. 11.11 2038 1
4508 '제조 스타트업 대상으로 소싱디렉팅·제품 제작까지'··· 서울과기대의 실질적 지원 들여다보니 IT동아갤로그로 이동합니다. 11.11 217 0
4507 [AWS 인더스트리 위크 2024] AWS가 실현하고 있는 인공지능 기술의 현재 IT동아갤로그로 이동합니다. 11.11 275 0
뉴스 데이식스, 12월 고척돔 콘서트 3만8천석 전석 매진 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2