디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

퓨리오사AI, TCP(텐서 축약 프로세서)로 AI 반도체 시장 전환 노린다

IT동아갤로그로 이동합니다. 2024.06.28 09:53:20
조회 188 추천 0 댓글 0
[IT동아 남시현 기자] 지난 2006년, 엔비디아는 새로운 G80 시리즈 그래픽 카드를 공개하며 게이밍 그래픽 카드를 범용 연산 카드로 사용할 수 있는 GPGPU라는 기술을 소개했다. GPGPU(General-Purpose computing on Graphics Processing Units)는 GPU 상의 범용 계산이라는 뜻의 기술로, 기존에 CPU가 맡았던 응용 프로그램 계산을 GPU가 진행하도록 그래픽 파이프라인을 연결한다. 그리고 이를 지원하는 프로그래밍 언어 ‘쿠다(CUDA)’를 통해 개발자들이 다양한 수학 연산을 GPU로 할 수 있는 환경을 만들었다.


GPGPU 기술 덕분에 엔비디아 그래픽 카드의 활용도와 가치는 세상을 바꿔놓았다 / 출처=엔비디아



당시 젠슨 황 엔비디아 최고경영자는 미래에는 그래픽 카드가 게임이 아닌 연산 전용 장치로 쓰일 것이라는 비전을 제시했고, 엔비디아 GPU 상의 부동소수점 구현이 IEEE(전기전자공학자협회) 표준에 가깝도록 구성했다. 엔비디아 그래픽 카드로 처리할 수 있는 작업의 궤가 넓어지자 많은 프로그램들이 엔비디아 쿠다를 기반으로 구축되기 시작했고, 엔비디아의 GPGPU 기술은 관련 연산이 필요한 거의 모든 작업에 표준처럼 쓰이게 됐다.

10여 년이 지난 지금, GPU는 모든 고성능 컴퓨팅 작업에 쓰인다. 대규모로 데이터를 병렬 처리할 수 있어서 데이터 서버 같은 가속 컴퓨팅 체계로 만들고, 과학이나 금융, 인공지능, 시뮬레이션, 데이터 분석 등 모든 분야의 연산 처리에 사용한다. 엔비디아 그래픽 카드가 품귀인 이유도 대규모 가속 컴퓨팅을 구축하기 위한 기반 장치이기 때문이다.

범용 목적으로 쓰이는 GPU··· 전력 효율은 나빠



GPU의 가장 큰 장점은 뛰어난 범용성이다. 하지만 그만큼 소비전력과 단가가 높다 / 출처=엔비디아



GPGPU의 가장 큰 장점은 연산 처리가 필요한 어떤 작업에든 대응한다는 점이다. 지금도 AI와 기계학습은 물론 과학 연구와 시뮬레이션, 게임 및 그래픽, 클라우드 컴퓨팅 등 쓰이지 않는 분야가 없다. 하지만 여기에는 대가가 따른다. 엔비디아 GPU의 처리 성능이 우수한 건 맞지만, 전력 효율성보다는 최고 성능을 높이는 쪽에 초점을 맞추고 있다.

GPU는 원래 그래픽 연산 처리를 위해 설계된 반도체라서 인공지능 등을 처리할 때 데이터의 병목 현상과 처리 방식, 다양한 형태의 텐서 처리 시의 효율성 저하, 메모리 대역폭으로 인한 한계 등이 발생한다. 현재 개발된 AI 가속기 중 가장 성능이 높지만, 효율성보다는 더 많은 전력을 인가하고 더 발전된 설계와 큰 칩을 사용한 결과다. 이 때문에 마이크로소프트는 인공지능 개발에 필요한 전력을 조달하기 위해 소형모듈원전(SMR)을 개발할 정도다.


퓨리오사AI의 2세대 반도체, 레니게이드가 8월 출시된다. 레니게이드는 기존 NPU 방식에서 TCP(텐서 축약 프로세서)라는 새로운 개념을 도입했다 / 출처=퓨리오사AI



대안으로 떠오르는 것이 바로 신경망 처리 장치, NPU다. NPU는 두뇌의 동작 방식을 모방해 만든 반도체로, 심화학습(딥러닝) 같은 특정 인공지능 처리에 특화돼 있다. GPU처럼 다목적으로 쓰기는 어렵지만, 행렬곱이나 합성곱 등에 최적화한 아키텍처로 특정 AI 작업에 최적화된 전력 효율성을 발휘하며, 같은 전력을 인가했을 때 성능이 더 높다. 국내에서는 퓨리오사AI 워보이, 리벨리온 아톰이 대표적이며, 해외에서도 세레브라스나 텐스토렌트 등이 시장을 개척하고 있다.

퓨리오사AI, 텐서 축약 프로세서(TCP)로 새로운 가능성 제시


하지만 NPU의 가장 큰 한계는 제한된 활용 방식이다. 퓨리오사AI의 1세대 반도체인 워보이는 비전인식 추론에 최적화된 제품이고, 리벨리온 아톰도 비전인식, 자연어 처리 등 추론에 최적화돼있다. 텐스토렌트의 NPU도 비전인식, 자연어 처리, 로봇 제어 등에 초점을 맞추고 있고, 한계를 해결하고자 프로그래밍이 가능한 RISC-V도 함께 만들고 있다. 이런 상황 속에서 퓨리오사AI는 텐서 축약 프로세서(Tensor Contraction Processor, TCP) 방식을 채택해 시장에 새로운 가능성을 제시하고 나선다.


실제 공개된 논문 서두, ISCA 발표는 7월 2일(현지시각)이다 / 출처=퓨리오사AI



퓨리오사AI는 현지시간으로 6월 29일에서 7월 3일 개최되는 국제 컴퓨터 아키텍처 심포지엄(ISCA)에서 2세대 반도체 ‘레니게이드’의 핵심 처리 방식과 기술 이력을 담은 ‘TCP : AI용 텐서 축약 프로세서 워크로드’ 논문을 발표한다. ISCA는 미국 전기전자공학회(IEEE), 전산공학회(ACM)가 주최하는 세계 최고 권위의 컴퓨터 기술 심포지엄이다.

해당 논문은 김한준 퓨리오사AI CTO 외 47명이 참여했으며, 앞서 6월 10일 서울대학교 컴퓨터공학부에서 발표됐다. 소속기관은 퓨리오사AI와 포르투갈 고급 연구 개발 비영리 단체 INESC‑ID, 리스본 공과대학, 서울대학교가 기재됐다.


논문에 기재된 TCP 시스템 온 칩 (SoC)의 기본 구조 및 스펙 / 출처=퓨리오사AI



퓨리오사AI가 제안하는 TCP는 텐서 축약을 기본 단위로 처리하고, 데이터를 재사용해 인공지능 처리 성능을 끌어올린다. 텐서는 데이터를 여러 차원으로 나눠서 담고 있는 구성이고, 차원 일부를 줄여 더 작은 차원으로 만드는 게 텐서 축약이다. GPU는 텐서를 축약할 때 행렬 곱셈으로 매핑하는데, 이는 텐서 축약 자체의 병렬성과 데이터 지역성을 완전히 살리지 못하고, 또 가속기의 처리 단위 크기가 작으면 데이터 재사용 범위가 제한되고, 다양한 유형과 모양의 텐서를 처리할 수 없어 효율이 떨어진다.


텐서 축약은 여러 차원으로 이루어진 텐서에서 특정 축을 따라 데이터를 합산하여 차원을 줄이는 연산이다 / 출처=깃헙



TCP는 텐서 축약 자체를 처리한다. 덕분에 대규모 병렬 작업도 가능하고, 슬라이스라는 더 작은 단위로 분할해 텐서 처리의 유연성을 끌어올린다. 또한 소규모 작업과 고성능 컴퓨팅 등 다양한 규모의 텐서 처리를 위해 프로세싱 엘리먼트(PE)인 연산 소자를 다양한 규모로 8개를 배치했다. 또한 기존의 GPU는 데이터를 재사용하는데 한계가 있고, 반복 사용 시 병목을 일으키지만 TCP는 그 자체로 데이터를 재사용하고, 효율적으로 전달하는 구조로 설계됐다.

아울러 고급 컴파일러를 통해 활용 환경에 맞춰 텐서 연산을 최적화한다. 처리 모델은 큰 계산을 작은 계산으로 나누는 등으로 연산자를 변환하고, 이를 다시 모아 큰 연산 규모로 구성해 효율성을 끌어올린다. 그다음 규모에 맞춰 하드웨어 명령을 선택하고, 실행 가능한 파일로 변환한다.

처리 과정을 요리에 빗대어 설명하면, 레시피를 먼저 방법에 따라 큰 덩어리의 작업인 채소 썰기, 고기 굽기 등으로 나누고, 채소를 다듬는 과정은 한 번에 다루는 식이다. 또 여기에 적절한 칼과 냄비 등을 고르고, 구체적으로 어떻게 썰지 등을 조작한다. 마지막으로 이를 실행하는 식으로 AI 모델 처리를 효율화한다.

150W TDP 칩으로 TDP 700W 대비 최대 2.7배 와트당 성능



논문에 기재된 엔비디아 L40s, H100, TCP(레니게이드)의 성능 비교 / 출처=퓨리오사AI



논문에는 직접적으로 제품 성능과 엔비디아 L40s, H100 GPU와의 라마-2(Llama) 7B 데이터 시간 및 처리량 비교가 있다. 스펙상 TCP의 열설계전력(TDP)은 150W고, L40은 350W, H100은 700W에 달한다. TDP가 곧 소비전력을 의미하진 않지만, 그만큼 방열 처리를 갖추고 소비 전력도 높다는 말은 된다. 메모리는 TCP가 48GB HBM3, L40s가 48GB GDDR6, H100이 HBM3 80GB다.

이때 TCP의 성능은 FP8 기준 512 TFLOPS(초당 부동소수점 연산), L40s는 362, H100은 989다. AI 처리에 쓰이는 INT8 및 INT4 기준 TOPS(초당 1조 회 연산)는 TCP가 각각 512 및 1024, L40s가 733 및 733, H100은 1979로 표기돼있다. 이중 L40s의 INT4가 1466이 아닌 733, H100의 INT4가 3958이 아니라 미기재인 이유는 희소성(Sparsity) 최적화를 통해 성능을 최고 수준으로 다듬었을 때 제한적으로 낼 수 있는 수준이라서다.


Energy Efficiency는 레니게이드와 엔비디아 H100 및 L40S의 와트당 성능 비교, Throughput은 처리 성능 비교다 / 출처=퓨리오사AI



종합적으로 TCP는 동일한 라마-2 LLM(대형 언어 모델)을 처리했을 때 한번에 처리하는 데이터의 개수인 배치(Batch) 1개, 시퀀스 길이 128일 때의 지연시간은 TCP가 8ms, L40s가 14ms, H100이 7ms로 거의 비슷했고, 처리량은 16배치, 2000 입력/출력 길이일 때 TCP가 935 토큰, L40s가 531토큰을 처리했다. 32배치에서는 TCP가 1293토큰, H100이 2230토큰을 처리했다. 와트당 성능은 TCP가 16배치에서 1와트당 6.24TOPS, L40s가 1.52TOPS를 발휘했으며, 32배치에서 TCP가 8.62TOPS, H100이 3.19TOPS를 발휘했다.

종합적으로 TCP는 와트당 성능면에서 L40s 대비 4.1배, H100 대비 2.7배 높은 성능을 보인다. 엔비디아 DGX 플랫폼처럼 8개의 장치를 꽂는다면 최적화된 AI 처리에서는 GPU 대비 2~4배에 가까운 전력 효율성과 2배에 가까운 전력 소모대 성능을 제공한다. 물론 최고 성능은 엔비디아 최신 GPU를 많이 꽂는 기존 방식에 밀리지만, RE100 등 신재생에너지 기반의 데이터센터 혹은 추론 기반의 작업에 최적화된 경우라면 압도적인 효율성이다.

TCP, 다목적 NPU라는 새로운 지평 열어


기존의 NPU는 고정된 연산 유닛으로 지정된 작업을 수행하는데 최적이었지만, TCP는 8개의 프로세싱 엘리멘트(PE)와 아키텍처에서 데이터를 효율적으로 전달하기 위해 설계된 시스템인 페치 네트워크(Fetch Network) 구성을 통해 텐서를 효율적으로 처리한다. 덕분에 TCP는 GPU 만큼은 아니더라도 다른 NPU보다는 훨씬 더 다양한 작업에 동원할 수 있다.


퓨리오사AI의 2세대 반도체 레니게이드의 기판 / 출처=퓨리오사AI



이는 기존 NPU 시장의 판도가 바뀔 수 있다는 점을 시사한다. 시장에서 GPU를 고집하는 이유는 결국 범용성 때문이다. 최고 성능이 높다는 장점도 있지만, 전력 효율이 떨어지고 가격대가 높다. 대안으로 등장한 NPU는 일부 AI 모델들을 대상으로 한 추론 기능에만 국한되니 대체재가 아닌 일부 작업의 차선책 정도 입지였다.

TCP로 다양한 작업에 대응한다면 인공지능 작업에서는 GPU의 대체제로 쓰일 수 있다. 물론 기존 GPU 사용자가 TCP를 채택하기란 쉽지 않겠지만, 퓨리오사AI는 자체적으로 모델을 최적화해 배포하는 등으로 진입을 도울 예정이다. TCP는 오는 8월부터 2세대 NPU인 ‘레니게이드(RNGD)’라는 이름으로 시장에 첫선을 보인다.

RNGD는 금번 7월 MLPerf에 LLM 부문에 대해 우선 결과를 제출할 예정이고, 9월부터 글로벌 시장에 판매될 예정이다. 기존 NPU의 한계를 넘어 텐서 축약 처리 기반이라는 새로운 방향성을 제시한 RNGD가 AI 반도체 시장의 패러다임을 바꿀 수 있을지 주목된다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ ‘성능? 호환성?’ AI(인공지능) PC 시대, 선택의 기준은?▶ ‘인공지능’ 처리하는 AI PC 시대 개막, PC 시장이 움직인다▶ 딥엑스, 엣지 AI용 NPU 'DX-M1'으로 중국·대만 시장에서 두각



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 기 세보여도 실제로는 멘탈 약할 것 같은 스타는? 운영자 24/11/04 - -
4489 스팸 문자, 아이폰 기본 설정으로 간단하게 차단하자 IT동아갤로그로 이동합니다. 11.05 24 0
4488 업무 카톡으로 스트레스 받는다면? - 업무용 채팅방 분리하기 IT동아갤로그로 이동합니다. 11.05 26 0
4487 개인 소유 차량으로 수익 창출할 방안 마련된다 IT동아갤로그로 이동합니다. 11.05 24 0
4486 北, 세계 가상화폐 탈취액 3분의 1 차지…민간기업, 사이버 보안 강화 절실 IT동아갤로그로 이동합니다. 11.05 26 0
4485 다 똑같이 생긴 USB, 색상·형태로 규격 구분 하는 방법은? IT동아갤로그로 이동합니다. 11.05 3259 3
4484 [자동차와 法] 전기차와 자율주행차 시대를 향한 자동차 보험 규정의 변화와 전망 IT동아갤로그로 이동합니다. 11.05 2658 0
4483 [KIDP 울산] 휴원스, "뇌압비 측정 장비, 디자인 개선으로 완성도 높여" IT동아갤로그로 이동합니다. 11.05 40 0
4482 챕터코리안 “한국어 교육으로 외국인 한국 정착 지원” [동국대학교 캠퍼스타운] IT동아갤로그로 이동합니다. 11.05 66 0
4481 [뉴스줌인] 갤럭시 S24 FE 출시, 성능∙가격 모두 좋은데 무게가 좀? [12] IT동아갤로그로 이동합니다. 11.04 2348 0
4480 희비 교차 중인 빅테크ㆍ반도체 기업 실적, 향후 시장은? IT동아갤로그로 이동합니다. 11.04 89 0
4479 [스케일업] 클리카 [2] AI 모델 최적화를 위한 여정, 클리카의 '딥러닝 연구원' 이야기 IT동아갤로그로 이동합니다. 11.04 61 0
4478 1종 자동면허 시험 본격 시행...기능시험에 전기차 배치도 추진 IT동아갤로그로 이동합니다. 11.04 57 0
4477 갤럭시 스마트폰 바탕 화면·앱·폴더 활용 한 눈에 IT동아갤로그로 이동합니다. 11.04 87 0
4476 어린이용 헤드폰 고를 때는 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 11.04 62 0
4475 [주간투자동향] 라이드플럭스, 260억 원 규모 시리즈B 투자 유치 外 IT동아갤로그로 이동합니다. 11.04 452 0
4474 고려대 “해외 특허 플랫폼 수익화, 기술 보호·발전 동시에” [4] IT동아갤로그로 이동합니다. 11.04 1782 2
4473 [생성 AI 길라잡이] 스타일 유지하는 이미지 생성형 AI '플라멜' IT동아갤로그로 이동합니다. 11.01 247 0
4472 AI PC로 진화한 에이수스 젠북, 직접 체험해보니 IT동아갤로그로 이동합니다. 11.01 173 0
4471 서울과기대 창업지원단 김종선 단장, "기술 창업 특화 지원으로 전문화할 것" IT동아갤로그로 이동합니다. 11.01 167 0
4470 Arm, "토탈 디자인 1주년··· 파트너사와 한국 AI 반도체 생태계 강화" IT동아갤로그로 이동합니다. 11.01 198 0
4469 소상공인 AI 날개 단다…‘2024 대한민국 소상공인대회’ [13] IT동아갤로그로 이동합니다. 11.01 4919 2
4468 출처 포함 신뢰도 높은 결과 제시로 차별화…AI 검색 서비스 ‘라이너’ IT동아갤로그로 이동합니다. 11.01 136 0
4467 [리뷰] 게이밍 노트북이 이리 가벼워? 에이수스 TUF 게이밍 A14(FA401U) IT동아갤로그로 이동합니다. 11.01 141 0
4466 [투자를IT다] 2024년 10월 마지막주 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 10.31 160 0
4465 [뉴스줌인] SKT가 5G 기지국에 도입한 AI 기술이란? IT동아갤로그로 이동합니다. 10.31 1627 1
4464 플래그십 경쟁 사라진 2025년 게이밍 그래픽카드 시장, 무엇 믿고 게임할까? IT동아갤로그로 이동합니다. 10.31 143 0
4463 [스타트업-ing] 플레이태그 "어린이집 일과 속 우리 아이의 행동을 분석합니다" IT동아갤로그로 이동합니다. 10.31 137 0
4462 [KIDP 울산] 콘타벨로 “크랭크 내장형 변속기로 일반ㆍ전기 자전거에 새 힘을 불어넣다” IT동아갤로그로 이동합니다. 10.31 139 0
4461 [SBA x IT동아] 앱 하나로 인플루언서와 협업부터 재고 관리까지 돕는 ‘브랜더진’ IT동아갤로그로 이동합니다. 10.31 135 0
4460 생산 라인 구축 전, ‘가상 공장’에서 먼저 만들어보면? IT동아갤로그로 이동합니다. 10.31 134 0
4459 밀프로젝트 “건강하고 맛있는 채소 간편식을 만듭니다” [동국대학교 캠퍼스타운] IT동아갤로그로 이동합니다. 10.31 134 0
4458 LG전자, AI 가전과 HVAC 기술 집약한 '스마트코티지' 주거 생활 솔루션 출시 IT동아갤로그로 이동합니다. 10.30 154 0
4457 인포플라, VLAgent에 웹 사이트 점검 자동화 기능 추가 IT동아갤로그로 이동합니다. 10.30 158 0
4456 차트분석 도구 ‘트레이딩뷰’ 파고들기 - 29 IT동아갤로그로 이동합니다. 10.30 146 0
4455 다쏘시스템 “가상세계와 현실을 연결하는 도구 ‘3D익스피리언스 플랫폼’” IT동아갤로그로 이동합니다. 10.30 212 0
4454 [KIDP 울산] 서브루나바이크 “접이식 자전거, 쉽고 즐겁고 가볍게” [1] IT동아갤로그로 이동합니다. 10.30 2019 0
4453 [SBA x IT동아] 피부와 자연 지키는 선크림 브랜드 ‘부쉬맨’ IT동아갤로그로 이동합니다. 10.30 148 0
4452 [기술영업人] AI 교육 넘어 클라우드로··· '엘리스그룹'의 영업과 접근법 IT동아갤로그로 이동합니다. 10.30 4644 1
4451 성북구 1인 창조기업 지원센터 스타트업을 만나다 [1] IT동아갤로그로 이동합니다. 10.30 185 0
4450 [AI와 미래] AI 창작 콘텐츠, 보호받을 수 있을까? IT동아갤로그로 이동합니다. 10.30 1591 0
4449 [신차공개] BMW ‘뉴 X3’ 사전예약·JLR ‘뉴 디스커버리 스포츠 25년형’ 출시 IT동아갤로그로 이동합니다. 10.29 144 0
4448 라온시큐어 “토종 웹3 디지털 ID 세계로” IT동아갤로그로 이동합니다. 10.29 157 0
4447 포킷츠 “오직 반려견 발바닥만 생각합니다” [동국대학교 캠퍼스타운] [11] IT동아갤로그로 이동합니다. 10.29 5638 2
4446 [IT기획자의 탄생] 2. 정부 연구개발 분야에 기획자가 필요한 이유 IT동아갤로그로 이동합니다. 10.29 1832 0
4445 SBA, 응급실국물떡볶이와 선보인 ‘스바 세트 3종’···”참신하고 의미 있는 시도” IT동아갤로그로 이동합니다. 10.29 170 0
4444 애플 ‘M4 프로세서’ 품은 2024년형 아이맥 공개 [6] IT동아갤로그로 이동합니다. 10.29 2184 0
4443 [리뷰] 라데온 RX 7800 XT가 AFMF 2 기술을 만났을 때 IT동아갤로그로 이동합니다. 10.28 159 0
4442 [SBA x IT동아] 자기 이해를 바탕으로 커리어 설계 돕는 ‘매치워크’ IT동아갤로그로 이동합니다. 10.28 173 0
4441 인텔, AI PC를 위한 차세대 인텔 코어 울트라 제품군 국내 출시 IT동아갤로그로 이동합니다. 10.28 209 0
4440 [KIDP 울산] 모토웨이, "투박한 산업용 카메라, 디자인 개선으로 재탄생" IT동아갤로그로 이동합니다. 10.28 164 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2