GPU 빠른 딥러닝 연산처리로 ‘인공지능 칩’ 급부상, 인공지능 최적화된 서버 프로세서 등장

[테크월드=이나리 기자] 그동안 SF 영화 속에서만 볼 수 있었던 최첨단 시대가 머지 않아 보인다. 인공지능(AI) 기술 개발로 인해 우리의 삶은 큰 변화를 맞이하고 있기 때문이다. 최근 구현되고 있는 인공지능은 과거와 크게 다르다. 컴퓨팅, 데이터, 알고리즘의 한계가 차례로 극복되며 인공지능 분야에 큰 변화가 일어나고 있다.

자동차가 스스로 움직이고, 다양한 언어가 자연스럽게 번역, 통역되고 환자 맞춤 의료진단이 이뤄진다. 또 사물인터넷(IoT)와 맞물려 빌딩과 집에서는 사용자의 삶의 패턴을 분석해 최적화된 온도를 유지해주고 조명을 켜주기도 한다. 이처럼 인공지능의 발전은 그 영향력이 제조, 금융, 의료, 자동차 등 거의 모든 산업에 미칠 수 있다는 점에서 엄청난 잠재력을 가지고 있다. 

인공지능 기술을 구현하기 위해서는 방대한 데이터를 처리하기 위한 빅데이터와 플랫폼도 중요하지만 이를 빠르게 연산처리하기 위한 하드웨어 기술이 뒷받침돼야 한다. 즉, 인공지능은 컴퓨팅을 위한 GPU, FPGA, ASIC와 같은 ‘가속기’가 발전돼야 실현될 수 있다는 것을 뜻한다. 


◇ GPU, 빠른 딥러닝 연산처리로 ‘인공지능 칩’ 급부상

매년 1월 초 미국 라스베가스에서 개최되는 세계 최대 규모의 가전 전시회 ‘CES’는 2017년에 이어 올해도 인공지능과 자율주행차가 가장 큰 화두였다. CES는 몇 년 전부터 가전을 소개하는 전시회라기 보다 최첨단 IT 기술을 발표하는 자리로 변화되고 있는데, 그 중심에는 반도체 기업인 인텔과 엔비디아가 발표하는 인공지능 기술이 업계의 주목을 받고 있다. 인공지능은 지능형로봇, 스마트 홈, 스마트 팩토리, 스마트 시티, 의료 등 다양한 분야에 활용할 수 있는 가능성이 무궁무진하다. 인공지능 시대가 도래함에 따라 컴퓨팅을 지원하는 반도체 시장 판도에 큰 변화가 오고 있다.

인공지능이 가능하게 된 이유는 크게 3가지로 요약되는데, 하나는 인터넷과 웹에 의한 대량의 디지털 데이터를 쉽게 구할 수 있게 된 것, 두 번째는 CPU(Central Processing Unit)를 넘어 GPU(Graphics Processing Units)처럼 고속 연산 처리가 가능한 범용 하드웨어가 등장한 것, 그리고 세 번째는 연구자들과 기업들이 꾸준히 연구 성과를 쌓아 온 것이다. 즉, 인공지능은 웹, 소프트웨어, 하드웨어 등의 기술 진보가 끊임없이 개발되고 결합된 결과다.

인공지능의 필수 요소 중 하나인 머신러닝(Machine Learning)은 기존 데이터의 패턴을 기반으로 스스로 학습하는 형태의 알고리즘이다. 그러나 머신러닝을 위한 데이터가 방대해지고 복잡해지면서 인공지능은 예측에 필요한 양질의 데이터만 수집하기 위한 심층적인 학습이 필요했고, 이때 등장한 딥러닝(Deep Learning) 기술은 지도학습에 기반한 인공신경망(Artificial Neural Network)의 진화된 기술로 보다 심층적인 학습을 할 수 있게 했다.

이처럼 고도화된 딥러닝을 구현하기 위해서 컴퓨팅은 CPU 보다 빠른 연산 처리를 실행해주는 하드웨어를 요구하게 됐고, 그 결과 GPU를 중심으로 FPGA(Field-Programmable Gate Arrays), 주문형 반도체(ASIC) 등이 주목 받고 있는 것이다. 이는 CPU 강자였던 인텔이 더 이상 안심할 수 없는 위치에 놓였다는 것을 의미한다. 

컴퓨팅을 위한 고성능 CPU를 생산하고 있는 인텔은 PC 프로세서 시장에서 약 80%의 시장점유율을 차지하고, 서버 CPU 시장에서도 독점적인 지위를 누리면서 반도체 업계의 1위를 지켜왔다. 그러나 컴퓨터 연산과 관련된 설계분야는 지금까지 믿어 져 왔던 ‘무어의 법칙(Moore’s law)’이 점차 한계를 드러내면서 대량의 데이터와 고도의 연산능력을 기반으로 하는 머신러닝이나 여러 인공지능 기기들에 적용될 수 있는 프로세서들의 개발 속도는 과거에 비해 더뎌지고 있다(무어의 법칙: 1965년 고든 무어가 정의한 것으로 마이크로칩에 저장할 수 있는 데이터 양이 18개월마다 2배씩 증가한다는 법칙).

또 빅데이터를 다루는 구글, 마이크로소프트와 같은 인텔의 기존 고객사는 이제 인텔이 아닌 다른 기업들의 특수화된(Specialized) 프로세서를 이용하거나 자체적으로 이를 개발하는 추세로 변화되고 있다. 

그 중 엔비디아의 GPU 성장이 가장 눈에 띈다. 엔비디아 GPU는 본래 비디오 게임에서 요구되는 대량의 복잡한 계산을 수행하거나 현실감 넘치는 가상현실 게임, 화려한 그래픽의 할리우드 영화 등 인간의 상상력 구현에 핵심적인 역할을 해왔다. 그러다 CPU가 직렬 처리(Serial Processing)에 최적화된 몇 개의 코어로 구성돼 명령어가 입력된 순서대로 순차적으로 데이터를 처리하는 반면, GPU는 수천 개의 코어를 이용해 여러 명령어를 동시에 처리할 수 있도록 병렬 처리(Parallel Processing)가 가능하다고 알려지면서 인공지능의 데이터 처리를 지원하기 위한 프로세서로 각광받고 있다. 여기서 코어는 ‘프로세서가 동시에 풀 수 있는 문제의 수’라고 볼 수 있다.

사실, CPU와 GPU는 서로 다른 목적을 위해 상이하게 설계, 구성돼 있기 때문에 명령어나 데이터의 종류에 따라 처리 속도는 CPU가 빠를 수도, GPU가 빠를 수도 있다. CPU는 컴퓨터의 중앙에서 모든 데이터를 처리하는 장치로 시스템 전체를 제어하기 위해 개발됐으며, CPU 제조사들은 인터넷 서핑이나 문서 작성 등의 작업을 보다 빠르게 수행하도록 설계한다.

반면 GPU는 동시 계산량이 많이 요구되는 그래픽을 위해 고안됐기 때문에 수천 개의 코어를 탑재해 대량의 연산이 빠르게 필요한 3D 그래픽 렌더링이나 그래픽 시뮬레이션 작업에 맞게 설계되고, 이를 통해 성능 향상을 거듭해왔다. 예를 들어, 같은 양의 짐을 운반할 때 CPU는 빠른 비행기로 여러 번에 나누어 짐을 목적지에 전달할 수 있다면 GPU는 속도가 더 느리지만 적재용량은 더 큰 기차로 한번에 짐을 전달하는 것이라 할 수 있다. 

CPU와 GPU의 비교 


GPU 컴퓨팅은 2006년 11월 엔비디아가 C언어 기반 GPU 프로그램 언어인 쿠다(CUDA: Compute Unified Device Architecture)라는 기술을 공개하면서 본격적으로 확산됐고, GPU를 이용한 범용연산 기술(GPGPU, General-Purpose computing on Graphics Processing Units)이 각광받기 시작했다. 병렬 컴퓨팅 플랫폼, API 모델인 쿠다는 GPU의 가상 명령어셋을 사용할 수 있도록 만들어주는 소프트웨어 레이어이며, 오직 엔비디아가 만든 쿠다 코어가 장착된 GPU만 GPGPU 용도로 사용할 수 있다.

쿠다는 초기에는 C, C++만 지원했지만 10여년의 세월이 지난 지금은 포트란이나 C# 등 다양한 언어에서도 작동한다. 이런 개방형 정책으로 엔비디아의 GPU는 자체 인공지능 시스템 구현을 위해 여러 산업에서 꼭 필요한 요소로 자리매김했고, 인공지능 반도체에 있어서 가장 빠르게 확산되고 있다. 

그러나 GPU에도 한계점이 따른다. GPU가 최대 성능을 발휘하기 위해서는 모든 계산을 병렬로 처리할 수 있도록 사전에 알고리즘을 바꿔줘야 하는데, 알고리즘 자체가 병렬화되지 않는다면 CPU 한 개를 사용하는 것보다 느릴 수 있기 때문이다. 또 계산의 밀도에 따라 성능 결과는 달라질 수 있다.

예를 들어, 100메가바이트(MB) 용량의 이미지 한 장을 컴퓨터에 저장할 때 컴퓨터는 이미지를 보조저장장치인 하드디스크드라이브(HDD)에 넣으라는 명령(계산)을 한차례 내린다. 이미지 용량은 크지만, 계산을 한 번 하는 경우 CPU의 처리속도가 더 빠르다. 그럼에도 불구하고 GPU는 현재 가장 각광받고 있는 인공지능 반도체로 꼽힌다. 

엔비디아, GPU로 매출 성장 최고 기록 중 

엔비디아(NVIDIA)는 현재 반도체 업계에서 가장 각광 받고 있는 기업 중 하나로, 매년 매출 실적이 무서운 속도로 상승하고 있다. 시장조사기관 IC인사이츠에 따르면 상위 20개 반도체 기업 매출 실적에서 엔비디아는 2016년과 2017년 2년 연속으로 전년대비 가장 높은 성장률을 기록했다. 엔비디아의 매출은 2016년 63억 8900만 달러를 기록하면서 전년 대비 35% 상승했다. 2017년은 매출 92억 8800만 달러로, 전년 대비 44%로 상승했고, 이로써 전세계 팹리스 매출 순위에서 2016년 5위에서 3위로 올라섰다. 이는 GPU를 기반으로 데이터 사업이 성장한 결과다.

이처럼 엔비디아가 인공지능 분야에서 좋은 실적을 낼 수 있는 이유는 일찌감치 10여년 전부터 인공지능 칩 연구 개발에 20억 달러(약 2조 3000억 원을)을 투자했을 정도로 시장에 미리 대비했기 때문이다. 엔비디아는 CES 2016에서 인공지능 칩 ‘테그라(Tegra)-X2’를 공개했고, 2016년 4월 자사의 GPU 테크놀로지 컨퍼런스(GPU Technology Conference, 이하 GTC)에서 데이터센터에 최적화된 ‘테슬라(Tesla) P100’ GPU를 발표하면서 본격적으로 인공지능 칩 시장 공략을 알렸다.

테슬라 P100은 16나노 제조공정으로 생산된 GPU 컴퓨팅 아키텍처 파스칼(Pascal)이 탑재됐다. 파스칼은 153억개 트랜지스터가 집적됐고, 28나노 공정으로 생산된 종전 ‘맥스웰(Maxwell, 약 90억개 트랜지스터)’ 대비 트랜지스터 숫자가 60억개나 늘어난 제품이다. 또 대역폭을 넓혀 데이터 처리 속도를 높인 고대역폭메모리2(HBM2)를 탑재하고, GPU와 CPU가 직접 통신하는 NV링크 기술을 적용해 인공지능 기술을 한층 높였다고 평가 받았다. 

 엔비디아 GPU ‘테슬라 V100’

엔비디아는 테슬라 P100을 발표한지 1년만에 2017년 5월 GPU 컨퍼런스(GTC)에서 보다 향상된‘테슬라(Tesla) V100’ GPU를 공개했다. 테슬라 V100은 엔비디아의 GPU 컴퓨팅 아키텍처인 ‘볼타(Volta)’에 기반한 최초의 프로세서다. 엔비디아의 7세대 GPU 아키텍처인 볼타는 210억개 트랜지스터로 구축됐으며, CPU 100대와 같은 수준의 성능으로 딥러닝을 구현한다.

볼타의 테라플롭(Teraflops) 피크 성능은 엔비디아의 GPU 아키텍처인 파스칼 대비 5배, 2년 전 출시된 맥스웰 아키텍처 대비 무려 15배 향상됐다. 또 쿠다(CUDA) 코어와 새로운 볼타 텐서 코어(Volta Tensor Core)를 통합 아키텍처에 결합시킴으로써, 테슬라 V100 GPU를 탑재한 1대의 서버는 기존 고성능 컴퓨팅에 필요한 수백 개의 일반 CPU를 대체할 수 있다는 것이 엔비디아 측의 설명이다. 

엔비디아의 GPU는 여러 데이터센터에 사용되고 있다. 테슬라는 마이크로소프트 애저 클라우드 내 새로운 인스턴스에 적용됐고, 인공지능 기능 강화를 위해 바이두 클라우드와 IBM의 클라우드에 적용시켰다. IBM 클라우드의 경우에는 엔비디아 테슬라 P100 데이터센터 GPU 두 대를 장착시킴으로써 개별 IBM 블루믹스 베어메탈(Bluemix bare metal) 서버를 구축할 수 있게 됐다. 또 GPU 가속 클라우드 인스턴스의 경우 최대 비가속 서버 25대의 성능을 구현할 수 있어 HPC와 AI 워크로드 관련 비용 절감 효과를 얻게 됐다. 

또 8개의 엔비디아 테슬라 P100은 올해 페이스북(Facebook)의 차세대 AI 서버 ‘빅 베이슨(Big Basin)’에 탑재되면서 페이스북 내 게재된 이미지의 사물 또는 사람의 얼굴을 인식하거나, 실시간 텍스트 번역, 사진, 동영상 콘텐츠의 내용을 보다 정확히 이해할 수 있도록 지원하고 있다.  국내에서는 한화테크윈이 개발하는 인공지능 기반 보안 솔루션에 테슬라 P100이 적용됐다. 엔비디아는 테슬라 시리즈가 2017년 기준으로 전세계 고성능 컴퓨팅(HPC) 순위 상위 13대 시스템에 탑재됐다고 밝혔다. 

또 엔비디아는 전세계 서버 제조사와 인공지능 클라우드 컴퓨팅 협력을 위해 엔비디아 HGX 파트너 프로그램(NVIDIA HGX Partner Program)을 2017년 5월 ‘컴퓨텍스(Computex)’에서 발표했다. 이 프로그램을 통해 엔비디아는 각 제조업체에게 HGX 레퍼런스 아키텍처, 엔비디아 GPU 컴퓨팅 기술, 디자인 가이드라인을 제공한다. 엔비디아는 폭스콘(Foxconn), 인벤텍(Inventec), 콴타(Quanta), 위스트론(Wistron)을 비롯해 화웨이(Huawei), 인스퍼(Inspur), 레노버(Lenovo) 등이 HGX 레퍼런스 아키텍처를 사용하고 있다고 밝혔다. 

엔비디아 HGX 레퍼런스 아키텍처

2017년 12월 엔비디아는 데이터센터에 이어 PC 시장으로 영역을 넓혀 PC용 GPU인 ‘타이탄 V(TITAN V)’를 공개했다. 타이탄 V는 GPU 아키텍처 볼타를 기반으로 하며, 211억 개의 트랜지스터를 통해 이전 제품 대비 약 9배 향상된 110 테라플롭의 처리능력을 제공하는 동시에 뛰어난 에너지 효율성을 자랑한다. 따라서 PC를 인공지능 슈퍼 컴퓨터로 변화시킬 수 있게 됐다. 

엔비디아는 자율주행차 시장에도 집중 공략하고 있다. 2016년 엔비디아는 레벨 4, 레벨 5 수준의자율주행차에 최적화된 슈퍼컴퓨터인 '드라이브 PX2'를 출시했다. 자동차 주행 시에는 주변 사물 인식이 특히 중요한데, 엔비디아 드라이브 PX2는 두 개의 엔비디아 차세대 테그라 프로세서와 별도의 파스칼 아키텍처 기반 GPU 두 개를 탑재해 차량 주변 상황을 360도 전방위적으로 인식하고 대량의 데이터를 신속하게 처리한다. 이는 차량의 글러브박스에 들어갈 만한 작은 사이즈의 이 슈퍼컴퓨터가 제공하는 1초에 최대 24조 회의 작업을 처리하는 프로세스 성능에 기반해 구현된다. 

또 엔비디아는 드라이브 PX2의 소프트웨어 스택의 기반이 되는 자율주행차용 프로세서 ‘자비에(Xavier)’를 2017년 출시 했고, 2018년부터 시제품이 320개 이상의 고객사에 전달될 예정이라고 밝혔다. 자비에는 4년 간 2000명 이상의 엔비디아 엔지니어들이 개발에 심혈을 기울여 연구개발에만 20억 달러를 투자한 제품이다.

자비에는 8코어로 구성된 커스텀 CPU, 새로운 512코어의 볼타GPU가 탑재돼 자율주행 차량이 필수적으로 수행해야 하는 작업, 주변 환경의 감지를 위한 딥 뉴럴 네트워크 적용, 3D 환경 파악, HD맵 상에서 차량 스스로의 위치 파악, 주변 사물의 행동과 위치 예측, 그리고 차량 동역학, 안전 주행 경로의 연산 등을 구현한다. 

엔비디아 자율주행차용 프로세서 ‘자비에’


엔비디아의 GPU는 자율주행차 외에도 금융, 정부/국방, 헬스케어, 가상현실 분야 등 다양한 산업 분야에서 혁신을 이어나가고 있다. 특히 딥 러닝 기술의 가속화를 위해 연구자들을 위한 딥 러닝 소프트웨어, 라이브러리, 도구를 무료로 배포하고 있으며, 최신 기술과 정보를 공유하기 위한 자리도 지속적으로 마련하고 있다.

엔비디아 측은 “오늘날 국내에서 높아지는 딥러닝에 대한 관심과 수요를 충족시키기 위해 엔비디아는 매달 딥러닝 인스티튜트(Deep Learning Institute)를 개최하는 등 국내 딥러닝 관련 전문가 양성과 기술 저변 확대에 노력하겠다”고 전했다. 

※ 본 기사는 <인공지능 최적화된 서버 프로세서, 새로운 경쟁 구도 형성 ②>로 이어진다.

 

 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지