인공지능칩 'FPGA와 ASIC' 구글, 마이크로소프트까지 뛰어들다 ④

[테크월드=이나리 기자] 프로그래밍과 재설정이 가능한 비메모리 반도체의 일종인 FPGA(Field-Programmable Gate Arrays) 역시 높은 유연성 때문에 대용량 데이터 처리에 적합하다. 이런 이유로 데이터센터 프로세서에 FPGA를 같이 쓰면 전력 감소에 많은 도움을 준다. 또 FPGA가 부상하는 이유 중 하나는 범용 프로세서의 성능 향상이 한계에 달했기 때문이다. FPGA는 CPU가 감당하지 못하는 더 많은 서비스를 제공할 수 있고, CPU와 병렬로 작동하므로 전체 시스템의 혼란이나 병목현상 없이 추가적인 컴퓨팅 파워로 사용할 수 있기 때문에 최근 새로운 기술로 주목 받고 있다.

재프로그래밍이 가능한 FPGA는 칩을 번역 작업에 최적화해 사용하다가 칩 회로 구성을 다시 설정해 가상비서 서비스에 맞춰 쓸 수 있다. 따라서 FPGA는 인텔이나 AMD가 만드는 범용 프로세서와 특정 장비 전용으로 개발하는 주문형 반도체인 ASIC(Application-Specific Integrated Circuits)의 특성을 합쳤다는 평가를 받는다. 또 FPGA는 특정 함수에 맞춘 하드웨어 프로그래밍이 가능해 신경망 모델 출력 값을 빠르게 계산하는 인공지능 추론 서비스 구현에 적합하다. 이처럼 FPGA는 ASIC보다 초기 개발 비용이 저렴하고, 원하는 작업을 더 빠르게 처리할 수 있다는 것이 장점이다.

◇ 구글, 데이터센터 전력 감소 위해 ASIC 개발 직접 나섰다

현재 전통적인 반도체 업체 외에도 많은 온라인 서비스 업체들은 인공지능 알고리즘이 내장된 ASIC 칩을 개발하고 있다. 대표적으로 구글은 딥러닝에 활용하기 위해 2016년 상반기 ‘텐서 프로세싱 유닛(Tensor Processing Unit, TPU)’이라는 ASIC를 자체적으로 개발하고, 자사의 데이터센터 랙에 탑재해 업계에 큰 이슈가 됐다. 인터넷 서비스 기업인 구글이 자체적으로 ASIC 반도체 개발에 나선 것은 업계에서 이례적인 행보였기 때문이다.

구글의 데이터센터는 TPU칩을 탑재한 후 인공지능 알고리즘으로 온도와 전력 데이터를 실시간으로 반영함으로써 팬, 냉각 시스템, 창문 등 약 100여개 장비와 시설의 통제와 관리가 가능해졌고, 에너지 비용을 15% 절감할 수 있게 됐다. 참고로 구글 데이터센터에서 사용한 전기량은 2014년 440만 2836MWh의 전기를 사용했는데 이는 미국 36만 6903가구가 1년간 쓸 수 있는 양이었다. 따라서 구글의 15% 에너지 비용절감의 수치가 무시 못할 전기량이라는 것을 알 수 있다.

2017년 5월 구글은 1세대 TPU를 발표한지 1년만에 2세대 TPU인 ‘클라우드 TPU’를 발표했다. 1세대 TPU가 학습된 모델을 사용한 추론, 이미지나 언어 등의 인식에 특화됐다면, 2세대 TPU는 머신러닝 연산 과정에서 추론뿐 아니라 학습 연산에서도 성능을 낼 수 있게 됐다. 구글은 이 프로세서 모듈 카드 64개를 고속 인터커넥트로 연결해 11.5페타플롭스(PFLOPS)짜리 'TPU 팟(Pod)'을 만들었다.

1PFLOPS는 부동소수점연산을 1초에 10의 15승 번 해낼 수 있는 성능이다. 구글은 자사 클라우드 서비스형인프라(IaaS)를 통해 연내 개발자들이 클라우드TPU 기술을 써볼 수 있게 하고 있으며, 개발자들이 구글컴퓨트엔진(GCE)의 클라우드 가상머신(VM) 형태로 인텔 CPU, 엔비디아 GPU와 함께 클라우드 TPU를 사용할 수 있게 내놓을 예정이다.

◇ 퀄컴, 마이크로소프트

퀄컴’은 자사 AP(Application Processor) 내에 가속 전용 프로세서를 내장하고 NRE(Neural Processing Engine) SDK(Software Development Kit)를 제공해 인공지능을 지원하는 스마트폰 앱의 생태계를 활성화하려는 연구를 진행하고 있다. 퀄컴이 2017년 12월 발표한 모바일 프로세서 퀄컴 스냅드래곤 845 모바일 플랫폼(Qualcomm Snapdragon 845 Mobile Platform)은 3세대 인공지능 모바일 플랫폼으로, 이전 시스템온칩(SoC) 대비 3배 이상 향상된 인공지능 성능으로 쉽고 간편한 사진·영상촬영, VR게임 향상과 자연스러운 음성인식 기능을 제공한다.

마이크로소프트는 2017년 모바일을 위한 ASIC 칩 HPU(Holographic Processing Unit)를 개발해 자사 MR(Mixed Reality) 헤드셋인 홀로렌즈에 탑재했다. HPU는 현실세계와 증강현실에 대한 데이터를 통합 처리하는 프로세서로, 가속도계, 자이로스코프, 센서, 관성 측정 장치(IMU), 적외선 카메라 등에서 정보를 취합하고, 이를 투명렌즈에 홀로그램 3D로 만들어 낸다. 또 제스처와 음성 데이터도 처리해 낸다. 마이크로소프트는 2015년 FPGA를 탑재한 ‘캐터펄트(Catapult)’ 서버메인보드를 통해 자사의 검색엔진 ‘빙(Bing)’의 성능을 일반 CPU를 이용한 것보다 30% 비용 절감과 10% 절전에 성공했다.

국내 기업들도 뒤늦게 인공지능 반도체 개발에 나서고 있다. 삼성전자는 서버용 인공지능 반도체 개발 중에 있으며, 모바일용은 올해 안에 출시될 가능성이 높은 것으로 알려졌다. 삼성이 집중적으로 개발 중인 AI 칩은 최근 애플, 화웨이 등이 탑재해 화제가 된 뉴럴네트워크(Neural Network) 기반의 NPU(Neural Processing Unit)이다. NPU가 스마트폰 AP에 탑재되면 학습을 통해 영상, 이미지, 음성 인식 성능을 한 단계 높일 수 있다.

SK텔레콤은 그룹사인 SK하이닉스와 함께 차세대 고성능 메모리인 HBM(High-Bandwidth Memory)을 사용한 ASIC 기반의 가속기에 대해 선행 연구 중이라고 밝혔다. 이 외에도 업계에서는 가속기에서의 메모리 성능 병목을 극복하기 위해 최신의 고성능 메모리 기술을 접목하려고 노력하고 있다. 예로, 엔비디아는 GPU ‘테슬라 P100’과 최신 GPU ‘볼타(Volta)’에 삼성전자 HBM2 메모리를 장착했다. SK하이닉스 경우에는 HBM1을 AMD와 공동으로 개발했으나, 삼성전자 보다 공급시기가 다소 늦어진 편이다.