Hardware

AMD가 차기 APU "Kaveri"의 개요를 발표

crazyits 2013. 11. 14. 19:08
반응형
Lisa Su (리사 수) 씨 (Sr. VP & GM, Global Business Units, AMD)

AMD의 차기 APU "Kaveri"의 모습이 보였다. AMD는 미국 캘리포니아 산호세에서 개발자 컨퍼런스 'APU13 "를 개최 (11 월 11 ~ 13 일)하였다. 첫날의 키 노트 스피치에서 Lisa Su (리사 수) 씨 (Sr. VP & GM, Global Business Units, AMD)는 Kaveri 개요 및 릴리스 일정을 발표했다.

Kaveri는 올해 (2013 년) 중 고객에게 배송됩니다. 노트북 PC, 데스크톱 PC, 서버, 내장 전 분야에서 제공된다. 데스크톱 소켓은 "FM2 +"가 된다. FM2 +는 내년 (2014 년) 1 월 14 일에 출시될 예정이다. 자세한 내용은 내년 1 월 CES (Consumer Electronics Show)에서 공개된다고 한다.

 

Kaveri는 4 코어 2 모듈 Steamroller 코어에 8 CU (Compute Unit)에서 512 코어 (FMAD)의 GCN (Graphics Core Next) GPU 코어를 갖추고 있다. 이번 밝혀진 버전 Kaveri의 연산 성능은 칩 전체 856GFLOPS. HSA (Heterogeneous System Architecture)의 CPU이다. hUMA 메모리 아키텍처와 hQ 전송을 지원한다. 또한 AMD의 하드웨어 오디오 기술 "True Audio"를 구현하고 그래픽 API는 AMD의 새로운 "Mantle (맨틀) '도 지원한다.

Kaveri는 AMD의 3 세대 메인 스트림 APU이다. GLOBALFOUNDRIES의 28nm 벌크 공정으로 제조되어 있다고 볼 수있다. 가장 큰 특징은 아키텍처를 변경하는 것으로, CPU 코어는 싱글 스레드 성능이 향상된 Steamroller 코어 수, GPU 코어는 개별 GPU와 같은 GCN되었다.

현재 APU를 제조하는 GLOBALFOUNDRIES의 32nm SOI (Silicon-On-Insulator) 공정에서 28nm 벌크로 미세화 한 것으로, 칩에 올릴 수 있는 트랜지스터 수가 늘었다. Kaveri는 그것을 CPU 아키텍처 확장과 GPU 아키텍처 확장 및 연산 자원의 증대에 보냈다.

AMD CPU die size 이행도


Su 씨에 따르면, Kaveri 다이의 47 %가 GPU 코어가 차지하고 있다고 한다. 32nm SOI에서 28nm 대량의 마이그레이션은 동작 주파수의 향상은별로 바랄 수 없지만, 트랜지스터 밀도가 높아 지므로 아키텍처는 확장할 수 있다.

 
APU13에서 Su 씨가 밝혔다 Kaveri의 성능은 단 정밀도 부동 소수점 연산 856GFLOPS. 이것은 CPU 코어 3.7GHz, GPU 코어를 720MHz에서 작동시키고 있다 성능이다. Su 씨는 이러한 성능의 대부분은 GPU 측이라고 설명한다. 이 856GFLOPS라는 수습의 나쁜 숫자는 어디에서 오는 것인가.

Kaveri의 4 코어 = 2 모듈 Steamroller 코어는 모듈 당 128-bit (단정 경우 4-way)의 SIMD (Single Instruction, Multiple Data) 유닛을 2 개 갖추고 있어 각 적 일본 재래의 주산 (MAD) 이 가능하다. 따라서 2 단위 × 2 단위 × 4-way × 2 오퍼레이션 × 3.7GHz의 CPU 코어의 연산 성능은 118.4GFLOPS된다.

한편, GPU 코어 측은 8 개의 CU를 갖추고 있어 각 CU는 16-way의 벡터 유닛이 4 유닛이다. 각 연산 유닛이 적 일본 재래의 주산이 가능하다. 따라서 8 CU × 16-way × 4 단위 × 2 오퍼레이션 × 720MHz로 GPU 측 성능은 737.28GFLOPS된다. CPU 코어와 GPU 코어를 합하면 856GFLOPS된다.물론 이것은 이론적 인 최대 성능으로, 실효 성능은 다르다.

 

이번 공개 된 Kaveri의이 856GFLOPS라는 성능은 기대보다 낮다. 원래, 지금까지 AMD는 Kaveri 세대 APU의 성능을 1TFLOPS에 도달할 것이라고 설명했습니다. 예를 들어, 2012 년 2 월에 개최 한 애널리스트 대상 컨퍼런스 "Financial Analyst Day 2012 '에서는 Su 씨가 아래와 같은 슬라이드에서 2013 년 APU에서 TFLOPS 대에 도달한다고 했었다. 하지만 적어도 이번 밝혀졌듯이 Kaveri는 1TFLOPS에 닿지 않는 것 같다.

성능이 낮은 가장 큰 이유는 CPU 코어와 GPU 코어의 동작 클럭이 낮은 것이다. 특히 GPU 코어의 낮음이 눈에 띈다. 예를 들어, 데스크톱 버전의 Richland (리치 랜드)에서는 최고 844MHz로 GPU 코어를 구동하고 있다. 만약 Kaveri 구성에서 CPU 코어를 터보시 4.4GHz, GPU 코어를 844MHz로 구동하면 전체 칩의 이론상 피크 성능은 1TFLOPS에 달한다.

GCN 아키텍처에서 생각하고, 28nm 그렇다고 해서 물리적으로 클럭을 올리는 것이 어려운 이유는 생각하기 어렵다. 상정 할 수 있는 것은 TDP (Thermal Design Power : 열 설계 소비 전력)과의 균형이다. 이 경우 오버클러킹이 되는 것이다..

 
Kaveri의 CPU 코어 Steamroller는 Bulldozer (불도저) 계 아키텍쳐의 대폭 향상된 버전이다. 최대의 특징은, 명령 디코더를 2 병렬로 한 것. 따라서 Bulldozer의 병목 현상이었다 프런트 엔드의 문제를 해결하고 단일 스레드 성능을 끌어 올린다.

Bulldozer 계열 마이크로 아키텍처는 2 개의 CPU 코어를 1 모듈에 융합시키고 있어 두 쓰레드가 병렬로 실행시킬 수 있다. Bulldozer 모듈은 정수 코어와 L1 데이터 캐시는 스레드마다 갖추고 있지만, 명령 디코더를 포함한 프런트 엔드와 부동 소수점 연산 유닛은 2 스레드에서 공유한다. 명령 디코더는 4-way가 1 단위 것만으로, 여기가 병목 현상의 하나라고 지적되어왔다.

반면 Steamroller에서는 2 thread가 각각 전용의 4-way 명령 디코더를 갖춘다. 사이클 당 내부 명령 디스패치 수는 스레드 당 최대 25 % 늘릴 수 있다고 한다. Steamroller에서 실행 유니트 측 및 메모리 서브 시스템도 강화되지만 주목적은 스레드 당 IPC (Instruction-per-Clock)의 향상이 있다.

Steamroller 아키텍처


Kaveri의 GPU 코어는 8 개의 CU로 구성되어있는 것이 이번 공식적으로 밝혀졌다. 이미 설명했듯이, GCN은 64 개의 MAD 유닛이 1 개의 CU에 포함되어있다. MAD 전용 유닛 수만 비교하면 Llano의 320 단위에서 Trinity 384, 그리고 Kaveri 512으로 늘어난다. 그러나 Llano의 VLIW5에서 80 유닛 슈퍼 펑션 유닛도 MAD로 사용할 수 있기 때문에 이론적으로 Llano와 Trinity 계 MAD 수는 거의 같다. Kaveri는 GPU 코어의 연산 유닛 숫자로도 33 % 증가하게 된다.

CGN 아키텍처

Trinity와 Llano의 GPU


덧붙여서, 이번 미국에서 발매되는 PlayStation 4 (PS4)의 APU는 또한 GCN 아키텍처에서 18 단위 CU 총 1,152 개의 MAD 유닛을 갖추고 있다. 즉, 연산 유닛 수만 보면 Kaveri는 PS4의 절반 이하가 된다. 사실, Kaveri의 GPU 코어는 메모리 대역폭 측면의 제약을 생각하면 타당한 라인이다. 그러나 이번에 발표 된 Kaveri의 스펙은 코어를 낮은 주파수에서 동작시키고 있기 때문에 성능 라인은 더욱 낮아지고 있다.

AMD CPU 아키텍처의 전환


AMD는 이번 APU13에서 다시 Kaveri이 "hUMA (heterogeneous Uniform Memory Access : 휴)"대응 아키텍처임을 강조했다. hUMA는 CPU와 GPU의 메모리 공간을 통일하는 아키텍처이다. CPU 코어와 GPU 코어가 멀티 코어 CPU 코어끼리 같이 풀에 메모리 일관성을 취한 상태에서 단일 메모리 주소 공간에 자유롭게 액세스 할 수 있도록 한다. hUMA는 이기종 (Heterogeneous : 이종 혼합) 컴퓨팅 프레임 워크 "HSA"의 핵심 요소 다. hUMA의 도입으로 GPU에서 뛰는 범용 프로그램을 지금보다 더 쉽게 쓸 수 있게 된다. hUMA의 도입은 HSA의 75 %까지 완성을 의미한다.

 

hUMA는 양방향 메모리 일관성 페이저 블루 메모리, CPU와 GPU 사이의 통합 메모리 공간을 제공한다. 메모리 일관성 점은 하드웨어 제어한다.페이저 블루 메모리는 페이지 폴트를 GPU가 지원하는 것으로, 자유롭게 메모리 전체에 액세스 할 수 있게 된다. 그 결과 CPU와 GPU가 풀에 가상 메모리 공간을 공유 할 수 있게 된다.

 

hUMA의 장점은 CPU와 GPU 사이의 연계가 쉬울 것이다. 병렬 작업 및 일련 작업이 세밀한곳에서 뒤얽힌 같은 프로그램도 효율적으로 수행 할 수 있게 된다. 이기종 컴퓨팅에서 프로그래머 측의 부담을 최대한 깎는다.

CPU와 GPU가 동일한 가상 메모리 주소를 공유하는 hUMA에서는 CPU의 메모리상의 데이터 구조에 그대로 GPU가 액세스 할 수 있다. 단순히 포인터를 넘겨 주면 끝나게 되므로 프로그래밍이 매우 용이하게 된다.

 

또한, Kaveri는 HSA 작업 큐잉 & 디스패치 모델 "hQ"에도 대응한다. hQ를 사용하면 GPU 코어도 CPU 코어 쉽게 낮은 지연 시간에 작업을 던질 수있게된다. HSA의 키휘챠 두 가지가 갖추어지는 것이 Kaveri 셈이다.

 

또한 AMD는 Kaveri에 하드웨어 오디오 프로세서 'AMD True Audio "를 구현한다. 핵심 기술은 EDA (Electronic Design Automation) 제조 업체 최대의 Cadence Design Systems가 인수 한 프로세서 IP 벤더 Tensilica의 오디오 DSP이다. 오디오 프로세싱을 CPU 코어로 GPU 코어도 아니고, 전용 DSP에 오프로드한다. CPU에 부하를 주지 않고 높은 품질과 강력한 오디오를 제공한다.

 

또한 GCN 기반이기 때문에 AMD의 전략적 그래픽 API 및 런타임 "Mantle (맨틀) '도 Kaveri을 지원한다. Mantle는 미들웨어와 같은 상위 소프트웨어 계층이 아니라 DirectX와 같은 저수준 그래픽 API와 드라이버 소프트웨어 계층이다. 한마디로 말하면, 게임기처럼 얇은 소프트웨어 계층은 GPU 코어의 성능을 끌어내는 것이다.

 

Mantle의 개념은 게임기의 그래픽 소프트웨어 계층과 비슷하다. 차세대 게임기 아키텍처를 정복 한 AMD에게는 게임기와 PC를 서로 연결 Mantle에서 깨달을 수 있다. 문제는 Mantle을 지원할 수 인스톨 기반이 적으면 소프트웨어 공급 업체 Mantle 대응이 진행되지 않는 것. Kaveri부터 시작 APU의 Mantle 지원은 이를 위해 AMD에게 매우 중요하다. 덧붙여서 같은 것은 True Audio도 마찬가지다. True Audio 호환 소프트웨어를 늘리기 위해서는 설치 기반을 늘려야 이를 위해 APU에 구현하는 것이 필수적이었다.

반응형