Hoje a AMD anunciou que o Departamento de Energia dos EUA escolheu a parceria com a Cray e a AMD para obter o maior e mais caro supercomputador do mundo de todos os tempos.

O acordo vale um total de US$600 milhões e será comissionado no início de 2022.

O acordo é uma vitória sólida para a AMD, já que eles fornecerão uma mistura de processadores EPYC e Instinct, assim como a empresa receberá financiamento para o desenvolvimento de tecnologias específicas relacionadas a tendências emergentes de supercomputação.

EPYC e Instinct juntos no supercomputador "Frontier"

Antes de vermos por que isso é um grande negócio para a AMD, primeiro um pouco sobre o próprio sistema. "Frontier", como será nomeado, será entregue pela Cray, uma empresa bem conhecida por seus sistemas personalizados de supercomputadores, ao Oak Ridge National Laboratory, no Tennessee, e será comprada pelo Departamento de Energia.

GPU
GPU

O sistema será usado em uma ampla gama de atividades, desde a modelagem de moléculas medicinais avançadas com milhares de átomos - de apenas alguns átomos por vez, simulando computadores quânticos, reações nucleares e muito mais.

O "Frontier" está previsto para ser entregue no final de 2021, com o comissionamento programado para o início de 2022, e uma vez colocado online, será o sistema de computação mais rápido e mais poderoso (local) do mundo.

O preço é realmente alto, US$600 milhões, o que o torna o mais caro até hoje já comprado pelo governo dos EUA.

A RFQ do DoE permitiu 30 megawatts de energia e a Frontier usará praticamente tudo isso. Cada blade consistirá de um processador EPYC de soquete único e quatro aceleradores de GPU Radeon Instinct.

O processador e quatro GPUs serão conectados à próxima geração do Infinity Fabric da AMD. Finalmente, as lâminas serão alojadas nos gabinetes Shasta da Cray, dos quais 100 serão instalados e cada um consumirá 300 killowatts, que se combinam para consumir 30MW de energia.

 

Processadores de alta performance
Processadores de alta performance

Do lado da CPU, a AMD disse que o sistema estará usando uma geração futura de núcleos de CPU Zen e, como estamos vendo uma data de entrega de 2021, certamente estamos vendo pelo menos a próxima geração do Zen 3 ou talvez do Zen 4 núcleos.

Para os aceleradores do Instinct, a AMD tem uma "next-gen" - ou seja, pós-Graphics Core Next - GPU previsto para 2020, e é possível que eles possam acabar com o Instincts in Frontier.

Cowen Analyst: "Esta não é uma conquista de HPC (computação de alto desempenho) comum, mas sim um importante marco de longo prazo para a estratégia de datacenter da AMD"

Há quase um ano, durante cobertura dos lucros da AMD no segundo trimestre de 2018,  a Dra. Lisa Su havia nomeado o datacenter como a prioridade número um a longo prazo da empresa. O CEO da AMD mencionou anteriormente a importância do EPYC em aplicações de supercomputação:

[Os Epycs do futuro-gen] terão instruções adicionais na microarquitetura bem como na própria arquitetura para otimização de cargas de trabalho de AI e supercomputação.

O negócio valerá um total de US$600 milhões, mas o sistema em si, como entregue, custará US$500 milhões, os US$100 milhões adicionais estão sendo fornecidos à AMD e à Cray para desenvolver parte do hardware que vai para o sistema.

Isso é semelhante a como a AMD usou a Microsoft e dinheiro da Sony para desenvolver alguma tecnologia de GPU ao longo dos anos, e é possível que alguns desses fundos de DoE entrem no desenvolvimento das GPUs Instinct e seu ecossistema de software baseado na Plataforma de Computação Aberta da Radeon (ROCm).

Na verdade, o ROCm é especificamente chamado como parte alocada dos US$100 milhões para programação e desenvolvimento de novas extensões que ajudarão na IA e nos esforços avançados de modelagem.

Se a AMD precisa de uma coisa no data center, mais do que tudo, é um ecossistema de software suficientemente robusto para lidar com os da NVIDIA plataforma CUDA madura. Uma injeção maciça de dinheiro, dada à AMD exatamente com esse propósito, poderia ser enorme em termos de valor futuro para a empresa. 

Quatro GPUs para um Processador em cada Node
Quatro GPUs para um Processador em cada Node

Também é importante notar aqui que o sistema estará substituindo um sistema Intel Xeon + Nvidia Tegra chamado "Summit".

Atualmente, a Summit oferece cerca de 200 petaflops, enquanto a Frontier entregará mais de 7 vezes a 1.500 petaflops.

Outra observação interessante é que o DoE planeja implantar um segundo sistema Exascale no início de 2021, com base em uma oferta totalmente Intel de aceleradores de GPU Xeons e Intel Xe que ainda não foram completamente desenvolvidos.