A Inteligência Artificial (IA) generativa transformou nosso mundo aparentemente da noite para o dia. Em poucos meses, tornou-se comum que indivíduos e empresas usassem a nova tecnologia para aprimorar a tomada de decisões, transformar as experiências dos clientes e impulsionar a criatividade e a inovação. Mas a infraestrutura subjacente que alimenta a IA generativa não foi construída no mesmo dia — na verdade, é o resultado de anos de inovação.
A IA e o machine learning (ML) têm sido o foco da Amazon por mais de 25 anos e impulsionam recursos que usamos todos os dias, como recomendações de compras e decisões de embalagem. Na Amazon Web Services (AWS), nos concentramos em levar esse conhecimento aos nossos clientes, colocando o ML nas mãos de todos os desenvolvedores, cientistas de dados e profissionais especializados. A IA já é um negócio multibilionário em termos de receita para a AWS. Mais de 100 mil clientes em todos os setores, incluindo adidas, Bolsa de Valores de Nova York, Pfizer, Ryanair e Toyota, estão usando os serviços de IA e ML da AWS para reinventar experiências para seus clientes. Além disso, muitos dos principais modelos de IA generativa são treinados e executados na AWS.
Todo esse trabalho é sustentado pela infraestrutura global da AWS, incluindo nossos data centers, rede global e processadores para IA proprietários. Não há algoritmo de compressão para experiência e, como construímos data centers em grande escala há mais de 15 anos e servidores baseados em GPU (unidades de processamento gráfico) há mais de 12 anos, temos uma enorme experiência em infraestrutura de IA.
À medida que o mundo muda rapidamente, a AWS continua se adaptando e aprimorando nossa sólida base de infraestrutura para oferecer inovações que suportam a IA generativa em grande escala. Aqui estão quatro maneiras pelas quais estamos fazendo isso.
1. Oferecendo redes de baixa latência e grande escala
Os modelos generativos de IA exigem grandes quantidades de dados para serem treinados e executados com eficiência. Quanto maior e mais complexo for o modelo, maior será a duração do treinamento. Ao aumentar o tempo de treinamento, você não está apenas aumentando os custos operacionais, mas também retardando a inovação. As redes tradicionais não são suficientes para a baixa latência e a grande escala necessárias para o treinamento generativo de modelos de IA.
Na AWS, trabalhamos constantemente para reduzir a latência da rede e melhorar o desempenho dos clientes. Nossa abordagem é única, pois criamos nossos próprios dispositivos de rede e sistemas operacionais de rede para cada camada do stack, desde a placa de interface de rede até o switch topo de rack, a rede do data center, o roteador voltado para a Internet e nossos roteadores de backbone. Essa abordagem não só nos dá maior controle sobre como melhorar a segurança, a confiabilidade e o desempenho dos clientes, mas também nos permite inovar mais rápido do que outros. Por exemplo, em 2019, apresentamos o Elastic Fabric Adapter (EFA), uma interface de rede personalizada pela AWS que fornece recursos de desvio do sistema operacional para instâncias do Amazon Elastic Compute Cloud (Amazon EC2). Isso permite que os clientes executem aplicativos que exigem altos níveis de comunicação entre nós em grande escala. A EFA usa o Scalable Reliable Datagram (SRD), um protocolo de transporte de rede de alto desempenho e baixa latência que foi projetado especificamente pela AWS, para a AWS.
Mais recentemente, agimos rapidamente para oferecer uma nova rede para cargas de trabalho de IA generativas. Nossa rede UltraCluster de primeira geração, construída em 2020, suportava 4.000 unidades de processamento gráfico, ou GPUs, com uma latência de oito microssegundos entre os servidores. A nova rede, UltraCluster 2.0, suporta mais de 20 mil GPUs com 25% de redução na latência. Ela foi construída em apenas sete meses, e essa velocidade não teria sido possível sem o investimento de longo prazo em nossos próprios dispositivos de rede e software personalizados. Internamente, chamamos o UltraCluster 2.0 de rede “10p10u”, pois ele fornece dezenas de petabits por segundo de taxa de transferência, com um tempo de ida e volta de menos de 10 microssegundos. A nova rede resulta em uma redução de pelo menos 15% no tempo de treinamento de um modelo.
2. Melhorando continuamente a eficiência energética de nossos data centers
Treinar e executar modelos de IA pode consumir muita energia, portanto, os esforços de eficiência são essenciais. A AWS está comprometida em administrar nossos negócios de forma eficiente para reduzir nosso impacto no meio ambiente. Essa não é apenas a coisa certa a fazer pelas comunidades e pelo nosso planeta, mas também ajuda a AWS a reduzir custos e, então, podemos repassar essas economias aos nossos clientes. Por muitos anos, nos concentramos em melhorar a eficiência energética em toda a nossa infraestrutura. Alguns exemplos incluem:
• Otimizar a longevidade e o desempenho do fluxo de ar dos meios de resfriamento em nossos sistemas de resfriamento de data center;
• Usar métodos avançados de modelagem para entender o desempenho de um data center antes de ser construído e para otimizar a forma como posicionamos os servidores em um rack e no data hall, para que possamos maximizar a utilização de energia;
• Construir data centers que consumam menos carbono, incluindo o uso de concreto e aço com baixo teor de carbono e a transição para óleo vegetal tratado com hidrogênio para geradores de reserva;
Uma nova pesquisa da Accenture mostra que esses esforços estão valendo a pena. A pesquisa estima que a infraestrutura da AWS é até 4,1 vezes mais eficiente do que data centers on-premises e, ao ser otimizada na AWS, a pegada de carbono das cargas de trabalho associadas pode ser reduzida em até 99%. Mas não podemos parar por aí à medida que a demanda de energia aumenta.
Os chips de IA realizam cálculos matemáticos em alta velocidade, o que os torna essenciais para modelos de ML. Eles também geram muito mais calor do que outros tipos de chips, portanto, novos servidores de IA que requerem mais de mil watts de potência por chip precisarão ser refrigerados por líquido. No entanto, alguns serviços da AWS utilizam infraestrutura de rede e armazenamento que não requerem refrigeração líquida e, portanto, resfriar essa infraestrutura com líquido seria um uso ineficiente de energia. O design de data center mais recente da AWS integra perfeitamente soluções otimizadas de resfriamento de ar com recursos de refrigeração líquida para os chipsets de IA mais poderosos, como os superchips NVIDIA Grace Blackwell. Esse design de resfriamento flexível e multimodal nos permite extrair o máximo de desempenho e eficiência, seja executando cargas de trabalho tradicionais ou modelos de IA/ML. Nossa equipe projetou nossos data centers, desde layouts de rack até distribuição elétrica e técnicas de resfriamento, para que possamos aumentar continuamente a eficiência energética, independentemente das demandas de computação.
3. Segurança desde o início
Uma das perguntas mais comuns sobre infraestrutura que ouvimos dos clientes quando eles exploram a IA generativa é como proteger seus dados altamente confidenciais. Na AWS, a segurança é nossa maior prioridade e está incorporada em tudo o que fazemos. Nossa infraestrutura é monitorada 24 horas por dia, 7 dias por semana, e quando os dados deixam nossos limites físicos e viajam entre nossos locais de infraestrutura, eles são criptografados na camada de rede subjacente. Nem todas as nuvens são construídas da mesma forma, o que está aumentando o número de empresas que estão migrando seu foco de IA para a AWS.
A AWS foi projetada para ser a infraestrutura de nuvem global mais segura e confiável. Nossa abordagem para proteger a infraestrutura de IA se baseia em três princípios fundamentais: 1) Isolamento completo dos dados de IA do operador de infraestrutura, o que significa que o operador de infraestrutura não deve ter a capacidade de acessar o conteúdo do cliente e os dados de IA, como pesos do modelo de IA e dados processados com modelos; 2) Capacidade dos clientes de isolar os dados de IA de si mesmos, o que significa que os dados permanecem inacessíveis aos próprios usuários e softwares dos clientes; e 3) Comunicações de infraestrutura protegidas, ou seja, a comunicação entre dispositivos em a infraestrutura do acelerador de ML deve seja protegido.
Em 2017, lançamos o AWS Nitro System, que protege o código e os dados dos clientes contra acesso não autorizado durante o processamento, cumprindo o primeiro princípio da infraestrutura segura de IA. O segundo princípio é cumprido por nossa solução integrada entre o AWS Nitro Enclaves e o AWS Key Management Service (AWS KMS). Com o AWS Nitro Enclaves e o AWS KMS, os clientes podem criptografar seus dados confidenciais de IA usando chaves que eles possuem e controlam, armazenar esses dados em um local de sua escolha e transferir com segurança os dados criptografados para um ambiente computacional isolado para inferência. Durante todo esse processo, os dados confidenciais de IA são criptografados e isolados de seus próprios usuários e software em sua instância do Amazon EC2, e os operadores da AWS não podem acessar esses dados. Anteriormente, o AWS Nitro Enclaves operava somente na CPU. Recentemente, demos um passo adiante quando anunciamos nossos planos de estender esse fluxo criptografado de ponta a ponta do Nitro para incluir uma integração de primeira classe com aceleradores de ML e GPUs, cumprindo o terceiro princípio.
4. Chips de IA da AWS
Os chips que alimentam a IA generativa são cruciais, afetando a rapidez, o baixo custo e a sustentabilidade com que você pode treinar e executar modelos.
Por muitos anos, a AWS inovou para reduzir os custos de nossos serviços. Isso não é diferente com a IA. Ao ajudar os clientes a manter os custos sob controle, podemos garantir que a IA seja acessível a clientes de todos os tamanhos e setores. Então, nos últimos anos, desenvolvemos nossos próprios chips de IA, incluindo o AWS Trainium e o AWS Inferentia. Esses chips desenvolvidos especificamente oferecem desempenho de preço superior e tornam mais eficiente em termos de energia treinar e executar modelos generativos de IA. O AWS Trainium foi projetado para acelerar e reduzir o custo do treinamento de modelos de ML em até 50% em relação a outras instâncias comparáveis do Amazon EC2 otimizadas para treinamento, e o AWS Inferentia permite que os modelos gerem inferências mais rapidamente e com menor custo, com desempenho de preço até 40% melhor do que outras instâncias comparáveis do Amazon EC2 otimizadas para inferência. A demanda por nossos chips de IA é bastante alta devido aos benefícios favoráveis de preço-desempenho em relação às alternativas disponíveis. O Trainium2 é nosso chip de IA de terceira geração e estará disponível ainda este ano. O Trainium2 foi projetado para oferecer treinamento até 4 vezes mais rápido do que os chips Trainium de primeira geração e poderá ser implantado em UltraClusters EC2 de até 100 mil chips, possibilitando o treinamento de modelos básicos e de grandes linguagens em uma fração do tempo, ao mesmo tempo em que melhora a eficiência energética em até 2x.
Além disso, a AWS trabalha com parceiros, incluindo NVIDIA, Intel, Qualcomm e AMD, para oferecer o mais amplo conjunto de aceleradores na nuvem para aplicativos de ML e IA generativa. E continuaremos inovando para oferecer às gerações futuras de chips projetados pela AWS que oferecem uma relação preço-desempenho ainda melhor para os clientes.
Em meio ao boom da IA, é importante que as organizações escolham a infraestrutura de computação certa para reduzir custos e garantir alto desempenho. Na AWS, temos orgulho de oferecer aos nossos clientes a infraestrutura mais segura, eficiente, econômica e com baixo consumo de energia para criar e escalar aplicativos de ML.