A plataforma de inteligência artificial chinesa DeepSeek iniciou um novo capítulo da disputa entre Estados Unidos e China pela liderança tecnológica, ao apresentar resultados que chocaram investidores mundo afora.

A startup chinesa tinha uma fração do investimento mobilizado por big techs, além de restrições impostas pelo governo americano no acesso a chips de ponta da Nvidia, e, mesmo assim, desenvolveu um modelo de IA generativa tão eficiente quanto o ChatGPT, da OpenAI. Trata-se da DeepSeek-R1.

Existe pouca informação sobre a empresa que está por trás da DeepSeek, mas um artigo publicado em janeiro cita uso de placas H800 da Nvidia, fabricadas desde 2023, por um custo de menos de US$ 6 milhões (R$ 35,6 milhões).

O megaprojeto de data centers encampado por Sam Altman para desenvolver IA, por exemplo, prevê US$ 100 bilhões (R$ 589 bilhões) de investimentos iniciais.

Mas as pessoas interessadas no desempenho da DeepSeek se frustram, desde domingo (26), com dificuldades para se cadastrar. A empresa atribui a instabilidade a ataques hackers provenientes do exterior.

A reportagem mostra abaixo o que há de novo na DeepSeek e por que isso mudou todo o páreo envolvendo a corrida pela liderança no desenvolvimento de inteligência artificial.

O QUE É A DEEPSEEK?

DeepSeek é uma plataforma de IA generativa chinesa, criada em 2023 com investimento do fundo High-Flyer. O fundador, Liang Wenfeng, fez fortuna usando inteligência artificial para tomar decisões de investimento no mercado financeiro.

Desde aquele ano, a DeepSeek investe pesado para atrair os maiores talentos da China com o objetivo de desenvolver seu próprio modelo de IA. Em 2024, a empresa chinesa levou ao ar a primeira versão de sua plataforma, equipada com a DeepSeek-V2, atualizada depois para V2.5 e V3.

Foi o anúncio mais recente da startup, no último dia 20, o modelo DeepSeek-R1, que surpreendeu o mercado. Os criadores compararam o desempenho da sua criatura ao do o1, o modelo mais recente da OpenAI, capaz de fechar a prova de matemática do ITA e passar na prova de residência em medicina da USP.

A DeepSeek está disponível na nuvem e também pode ser baixada para execução na própria máquina.

QUÃO BOA É A DEEPSEEK?

Em rankings de modelos de inteligência artificial, a DeepSeek disputa as primeiras fileiras com os GPTs da OpenAI e as variações do Gemini, do Google.

O modelo se destaca, sobretudo, nos testes de matemática e programação. Também fica à frente na escrita em chinês, embora seja capaz de se comunicar em inglês e português com fluência.

A imprensa internacional e o CEO da Meta, Mark Zuckerberg, ressalvaram que a IA não responde a perguntas sobre fragilidades do regime de Xi Jinping.

Programadores, por outro lado, que executam o modelo na própria máquina, mostram que a DeepSeek está livre de censura quando roda fora da nuvem.

QUAIS ERAM OS RECURSOS ÀS MÃOS DA STARTUP CHINESA?

A DeepSeek tinha uma fração do investimento mobilizado por big techs, além de restrições impostas pelo governo americano no acesso a chips de ponta da Nvidia, durante o processo de desenvolvimento do R1.

Toda a mão de obra da DeepSeek é chinesa e foi formada na China, de acordo com o fundador, Liang. “Temos que desenvolver os melhores talentos nós mesmo”, afirmou em uma rara entrevista.

COMO OS CHINESES CONSEGUIRAM TANTO COM MENOS?

A equipe da DeepSeek-R1 desenvolveu a plataforma com uma estratégia inédita, segundo artigo publicado pela empresa na ocasião do lançamento.

Os pesquisadores chineses, primeiro, melhoraram o DeepSeek-V3 (da geração anterior) usando apenas a técnica de aprendizado de reforço, na qual a IA recebe uma recompensa quando entrega uma resposta adequada. O padrão da indústria é fazer um novo treinamento do modelo, com base em dados mais específicos.

Essa primeira IA recebeu o nome de R1-Zero. Essa abordagem levou a um comportamento inesperado: o modelo começou a alocar mais tempo de processamento para problemas mais complexos, demonstrando uma capacidade de priorizar tarefas com base em sua dificuldade.

Embora a R1-Zero pensasse de maneira independente, ela misturava idiomas e, às vezes, fugia do tema abordado na pergunta.

Para corrigir o problema, a equipe da DeepSeek usou uma base de dados de referência, que chamou de “dados de inicialização a frio”, antes de fazer o aprendizado por reforço.

O QUE É UM MODELO DE CÓDIGO ABERTO?

Diferentemente dos principais concorrentes, a DeepSeek adota um formato de código aberto.

Isso significa que a empresa disponibiliza diferentes versões do seu modelo de inteligência artificial para o público, que podem ser editadas e ativadas na própria máquina do usuário. A startup chinesa também publica artigos sobre seus avanços técnicos.

Essa transparência pode atrair o setor de tecnologia de diversas empresas pelo mundo, por permitir maior personalização da ferramenta, além de facilitar a manutenção e controle.

Outras empresas de IA começaram sob a premissa do conhecimento aberto, mas voltaram atrás e passaram a visar lucro. São exemplos disso a OpenAI e a francesa Mistral, ambas subsidiadas pela Microsoft.

POR QUE ISSO IMPACTOU A BOLSA?

A DeepSeek, além de apresentar um modelo vantajoso para os clientes corporativos, mostrou custos muito inferiores à concorrência. Os investimentos chineses, aparentemente na casa dos milhões de dólares, ficam muito abaixo das dezenas de bilhões de dólares mencionadas por big techs em seus balanços ao longo do ano passado.

As principais empresas de tecnologia americana treinam seus chatbots com supercomputadores que utilizam mais de 10 mil placas da Nvidia. Os engenheiros da DeepSeek disseram que precisaram de cerca de 2.000 dessas peças.

Com isso, os investidores avaliaram que superestimaram a demanda por equipamentos da Nvidia, fazendo as ações da empresa desabarem em quase US$ 600 bilhões.

OS CHIPS AINDA IMPORTAM?

Embora os resultados da DeepSeek impressionem, os chips ainda são importantes na corrida pela liderança da IA generativa. O paradigma que levou a criação do ChatGPT e seus similares foi o artigo “Atenção é tudo o que você precisa“, cuja premissa é a de que quanto mais dados houver no treinamento do modelo, melhor será o resultado.