EconomyFeaturedNewsTop Stories

Por que a IA da DeepSeek mexeu tanto com o mundo da tecnologia?

Em 2017, o Conselho Estatal do Partido Comunista Chinês aprovou uma resolução chamada Plano de Desenvolvimento da Nova Geração de Inteligência Artificial, que estabelecia um objetivo ousado: ultrapassar os Estados Unidos e se tornar o país líder em inteligência artificial até o ano 2030.

Estruturado em três grandes etapas, o plano essencialmente estabelecia que até 2020, a China precisaria atingir paridade com os líderes globais em tecnologias e aplicações de IA. Já para 2025, o plano previa descobertas significativas para a teoria e os usos práticos de IA. Por fim, 2030 seria o prazo final para a China obter o domínio do campo da IA, tornando-se o polo mundial da teoria e do emprego dessas tecnologias.

Na época, a expectativa era que essa indústria pudesse valer em torno de US$150 bilhões (“troco de pão”, considerando o cenário atual); cidades como Tianjin, no nordeste da China, adotaram medidas de incentivo multibilionárias para viabilizar a construção de infraestrutura e a atração de talentos do mundo da IA.

Em 2020, a China ultrapassou os Estados Unidos na quantidade de citações em estudos relacionados a IA | Fonte: Stanford University’s AI Index Report

Já mais para o sudeste do país, a região de Hangzhou vinha despontando como uma forte candidata a se tornar o Vale do Silício chinês 1, sendo a sede do Grupo Alibaba desde 1999. Também foi por lá que, em 2016, o grupo de investimento High-Flyer se estabeleceu para investigar o desenvolvimento e a aplicação de aprendizado de máquina para otimizar a compra e venda de ações. Foi um desastre.

Depois de anos investindo mais de centenas de milhões de dólares em hardware, em software e na contratação dos maiores talentos das faculdades do país, a empresa falhou a ponto de ter de pedir desculpas públicas aos seus clientes pelo péssimo desempenho. Finalmente, a High-Flyer decidiu parar de usar IA para a negociação automática de ações.

No entanto, para não desperdiçar o poder computacional das mais de 10.000 GPUs 2 NVIDIA A100 que ela havia comprado ao longo do tempo — e antes da imposição de restrições do governo dos EUA, que só se intensificaram de lá para cá —, ela estabeleceu, em maio de 2023, uma subsidiária que teria o objetivo de investigar o desenvolvimento de modelos de IA. Assim, nascia a DeepSeek.

LLMs abertos e o caminho para o DeepSeek-R1

Em fevereiro de 2023, a Meta lançou a família de LLMs 3 Llama. Indo na contramão de empresas como a OpenAI, a Anthropic e o Google, cujos principais LLMs eram majoritariamente fechados 4, os modelos Llama eram de código aberto, fizeram bastante barulho e ajudaram a trazer atenção, interesse e — principalmente — investimentos para iniciativas desse tipo.

O site Hugging Face 5, — que havia sido fundado em 2016 —, por exemplo, recebeu em agosto de 2023 um investimento de US$235 milhões vindos de empresas como o Google, a Amazon, a NVIDIA, a Salesforce, a AMD, a Intel, a IBM e a Qualcomm, para fortalecer a sua estrutura e seguir servindo à crescente comunidade interessada em LLMs de código aberto.

Já a Meta, com sua divisão de IA sob o comando do renomadíssimo cientista da computação Yann LeCun, redobrou seus esforços na evolução dos modelos Llama, que encontram-se atualmente na versão 3.3.

Yann LeCun, cientista-chefe de IA da Meta e sósia acidental de Elton John

Apesar de nunca ter batido de frente com o desempenho dos chamados modelos de fronteira 6, os modelos Llama tornaram-se a principal referência do segmento de LLMs de código aberto, ao mesmo tempo em que empresas como a Microsoft e o Google passaram a se dedicar ao desenvolvimento de projetos similares, como o Phi e o Gemma, respectivamente.

E foi frente a esse cenário que, em novembro de 2024, a DeepSeek surpreendeu o mundo da IA com o lançamento do DeepSeek-R1-Lite-Preview; um modelo aberto que tinha a mesma capacidade de “raciocínio interno” e um desempenho comparável ao OpenAI o1 em tarefas envolvendo matemática e lógica — porém gratuito, ao contrário do o1 que custava a partir de US$20 por mês 7.

Ranking dos melhores LLMs segundo o benchmark LM Arena, em 30 de janeiro de 2025

Àquela altura, a DeepSeek já havia conquistado a atenção do ocidente com o lançamento do modelo aberto V2 (em maio), e estava a algumas semanas de lançar o potente V3. Mas a liberação dessa versão preliminar do R1 em novembro reverberou por todo o mercado, já que ela indicou que era possível desenvolver modelos de fronteira por uma fração do orçamento e com bem menos hardware do que estávamos acostumados a ver no ocidente.

Pois bem. Janeiro chegou, e a DeepSeek liberou a versão oficial do R1, junto do estrondoso detalhamento técnico do modelo. Repleto de detalhes interessantíssimos, o documento mostrou que o DeepSeek-R1 havia sido treinado a partir do DeepSeek-V3 que, por sua vez, teoricamente havia sido treinado em um conjunto relativamente pequeno de GPUs NVIDIA H800 e A100, bem menos potentes do que as centenas de milhares de GPUs H100 que a OpenAI e as outras usam por aqui.

Aliás, foi graças a esse gargalo de processamento que a DeepSeek tirou um coelho da cartola. Os detalhes mais técnicos sobre isso foram explicados para quem não fala inglês nesse ótimo post do meu amigo Fabrício Carraro, mas, basicamente, a DeepSeek decidiu pular uma etapa tradicional do treinamento de modelos, conhecida como SFT 8, e resolveu usar dados escolhidos a dedo em uma etapa conhecida como Aprendizado por Reforço.

Esse frugalismo técnico e essa criatividade no treinamento 9 empolgou o mercado de IA, o que, por sua vez, empolgou a mídia especializada. Ao mesmo tempo, a eficiência do modelo, e o fato de ele ser aberto e gratuito, ajudaram a empolgar a mídia e o mercado consumidor menos ligado em IA, formando a tempestade perfeita que provavelmente levou muitos leitores do MacMagazine a baixarem o app ou pelo menos ouvirem falar pela primeira vez sobre o DeepSeek na última semana.

E aquele caos na bolsa de valores?

Nota rápida, porque não custa avisar: nada do que vem a seguir é recomendação de investimento.

Que o mercado investidor se comporta feito um esquilo apavorado frente a qualquer sinal de turbulência, todos já sabemos. Na última segunda-feira (27/1), a NVIDIA foi a maior vítima do desespero coletivo que arrebatou todo o segmento ligado ao fornecimento de estrutura de IA, e perdeu perto de US$600 bilhões em valor de mercado num único dia.

Mas ela não foi a única. Praticamente todas as empresas diretamente ligadas ao mundo da IA sofreram um tombo, com exceção da Meta que já vinha se apoiando há tempos no modelo aberto para suas iniciativas de IA 10.

Curiosamente, outra empresa que subiu durante a segunda-feira do caos foi a Apple, já que a DeepSeek — de certa forma — mostrou que é possível se recuperar de um atraso considerável no mundo da IA, com bem mais rapidez do que se pensava inicialmente 11.

E para quem tem ações da NVIDIA e não dormiu bem ao longo da semana, aqui vai um pitaco: diversos estudos vêm comprovando os benefícios do emprego de GPUs mais potentes no momento da inferência de um modelo, que é quando ele começa a processar a sua pergunta para poder respondê-la.

Na prática, os estudos mostram que, quanto mais GPU você coloca para fazer a inferência, melhor é a qualidade da resposta. Isso sem contar os estudos que mostram que quanto mais parruda é a estrutura de GPUs para a inferência de um modelo, menor é a latência, ou seja, o tempo que ele gasta fazendo cálculos para gerar a resposta.

Mais do que isso, ainda não se observou um limite para os ganhos de desempenho em relação à quantidade de poder de fogo que é dedicado à formulação da resposta. Com o sucesso de modelos que fazem raciocínio interno, como é o caso do DeepSeek-R1 e do OpenAI o1/o3, está óbvio que a demanda do mercado por GPUs não irá diminuir, mas sim aumentar.

De quebra, os modelos DeepSeek-V3 e R1 mostraram que não é necessário ter uma H100 para gerar os melhores resultados, o que significa que outros modelos de GPU serão colocados para trabalhar na inferência dos modelos de IA com cada vez mais frequência. De novo, eu não recomendo que você compre ações da NVIDIA com base nesse pitaco. Mas, se eu tivesse ações dela, eu não estaria preocupado.

E o controle da China sobre a DeepSeek?

Bem, sendo uma empresa de lá, esse controle era inevitável. Deveria surpreender um total de zero pessoas o fato de que, se você acessar o site do DeepSeek para perguntar sobre geopolítica de Taiwan, o massacre na Praça da Paz Celestial em 1989, a semelhança entre Xi Jinping e o Ursinho Pooh ou os pontos fracos do Partido Comunista Chinês, o modelo se recusará a responder 12.

Onde Armazenamos Suas Informações
As informações pessoais que coletamos de você podem ser armazenadas em um servidor localizado fora do país onde você reside. Armazenamos as informações que coletamos em servidores seguros, localizados na República Popular da China.
Quando transferirmos quaisquer informações pessoais para fora do país onde você reside, inclusive para uma ou mais das finalidades descritas nesta Política, o faremos em conformidade com os requisitos das leis de proteção de dados aplicáveis.

Aliás, a própria política de privacidade do site informa que os dados são coletados e armazenados em servidores da China, mas eu aposto que isso deva mudar em breve por motivos óbvios.

Por outro lado, nada disso acontece na hora de rodar o modelo localmente nos seus dispositivos, seja por meio de apps como o fullmoon no iOS ou por meio do LM Studio no macOS. Aliás, para rodar o modelo localmente, você sequer precisa de internet para que ele funcione. Essa é uma das inúmeras vantagens dos modelos de código aberto em comparação a produtos fechados, como o ChatGPT.

Ainda assim, a adoção do DeepSeek, seja para o seu dia a dia, por meio da API 13 — até 40x mais barata que as APIs da OpenAI — para o seu produto exige uma espécie de… cuidado semântico. Isso porque é óbvio que um modelo treinado majoritariamente em chinês irá absorver os pontos de vista de lá, exatamente como um modelo treinado majoritariamente em inglês naturalmente terá mais representatividade dos pontos de vista do ocidente.

Isso é literalmente o que viés significa, mas sem aquela conotação agressiva, pejorativa ou que implique algum tipo de malícia, teoria da conspiração ou interesses ocultos. Todo LLM tem um viés pela soma dos dados que fazem parte do seu corpo de treinamento e, no caso dos modelos orientais amplamente utilizados no ocidente ou vice-versa, essa dissonância cultural e geopolítica fica mais evidente. Quem se lembra do caso envolvendo o ChatGPT e o nome David Mayer? Na prática, é a mesma coisa.

O que não significa que o modelo seja ruim. Aliás, para tarefas envolvendo código, o DeepSeek tem se provado mais útil do que o Claude da Anthropic, que até agora era a referência de um bom LLM na hora de ajudar a programar.

No fim as contas, o DeepSeek é exatamente igual a qualquer novo produto que entra na roda da tecnologia: o importante é se informar, testar, identificar seus pontos fortes e fracos, e concluir por conta própria se ele tem utilidade ou não para você. E tudo bem se não tiver. Nem tudo precisa ser para todo mundo, da mesma forma que algo pode ter utilidade para outras pessoas, mesmo o que você não a veja.

Seja como for, a explosão da popularidade e as soluções técnicas criativas encontradas pela DeepSeek para entregar praticamente o melhor LLM do mundo por uma fração do preço e poder de fogo de treinamento são a prova de duas coisas: primeiro, o Plano de Desenvolvimento da Nova Geração de Inteligência Artificial da China segue a todo vapor 14; e segundo, a era dos LLMs está apenas começando. E isso é empolgante demais para quem gosta de tecnologia!

Notas de rodapé

1    Título hoje dividido entre a cidade de Shenzhen e o distrito de Zhongguancun, em Pequim.
2    Graphics processing units, ou unidades de processamento gráfico
3    Large language models, ou grandes modelos de linguagem.
4    Ou seja, sem a possibilidade de os próprios usuários baixarem e adaptarem o código e os pesos do modelo para as suas próprias necessidades
5    Uma espécie de repositório colaborativo de modelos de código aberto.
6    Os modelos líderes do mercado, como os atuais OpenAI o3 e Google Gemini 2.0 Flash Thinking, que “pensam” por mais tempo na pergunta antes de dar a resposta.
7    O OpenAI o3-mini, que foi lançado na última sexta-feira (31/1), oferece gratuitamente a função de raciocínio interno, ainda que com limites em relação aos planos pagos.
8    Supervised fine-tuning, ou refinamento supervisionado.
9    Comparado a uma OpenAI da vida, é claro.
10    Essas ações estavam supervalorizadas? Provavelmente.
11    Basta ter bem menos escrúpulos com os dados usados para treinar o modelo, mas esse assunto fica para outro dia.
12    Ou melhor, um segundo modelo de segurança, responsável pela garantia do cumprimento dos termos de uso, irá intervir na composição da resposta para dizer que não pode falar sobre isso.
13    Application programming interface, ou interface de programação de aplicações.
14    Resta saber se seguirá assim com a inevitável intensificação das restrições do fornecimento de hardware.
Facebook Comments Box