QUAIS ERAM OS RECURSOS ÀS MÃOS DA STARTUP CHINESA?
A DeepSeek tinha uma fração do investimento mobilizado por big techs, além de restrições impostas pelo governo americano no acesso a chips de ponta da Nvidia, durante o processo de desenvolvimento do R1.
Um artigo publicado pela equipe da DeepSeek em janeiro menciona uso de placas H800 da Nvidia, fabricadas desde 2023, por um custo de menos de US$ 6 milhões (R$ 35,6 milhões).
Leia mais:
Mãe que tornou filha famosa em meme diz se sentir culpada
Grávida de Taubaté ressurge nas redes sociais e promete contar a verdade sobre sua farsa
Doodle do Google comemora Meia-Lua de janeiro com jogo de cartas interativo
Vídeo viral de Erika Hilton sobre Pix tem imprecisões sobre taxa das blusinhas e isenção do IR
O megaprojeto de datacenters encampado por Sam Altman para desenvolver IA, por exemplo, prevê US$ 100 bilhões (R$ 589 bilhões) de investimentos iniciais.
Toda a mão de obra da DeepSeek é chinesa e foi formada na China, de acordo com o fundador, Liang. "Temos que desenvolver os melhores talentos nós mesmo", afirmou em uma rara entrevista.
COMO OS CHINESES CONSEGUIRAM TANTO COM MENOS?
A equipe da DeepSeek-R1 desenvolveu a plataforma com uma estratégia inédita, segundo artigo publicado pela empresa na ocasião do lançamento.
Os pesquisadores chineses, primeiro, melhoraram o DeepSeek-V3 (da geração anterior) usando apenas a técnica de aprendizado de reforço, na qual a IA recebe uma recompensa quando entrega uma resposta adequada. O padrão da indústria é fazer um novo treinamento do modelo, com base em dados mais específicos.
Essa primeira IA recebeu o nome de R1-Zero. Essa abordagem levou a um comportamento inesperado: o modelo começou a alocar mais tempo de processamento para problemas mais complexos, demonstrando uma capacidade de priorizar tarefas com base em sua dificuldade.
Embora a R1-Zero pensasse de maneira independente, ela misturava idiomas e, às vezes, fugia do tema abordado na pergunta.
Para corrigir o problema, a equipe da DeepSeek usou uma base de dados de referência, que chamou de "dados de inicialização a frio", antes de fazer o aprendizado por reforço.
O QUE É UM MODELO DE CÓDIGO ABERTO?
Diferentemente dos principais concorrentes, a DeepSeek adota um formato de código aberto.
Isso significa que a empresa disponibiliza diferentes versões do seu modelo de inteligência artificial para o público, que podem ser editadas e ativadas na própria máquina do usuário. A startup chinesa também publica artigos sobre seus avanços técnicos.
Essa transparência pode atrair o setor de tecnologia de diversas empresas pelo mundo, por permitir maior personalização da ferramenta, além de facilitar a manutenção e controle.
Outras empresas de IA começaram sob a premissa do conhecimento aberto, mas voltaram atrás e passaram a visar lucro. São exemplos disso a OpenAI e a francesa Mistral, ambas subsidiadas pela Microsoft.
POR QUE ISSO IMPACTOU A BOLSA?
A DeepSeek, além de apresentar um modelo vantajoso para os clientes corporativos, mostrou custos muito inferiores à concorrência. Os investimentos chineses, aparentemente na casa dos milhões de dólares, ficam muito abaixo das dezenas de bilhões de dólares mencionadas por big techs em seus balanços ao longo do ano passado.
As principais empresas de tecnologia americana treinam seus chatbots com supercomputadores que utilizam mais de 10 mil placas da Nvidia. Os engenheiros da DeepSeek disseram que precisaram de cerca de 2.000 dessas peças.
Com isso, os investidores avaliaram que superestimaram a demanda por equipamentos da Nvidia, fazendo as ações da empresa desabarem em quase US$ 600 bilhões.
OS CHIPS AINDA IMPORTAM?
Embora os resultados da DeepSeek impressionem, os chips ainda são importantes na corrida pela liderança da IA generativa. O paradigma que levou a criação do ChatGPT e seus similares foi o artigo "Atenção é tudo o que você precisa", cuja premissa é a de que quanto mais dados houver no treinamento do modelo, melhor será o resultado.