Open Thread - Informática 2024-2025

**JJaeger** · (27/01/2025, 21:21)

(27/01/2025, 21:16)nando3d Escreveu: Pelo o que vi, o DeepSeek não fez nada muito desconhecido. O pessoal basicamente escreveu muito código CUDA para obter mais performance e usaram algumas fórmulas matemáticas para "prever" quais tokens o modelo seria ativado. Então, eles apenas treinaram esses tokens, o que gerou uma redução em 95% do treino.

Também vi algo parecido. Provavelmente eles usaram o próprio ChatGPT pra ajudar no treinamento, muitos relataram que o R1 estava dando respostas em nome da OpenAI pra alguns prompts.

(27/01/2025, 21:16)nando3d Escreveu: O interessante é que isso deve fazer os americanos darem uma acordada. Eles possuem a vantagem de terem muito mais poder computacional, só precisam começar a otimizar.

Estou torcendo pra isso. Não me interessa quem faça primeiro, eu só quero um modelo que seja útil e que rode numa GPU de consumo.

Tentei usar o R1 no Aider pra fazer alguns testes, mas a API deles está passando por outage.

nando3d · 27/01/2025, 21:26 |

(27/01/2025, 21:21)JJaeger Escreveu: Estou torcendo pra isso. Não me interessa quem faça primeiro, eu só quero um modelo que seja útil e que rode numa GPU de consumo.

Os americanos precisam criar startups para que elas façam treinos de modelos também, mesmo que em menor escala. Isso geraria competição.

Talvez seja isso que acabe acontecendo.

**JJaeger** · (27/01/2025, 22:46)

https://cline.bot/blog/everyones-talking...ly-matters
Ainda não consigo testar devido a outage do R1, mas o que eu desconfiava parece ser verdade: o Sonnet 3.5 é superior pra desenvolvimento.

O aider também dá um leaderbord parecido: https://aider.chat/docs/leaderboards/

O Deepseek R1 é mais barato e, aparentemente, melhor que o O1 pra raciocínio, mas pra escrever código o Sonnet 3.5 ainda é superior. Provavelmente devido ao context window do sonnet 3.5 ser maior que o do R1.

**TimeBandit** · (27/01/2025, 23:20)

Com um salário hypado de um desenvolvedor na Califórnia que deve passar metade do dia tomando cappuccino descafeinado Com leite de pedra enquanto reclama no bluesky sobre qualquer coisa que tá na moda da pra contratar uns 10 chineses que deve trabalhar 16 horas por dia.

A China atualmente tem excelentes fábricas de software.

**rapier** · (28/01/2025, 04:52)

O Deepseek é uma boa. Quanto mais concorrência no mercado de IA melhor.

(27/01/2025, 18:12)PaninoManino Escreveu: 2 Trilhões.

Spoiler: imagens

Spoiler: Imagem

Spoiler: Imagem

Essa queda é só do hype, essas empresas não valiam tudo isso.

PaninoManino · (28/01/2025, 06:49)

(27/01/2025, 21:16)nando3d Escreveu: Pelo o que vi, o DeepSeek não fez nada muito desconhecido. O pessoal basicamente escreveu muito código CUDA para obter mais performance e usaram algumas fórmulas matemáticas para "prever" quais tokens o modelo seria ativado. Então, eles apenas treinaram esses tokens, o que gerou uma redução em 95% do treino.

No geral, os americanos são "preguiçosos" em otimizar software já tem uns anos. Jogam um monte de código Python e se ficar lento, é só comprar mais GPUs. Como os chineses estavam com restrição de hardware (supostamente), eles tomaram alguns atalhos.

O interessante é que isso deve fazer os americanos darem uma acordada. Eles possuem a vantagem de terem muito mais poder computacional, só precisam começar a otimizar.

Presumo que isso beneficie mais a Meta, que possui um modelo tão robusto quanto. Quem sofre mais são os fabricantes de semicondutores, como a Nvidia (tem uma tal de Cerebras que ameaçava a Nvidia com um chip específico para IA).

Queria que esse baque atingisse também os jogos.
CENTO E QUATRO TERAFLOPS e ainda não é o bastante para GPU rodar jogos sem upscale e inventação de frames.

(28/01/2025, 04:52)rapier Escreveu: Essa queda é só do hype, essas empresas não valiam tudo isso.

EXATO.

gangrena · 28/01/2025, 07:24 |

(27/01/2025, 21:26)nando3d Escreveu: Os americanos precisam criar startups para que elas façam treinos de modelos também, mesmo que em menor escala. Isso geraria competição.

Talvez seja isso que acabe acontecendo.

Mais foda é que eles criaram um cartel trilionario para deter a tecnologia e pavimentaram ainda o monopolio com o governo americano nesse plano novo do trump que envolve bilhoes e um monte de empresas até de energia nuclear americana.

(27/01/2025, 23:20)TimeBandit Escreveu: Com um salário hypado de um desenvolvedor na Califórnia que deve passar metade do dia tomando cappuccino descafeinado Com leite de pedra enquanto reclama no bluesky sobre qualquer coisa que tá na moda da pra contratar uns 10 chineses que deve trabalhar 16 horas por dia.

A China atualmente tem excelentes fábricas de software.

Vai ser bom para a gente que é offshore br, vulgo trampo na gringa.

Vão cair matando na nossa mão de obra qualificada que custa quase nada pra eles Icon_lol

nando3d · 28/01/2025, 08:25 |

(28/01/2025, 07:24)gangrena Escreveu: Mais foda é que eles criaram um cartel trilionario para deter a tecnologia e pavimentaram ainda o monopolio com o governo americano nesse plano novo do trump que envolve bilhoes e um monte de empresas até de energia nuclear americana.

Nesse plano o governo só vai atuar na parte de facilitar a geração de energia, o que beneficia todo mundo.

O Stargate é mais uma coisa do Sam Altman, inventou cifras para justificar o gasto em datacenters, mas os chineses jogaram água no chop. Icon_lol

Ou talvez não, se ele for sério na questão de ampliar o parque industrial americano, ele acabou de ganhar um modo de fazer mais barato.

Ontem eu li um artigo em que o autor cogitava que a intenção dos chineses era agitar o mercado para jogar o preço pra baixo, assim eles conseguem ser mais competitivos e voltar a atenção dos investidores para eles também.

https://thatstocksguy.substack.com/p/a-f...n-deepseek

gangrena · 28/01/2025, 09:42 |

Parece que esse modelo é só um sideproject da Deepseek.

Pode vir mais coisa ai Icon_e_surprised

nando3d · 28/01/2025, 15:32 |

(28/01/2025, 09:42)gangrena Escreveu: Parece que esse modelo é só um sideproject da Deepseek.

Pode vir mais coisa ai

Side project com um fundo de investimento por trás. Icon_lol

Parece que hoje lançaram um para geração de imagens.