(27/01/2025, 21:16)nando3d Escreveu: Pelo o que vi, o DeepSeek não fez nada muito desconhecido. O pessoal basicamente escreveu muito código CUDA para obter mais performance e usaram algumas fórmulas matemáticas para "prever" quais tokens o modelo seria ativado. Então, eles apenas treinaram esses tokens, o que gerou uma redução em 95% do treino.
Também vi algo parecido. Provavelmente eles usaram o próprio ChatGPT pra ajudar no treinamento, muitos relataram que o R1 estava dando respostas em nome da OpenAI pra alguns prompts.
(27/01/2025, 21:16)nando3d Escreveu: O interessante é que isso deve fazer os americanos darem uma acordada. Eles possuem a vantagem de terem muito mais poder computacional, só precisam começar a otimizar.
Estou torcendo pra isso. Não me interessa quem faça primeiro, eu só quero um modelo que seja útil e que rode numa GPU de consumo.
Tentei usar o R1 no Aider pra fazer alguns testes, mas a API deles está passando por outage.
(27/01/2025, 21:21)JJaeger Escreveu: Estou torcendo pra isso. Não me interessa quem faça primeiro, eu só quero um modelo que seja útil e que rode numa GPU de consumo.
Os americanos precisam criar startups para que elas façam treinos de modelos também, mesmo que em menor escala. Isso geraria competição.
O Deepseek R1 é mais barato e, aparentemente, melhor que o O1 pra raciocínio, mas pra escrever código o Sonnet 3.5 ainda é superior. Provavelmente devido ao context window do sonnet 3.5 ser maior que o do R1.
Com um salário hypado de um desenvolvedor na Califórnia que deve passar metade do dia tomando cappuccino descafeinado Com leite de pedra enquanto reclama no bluesky sobre qualquer coisa que tá na moda da pra contratar uns 10 chineses que deve trabalhar 16 horas por dia.
A China atualmente tem excelentes fábricas de software.
(27/01/2025, 21:16)nando3d Escreveu: Pelo o que vi, o DeepSeek não fez nada muito desconhecido. O pessoal basicamente escreveu muito código CUDA para obter mais performance e usaram algumas fórmulas matemáticas para "prever" quais tokens o modelo seria ativado. Então, eles apenas treinaram esses tokens, o que gerou uma redução em 95% do treino.
No geral, os americanos são "preguiçosos" em otimizar software já tem uns anos. Jogam um monte de código Python e se ficar lento, é só comprar mais GPUs. Como os chineses estavam com restrição de hardware (supostamente), eles tomaram alguns atalhos.
O interessante é que isso deve fazer os americanos darem uma acordada. Eles possuem a vantagem de terem muito mais poder computacional, só precisam começar a otimizar.
Presumo que isso beneficie mais a Meta, que possui um modelo tão robusto quanto. Quem sofre mais são os fabricantes de semicondutores, como a Nvidia (tem uma tal de Cerebras que ameaçava a Nvidia com um chip específico para IA).
Queria que esse baque atingisse também os jogos.
CENTO E QUATRO TERAFLOPS e ainda não é o bastante para GPU rodar jogos sem upscale e inventação de frames.
(28/01/2025, 04:52)rapier Escreveu: Essa queda é só do hype, essas empresas não valiam tudo isso.
(27/01/2025, 21:26)nando3d Escreveu: Os americanos precisam criar startups para que elas façam treinos de modelos também, mesmo que em menor escala. Isso geraria competição.
Talvez seja isso que acabe acontecendo.
Mais foda é que eles criaram um cartel trilionario para deter a tecnologia e pavimentaram ainda o monopolio com o governo americano nesse plano novo do trump que envolve bilhoes e um monte de empresas até de energia nuclear americana.
(27/01/2025, 23:20)TimeBandit Escreveu: Com um salário hypado de um desenvolvedor na Califórnia que deve passar metade do dia tomando cappuccino descafeinado Com leite de pedra enquanto reclama no bluesky sobre qualquer coisa que tá na moda da pra contratar uns 10 chineses que deve trabalhar 16 horas por dia.
A China atualmente tem excelentes fábricas de software.
Vai ser bom para a gente que é offshore br, vulgo trampo na gringa.
Vão cair matando na nossa mão de obra qualificada que custa quase nada pra eles
(28/01/2025, 07:24)gangrena Escreveu: Mais foda é que eles criaram um cartel trilionario para deter a tecnologia e pavimentaram ainda o monopolio com o governo americano nesse plano novo do trump que envolve bilhoes e um monte de empresas até de energia nuclear americana.
Nesse plano o governo só vai atuar na parte de facilitar a geração de energia, o que beneficia todo mundo.
O Stargate é mais uma coisa do Sam Altman, inventou cifras para justificar o gasto em datacenters, mas os chineses jogaram água no chop.
Ou talvez não, se ele for sério na questão de ampliar o parque industrial americano, ele acabou de ganhar um modo de fazer mais barato.
Ontem eu li um artigo em que o autor cogitava que a intenção dos chineses era agitar o mercado para jogar o preço pra baixo, assim eles conseguem ser mais competitivos e voltar a atenção dos investidores para eles também.