28/01/2025, 06:49
(Resposta editada pela última vez 28/01/2025, 06:50 por PaninoManino.)
|
(27/01/2025, 21:16)nando3d Escreveu: Pelo o que vi, o DeepSeek não fez nada muito desconhecido. O pessoal basicamente escreveu muito código CUDA para obter mais performance e usaram algumas fórmulas matemáticas para "prever" quais tokens o modelo seria ativado. Então, eles apenas treinaram esses tokens, o que gerou uma redução em 95% do treino.
No geral, os americanos são "preguiçosos" em otimizar software já tem uns anos. Jogam um monte de código Python e se ficar lento, é só comprar mais GPUs. Como os chineses estavam com restrição de hardware (supostamente), eles tomaram alguns atalhos.
O interessante é que isso deve fazer os americanos darem uma acordada. Eles possuem a vantagem de terem muito mais poder computacional, só precisam começar a otimizar.
Presumo que isso beneficie mais a Meta, que possui um modelo tão robusto quanto. Quem sofre mais são os fabricantes de semicondutores, como a Nvidia (tem uma tal de Cerebras que ameaçava a Nvidia com um chip específico para IA).
Queria que esse baque atingisse também os jogos.
CENTO E QUATRO TERAFLOPS e ainda não é o bastante para GPU rodar jogos sem upscale e inventação de frames.
(28/01/2025, 04:52)rapier Escreveu: Essa queda é só do hype, essas empresas não valiam tudo isso.
EXATO.