Tópico das GPUs 2024-2025

nando3d · (09/09/2024, 17:36)

(09/09/2024, 14:04)rapier Escreveu: https://www.tomshardware.com/pc-componen...-ecosystem

Isso de UDNA eu vejo como corte de custos. Farão 1 arquitetura só em vez de 2.

Nunca entendi o motivo de ser separado.

Na Nvidia é uma coisa só, o cara compra uma 3060, roda suas aplicações em CUDA, se profissionaliza e vai comprar as H100 no mercado de alta computação. Isso sem precisar migrar suas aplicações.

**rapier** · (09/09/2024, 20:22)

(09/09/2024, 17:36)nando3d Escreveu: Nunca entendi o motivo de ser separado.

Na Nvidia é uma coisa só, o cara compra uma 3060, roda suas aplicações em CUDA, se profissionaliza e vai comprar as H100 no mercado de alta computação. Isso em precisar migrar suas aplicações.

GCN era muito bom pra compute, mas ruim pra jogos. Processava 64 threads por vez, mas jogos não eram tão paralelos assim na GPU e com isso RDNA reduziu o wavefront pra 32 threads. Já CDNA mantinha 64 threads no wavefront.

Vega (GCN) era dual issue, permitindo processar 2 instruções por ciclo, só que isso raramente era usado por jogos e com isso ficava muito poder computacional não usado. No RDNA3 a AMD tentou cometer o mesmo erro ( https://anime-forum.info/showthread.php?...#pid464165 ) , pra aumentar o poder de processamento no desespero ao notar que a RTX 4090 seria absurda, aí RDNA3 também tem muito potencial desperdiçado.

Isso de "mais threads por vez" e "mais instruções por ciclo" exigia que o jogo realmente tivesse muito a processar por pixel com poucas dependências seriais, e muitos pixels a processar, o que na prática requiria que os jogos sejam primeiramente otimizados para AMD. Isso é bom para jogos de console, mas nem tanto para PCs. A otimização de verdade no PC acontece nos drivers, por isso AMD era Fine Wine onde o desempenho dos jogos aumentava com o passar dos anos.

É possível otimizar pra dual issue escrevendo código OpenCL na mão, mas geralmente isso ocorre em aplicações científicas e de servidores, não em jogos. Jogo tem é "se [80% do mercado (Nvadia)] então otimizamos senão código normal". Até porque a Nvidia gasta muito $ ajudando os criadores de jogos A³ a otimizarem conteúdo para suas GPUs.

Dependendo das dependências nos cálculos de cada pixel o "dual issue" não é factível logo o TFLOPs cai pela metade. Seria como um HyperThreading onde às vezes a thread 2 depende da thread 1, logo a 2 fica esperando e não tem como as duas executarem ao mesmo tempo, tornando a execução nesses momentos apenas single-thread.

A 7900XTX tem mais que o dobro de TFLOPs que uma 6900XT (61 contra 26) mas não consegue o dobro de desempenho justamente por esses problemas de otimização. Costuma conseguir apenas 50% a mais de desempenho e isso nos casos onde a GPU é mais forçada, como em 4K.

Como com RDNA3 a AMD voltou a confiar em wave64 e dual-issue, tem menos diferença entre RDNA e CDNA, logo faz sentido unir as duas arquiteturas.

nando3d · 10/09/2024, 10:08 |

(09/09/2024, 20:22)rapier Escreveu: GCN era muito bom pra compute, mas ruim pra jogos. Processava 64 threads por vez, mas jogos não eram tão paralelos assim na GPU e com isso RDNA reduziu o wavefront pra 32 threads. Já CDNA mantinha 64 threads no wavefront.

Vega (GCN) era dual issue, permitindo processar 2 instruções por ciclo, só que isso raramente era usado por jogos e com isso ficava muito poder computacional não usado. No RDNA3 a AMD tentou cometer o mesmo erro ( https://anime-forum.info/showthread.php?...#pid464165 ) , pra aumentar o poder de processamento no desespero ao notar que a RTX 4090 seria absurda, aí RDNA3 também tem muito potencial desperdiçado.

Isso de "mais threads por vez" e "mais instruções por ciclo" exigia que o jogo realmente tivesse muito a processar por pixel com poucas dependências seriais, e muitos pixels a processar, o que na prática requiria que os jogos sejam primeiramente otimizados para AMD. Isso é bom para jogos de console, mas nem tanto para PCs. A otimização de verdade no PC acontece nos drivers, por isso AMD era Fine Wine onde o desempenho dos jogos aumentava com o passar dos anos.

É possível otimizar pra dual issue escrevendo código OpenCL na mão, mas geralmente isso ocorre em aplicações científicas e de servidores, não em jogos. Jogo tem é "se [80% do mercado (Nvidia)] então otimizamos senão código normal". Até porque a Nvidia gasta muito $ ajudando os criadores de jogos A³ a otimizarem conteúdo para suas GPUs.

Dependendo das dependências nos cálculos de cada pixel o "dual issue" não é factível logo o TFLOPs cai pela metade. Seria como um HyperThreading onde às vezes a thread 2 depende da thread 1, logo a 2 fica esperando e não tem como as duas executarem ao mesmo tempo, tornando a execução nesses momentos apenas single-thread.

A 7900XTX tem mais que o dobro de TFLOPs que uma 6900XT (61 contra 26) mas não consegue o dobro de desempenho justamente por esses problemas de otimização. Costuma conseguir apenas 50% a mais de desempenho e isso nos casos onde a GPU é mais forçada, como em 4K.

Como com RDNA3 a AMD voltou a confiar em wave64 e dual-issue, tem menos diferença entre RDNA e CDNA, logo faz sentido unir as duas arquiteturas.

Isso casa com a declaração recente da AMD de que agora eles se tornariam uma empresa de software. Segundo a própria AMD, eles desenvolviam o hardware e os desenvolvedores tinham que criar as ferramentas em cima do hardware. Por isso as GPUs e CPUs tinham bastante performance, mas não eram plenamente utilizadas e tinha problemas de drivers.

A Nvidia faz o contrário, eles criam softwares e features primeiro e depois criam um hardware que possa utilizar disso. Por isso casa tão bem. Em jogos, eles customizavam o próprio DirectX, para não ficarem dependentes da Microsoft.

A Intel faz algo semelhante, por isso tem menos problemas e quando tem, são problemas de hardware.

https://www.techpowerup.com/324171/amd-i...s-the-plan

Me lembra a Sony com o Playstation, do 1 ao 3, era essa mesma mentalidade da AMD, de desenvolver o hardware primeiro e os desenvolvedores tinham que se virar, por isso alguns se destacavam mais que os outros e por isso os jogos evoluíam com o tempo. Com o fracasso do PS3, chutaram o Kutaragi e trouxeram o Mark Cerny, onde a linha de pensamento dele era justamente de desenvolver software primeiro e depois fazer o hardware, tanto que o hardware foi finalizado quase perto do lançamento, tinha desenvolvedor fazendo seu jogo, achando que o console tinha apenas 4 GB de RAM. Esse pensamento fez com que o PS4 desempenhasse bem logo de cara e durasse bastante, mesmo tendo um hardware bem fraco. PS5 foi na mesma linha, por isso andou superando o Xbox, mesmo sendo mais fraco. E o bizarro é que o Xbox já tinha esse pensamento lá atrás, mas se perdeu na gestão do Spencer, quando lançou o Xbox one X, achando que hardware era o determinante.

**martec** · (14/09/2024, 01:52)

(09/09/2024, 20:22)rapier Escreveu: GCN era muito bom pra compute, mas ruim pra jogos. Processava 64 threads por vez, mas jogos não eram tão paralelos assim na GPU e com isso RDNA reduziu o wavefront pra 32 threads. Já CDNA mantinha 64 threads no wavefront.

Vega (GCN) era dual issue, permitindo processar 2 instruções por ciclo, só que isso raramente era usado por jogos e com isso ficava muito poder computacional não usado. No RDNA3 a AMD tentou cometer o mesmo erro ( https://anime-forum.info/showthread.php?...#pid464165 ) , pra aumentar o poder de processamento no desespero ao notar que a RTX 4090 seria absurda, aí RDNA3 também tem muito potencial desperdiçado.

Isso de "mais threads por vez" e "mais instruções por ciclo" exigia que o jogo realmente tivesse muito a processar por pixel com poucas dependências seriais, e muitos pixels a processar, o que na prática requiria que os jogos sejam primeiramente otimizados para AMD. Isso é bom para jogos de console, mas nem tanto para PCs. A otimização de verdade no PC acontece nos drivers, por isso AMD era Fine Wine onde o desempenho dos jogos aumentava com o passar dos anos.

É possível otimizar pra dual issue escrevendo código OpenCL na mão, mas geralmente isso ocorre em aplicações científicas e de servidores, não em jogos. Jogo tem é "se [80% do mercado (Nvadia)] então otimizamos senão código normal". Até porque a Nvidia gasta muito $ ajudando os criadores de jogos A³ a otimizarem conteúdo para suas GPUs.

Dependendo das dependências nos cálculos de cada pixel o "dual issue" não é factível logo o TFLOPs cai pela metade. Seria como um HyperThreading onde às vezes a thread 2 depende da thread 1, logo a 2 fica esperando e não tem como as duas executarem ao mesmo tempo, tornando a execução nesses momentos apenas single-thread.

A 7900XTX tem mais que o dobro de TFLOPs que uma 6900XT (61 contra 26) mas não consegue o dobro de desempenho justamente por esses problemas de otimização. Costuma conseguir apenas 50% a mais de desempenho e isso nos casos onde a GPU é mais forçada, como em 4K.

Como com RDNA3 a AMD voltou a confiar em wave64 e dual-issue, tem menos diferença entre RDNA e CDNA, logo faz sentido unir as duas arquiteturas.

pra mim a AMD errou em dividir em duas arquiteturas diferentes no passado...
não ter prevido a IA naquela epóca foi maior erro pessoalmente. a Nvadia reina sozinha com CUDA. Devido essa arquitetura distinta a AMD enrola e enrola pra lançar o seu correspondente ROCm pra cada lançamento de nova geração de GPU, no Linux até que ela esforça pra trazer mais rapidamente, mas no Windows Facepalm

quem brinca com IA n quer a AMD e os desenvolvedores tbm n leva a sério pra lado da AMD pq tudo fica mais difícil com essa fragmentação e sem contar o baixo marketshare.

eu brinco com IA pra gerar imagens hentais se bem que com RX 570 de 8GB usando o directml o máximo que consegue é uma imagem de 512x512 e demora 2 min... e fazendo o GPU elevar pra 70 graus....
se quer o dobro de resolução teria que ter uma GPU com dobro de RAM, talvez até consiga gerar 1024 de resolução desde que use parametro lowvram mas ai demoraria 10x mais pra gerar.

ou seja, IA é Nvadia mesmo com CUDA é bem mais rápido se bem que de toda forma vc precisaria de mais de 16GB de RAM no GPU pra gerar imagem de alta resolução.

outra solução mas que demanda tempo é usar APU.... ai alocar 32GB de RAM pra GPU ai vc consegue gerar imagem de alta resolução ... lol....

**rapier** · 14/09/2024, 06:01 |

(14/09/2024, 01:52)martec Escreveu: pra mim a AMD errou em dividir em duas arquiteturas diferentes no passado...
não ter prevido a IA naquela epóca foi maior erro pessoalmente. a Nvadia reina sozinha com CUDA. Devido essa arquitetura distinta a AMD enrola e enrola pra lançar o seu correspondente ROCm pra cada lançamento de nova geração de GPU, no Linux até que ela esforça pra trazer mais rapidamente, mas no Windows

quem brinca com IA n quer a AMD e os desenvolvedores tbm n leva a sério pra lado da AMD pq tudo fica mais difícil com essa fragmentação e sem contar o baixo marketshare.

IA é compute, e a AMD tem problemas com compute nas GPUs desde sempre. Ela nunca teve uma resposta ao CUDA Nvidia. OpenCL dá trabalho.

**martec** · (14/09/2024, 06:16)

(14/09/2024, 06:01)rapier Escreveu: IA é compute, e a AMD tem problemas com compute nas GPUs desde sempre. Ela nunca teve uma resposta ao CUDA Nvidia. OpenCL dá trabalho.

por isso que tem o ROCm... n vejo pessoal usar OpenCL pra Stable difussion e nem SD.Next. mas o desenvolvimento disso (ROCm) ai é tão tartaruga....
pelo menos via WSL 2 vc até consegue usar o ROCm no Windows, mas está em beta.... e claro polaris já faz tempo que n tem suporte.... vai ter que compilar por si só.... Facepalm

bem nem que eu compile usando WSL 2 n tem garantia alguma que irá dar certo, mesmo que de certo a falta de VRAM vai ser pé no sapato, bem contentar com DirectML mesmo.

[Imagem: x9BJ37d.png]

até a Intel parece que tem algo mais decente que a AMD ROCm que é OneAPI, pelo menos parece que funciona tbm pra Ruindows.

PaninoManino · 14/09/2024, 10:38 |

AMD não errou.
AMD fez certo em dividir a arquitetura. CDNA expande os pontos fortes de CCN, como hardware é muito forte para o mercado de servidores/super computadores.
RDNA consertou todos os "problemas" que CCN tinha para desktop e jogos, só ver o salto que foi RDNA1 e 2 comparado com Vega.

Pra mim o erro é juntar as duas arquitetoras novamente, como se a AMD estivesse ainda a beira da falência e não tivesse dinheiro parar investir em software. O que AMD precisa fazer é gastar mais com software, te ter paciência.
Essa volta atrás é apenas para "simplificar" o software, economizar, mas não vai comprometer as arquiteturas.

**rapier** · 14/09/2024, 10:40 |

Nvidia sem concorrência é triste.

Agora temos

4070 capada
4070
4070S
4070Ti
4070TiS

Numa lineup sã e coerente com as antigas, seria...

4060D (5888 SMs com RAM capada)
4060 (5888 SMs com RAM melhor)
4060Ti (7168 SMs)
4070 (7680 SMs)
4070Ti (8448 SMs)

Tem duas "séries" ocupando o espaço de só uma, sendo que as 4060 deviam ser 4050. Tá meio confuso comprar uma 4070 atualmente.

**martec** · 14/09/2024, 10:43 |

(14/09/2024, 10:38)PaninoManino Escreveu: AMD não errou.
AMD fez certo em dividir a arquitetura. CDNA expande os pontos fortes de CCN, como hardware é muito forte para o mercado de servidores/super computadores.
RDNA consertou todos os "problemas" que CCN tinha para desktop e jogos, só ver o salto que foi RDNA1 e 2 comparado com Vega.

Pra mim o erro é juntar as duas arquitetoras novamente, como se a AMD estivesse ainda a beira da falência e não tivesse dinheiro parar investir em software. O que AMD precisa fazer é gastar mais com software, te ter paciência.
Essa volta atrás é apenas para "simplificar" o software, economizar, mas não vai comprometer as arquiteturas.

então vc ta dizendo que quem quer brincar de IA vá de Nvadia? isso? pq RDNA é desastre comparando com CDNA em compute.
pra mim AMD errou sim... deixou o terreno de IA pra Nvadia ... agora ta pagando preço grande pq qse n tem nada de marketshare de IA

**rapier** · (14/09/2024, 10:47)

(14/09/2024, 10:43)martec Escreveu: então vc ta dizendo que quem quer brincar de IA vá de Nvadia? isso? pq RDNA é desastre comparando com CDNA em compute.
pra mim AMD errou sim... deixou o terreno de IA pra Nvadia ... agora ta pagando preço grande pq qse n tem nada de marketshare de IA

Se a AMD tivesse software, RDNA ser fraca em compute teria menos importância. Não só RDNA não é focada em compute, mas ainda tem a questão do suporte do software. É um problema duplo.

Por exemplo, as RDNA costumam ter mais VRAM que as Nvadia correspondentes, logo com bom software isso poderia ser aproveitado melhor para IA. Compensar o processamento mais lento com maior espaço em VRAM para o dataset.

Enquete: Qual destas fabricantes de GPUs é a melhor? You do not have permission to vote in this poll.
AMD	25.88% Voto(s): 22 (25.88%)	22	25.88%
Nvidia	74.12% Voto(s): 63 (74.12%)	63	74.12%
Total 85 votos		85 votos	100%