Intel desenvolupa GPU discretes per a jugadors, professionals i servidors, i tots es publicaran aquest any o el 2021. Les targetes d’Intel seran els salvadors esperats d’un mercat lent, o fracassaran i tindran un rendiment inferior al desgraciat (sense pressió, el personal de relacions intel·lectuals d’Intel ho llegeix). Personalment, estic content de qualsevol manera: obtenim bones GPU o estem aconseguint bones coses per divertir-nos.

Aquest és el nostre segona ronda Xe investigació va transcendir durant els darrers mesos. Per resumir ràpidament, la cronologia dels principals anuncis que Intel ha fet des que es van fer públics amb el desenvolupament de Xe:

  • 8 de novembre de 2017: Raja Koduri deixa la seva feina dirigint el departament de GPU d’AMD i s’uneix a Intel i esdevé vicepresident sènior d’informàtica bàsica i visual. La seva primera acció és contractar mitja dotzena d’antics amics de les files d’AMD.
  • 12 de juny de 2018: Llavors, el conseller delegat, Brain Krzanich, va dir als inversors d'Intel So àrtic fa anys que tenen una arquitectura GPU discreta i tenen previst llançar-la el 2020.
  • 8 de gener de 2019: Gregory Bryant, vicepresident sènior d’ordinadors clients, va confirmar al CES que la primera ronda de GPU d’Intel arribarà al node de 10 nm.
  • 1 de maig de 2019: Jim Jeffers, enginyer principal sènior i gerent de l’equip de representació i visualització, va anunciar la capacitat de localització de raigs de Xe a FMX19.
  • 17 de novembre de 2019: Raja Koduri va explicar que Xe tindrà tres tipus d’informàtica, d’alt rendiment, baixa potència i alt rendiment. Va dir que la primera GPU de la segona categoria serà el Ponte Vecchio que arribarà al node de 7 nm el 2021.
  • 9 de gener de 2019: Es publiquen les primeres imatges de l'eina de desenvolupament de programari Discrete Graphics One (DG1 SDV), que mostra una petita targeta d'infusió RGB que ajuda els desenvolupadors a optimitzar el seu programari per a l'arquitectura Xe.

I tal que ...

  • 17 de març de 2020: L’enginyer sènior en relacions amb els desenvolupadors, Antoine Cohade, presentarà a GDC el “recorregut detallat per l’arquitectura de maquinari” i els “resultats de rendiment” de Xe.

La narrativa oficial converteix la història d'Intel de construir misterioses GPU amb moltes funcions desitjables al lloc de treball; millors nusos, traçat de raigs, noves tècniques d’embalatge. Però tots dos sabem que el que fa que la GPU no sigui el truc, sinó la potència i els diners. Aquest és el tema d’aquest article.




Arquitectònic

Una bona arquitectura comença amb un maó i les GPU també ... excepte Intels. Els nuclis d'AMD i Nvidia executen una transacció per hora, però Intel unitats executives (AB) té vuit representacions. Però, tot i les imprecisions tècniques, definirem un AB com a equivalent a vuit nuclis per a la comparació.




Les tècniques de construcció són senzilles, a part de la necessitat d'Intel de construir vuit maons a la vegada. Poden ajuntar diversos maons i fer una paret. Deixeu que hi hagi diverses parets i una habitació, podeu fer-ne diversos mandrils i un cercle junts.

Ignorant els passos intermedis, la unitat independent més gran (cercle) de Xe llesca i cadascun conté 512 o 768 nuclis per a talls d’alt rendiment i baixa potència, respectivament. Tot el que necessiteu és un cercle, de manera que les targetes de baix consum només fan servir un segment. Però si no us voleu instal·lar allà, Intel fabrica GPU entusiastes d’estil gratacel formades per moltes llesques.







Això és tot el que heu de saber sobre l'arquitectura Xe per entendre què passa, però si podeu parlar d'alguns trucs tècnics i similars, no us ometeu el següent.




A les GPU integrades d’Intel a la Gen11 llesca fet de vuit sub llesquesdels quals n’hi havia vuit unitats executives cadascú. Per a Gen12 (la primera generació de Xe) ho va negar una mica i unitats de càlcul (CUs) i amb canvis al backend de representació.

Al setembre, el codi es va penjar accidentalment a GitHub filtrat Configuracions de DG1, Ponte Vecchio i una variant de DG2. Aquesta filtració és fiable perquè s’ha demostrat que la predicció intuïtiva que Ponte Vecchio tindrà dos talls és correcta. La predicció que DG1 tindrà sis sub-trams per segment i, per tant, 96 UA, un o més Expedient CEE dóna el mateix nombre.

La filtració revela que Intel té 16 AB per sub-segment en tots els models Gen12 i quatre sub-segments per segment, específicament a Ponte Vecchio. Després de Koduri revelar Ponte Vecchio té dues llesques i setze CU.




Només cal dir que el Ponte Vecchio probablement funcioni de la següent manera: vuit AB es van combinar en un CU (64 nuclis) emparellat amb una sub-llesca (128 nuclis / 16 AU) que era una llesca (512 nuclis / 512 UA). / 64 AB). Amb dues llesques significa que el Ponte Vecchio té 128 AB, 1024 nuclis. Tingueu en compte que la configuració de dues llesques només pot ser per a prototips.

Es preveu que la configuració bàsica de llesques de Ponte Vecchio s’utilitzi en models d’alt rendiment i poca potència.

DG2: alt rendiment

La microarquitectura d’alt rendiment, anomenada Discrete Graphics Two (DG2), cobreix els mercats de GPU de gamma mitjana i entusiasta. Aquestes targetes comptaran amb seguiment de raigs i RGB bling, però el més emocionant és el potencial d'Intel per desafiar la raresa de la formació de Nvidia de més de 600 dòlars.

"El Xe HP ... seria fàcilment el silici més gran dissenyat a l'Índia i el silici més gran de qualsevol lloc". - Raja Koduri

El passat mes de juliol, Intel accidentalment conductor (Gràcies!) Que conté tres noms de codi DG2, iDG2HP128, iDG2HP256, i iDG2HP512. Suposant que els darrers tres dígits mostren el número AB del tauler, tenen 1024, 2048 i 4096 nuclis, respectivament. Es tracta de dues, quatre i vuit llesques.

Però al cap de molt poc temps, proves També s’ha desenvolupat una GPU de tres zones amb 1536 nuclis. Considerant que és lògic que Intel desenvolupés una quarta targeta similar als models actuals, és segur admetre que es tracta d’un iDG2HP256 amb discapacitat. Això dóna suport a les sospites generalitzades que Intel ha adoptat tres models base i ha desactivat un o més trams per afegir els models quart, cinquè, sisè o setè a la seva gamma.

Nombre de llesques 1 2 3 4 5 6 7 8
Recompte bàsic 768* 1024 1536 2048 2560 3072 3584 4096
Nom en clau iDG1LPDEV iDG2HP128   iDG2HP256       iDG2HP512

DG2 també serà més que GPU per a jocs. No podran gestionar càrregues de treball científiques com el Ponte Vecchio, però si valen la pena quan es publiquen, definitivament es poden tornar a comercialitzar amb controladors professionals com a maquinari d’edició de vídeo o de modelatge 3D com les targetes Quadro de Nvidia.

DG1: Baixa potència

El segment de baixa potència oscil·la entre els 5W i els 50W. 5W - 20W per a GPU integrades i 20W - 50W per a discrets.

Intel ens va presentar el primer membre de la família LP. DG1 SDV Es va veure de manera destacada al CES 2020 amb Destiny 2 i Warframe en RGB i tot. Però només es vesteix com una carta de joc. DG1 SDV és només per a desenvolupadors, dissenyat per ajudar a migrar programari i controladors a la plataforma Xe.

Però això no vol dir que finalment no es pugui comprar una cosa similar: Intel ja ha demostrat que funciona en un ordinador portàtil.

Es informa que les formes integrades de la GPU LP tenen 64 a 768 nuclis, mentre que les GPU LP discretes només utilitzen els 768 nuclis. Aquest és el millor maquinari integrat d’AMD i un nombre comparable de nuclis a les GPU discretes de nivell més baix de Nvidia. Però a velocitat de rellotge, el Xe LP pot superar-los.

Filtrat Execució de Geekbench un processador mòbil Rocket Lake té una GPU LP de 768 nuclis integrada que funciona a 1,5 GHz. És el mateix rendiment que el GTX 1650. És impressionant, fins i tot amb 1,5 GHz amb TDP complet de 20W i Intel no podia accelerar ni 1 MHz més abans del seu llançament.

Imagineu l’eficàcia d’aquest processador. La GTX 1650 té una mica menys de TFLOP i 75W TDP: gairebé quatre vegades més. Una GPU LP empesa a 50 W augmentarà encara més les velocitats del rellotge i pot introduir el mateix suport de rendiment que la GTX 1660.

Però les coses bones no s’aturen aquí. Actualitzacions del nucli Linux espectacle Intel planeja una manera d’executar gràfics integrats i discrets simultàniament i potencialment junts. Si això passa, tota la potència de la iGPU es pot emparellar amb la potència de la GPU discreta per crear una GPU unificada de 1536 nuclis que estalvie espai i sigui rendible. És una manera excel·lent d’obtenir més rendiment de la mateixa silicona.

Ponte Vecchio: Veri Hesaplama

Quan vaig dir a la introducció que només importava la potència bruta d’una GPU, vaig mentir clic d'inici de sessió confirmat. Aquest no és el cas de cap GPU i centre de dades Pont vell sobretot. Ponte Vecchio tracta de trucs i tècniques que maximitzen l’eficiència.

Fet divertit:
Koduri va triar Ponte Vecchio després del pont de Florència perquè li encantava el gelat.

Ponte Vecchio sobretot Superordinador Aurora això hauria d'indicar el tipus de càrregues de treball que us seran optimitzades.

Si no us ha donat cap senyal, ho explicaré: doble precisió. Bàsicament, és el primer que hi ha a la llista per a cada GPU del centre de dades i Koduri ha debatut la major part del seu temps durant el llançament. Malauradament, l’únic número que hi posarà és el rendiment teòric FP64 de la UE de Ponte Vecchio, aproximadament 40 vegades el dels Gen11.

Fent algunes de les matemàtiques del tovalló, uns 20 TFLOP en FP64 per 1024 targeta bàsica. Però no prengueu això com un evangeli perquè no hi ha prou xifres significatives en el càlcul per obtenir resultats significatius.

La segona de les càrregues de treball d’alta precisió és un treball intrínsecament de baixa precisió. Ponte Vecchio admet INT8, BF16 i els habituals FP8 i FP16 per al processament de xarxes neuronals AI. Cada AB està equipat amb un motor de matriu (com el nucli tensor Nvidia) per processar matrius 32 vegades més ràpid que un AB estàndard.

Tot i això, cap d’aquestes són especialment noves. La força real del Ponte Vecchio es troba en el subsistema de memòria, que permet a la GPU afrontar els problemes de maneres noves.

Per fer-ho, Ponte Vecchio aprofita les noves tecnologies de connexió importants d'Intel, Foveros i EMIB (pont de connexió multi-motlle incrustat). Foveros fa ús de formes siliconades per apilar diversos xips a sobre del motlle d’eines actives, proporcionant-los velocitats semblants al xip però connectivitat fora del xip. En canvi, EMIB és un enllaç “ximple” entre dos xips que utilitzen un dau inactiu, però que ofereix un ample de banda elevat a un cost inferior.

EMIB i Foveros

EMIB s'utilitza per aclarir l'increïble ample de banda de memòria de Ponte Vecchio per connectar directament el maquinari informàtic de la GPU a l'HBM. Foveros s’utilitza per lligar dues CU en una subdivisió a una memòria cau RAMBO, la nova super memòria cau d’Intel. Gràcies a Foveros, RAMBO no té limitacions quant a la seva capacitat ni petjada i pot passar per alt les CU quan envia / rep dades de HBM o altres subdivisions.

Tenir una memòria cau enorme - i vull dir enorme, enorme, els diagrames d'Intel mostren un xip RAMBO de la mateixa mida que un CU - és òbviament molt car, però desbloqueja algunes opcions intel·ligents. En el processament de xarxes neuronals, per exemple, RAMBO pot emmagatzemar matrius en una mida més gran que altres memòries cau de GPU. A mesura que les matrius augmenten i el nivell de sensibilitat augmenta, altres GPU perden el rendiment, però Ponte Vecchio pot mantenir el rendiment més alt.

Pont vell

La memòria cau RAMBO també alimenta Xe Memory Fabric, un enllaç i una teranyina de tecnologies que crea agrupacions de recursos a partir de cada GPU i CPU en un node de servidor. Tot i que la memòria cau RAMBO de cada GPU es combina en un sol banc que tot pot utilitzar, la connexió més lenta és quan les CPU es produeixen a 63 GB / s sobre PCIe 5.0.

Recentment reunió anual d’inversors d’ingressosIntel va confirmar que Ponte Vecchio començarà a enviar-se el quart trimestre del 2021. No està clar si això significa un llançament complet o un llançament especial especial per al superordinador Aurora.

Programari

El maquinari està bé i és totalment inútil sense un suport de programari adequat. I el llindar és bastant elevat: si fins i tot l’1% dels jocs no tenen suport adequat, milions de jugadors s’alienen. La bona notícia és que Intel sembla estar fent el possible.

Intel redisseny Arquitectura de conjunts d’instruccions (ISA), que és el nivell de programari més baix per a aplicacions modernes d’alt rendiment. “El Gen12 està previst que inclogui un dels estudis més profunds sobre Intel EU ISA des de l’i965 original. Cal actualitzar gairebé totes les àrees d’ordres, codis d’opció de maquinari i codificació de tipus de registre. "

A nivell de controlador, Intel té un camí més llarg però avança. Els controladors de GPU integrats no s’actualitzen tan sovint com els seus competidors, mentre que les darreres deu actualitzacions són de 26 dies per a Intel, 14 dies per a Nvidia i 12 dies per a AMD. No obstant això, la seva estabilitat i suport van millorar molt el 2019 i es van optimitzar 275 títols nous per a l'arquitectura d'Intel.

D'altra banda, el programari d'Intel orientat al client és excel·lent. El recentment llançat Graphics Command Center proporciona un control significatiu i és més fàcil d’utilitzar que, per exemple, GeForce Experience de Nvidia. Igual que GeForce Experience, pot optimitzar els jocs per a configuracions de maquinari específiques, però explica què fa cada configuració i quin serà l’impacte en el rendiment. El control de la unitat és molt senzill.

Command Center també és únic en proporcionar controls avançats a la pantalla. Ofereix una configuració multi-pantalla sense dolor i extenses opcions per ajustar l’estil de color amb la freqüència d’actualització i la sincronització de rotació. Personalment l’utilitzo per comprovar el meu sistema tot i que funciona amb el maquinari Nvidia.

Com a bonificació, els productes Xe admetran els monitors FreeSync i G-Sync, ja que Intel també admet una freqüència d’actualització variable.

Alliberament

Tot i que Intel és una mica tímid sobre allò que publicaran a GDC al març, tenim moltes possibilitats de fer una declaració completa. Si és així, podem esperar que sigui evacuat en els propers mesos. El candidat més probable és el juny.

L’octubre passat, Koduri va publicar un tuit no massa subtil pista en forma d’imatge del seu nou plat. Es diu "Think Xe" i és el juny del 2020. Es nega a comentar si la història té alguna importància, cosa que suggereix que probablement sí.

Un dels avantatges de filtrar una data com aquesta és que si les GPU arriben al juliol, es diu al públic què pot esperar sense causar massa emoció, ja que els fans es molestaran. Per tant, considereu-ho com un objectiu difuminat; Probablement Intel s’orienta a una versió de juny (amb el temps per a Computex), però pot trigar una mica més en funció de com vagin les coses.

Intel assenyala algunes coses fantàstiques i esperem tenir un tercer gran jugador a l’espai gràfic. Però fins que no arribi el moment, no podem ser més que prudents optimistes.

Dreceres de compres: