Qu'on l'appelle Barcelona, agena, kuma ou phenom, la future génération de processeurs AMD arrive enfin !

L'architecture K10 a subi de nombreux retards, mais il faudra patienter encore quelques mois avant de la voir débarquer dans nos PC, pour remplacer progressivement, les athlon X2 et athlon 64, qui commencent à trop souffrir d'un rude concurrence avec les core 2 duo et les multiples baisses de prix. Les athlon X2 ont vu une ultime évolution avec l'athlon X2 6000+ et son core Windsor en 90 nm. Très attendu (et c'est peu dire), le phenom et son grand frère, l'Opteron, ont cependant beaucoup de choses à prouver. De leur succès commercial dépend en grande partie l'avenir d'AMD, surtout qu'après le rachat d'ATI et les différentes baisses de prix AMD est en difficulté financière.
Le phenom est plus qu'un nouveau processeur, le K10 est la quatrième architecture majeure d'AMD , après le K8,les K6 et l'Athlon (K7). On se souvient du K6 qui peinait à égaler en termes de performances les pentium de l'époque, quand au K7 il a réussi a se faire une place en concurrençant le pentium III, mais aussi le Pentium 4 d'Intel. Le K8 a réussi a égaler ou même surpasser les différents pentium 4 et pentium D, il fut un gros succès, mais les core 2 duo et autres quad core d'intel surpassent les CPUs d'AMD. AMD a poussé a bout son architecture K8, en sortant l'athlon X2 6000+ à 3,0 Ghz et son core Windsor en 90 nm avec son TDP de 125 watts , l'architecture K8 atteint clairement ses limites , AMD aurait prévu un CPU K8 à 3.2 Ghz mais il se peut qu'il soit annulé.
L'architecture K10 devra faire aux actuels core 2 duo, mais surtout au futurs CPUs d'Intel dont le nom de code est penryn qui seront gravé en 45 nm, qui sont une évolution des actuels core 2 duo, le penryn devrait débarquer à la fin de l'année en même temps que le K10. Le penryn arrivera avec un nouveau FSB à 1333 Mhz, mais au niveau des fréquences de fonctionnement il devrait être au-dessus des 3,0 Ghz. Intel a décidé de sortir une nouvelle micro-architecture tous les deux ans avec à chaque fois un changement de finesse de gravure. Mais revenons au K10, nous verrons que c'est évolution majeure, avec l'arrivée de la technologie torrenza pour le domaine des serveurs et le SSE128, et d'autres évolutions à venir comme le passage à une finesse de gravure en 45 nm à la seconde moitié de 2008 avec le support de la mémoire DDR3, et plus tard l'arrivée de fusion qui intègrera une partie graphique directement avec le CPU grâce au rachat d'ATI.
Le barcelona ou agena seront les premiers CPUs quad-core d'AMD, avec quatre coeurs sur un seul die, le tout gravé en 65 nm. Intel de ce côté avait choisi plus une solution de facilitée en intégrant deux core 2 duo dans le même CPU. AMD appelle son quad-core comme une native solution. Bien que la solution d'AMD ait un avantage technique dans sa conception, nous sommes incertains si la solution d'AMD aura un impact dans l'utilisation réelle.
Fabriqué avec une finesse de gravure en 65 nm en SOI (Silicon On Insulator), barcelona est plus complexe que le K8. Le K8 nécessitait 9 couches de métal et le core 2 duo 8 alors que le K10 aura 11 couches de métal. AMD a utilisé plus de couches de métal au même niveau de génération qu'Intel, dans les années précédentes.
Les couches de métal supplémentaires rend la fabrication du barcelona un peu plus compliqué, il n'y aura pas de problèmes pour l'utilisateur.

Le die du barelona possède 463 millions de transistors pour une surface de 283 mm² . Avec quatre core et un cache L3 de 2 Mo, le Barcelona possède 119 millions de transistors de moins que le Kentsfield avec ses 582 millions de transistors. Le nombre plus faible de transistors du côté du barcelona vient du fait qu'il y a le cache L1 avec 128 Ko et le cache L2 avec 512 Ko, les quatre cores partageant les 2 Mo de cache L3, ce qui nous fait un total de 4.5 Mo de cache. Chacun des deux dies du Kentsfield renferme deux cores, chaque intègre un cache L1 de 64 Ko et un cache L2 partagé de 4Mo. Un core Kentsfield a un total de 8.25MB de cache , on a plus de 80 % de cache en plus par rapport au barcelona, ce qui explique la différence au niveau du nombre de transistors. Cependant, le barcelona est bien plus qu'un quad-core K8 avec un cache L3 partagé. D'après nos estimations le nombre de transistors qui ne font pas partie du cache dans un Athlon 64 X2 sont au nombre de 94 millions, alors que le barcelona se situe autour de 247 millions.
Le terme microarchitecture se réfère aux caractéristiques de conception employées pour atteindre le coût de cible, performance, et les buts de fonctionnalité du processeur. En d'autres termes, les décodeurs et les unités d'exécution fonctionnent essentiellement indépendamment ; le coeur d'exécution emploie un nombre restreint d'instructions et une design simplifiée de circuit pour réaliser l'exécution rapide de cycle unique avec des fréquences rapides de fonctionnement.
L'architecture système du K8 est déjà tout à fait bonne. Les deux problèmes majeurs pour les systèmes d'AMD étaient l'absence de CPUs quadri-core et de pauvre performances pour les serveurs à huit sockets.
Le seul point sur lequel AMD a le plus insisté pour le Barcelona est qu'il intègre un CPU à quatre coeurs, le barcelona arrive à parité avec la série de Xeon 53xx d'Intel. Le Xeon 53xx, qui porte le nom Clovertown, est réellement une paire de processeurs dual core Woodcrest dans un multi-chip package (MCP). Ces processeurs communiquent grâce au front-side bus, plutôt que par un bus sur la puce ou des caches. En revanche, AMD a opté pour une approche ou le cache est partagé , où le dernier niveau de la cache, le L3 est utilisé par chacun des quatre cores. Le schéma ci-dessous compare la révision F de l'opteron , barcelona et le prochain Intel Clovertown à 3GHz.

Les architectes qui ont conçu le barcelona ont optés pour un MPU entièrement intégré. Un dispositif monolithique fournit finalement des performances plus élevé, particulièrement pour les charges de travail sensibles au largeur de bande qui ne tirent pas bénéfice du cache, tel qu'un HPC ou l'exploitation de données. Cependant, comme aucune décision d'ingénierie n'arrive sans différences.
Tout d'abord, l'intégration complète de toute chose est une décision qui doit être prise au début du projet. Une approche MCP prend moins du temps et peut employer un produit existant en le modifiant légèrement ; d'une manière plus importante, ces changements peuvent être faits plus tard dans le cycle de conception. Les dispositifs monolithiques ont également des rendements inférieurs, car une taille du die plus grande signifie peu de matrices par wafer, et par conséquent les défauts aléatoires ont un plus grand impact. Cependant, il y a des techniques de conception qui laisseront un MPU avec un core lent et un core rapide fonctionnant à fréquence réduite, mais avec une énergie inférieure. Les MPUs monolithiques sont également plus difficiles à fonctionner à la fréquence donnée, puisque pour fonctionner à une vitesse donnée, chacun des quatre cores doit excéder cette cible avec la dissipation appropriée de puissance. Tandis que le département marketing d'AMD aime afficher leur approche en tant que vrai ou native design du quadri-core, la vérité est que les deux approches sont également valides ; un fait a tardivement reconnu par certains des propres cadres d'AMD. Le Clovertown d'Intel est un CPU quadri-core. Les systèmes d'exploitation identifient le Clovertown comme quatre processeurs, et il offre certainement un rendement plus élevé pour beaucoup d'applications qu'un MPU dual core. Cependant, il est également vrai que dans la plupart des situations les performances vont en faveur d'un CPU totalement intégré.
Dans le cas du Barcelona, les avantages d'une plus grande intégration ont été augmentés par une attention particulière à la largeur de bande d'entrée-sortie. Les contrôleurs mémoire du Barcelona ont reçu une révision importante. Le changement le plus évident est que chaque contrôleur supporte les transactions 64B indépendantes, plutôt qu'une simple transaction 128B à travers les deux contrôleurs . Depuis que la DDR2 reste à 32B, ceci améliore l'efficacité de la commande. Cependant, en utilisant la DDR3, l'efficacité de commande chutera parce que la longueur doublera à 64B. Le facteur prédictif emploie des historiques d'accès et des pages d'accès à travers des banques pour décider si il y a besoin de garder la page ouverte pour améliorer l'exécution, ou fermer la page pour réduire la consommation électrique. Pour finir, Barcelona introduit une vérification d'erreurs, qui s'assure que si une erreur de 2 bits est détectée par ECC, elle est contenue et elle affecte seulement le processus qui accéder à celui-ci en premier, plutôt que de se planter ou corrompre le système entier.
Tandis que les processeurs Opteron à la révision F supportaient la DDR2, il y avait peu d'avantage de performances éventuel. Pour tirer profit réellement de la largeur de bande disponible pour la DDR2, une demande plus profonde et des files d'attente de réponse sont nécessaires ; ces changements n'ont pas été faits dans la révision F, mais sont présents dans le Barcelona. AMD a également présenté un buffer d'écriture d'entrée 16-20 dans le contrôleur de mémoire , de sorte que les écritures peuvent être reportées, évitant l'utilisation du bus inutilement. Pour finir, les contrôleurs de mémoire supportent maintenant les prefetchers DRAM qui partagent le buffer d'écriture et peuvent détecter des pas positifs et négatifs. Les versions de serveur du Barcelona supporteront la DIMM avec registres jusqu'à 667MHz , et les versions pour bureau fonctionneront avec une DDR2 à 800 Mhz plus rapide.
SSE128 est une série d'extensions destinées à accélérer les vecteurs arithmétiques. C'est-à-dire, il accélère l'arithmétique qui opère sur de multiples valeurs simultanément, comme SIMD. (Le terme vecteur vient du fait qu'il utilise comme un synonyme pour les matrices arithmétiques dans laquelle les valeurs présentées dans une rangée bidimensionnelle sont sujettes toutes à la même opération arithmétique.) L'arithmétique vectorisée est le type le plus employé couramment dans le multimédia, le traitement audio, et le chiffrage. Le nom SSE128 souligne que ces extensions ne sont pas simplement une collection de nouvelles instructions qui résolvent un sac de noeuds de problèmes, mais plutôt ils sont une collection cohésive de dispositifs conçus pour augmenter les possibilités 64-bit courantes à 128 bits.

La plupart des changements majeures du barcelona étaient dirigés par un changement majeur : qu'est ce qu'AMD appelle SSE128. Dans l'architecture K8, AMD peut exécuter deux opérations SSE en parallèle , cependant les unités d'exécution du SSE est seulement un pas de 64-bits. Pour les opérations du SSE 128-bit , le K8 décompose celui-ci en deux opérations de 64-bit. Ce qui veux dire qu'au moment de cherché une instruction SSE 128 bits, elle est en premier décodé en deux micro-opérations(les Micro-opérations, souvent appelées micro-ops, sont essentiellement la plus petite action effectuée par le processeur sur le résultat d'une instruction. Des instructions sont décomposées en micro-ops pendant une étape de pipeline nommée décodage ; et ces micro-ops sont ce qui est exécuté réellement par les unités d'exécution de processeur.) (une pour chaque moitié 64-bit de l'instruction), de ce fait cela prend plus de temps pour une simple instruction.
Le barcelona élargit les unités des instructions pour la gestion des opérations SSE en passant de 64 bits à 128 bits, le K10 n'a pas besoin d'exécuter deux opérations 64 bits pour une opération SSE 128 bits. Ceci signifie également , que cela devient plus utilisable comme largeur de décodage depuis les instructions SSE 128 bits. Le planificateur de virgule flottante peut maintenant effectuer aussi des opérations SSE 128 bits.
À la différence de l'architecture qui se trouve dans les processeurs RISC qui emploient une taille d'instruction de longueur constante, les instructions dans les processeurs x86 sont de taille variable. Certaines sont très courtes (un octet simple) d'autres sont trés grandes. Parmi les instructions plus grandes ce sont les extensions SSE. Afin de garder ce nouveau moteur d'exécution SSE 128 vorace fonctionnant à pleine capacité, AMD a augmenté la largeur de bande de recherche de l'instruction. Cette largeur de bande représente la capacité de déplacer des instructions du cache dans le pipeline d'exécution. Actuellement, le processeur peut chercher 16 bytes d'instructions par cycle. Avec le barcelona, il a été élevé à 32 bytes/cycle. Cela permet d'améliorer les accès au cache, ce dispositif améliore les performances du CPU sans prendre en compte si les fonctionnalités SSE128 sont utilisées.
Le K10 apporte le support des instructions SSE4a , les instructions SSE4 étaient un nouveau jeu d'instructions destinés au penryn d'Intel. Le SSE4 apporte 47 nouvelles instructions , le SSE4a qui sera intégré dans les futurs barcelona est en faite un dérivé du SSE4 d'Intel qui contient des instructions graphiques, d'encodage vidéo, de calculs 3D, et associées au multimédia.
La DDR2-1066 sera supporté, le K8 supportait la DDR2-800, ceci permet à couper l'herbe sous le pied à intel qui voulait utiliser la DDR3-1066 sur sa future plateforme Bearlake.

Les processeurs de la famille K10 d'AMD sont agressifs, ce sont des CPUs AMD64 à trois voies superscalaires. Ils peuvent chercher, décoder, et résoudre jusqu'à trois instructions AMD64 par cycle avec une unité de commande centralisée d'instruction (ICU) et deux planificateurs indépendants d'instruction pour les nombres entiers et deux planificateurs pour les virgules flottantes. Ces deux planificateurs peuvent résoudre simultanément jusqu'à neuf micro-ops sur les trois unités d'usage universel d'exécution de nombre entier (ALUs), trois unités de génération d'adresse (AGUs) et trois unités d'exécution à virgule flottante. Les processeurs déplacent des instructions de nombre entier grâce au pipeline d'exécution d'entier, qui comprend le planificateur de nombre entier et l'ALU. Les instructions à virgule flottantes sont manipulées par le pipeline d'exécution à virgule flottante, qui comprend le planificateur à virgule flottante et les unités d'exécution à virgule flottante.
Le barcelona ajoute une entrée 512 indirecte prédictive qui prévoit les branches indirectes. Une branche indirect est une branche ou la cible est un endroit pointé par une adresse en mémoire , en d'autres termes, une branche avec des cibles multiples. Au lieu de s'embrancher directement à une étiquette indiquée par l'instruction de branche, une branche indirecte, envoie le CPU à un emplacement mémoire qui contient l'endroit de l'instruction à la laquelle elle devrait s'embrancher.
AMD a introduit un un optimiseur de pile side-band pour enlever ces manipulations de la pile du jeu d'instruction, semblable au moteur dédié de pile dans le Pentium M. Les deux MPUs utilisent deux registres, ESPO et ESPD(c'est une terminologie d'Intel). ESPO est la valeur originale pour l'indicateur de pile et est conservé dans un registre dans la machine out-of-order, alors qu'ESPD, le registre delta , dépiste des changements faits sur l'ESP et est dans le front-end. Depuis que l'ESP esu registre de l'architecture , un micro-op spéciale est fournit pour récupérer l'ESP depuis ESPO et ESPD, bien que l'utilisation de ce petit correctif est minimisé dans le barcelona. Quand une instruction de modification de pile est détectée, elle est enlevée et résolue par un ALU dédié qui modifie ESPD. Ceci signifie que beaucoup d'opérations sur la pile peuvent être traitées en parallèle, libère les réservations des stations, commande à nouveau les buffers et l'ALUs régulier pour d'autres travaux. Les avantages de cette technique sont fortement dépendants de la charge de travail , mais AMD et Intel sont d'accords qu'habituellement 5% des micro-ops peuvent être éliminés.
La technologie HyperTransport est évolutive, rapide, avec une faible latence, point à point, l' HyperTransport contient ceci:
Autorise des taux de transfert de données élevés.
Simplifies la collectivité en remplaçant les anciens bus et ponts.
Réduit les latences et le goulot d'étranglement avec le système.
Quand on le compare avec les technologies traditionnelles, l'HyperTransport autorise des taux de transfert de données plus rapides. Sur les processeurs AMD, l'HyperTransport fournit un lien vers les périphériques I/O. La plupart des modèles de processeurs, par exemple, ceux conçus pour être utiliser dans des systèmes multiprocesseurs et qui utilise l'HyperTransport pour se connecter à d'autres processeurs.
De plus pour supporter les anciennes interfaces HyperTransport, les CPUs AMD supportent un nouvelle version de l'HyperTransport : l'HyperTransport 3.0. L'HyperTransport 3.0 augmente la largeur de bande globale du lien à un maximum de 20.8 Gbyte/s (lien 16-bit).L'HyperTransport 3.0 ajoute aussi à l'HyperTransport la détection et la retransmission des paquets de donnés abimés pendant le transit.
Les fonctionnalités additionnelles dans l'implémentation de l'HyperTransport dans le K10 d'AMD incluses:
La bande passante du lien HyperTransport peut-être repartie sur de multiples liens HyperTransport pour s'adapter au trafic.
Le lien HyperTransport peut être séparer, ce qui autorise un seul lien 16-bit qui peut être séparé en deux liens 8-bit.
Ces fonctionnalités autorise d'autres conceptions pour des plateformes optimisées qui peuvent augmenter la bande passante du système et réduire la latence.

Le Barcelona ajoute aussi un quatrième lien HyperTransport pour des communications inter processeur et pour des unités I/O . Avec quatre lignes, les fabricants de systèmes peuvent concevoir des systèmes avec quatre sockets totalement connectés; ceci réduit sensiblement la latence pendant une transaction, depuis tous les processeurs peuvent être atteint avec un simple saut. Chaque noeud avec le système peut être rattaché à un concentrateur I/O . Cependant, l'infrastructure actuel du socket supporte seulement trois lignes HT1.1, ainsi des conceptions de systèmes innovant auront à attendre une nouvelle interface pour le socket. Initialement, chaque lien fonctionne à 2GT/s, mais ils sont compatibles avec l'HyperTransport 3.0 et les futures parties dans un nouveau système peuvent fonctionner jusqu'à 5.2GT/s. HT 3.0 peut aussi faire varier la largeur du lien et la fréquence pour économiser de l'énergie. Quand un K8 cherche une ligne du cache dans son L1D ou L2, il doit explorer le système et attendre les résultats. En particulier, le K8 explorera la mémoire et tous les autres caches dans le système; une fois qu'il a ses réponses, il peut utiliser la ligne du cache qu'il a cherché. Cependant, avec le Barcelona si il y a une requête sur une ligne du cache qui est dans l'état M ou O (signifie que la mémoire a une mauvaise copie),le CPU ne doit pas attendre d'avoir à chercher la réponse dans mémoire, améliorant la latence de la transaction. Le nouveau protocole ajoute aussi un mécanisme de réessaie pour ne pas être affecté par des erreurs passagères à une fréquence d'horloge plus élevé.
L'HyperTransport 3.0 ajoute aussi un fonctionnalité appelé séparateur de lignes. Chaque ligne HT 3.0 est en réalité un ligne 16 bits dans chaque direction, et peut être séparer en une paire de liens indépendant de 8 bits. C'est assez utile pour se connecter aux périphériques I/O, comme la plupart des systèmes ont suffisamment de périphériques I/O pour saturer une interface 8GB/s ; même 8 disques dur SAS et une paire de cartes 10GBE n'ont pas besoin d'autant de bande passante. Cependant, AMD a également mis en place un séparateur de liens comme un moyen de construire des serveurs avec 8 sockets complètement interconnecté. Les précédentes générations de systèmes à base d'Opteron supportaient jusqu'à 8 sockets, mais les performances ne sont pas bouleversantes sur les benchmarks. Tandis que le Barcelona offrira de hautes performances sur les systèmes à 8 socket ,ceci n'est pas claire par rapport à la demande des utilisateurs. Sun et Fujitsu actuellement vendent des serveurs avec 8 sockets, mais HP et Dell ont abandonné leurs efforts en 2003.
AMD avec son architecture K8 avait introduit la technologie de virtualisation nommé pacifica ou AMD-v. Cette technologie étendait la technologie des AMD64 avec la Direct Connect Architecture pour améliorer la virtualisation. L'amélioration des performances du Barcelona vient du fait de l'accélération de la traduction des adresses de virtualisation. Dans la pile d'un logiciel virtualisé ou vous avez de multiples OS fonctionnant dans un hyperviseur il y a une nouvelle forme de traduction d'adresses mémoire : l'OS invité doit traduire l'adresse mémoire de l'hyperviseur, chaque OS invité a sa propre gestion indépendante de la mémoire. Selon AMD, actuellement cette nouvelle couche de traduction d'adresses est gérée dans le logiciel par une technique appelée shadow paging. Ce que le barcelona offre est une solution alternative d'accélération matérielle pour le shadow paging, qu'AMD appelle la pagination en nid. Prétendument jusqu'à 75% du temps de l'hyperviseur peut être gaspiller dans l'échange avec les shadow pages, qu'AMD élimine en apprenant au matériel le sujet des tables de page d'invité et d'hôte. Les adresses traduites sont mises en caches avec le barcelona dans le TLB pour améliorer les performances. AMD indique que le barcelona supporte la pagination en nid qui a besoin très peu d'implémentation, simplement le réglage d'un mode de bit, rendant le changement facile pour les concepteurs de logiciel à mettre en application.
La gestion de l'énergie avec le K10 se fera grâce au DICE(Dynamic Independent Core Engagement), cette technologie gére chaque core du CPU indépendamment des autres et le contrôleur mémoire en autorisant le CPU à réduire sa consommation énergétique tout en laissant le contrôleur mémoire fonctionner normalement. Les cores du barcelona et le northbridge fonctionneront indépendamment l'un de l'autre à la tension comprise entre 0.8V 1.4V.
Dans une architecture conventionnelle , le Northbridge et le CPU sont déjà sur des plans de fonctionnement différents car le northbridge est externe au CPU. Le bénéfice de cette agencement c'est que les deux puces peuvent avoir une alimentation en énergie différente de l'autre , donc quand le contrôleur mémoire n'a pas grand chose à faire, il peut se mettre en veille. Avec l'architecture K8 d'AMD il n'y a pas un vrai northbridge et les cores du CPU fonctionne sur le même plan énergétique. Avec le barcelona ou le K10 , ils sont séparer pour améliorer la consommation énergétique. Les cores individuellement peuvent partager la même tension de référence, mais chaque core possède son propre PLL qui peut fonctionner à des différentes fréquences d'horloge qui dépend de la charge. Tandis que les tensions des quatre cores sont égales, et la fréquence d'horloge peuvent être réduit en fonction de la charge.
Torrenza est une architecture système flexible crée autour de normes ouvertes , cette architecture permet d'avoir sur un socket un puce spécialisée permet de servir à pleins de choses, cela pourrait même être une puce graphique. La fondation de torrenza bénéficie des avantages de l'architecture X86 et un écosystème combiné avec les interfaces ouvertes actuelles HyperTransport (HT) et PCI Express (PCIe). Grâce à cela Torrenza favorise la capacité de développer des co-processeurs personnalisés ou des solutions d'accélération pour des conceptions de systèmes uniques qui peuvent être modulables, flexible et rentables.

La question de la largeur de bande entre les CPUs et les Co-processeurs a habituellement été le point de blocage principal à leur mise en pratique. Après des années sans une chose de reconnue, un connecteur conçu pour une telle extension employant l'interface HyperTransport a été présenté et est connu comme HyperTransport eXpansion (HTX). Utilisant le même connecteur mécanique qu'une ligne PCI-Express 16x (plus un connecteur x1 pour des broches d'alimentation) ou sur un socket, HTX autorise le développement de cartes d'extensions permettant un accès direct au CPU et un accès DMA pour atteindre la RAM. La carte initiale pour cet emplacement était la QLogic InfiniPath InfiniBand HCA. Le standard actuel HTX est limité à 16 bits et à une fréquence de 800 Mhz. Les normes PCIe et HT sont publiques et exigent seulement la participation au consortium PCISIG et HyperTransport, respectivement. La signification des broches des CPUs AMD est également disponible publiquement grâce à la documentation technique d'AMD. AMD, cependant, offre également une licence optionnelle qui permet d'avoir des informations sur des spécifications additionnelles au sujet de l'architecture d'AMD et un support d'ingénierie.
L'interface HT fournit un certain nombre d'avantages par rapport à l'utilisation du PCIe, quoique le PCIe inclus un certain nombre de dispositifs, tel que le changement à chaud , ce que le HT ne supporte pas. La plupart de ces fonctionnalités ne seraient pas utilisées par un processeur dans une configuration système hétérogène ; tandis qu'une faible latence et une grosse bande passante sont les dispositifs en général critiques pour les solutions co-processeur. HT sur la génération actuelle de CPUs AMD offre une largeur de bande maximale de 8GBps par lien, avec une latence dans la gamme de 100ns, comparée à la largeur de bande maximale d'une configuration de x16 PCIe de 5GBps et une latence importante de 750ns selon le jeu de puces et la taille de paquet. Le résultat est près d'un delta de 40% dans la largeur de bande et d'un delta de 90% dans la latence. Le support du PCIe cependant autorise , la compatibilité avec n'importe quel microarchitecture de processeur x86 actuellement disponible, des solutions proposé par d'autres fournisseurs, et des applications qui n'exigent pas le même niveau de performance.
AMD travaille avec le Consortium HyperTransport et PCISIG pour améliorer les spécifications pour l'utilisation des co-processeurs et accélérateurs via l' interface HT ou PCIe. Puisque la majorité des périphériques connectés au HT sont énumérer comme périphériques PCIe, des normes pour les deux interfaces sont développées dans le PCISIG. Un avantage principal que possède AMD avec son interface HT est sa présence dans le consortium HyperTransport qui assure une faible latence, haute performance avec la bande passante tandis qu'AMD ajoute des fonctionnalités additionnelles compatible avec les autres interfaces dans les futures révisions. Torrenza crée également quelques défis techniques, incluant le support d'une méthode de communication entre les éléments du processeur pour l'exécution de code, le partage de la mémoire et/ou les données, et le support de fonctionnalités pour la plateforme comme virtualisation, sécurité, et gestion de l'énergie. Tous ceci doit être supporté par un logiciel ou un firmware. La première étape critique est communication entre les éléments de traitement. Avec des éléments coprocesseurs comme des architectures non-x86, une méthode commune de communication entre les processeurs doit être établie. Différentes méthodes peuvent être utilisées pour atteindre ce but, comme l'intégration d'un IP block sur le coprocesseur pour exécuter ou convertir les instructions X86, l'utilisation d'une couche application pour fournir des possibilités de programmation communes, l'utilisation d'une machine virtuelle pour faire fonctionner le coprocesseur sur une partition séparée, ou de nouvelles instructions et/ou commandes communes permettant communiquer entre les éléments hétérogènes. Bien que toutes ces solutions soient possibles avec torrenza, AMD recommande l'utilisation de commandes communes pour faire circuler l'information entre les éléments de traitement. AMD travaille en collaboration avec les concepteurs de BIOS comme AMI et Phoenix pour que les coprocesseurs puissent être reconnus et configurés. Un risque important pour torrenza est le défi de mobiliser un écosystème entier composé de logiciel , silicone et vendeurs de systèmes pour satisfaire les demandes du marché d'une façon rentable.
AMD a décidé de mettre en place une nouvelle nomenclature pour ses CPUs. Des lettres permettent de distinguer le segment du processeur et sa dissipation énergétique, et ensuite il y a 4 chiffres, par exemple Athlon X2 BE-2100. Cette nouvelle nomenclature sera effective sur tous les CPUs mis à part les phenom FX qui garderont la même nomenclature que les athlon FX. L'ancien PR-Rating sera mis aux oubliettes. Le segment du CPU qui prennent les lettres G,B,L indiquent dans quelle gamme se situe le CPU.
Le barcelona sera le premier core de la micro-architecture K10 a être mis sur le marché depuis 2003, il n'y a pas de nouvelle micro-architecture de la part d'AMD. Plutôt que de recommencer à zéro, le barcelona se base sur la génération précédente et améliore la plupart des parties de l'ancienne architecture. Le K10 est donc une amélioration en profondeur du K8, avec le passage à la gravure en 65 nm, puis au second semestre 2008, AMD passera au 45 nm. Il y a une chose qui est flagrante avec la barcelona, c'est la présence du multithreading, qui peut fournir une grosse amélioration dans une future micro-architecture, tel que le K10. Cependant, AMD est plutôt conservateur, une conception cohérente a bien fonctionner par le passé. Le barcelona est une solide amélioration dune manière générale et et devrait donner augmenter les ventes d'AMD à travers plusieurs marchés principaux. Les avantages au niveau des performances seront décisifs pour les applications HPC (High performance computing )et serveurs MP , d'autres secteurs seront moins tournés vers les performances. Espérons que le K10, nous révèle de belles surprises.
| Commentaires |
|
Seul les utilisateurs enregistrés peuvent écrire un commentaire!
Powered by !JoomlaComment





