AMD Bulldozer

Wikipediasta
(Ohjattu sivulta AMD 15h)
Siirry navigaatioon Siirry hakuun

AMD Bulldozer on AMD:n mikroarkkitehtuuri- ja suoritinperhe. Saman arkkitehtuurin eri sukupolvet[1], Bulldozer, Piledriver, Steamroller ja Excavator, on tunnistettavissa suorittimen Family 15h tunnuskoodista. Tähän perustuvat suorittimet tulivat markkinoille lokakuussa 2011. 15h-sarja on seuraaja AMD K10 -arkkitehtuurille. Sarjan suorittimia markkinoitiin pääasiassa AMD FX -tuotemerkillä.

Arkkitehtuurin seuraaja on AMD Zen[2], johon pohjautuvia suorittimia myydään Ryzen-, Threadripper- ja Epyc-malleina.

Bulldozer-suorittimen lohkokaavio

Bulldozer on AMD:n kehittämä suoritinarkkitehtuuri, jonka ensimmäiset suorittimet yhtiö julkaisi lokakuussa 2011.[1][3] Bulldozerin kehitystyö tehtiin puhtaalta pöydältä, koska aiempien K7-johdannaisten suoritinmallien rakenne oli vanhentunut eikä niissä ollut enää varaa parannuksiin. Esimerkiksi Tomasulo-pohjainen käskyjen uudelleenjärjestely haluttiin vaihtaa PRF-pohjaiseen, joka voisi mahdollistaa sekä suuremman kellotaajuuden että pienemmän virrankulutuksen.

Bulldozer-pohjaiset suorittimet valmistettiin 32 nanometrin valmistusprosessilla GlobalFoundriesin tehtailla.

Bulldozerin rakenne perustuu kahdesta ytimestä koostuvaan moduliin, jossa ytimillä on yhteinen L2-välimuisti, L1-käskyvälimuisti, käskynhaku- ja käskyndekoodauslogiikka sekä liukulukuyksikkö mutta erilliset kokonaislukudatapolut ja L1-datavälimuistit.

Arkkitehtuuri on suunniteltu moduulina, jossa edustaosa ja liukulukuyksikkö (FPU) ovat jaettuja, mutta kokonaislukuyksikkö on monistettu.[4] Edustaosa sisältää käskyjen haun, dekoodauksen sekä haarautumisen ennakoinnin. Edustaosa on jaettu kahdelle ytimelle moduulissa, jossa on kaksi ydintä.[5] Edustaosa voi hakea ja dekoodata neljä x86-käskyä kellojaksoa kohden. Dekoodaus tuottaa joko sisäisiä mikro-operaatioita ("cops") tai viittauksia mikrokoodiin.[4] AMD kutsui ratkaisua "klusteroiduksi monisäikeistykseksi" (CMT).[6]

L2-välimuistin koko on 2 MiB/moduuli, L1-käskyvälimuistin koko on 64 kiB/moduuli, ja L1-Datavälimuistin koko on 16 kiB/ydin. Datavälimuisti on 4-tie-assosiatiivinen. [7]

Molemmissa kokonaislukuytimissä on kaksi ALUa ja kaksi AGUa jotka kykenevät suorittamaan yhteensä neljä itsenäistä arimeettista laskutoimitusta ja neljä muistioperaatiota kellojaksossa yhdessä moduulissa.

Ennen julkaisua kerrottiin suorittimessa olevan "Flex FP" -ratkaisu, jossa yksi liukulukuyksikkö (FPU) on jaettu kahden ytimen välillä: 16-ytimisessä suorittimessa olisi kahdeksan liukulukuyksikköä.[8] Flex FP -yksiköt voivat suorittaa 256-bittisiä liukulukukomentoja AVX-käskylaajennoksella.[8] AVX-yhteensopiva ohjelmakoodi voi suorittaa "kahdeksan 32-bittistä tai neljä 64-bittistä komentoa kellojaksoa kohden".[8] Flex FP koostuu kahdesta 128-bittisestä FMAC-yksiköstä, jotka voivat suorittaa FMAC-, FADD- ja FMUL-käskyjä joko yhdistettynä 256-bittisenä tai jaettuna kahdeksi 128-bittiseksi käskyksi.[8] [9]

Bulldozer suunniteltiin alun perin toimimaan melko suurella kellotaajuudella, jonka johdosta siinä oli esimerkiksi välimuisteilla pitkiä viiveitä jotka huononsivat kellojaksokohtaista suorituskykyä, mutta suunnitelma oli että se mitä kellojaksokohtaisessa suorituskyvyssä olisi hävitty, olisi voitettu suuremmalla kellotaajuudella. Bulldozer-pohjaiset piirit eivät kuitenkaan toimineet niin suurella kellotaajuudella kuin alun perin oli suunniteltu, ja säiekohtainen suorituskyky jäi heikoksi.

Lisäksi L1-käskyvälimuistin joukkoassosiatiivisuus oli liian pieni suhteessa välimuistin kokoon siten että yhden välimuistisetin koko oli suurempi kuin virtuaalimuistisivun koko, joka johti välimuistin aliasointiongelmaan, joka hidasti suoritinta selvästi tietyissä tilanteissa. Välimuistiongelmiin julkaistiin myöhemmin korjauksia, joilla suorittimen suorituskykyä pystyttiin parantamaan muutamilla prosenteilla.[10]

Jotta piiri kellottuisi lähellä alkuperäistä tavoitekellotaajuutta, sitä käytettiin melko suurellaselvennä jännitteellä, ja lopputuloksena suorittimet kuluttivat paljon virtaa ja niiden yhden säikeen suorituskyky oli silti vastaaviin Intelin suorittimiin nähden heikko.[11] Bulldozerien suorituskyky oli myös merkittävästi huonompi kellolta kellolle vertailussa Intelin Sandy Bridge -suorittimiin nähden.

Suoritinmallit

[muokkaa | muokkaa wikitekstiä]

Seuraavat AMD FX -sarjan suorittimet käyttävät Bulldozer mikroarkkitehtuuria:

  • FX-8150
  • FX-8120
  • FX-8100
  • FX-6200
  • FX-6120
  • FX-6100
  • FX-4170
  • FX-4130
  • FX-4100

Lisäksi AMD Opteron mallit 4200 ja 6200 (Valencia ja Interlagos) käyttävät Bulldozer-mikroarkkitehtuuria.[12] Malleissa on neljästä kuuteentoista ydintä ja 8 tai 16 megatavua L3-tason välimuistia.[12]

Piledriver on AMD:n toisen sukupolven Bulldozer-arkkitehtuurin suoritinsukupolvi. Piledriverissä AMD keskittyi vähentämään virrankulutusta ja tekemään suorittimen toimintaan pieniä viilauksia, jotka tasapainottivat suorituskykyä selvästi. Samalla kellotaajuksia saatiin korotettua hieman sekä kellokohtaista suorituskykyä parannettua. Markkinoilla suoritin ei pärjännyt kovin hyvin, sillä Intel oli ehtinyt julkaista Sandy Bridge- ja Ivy Bridge -mikroarkkitehtuurin suorittimet, jotka tarjosivat sekä selvästi parempaa yhden säikeen suorituskykyä että pienempää virrankulutusta. Monen säikeen suorituskyvyssäkin Piledriver oli vain tasoissa näiden kanssa, eivätkä kovin monet ohjelmat osanneet hyödyntää kunnolla montaa säiettä.

Yksi oleellinen muutos Piledriverissa oli Bulldozerissa olleen rikkinäisen ja siksi pois päältä kytketyn kokonaislukujakolaskuyksikön korjaaminen ja kytkeminen päälle; Bulldozerissa jakolaskut suoritettiin mikrokoodilla piirin muita yksiköitä käyttäen, joka oli hitaampaa.

Piledriver-ytimiä käytettiin kahdessa eri piirissä, kahdeksan ydintä sisältävässä AMD FX- ja AMD Opteron-nimillä myydyssä piirissä sekä 4-ytimisenä APU-piirinä jossa samalla piirillä oli myös näytönohjain. Piledriverin seuraaja oli Steamroller-arkkitehtuuri, joka edelleen perustui siihen mutta sisälsi suurempia parannuksia.

Suoritinmallit

[muokkaa | muokkaa wikitekstiä]

Seuraavat AMD FX -sarjan suorittimet käyttävät Piledriver mikroarkkitehtuuria:

  • FX-9590
  • FX-9370
  • FX-8370
  • FX-8370E
  • FX-8350
  • FX-8320
  • FX-8320E
  • FX-8310
  • FX-8300
  • FX-6350
  • FX-6300
  • FX-4350
  • FX-4320
  • FX-4300

Lisäksi mikroarkkitehtuuria käytettiin A-sarjan APU-malleissa.

Steamroller on jatkoa AMD:n kolmannen sukupolven Bulldozer-arkkitehtuurin suoritin. Steamroller on suora seuraaja Piledriver suorittimelle. Steamroller-suorittimessa AMD jatkaa aiemmista Bulldozer-sukupolven suorittimista tutulla moduulilinjalla jossa yksi fyysinen suoritinydin kykenee ajamaan kahta säiettä yhtä aikaa.

Steamrollerissa oleellisimmat muutokset Piledriveriin nähden olivat käskyvälimuistin koon puolitoistakertaistaminen 64 kibitavusta 96 kibitavuun, sekä käskydekooderin monistaminen molemmille ytimille; Aiemmissa Bulldozer-johdannaisissa suorittimissa oli modulin molemmille ytimille yhteinen käskydekooderi. Erilliset dekooderit molemmille ytimille auttoivat selvästi monen säikeen suorituskykyä, mutta eivät vaikuttaneet yhden säikeen suorituskykyyn. Käskyvälimuistin koon kasvattaminen sen sijaan auttoi sekä yhden että monen säikeen suorituskykyyn.

Steamrollerin sisältänyt Kaveri-piiri valmistettiin uudemmalla ja halvemmalla 28 nm valmistustekniikalla jossa ei käytetty SOI-eristekerrosta, minkä takia se toimi pienemmillä kellotaajuuksilla kuin aiemmat 32 nm SOI-tekniikalla varustetut piirit.

Excavator on AMD:n neljännen sukupolven Bulldozer-arkkitehtuuriin perustuva suoritin. Kuten edeltäjäänsä Steamroller-suoritinta, Excavatoria ei julkaistu High End-sarjaan vaan pysyttäydyttiin kannettavien tietokoneiden suorittimissa ja APU-suorittimissa. Excavator on myös ensimmäinen HSA 1.0 yhteensopiva suoritin eli se kykenee käyttämään näytönohjainta ja suoritinta saumattomasti yhteen mikäli ohjelma tukee HSA toimintoja. Suoritin valmistetaan 28 nanometrin valmistusprosessilla.

Excavatorissa oli aiempia Bulldozer-johdannaisia tasapainoisempi välimuistirakenne; L1-datavälimuistin koko tuplattiin 16 kibitavusta 32 kibitavuun, ja L2-välimuistin koko puolitettiin kahdesta mebitavusta yhteen. Lisäksi piirin fyysinen suunnittelu oli tehty käyttäen kellotaajuusoptimoitujen logiikkakirjastojen sijasta pinta-ala- ja virrankulutusoptimoituja kirjastoja, minkä takia Excavatorilla saavutettiin hiukan pienempi maksimikellotaajuus kuin Stamrollerilla, mutta virrankulutus oli selvästi pienempi.

AMD haastettiin oikeuteen väittäen, että asiakkaita johdettiin harhaan ilmoittamalla suorittimissa olevan enemmän ytimiä kuin todellinen määrä.[13] Kanteen mukaan Bulldozerissa mainostettiin olevan kahdeksan ydintä kun todellisuudessa niitä oli neljä.[13] AMD sopi kiistan maksamalla 12,1 miljoonaa dollaria hyvityksiä FX-8000/9000 -sarjan suorittimia ostaneille.[14] Kiista koski ytimien määrän lisäksi jaettua liukulukuyksikköä, joka ei antanut vastaavaa suorituskykyä kuin erillinen yksikkö.[14] Bulldozer-mikroarkkitehtuuri käytti moduuleja, joissa oli kaksi ALU-yksikköä ja jaettu liukulukuyksikkö.[14] AMD oli ilmoittanut ytimien määrän ALU-yksiköiden mukaan, mutta suorituskyky ei ollut vastaava kuin kilpailijalla.[14]

  1. a b Kurri, Sampsa: AMD:n Bulldozer-kortti pelattu, tulevaisuudessa Piledriver, Steamroller ja Excavator 14.10.2011. Muropaketti. Arkistoitu 1.3.2014. Viitattu 25.2.2014.
  2. Brad Chacos: AMD Zen-based CPUs and APUs will unify around Socket AM4 PCWorld. 8.1.2016.
  3. Kurri, Sampsa: AMD FX-8150 (Zambezi) 12.10.2011. Muropaketti. Viitattu 25.2.2014.
  4. a b Michael Butler & Leslie Barnes & Debjit Das Sarma & Bob Gelinas: Bulldozer: An Approach to Multithreaded Compute Performance pds.ucdenver.edu. 2011. doi:10.1109/MM.2011.23 Viitattu 27.5.2023. (englanniksi)
  5. Kanter, David: Shared Instruction Fetch 26.8.2010. Real World Technologies. Viitattu 25.2.2014.
  6. Johan De Gelas: The Opteron 6276: a closer look anandtech.com. 9.2.2012. Viitattu 27.5.2023. (englanniksi)
  7. AMD’s Bulldozer And Bobcat Architectures Pave The Way Tom's Hardware. Viitattu 17.1.2017.
  8. a b c d Gareth Halfacree: AMD unveils Flex FP bit-tech.net. 28.10.2010. Viitattu 31.5.2022. (englanniksi)
  9. https://www.realworldtech.com/bulldozer/7/
  10. Larabel, Michael: AMD Bulldozer Cache Aliasing Issue Fix 4.11.2011. Photronix. Viitattu 25.2.2014.
  11. https://www.extremetech.com/computing/100583-analyzing-bulldozers-scaling-single-thread-performance/5
  12. a b Patrick Kennedy: AMD’s New Bulldozer based Interlagos and Valencia CPUs servethehome.com. 22.11.2011. Viitattu 31.5.2022. (englanniksi)
  13. a b Mark Walton: AMD sued over allegedly misleading Bulldozer core count arstechnica.com. 6.11.2015. Viitattu 31.5.2022. (englanniksi)
  14. a b c d Anton Shilov: AMD Bulldozer 'Core' Lawsuit: AMD Settles for $12.1m, Payouts for Some anandtech.com. 28.8.2019. Viitattu 31.5.2022. (englanniksi)

Aiheesta muualla

[muokkaa | muokkaa wikitekstiä]
Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.