NVidia GK 110 čip a CUDA/OpenCL computing v praxi - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



3D grafika

NVidia GK 110 čip a CUDA/OpenCL computing v praxi

7. července 2014, 14.42 | Je to již déle než měsíc, co jsme se potkali s klasickým a zároveň nejlevnějším zástupcem výpočetně nejvýkonějších grafických karet NVidia, tedy s kartou GeForce 780 v referenčním kabátku. Dnes teoretické pozadí doplníme o praktické testy z oblasti 3D grafiky.

Všeho do času

 

Ano, všeho do času. Jak to myslím? Myslím to tak, že časem Nvidia odladila své ovladače a dnes se karty s čipem GK 110 jeví podstatně silnější, než na počátku uvedení do distribuce. Výkon se zvedl opravdu masivně a to je z pohledu uživatele jen dobře.

 

Pokud byste si tedy chtěli mé výsledky zkontrolovat s výsledky na internetu, určitě to doporučuji. Budete myslím velmi překvapení (kladně).

 

Jaké testy jsem si tedy pr ovás překvapil? Je to grafická karta, tedy nemůžeme na úvod pominout ani OpenGL a Cinebench (11,5 a 15) a už i zde bude velmi patrný výkonostní nárůst v čase. Zase doporučuji zkomparovat s dříve vydanými testy (viz odkazy).

 

Následovat ale budou testy čistě pracovní. Vždy u těchto testů uvádím také odkazy na testy starší, které jsou sice často neporovnatelné (pro starší hardware – CPU, ale i často starší verze programů a podobně), přesto však jakési pojítko dávají.

 

To se  v prvé řadě týká Indigo rendereru a scény s instancemi stromů, kde jsem se vrátil k stable verzi 3.6.28, přičemž původní testy byly ve verzi 3.6.21 (28 je výrazně rychlejší na instance, ale na všechny karty, pokud je tedy Pitcairn FirePro W7000 pravdomluvný). Zajímavé přitom je, že přes obecné zrychlení nové beta 3.8.4 je tato beta výrazně (mnohonásobně) pomalejší při zpracování instancí než zmíněná stable verze. Zdá se, že v beta něco uteklo...

 

A druhý podobný případ se týká Iray, respekitve m4d+IRay pro CINEMU 4D, který je momentálně ve verzi 1.4. což je proti tuším verzi 1.1 značný rozdíl, pro komparaci jsem ale uvedl i výkon čistě na CPU, tedy srování je je díky tomu možné (doufám).

 

Mimo testů v Indigo a Iray uvádím ještě testy s renderingem videa v Premiere CC (shodné video s videem renderovaným pomocí karet FirePro), rendering fluidního částicového efektu Turbulence4D (míním výpočet simulace, nikoliv samotný rendering finálního obrazu) a také dva typy výpočtů v LuxMark ve scénách Sala a Room. V obou se karta chovala skvěle.

 

Cinebench R11,5 a R15

 

Udávat ještě dnes starší Cinebench R11,5 nemá podle mého až takový smysl a také to dokládá samotná karta. Ovladače na tak starý standard OpenGL již nikdo neřeší (2.0) a tak není výkon kdoví jaký.

 

Bez douhých řeší, Cinebench R11,5 pro GeForce 780 referenčního nastavení je 54,60 fps při stále ještě mé standardní sestavě, tedy přetaktovaném AMD FX 8350 běžícím na 4,4 GHz.

 

Cinebench R11,5

GeForce 780 reference 54,60

AMD W7000 77,54

NVidia Quadro K5000 68,69 (ale na obstarožním Thubanu 1100 přetaktovaném na 4,04 GHz)

NVidia Quadro 4000 47,27 (opět Thuban 1100 přetaktovaný na 4,04 GHz)

Kartu v tomto případě brzdí obstarožní ovladače a je patrné, že profi Q K5000, což je konstrukčně „slabší“ rodina Keplerů je díky lepším ovladačům o parník rychlejší.

 

 

V případě Cinebench R15 je situace již dramaticky jiná. I zde sice GFX 780 proti referenci (reference prostě proto, že ji mám po ruce, nic jiného v tom nehledejte, stejně je ten článek hlavně o CUDA a toto je jen doplněk), tedy profi FirePro W7000, mírně ztrácí, ale již ne o tolik a viditelně se projevují zřetelně odladěnější ovladače pro tuto verzi OpenGL a potažmo i Cinebench. Podvozek počítače byl samozřejmě pořád schodný.

 

Cinebench R15

GeForce 780 reference 99,03

AMD W7000 112,96

NVidia Quadro 4000 65,14 (na FX 8350 s 4,4 GHz)

 

 

Z novějšího Cinebenche jsou patrné dvě věci. Jednak je zřejmé, že potenciál GTX 780 a celé rodiny GK 110 je jinde než by mohl naznačovat starý Cinebench. Za druhé, ovladače mohou dělat divy. Při vydání Cinebenche R15 byly výsledky GTX 780 podstatně nižší a po několika měsících je situace značně odlišná... Budeme si to ještě několikrát opakovat, ovladače dělají divy. Při uvedení CINEMY 4D R15 měly karty NVidia značné potíže, mrzly (včetně Quader), šly do černé plochy a ani výkon nebyl kdovíjaký. Jak je patrné, situace se mění. Výrazně k lepšímu.

 

CUDA computing, IRay 1.4 a CINEMA 4D

 

V tomto testu jsem použil opět svou scénu s vláčkem, pokud by někoho zajímaly další komparace se starší verzí pluginu pak uvádím pluginy na testy Quadro K5000 a 4000 s Thubanem 1100 T (4,04 GHz) a také porovnání výkonu CPU v článku o Cinebench R11,5. Ze všeho je patrné, opět, jak výkonná CUDA může být.

 

Scéna vláček IRay 1.4

 

CPU AMD FX 8350 4,4 GHz, čas 4:32 (272 s)

CPU FX 8350 4,4 + GTX 780, čas 0:54 (54s)

Fantastické zrychlení, pokud něco vypočítáte více než 5x rychleji, je to parádní.

Jen pro představu uvádí staré testy (jak jsem již napsal, na starší verzi IRay)

CPU AMD Thuban taktovaný na 3,63 GHz, čas 00:06:42 (402 s)

CPU AMD Thuban 3,63 GHz + NVidia Quadro 4000, čas 00:03:31 (211 s)

CPU AMD Thuban 3,63 GHz + NVidia Quadro K5000, čas 00:02:27 (147 s)

 

Víze zde: https://www.grafika.cz/rubriky/hardware/jsem-k5000-quadro-k5000-160124cz

 

 

V jiném článku jsem testoval speciální výpočetní stanici postavenou pro SPS Na Třebešíně s i7 4930K 3,4GHz a 2x GTX Titan, kdy mi v IRay 1.3 vyšly následující výsledky:

 

CPU i7 4930K 3,4GHz + 2x GTX Titan, čas 0:30 (30 s)

CPU i7 4930K 3,4GHz (pouze), čas 02 :47 (167 s)

 

Víze zde: https://www.grafika.cz/rubriky/software/ultimativni-cuda-computing-specialni-stanice-pro-cinemu-4d-a-iray-164921cz

 

A také porovnání starší verze IRay a různé platformy CPU (AMD pouze)

 

https://www.grafika.cz/rubriky/software/cinebench-11-5-na-hranici-s-kacirem-zhodnoceni-benchmarku-z-pohledu-dneska--161043cz

 

CUDA computing, Turbulence4D 1.05 a CINEMA 4D

 

V tomto případě jsem využil demo verze pluginu fluidního simulátoru a nechal vypočítat jednu z přiložených scén (tp_flame thrower). Systémový analyzátor pluginu nejdříve vypočítá všechny snímky simulace (cachuje) a teprve poté je vhodné scénu renderovat. Jednou výpočet proběhl za pomoci CPU, podruhé za pomoci GPU. Názor na výsledek si učiňte sami... Je velmi výmluvný:

 

CPU AMD FX 8350 4,4 GHz, čas 5:28 (328 s)

CUDA GTX 780, čas 0:49 (49s)

 

Jinými slovy je jedna karta GTX 780 CUDA 6,7x rychlejší než CPU. V tomto případě může být velmi rychle limitem kapacita RAM, leč vešli jsme se. Určitě by se ale pro jistotu hodilo více, řekněme 6 GB? A to přeci mohou nabízet karty 780Ti. A jsou navíc ještě rychlejší...

 

Turbulence:

 

Indigo renderer 3.6.28 CUDA/OpenCL

 

Jak jsme zmínili, nejnovější verze Indiga obsahuje chybku, však je to beta, a evidentně nepracuje s instancemi jako se skutečnými instancemi. Tedy – je podstatně řádově pomalejší než verze starší. Vrátil jsem se tedy k odladěné verzi 3.6.28, což je verze s nejlepším debugem celé řady a také je nejrychlejší v oblasti instancí. Ještě rychlejší, než kdysi informoval článek o Firepro (používal starší verzi Indiga, ale stejnou řadu 3.6).

 

Pro test jsem tedy použil scénu s mnoha instancovanými stromy a výsledek je velmi zajímavý... Výpočtu se účastní jak CPU, tak GPU a GPU přejímá ty části výpočtu, které ji svědčí více. A to rozhodně nejsou všechny typy výpočtů, ale instance, ty zrovna ano! A výsledek je velmi zajímavý.

 

 

Původní výsledky s FirePro musíme proti verzi 3.6.21 značně revidovat, verze 28 je obecně zásadně rychlejší. Ve verzi 21 trval výpočet FireProW7000 + CPU (vše jinak stejné) 11 minut a 2 sekundy, zatímco ve verzi 28 jen 6 minut a 18 vteřin! To je opravdu masivní rozdíl!

 

Ale zpátky k GTX 780, jak dopadla? Výborně:

 

CPU FX 8350 4,4 + GTX 780 CUDA, čas 3:57 (237s)

CPU FX 8350 4,4 + GTX 780 OpenCL, čas 4:04 (244s)

CPU FX 8350 4,4 + AMD W7000, čas 6:18 (378s)

 

Mimochodem, musím trochu hájit svou W7000, přeci jen má skoro jen poloviční potenciál stream procesorů... Ale zpět k GK 110. Výsledek je to parádní, co říkáte, chtělo by to plně GPU verzi Indiga...

 

Pokud byste si chtěli pronásobit výsledným poměrem verze 28 a verze 21 i ostatní hodnoty karet FirePro, zde je odkaz:

 

https://www.grafika.cz/rubriky/hardware/profesionalni-graficke-karty-firepro-rady-w-dnes-w9000-165469cz

 

Adobe Premiere a Mercury player (CUDA, OpenCL)

 

Platí to co v článcích s FirePro, tedy jedno videa, tři sekvence a mnoho filtrů na GPU. A výsledek je opravdu o zátěži GPU. Výkon GPU se projeví v plné síle, či nahotě, jak chcete. V případě GK 110 určitě síle. A příjemné je, že tentokráte můžeme rovnou porovat všechny testy co jsem dělal, protože jsou vzájemně komparativní. V Premiéře se v tomto směru na mém počítači zatím vůbec nic nzměnilo.

 

CPU FX 8350 4,4 + GTX 780 CUDA, čas 1:12 (72s)

CPU FX 8350 4,4 + GTX 780 OpenCL, čas 1:59 (119s)

CPU FX 8350 4,4 + AMD FirePro 9000 OpenCL, čas 1:11 (71s)

CPU FX 8350 4,4 + AMD FirePro 7000 OpenCL, čas 2:05 (125s)

CPU FX 8350 4,4 GHz 00:29:50 (1790s)

 

 

Renderovat video na CPU, pokud nemusíte, evidentně nemá v tomto případě smysl. S CUDA byl výpočet 25x rychlejší než jen na CPU (stejně jako s plně osazenou Tahity alias FirePro 9000, tato karta je vlastně přímým oponentem čipů GK i v herním segmentu) a ani za OpenCL se nemusí GTX 780 stydět.

 

Luxmark

 

Luxmark je odvozen od renderovacího enginu (zdarma poskytovaného) Luxrender a to je čistě OpenCL engine (respektive má dvě verze, jak OpenCL tak bez této technologie). Můžeme tak testovat všechna zařízení, která jsou OpenCL kompatibilní. A to i v případě, že jsou od různých výrobců. Není tak problém do výpočtu zapojit (jako v mém případě) kartu AMD i NVidia v jedné chvíli a zažít tak pocit totálního odpadlíka. Tohle vám zastánci ani jednoho táboru asi už neodpustí :-).

 

Mrzí mne jen, že není vyvíjen bridge pro CINEMU 4D.

 

V Luxmark jsem nechal projet dva testy, scénu Sala a scénu Room. Ta je náročnější a proto jsou i výsledné hodnoty nižší. Výsledky jsou komparativní s testy předešlými:

 

 

Sala:

NVidia GTX 780, hodnota 1914

AMD W7000, hodnota 1332

AMD W9000: 2096

Jen pro zajímavost jsem nechal počítat obě karty a výsledek je zajímavý, je takřka čistýum součtem potenciálního výkonu!

NVidia GTX 780 + AMD W7000, hodnota 3255

 

Room

 

NVidia GTX 780, hodnota 954

AMD W7000, hodnota 752

AMD W9000, hodnota 1151

A opět „sloučený“ test jakmé AMD FirePro tak GTX 780

NVidia GTX 780 + AMD W7000, hodnota 1707

 

Všimněte si, jak s náročností scény (Room) mírně klesá potenciáál GTX 780. Domnívám se, ale je to jen fabulace, že to je otázkou užší sběrnice a také menší kapacity RAM. Jistě můžete tvrdit, že RAM není na rychlosti závislá, ale nemusí tomu tak být, jak potvrzuje Embree (jistě, nemusím mít pravdu!). Jsem tedy zvědav na to, jak se v tomto směru bude chovat ještě silnější karta posazená na stejném jádru, ale s širší sběrnicí.

 

Závěrem

 

Celkově ale lze o jádru GK 110 říci jediné. Dokud jej nenahradí Maxwell, protože ten vypadá také velmi zajímavě (zatím), pak se rodina tohoto jádra GK 110 jeví jako dokonalý univerzál. Jako skvělé zařízení jak pro zobrazení, tak pro výpočtech ve všech oblastech a i když v oblasti OpenCL mírně ztrácí proti konkurenci, není tato ztrata zásadní. Ale hlavně je vyvážena technologií CUDA. Je pravdou, že v v OpenCL je mírně slabší přesto stále univerzální, ale hlavně CUDA.

 

Z pohledu uživatelského bych si přál, aby bylo vše více otevřené, tedy spíše držím pěsti otevřeným technologiím jako je právě OpenCL. Pravdou však zůstává, že CUDA je svou mateřskou společností (NVidia) hýčkaná a zatím roste tím správným směrem. Však již z minulého článku víme, že těch možných oblastí využití je opravdu mnoho.

 

Kde tedy obecně NVidia GK 110 ztrácí? V ceně, AMD je o pár procent (v dané třídě) levnější. Nůžky se však silně otevírají až vyvrací v oblasti highend a profi. Tam si NVidia drží svou tradiční (a vysokou) cenovou politiku. A obecně je v dané kategorii vždy NVidia pomalejší v oblasti OpenCL, což ale samozřejmě eliminuje CUDA. Opakuji to již několikrát. Pokud totiž stejnou úlohu necháte vypočítat na CUDA (a technologie to umožňuje, což většinou ano), pak je rozdíl smazán. Více viz test Mercury player a Premiere CC.

 

Další oblastí jsou ovladače pro konkrétní aplikace. Samozřejmě hovořím o CINEMĚ 4D, jinou aplikaci vlastně neznám :-). Je faktem, že pro samotnou C4D je nyní AMD o něco výhodnější, ale již jen o malý díl. NVidia své ovladače evidentně vylepšuje a je pravdou, že zase mám zprávy o pláči vývojářů nad ovladači AMD v jiných aplikacích. Je to jednou nahoru, jednou dolu a pokaždé jinak.

 

Souhrnně řečeno, GK 110 je vynikající čip a i ten nejslabší zástupce tohoto čipu je výborný. Pokud uvažujete o unbias enginu, například Octane, IRay, či Thea, pak se podívejte někde po plně osazené nereferenční 780 Ti s 6 GB RAM a vemte rovnou dvě (nebo tři?). Jistě to nebude zdarma, ale získaný rychlostní potenciál je momentálně tím nejlepším, co můžete získat.

 

 

 

 

Tématické zařazení:

 » Rubriky  » 3D grafika  

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: