Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!
Zadejte Vaši e-mailovou adresu:
Kamarád fotí rád?
Přihlas ho k odběru fotomagazínu!
Zadejte e-mailovou adresu kamaráda:
-
14. listopadu 2024
Hardware
Jsem K5000, Quadro K5000
20. prosince 2012, 14.35 | Profesionální grafická karta NVidia Quadro K5000. Nové technologie, nová řada Kepler, nový výrobní proces. Jedno z nejlepších zobrazovacích zařízení dneška v uživatelském preview.
Úvodem
Když jsem poprvé viděl, ještě dalece před vydáním, první specifikace karet, které měly být postavené na 28nm výrobním procesu (proti starému FERMI s 40nm procesem – grafické karty řady GeForce 5xx a také Quadra 4000, 5000, 600 a další), byl jsem uchvácen. Při násobně vyšším počtu stream CUDA jader se mi zdálo, opakuji bez tehdy bližších specifikací, že výkon zejména ve výpočtech bude opravdu ultimativní.
Nakonec ale přišlo částečné rozčarování. Sice byl dramaticky navýšen počet jader, ale také byl změněn jejich výpočetní potenciál (zejména v double precission, ale i v single precission není výkon takový, jak úplně v počátku mohl leckdo předpokládat, mimochodem, značný počet výpočtů v oblasti grafiky probíhá v GPU pořád v single precission – IndigoRenderer například) a společnost NVidia se rozhodla jít dvojí cestou. Cestou kvalitních zobrazovacích zařízení a zcela osamostatnit otázku výpočtu, kterou by měly nadále obhospodařovat karty Tesla. Vzniklo tak označení „Malý Kepler“ a „Velký Kepler“.
Pokud bychom si měli trochu přesněji rozklíčovat oba Keplery, pak Quadro K5000 je postavené na čipu GK104, což je stejný rodokmen, který mají i hráčské karty GeForce řady 6xx od GeForce 660 výše. Tesly, měli bychom již používat množné číslo, protože již jsou k dispozici tři karty tohoto označení, mají svůj rodokmen značně odlišný. Jsou totiž postavené na čipech označených GK110 a jsou zaměřené právě na výpočetní výkon. K tomu jsou vybavené také slušným stádečkem paměti (5, respektive 6 GB Ram). Pokud byste hledali k tomuto zajímavému železu další informace, tak hledejte označení Tesla K20X (výkonnější varianta s 2688 CUDA jádry a 6 GB Ram) a Tesla K20 (2496 CUDA jader a 5 GB Ram). Mimo to je ještě k dispozici Tesla založená na obdobné architektuře jako popisované Quadro K5000 s označením K10/GK104.
Přiznávám. Z prvního dojmu jsem byl trochu zklamán. Výpočet, ach ano, výpočet. Představa, že se mohu z vysoka vyhnout všem optimalizacím, a když to jde, používat jen unbias výpočty, akcelerace všeho druhu, to mne láká. Ale nakonec musím přiznat, že mne nová architektura, a také samotné Quadro K5000, značně oslovilo...
Proč? Je toho více a měli bychom se tohoto tématu dotknout v tomto článku. V prvé řadě má Kepler vynikající provozní vlastnosti, což je vlastní opravdu všem kartám této řady. Ve svém počítači mám ohnuté klipy kotvící záslepky při absenci karty. Ohnuté jsou proto, že mi tu počítala karta založená na Fermi nějaký výpočet cca 8 hodin a odpadní teplo tyto plastové kotvičky totálně zdeformovalo.
To se s Keplerem (obecně) s nejvyšší pravděpodobností nestane. Ostatně, i Quadro 4000 mělo opravdu výrazně vyšší provozní teploty a v dlouhodobé zátěži se tyto teploty mohly řítit až do oblasti bodu varu. Opakuji, teploty u Keplera jsou elementárně odlišné.
Další otázkou je příkon. Kepler je i v případě, že má vyšší výkon (a v tomto smyslu i ve výpočtu) než starší karta na Fermi poměrně výrazně nižší příkon. Tedy výkon na příkon je u této architektury zásadně lepší než u předchůdce (samozřejmě je to výsledek menšího výrobního procesu), což mimo jiné znamená, že si leckdy výkonově vystačí jen s jedním napájecím 6-pinovým kabelem namísto dvou, které byly u podobného výkonu potřeba u starší verze. A nebo přímým porovnáním řečeno, Quadro 4000 má s poměrně výrazně nižším výkonem také jen 6 pin napájení, ale vyšší spotřebu, vyšší teplotu.
Poslední bod je potenciál RAM. A to 4 GB které jsou z mnoha ohledů výtečné. Dobře, K5000 není určen výpočtům, ale i tak je výpočetní přínos značný například u simulátorů (Turbulence4D) a to z následujícího důvodu: mnoho těchto výpočtů může probíhat jak na GPU tak i CPU. Jenže v případě GPU může být vražedným limitem použití kapacita RAM. Turbulence4D (fluidní efekty) je příkladem obou možností, výpočtu na CPU a nebo GPU.. V jiných případech může být situace ještě dramatičtější, jsou i systémy, které může limitovat RAM zcela (Octane Render například). 4GB jsou pak opravdu klíčové...
Mimochodem, jsem zvědav, jak zahýbá s výkonem i „Malého Keplera“ postupná implementace CUDA 5 s jejím naladěním na karty s architekturou Kepler. Je dost dobře možné, že výtky výpočtům vezmou touto technologií částečně za své. To je ale zatím spekulace, která se může a nebo nemusí potvrdit, držme se raději osvědčeného pravidla: den před večerem nechval. Musíme si počkat, uvidíme...
K profesionálním grafickým kartám
Jedná se o těžce uchopitelné téma, které ale dává skoro každý měsíc, pokud situaci sledujete, množství možných odpovědí...
1. Podstatnou otázkou jsou optimalizované ovladače. Ty jednoznačně dávají mnohé, od stability přes rychlost. Je jednoznačně pravdou, že rychlost práce je do značné míry závislá na ovladačích hardware a zde může být i papírově méně výkonná grafická karta – avšak profesionální s příslušnými na aplikaci certifikovanými ovladači – podstatně rychlejší než herní obdoba. Dobrým příkladem mi byla staré Quadro 4000, které na stejném stroji převálcovalo jinak papírově (čipově) výkonnější herní kartu o celý parník. (Quadro 4000 i přes to, že má jen 256 jader a nižší frekvence a shodnou šíři sběrnice s GF560 dávalo v OpenGL 2.0 – Cinebench výkon okolo 57-59 FPS, zatímco 560 s 336 jádry jen 45 FPS!). Navíc většina profesionálních aplikacích je certifikovaná pro profi grafické karty a tak máte jistotu, že budou tyto karty pracovat v daném prostředí správně.
2. Všimněme si, jak se poslední dobou tahají společnosti AMD a NVidia o to, které ovladače zrychlují v té které hře. Ano, hovoříme o herních grafikách, ale podstatné je ono: ve které hře. To je cíl ovladačů karet GeForce a nebo Radeon. Běžné užití a hry (například dvě zprávy, jedna k ovladačům GeForce, druhá Radeon, ať jsme spravedliví: diit.cz/clanek/geforce-driver, diit.cz/clanek/catalyst). Ladění na pracovní aplikace může být bídné až katastrofální, jak se před několika mála týdny stalo s ovladači Catalyst (Radeon) 12.08 až 12.11, které defacto znemožňovaly práci zrovna v CINEMĚ 4D. A přitom se zdá, že došlo jen k chybě v syntaxi. Podobný probém se před několika mála lety stal Nvidii. Prostě – cílem těhcto karet není práce a proto nikdo jejich případné potíže v pracovním procesu neřeší. Není to jejich užití... V tomto bodě bychom měli zmínit, co se stalo konkurenční AMD. A to, že ani ovladače určené rofi řadě FirePro nejsou v tomto ohledu bez problémů! Ae to je jednoznačně špatně, protože proto je profi segment dražší, že má mít uživatel jistotu! Doufám že dojde k nápravě.
3. Profi karty jsou již striktně desetibitové na kanál (30bitové), primární výstup je pomocí DisplayPortu a ideálně na 10bitový monitor (v tomto případě je v ukázce NEC PA241W).
4. Podpora mnoha panelů.
5. Vyšší hodnoty vyhlazování (řádově).
6. Zpravidla podstatně vyšší potenciál RAM.
7. Pokročilejší technologická podpora (například GF680 podporuje jen OpenGl 4.2, zatímco sesterské Quadro K5000 4.3 a podobně), v tomto případě podpora systému Maximus (což chápu není asi pro každého :-)), Quadro Sync, Mozaik a podobně.
8. Podstatně lepší provozní vlastnosti.
A konečně představení
Karta je dvouslotová, délka přesahuje 27 cm, což může být poněkud problém v případě některých profesionálních stanic, které mají spíše menší case. Příkladem budiž Lenovo C20/x s velmi malou case, která je opravdu velmi úsporná. Jenže pokud tam vložíte Quadro K5000, tak se sice dovnitř vejdete, ale to jen velmi těsně. Problémem může být, že je odspoda Quadro totálně nepřístupné vzduchu (všechno zásadní větrání je ve vrchní části u prostoru procesorů). Z nevýhody malé case jsme udělali na roadshow CINEMY 4D velké plus a otevřeli case. Je to pěkný pohled, ale totálně nepraktický...
Externí napájení obstará jen jedna 6pinová přípojka, v předu se předvádí dva DisplayPorty a jeden výstup DVI-I, tedy digitální i analogový, jeden DVI-D (pouze digitální). Analog mne potěšil, projektory v různých síních jsou často jen analogové :). Důležité je si uvědomit, že DVI signál je jen osmibitový a proto mne docela pobavil kolega Jan Brukner když vyprávěl, že v jednom nejmenovaném velkém 3D studiu měli jen 10bitové monitory, jejich pýchu, napojené na DVI...
Na čem se testovalo
Na starém ale pořád vcelku použitelném AMD Thubanu 1100 přetaktovaném na 3,63 GHz, výtečné desce Crosshair V od Asusu a 16 GB na RAM. Zajímavější je panel, hlavní panel je desetibitový profesionální NEC MultiSync Pa241W a jako doplněk jako odkládací plocha staré Eizo s poměrem 5/4.
Základní technické specifikace:
Počet jader CUDA: 1536 (GK104)
Paměť: celková kapacita RAM: 4 GB GDDR5; sběrnice: 256bitová; propustnost: 173 GB/s
Podporované technologie: Shader model: 5.0; OpenGL: 4.3; Microsoft DirectX: 11; NVIDIA Maximus: ano; NVIDIA SLI: ano (mimochodem, není vhodné mít v případě CUDA výpočtů aktivní); Quadro Sync: ano; Quadro Mosaic: ano; Quadro Digital Video Pipeline: ano; NVIDIA GPUDirect: ano; NVIDIA GPUDirect for Video: ano; NVIDIA 3D Vision a 3D Vision Pro: ano; NVIDIA CUDA Architecture: ano; NVIEW Display; Management Software: ano
Zobrazení: Dual Link DVI-I: 1×; Dual Link DVI-D: 1×; DisplayPort 1.2: 2×; celkově 4 digitální výstupy; stereo (3-pin Mini-DIN): volitelný
Maximální rozlišení (digitální): DVI-DL: až 330 Mpx/s: (1920×1200@120Hz, 2560×1600@60Hz); DisplayPort 1.2: až 540 Mpx/s & 17,3 Gb/s data rate: (3840×2160@60Hz 30bpp (bitové hloubce), 2560×1440@120Hz 30bpp, 4096×2160@24Hz 36bpp, 4096×2160@50Hz 30bpp)
Maximální příkon: 122 W
Použití v praxi
Pro použití grafické karty tohoto typu může být důležité několik, jinak často méně podstatných vlastností. V prvé řadě jsou to provozní vlastnosti, spotřeba a hlučnost. Všimněme si max. příkonu 122 W a podle monitoringu jsem nikdy nepřekročil cca 60 % max. příkonu karty. A to včetně výpočtu na CUDA. Vše je výsledkem zejména nové architektury (28 nm), která má nižší odpor, proto produkuje méně odpadního tepla a tím je chlazení méně v pernamenci a výsledkem je podstatně méně hlučný provoz. Při střihu a další (zvuku) to může být poměrně dost podstatné.
Zpracování plastů/krytu je myslím kvalitní, kryt je na můj vkus proveden poněkud „herně“, domnívám se že staré kryty (kovové) byly z vizuálního pohledu více odpovídaly danému segmentu, ale slouží dobře a kompletace je bezvadná. Výsledkem je, jak jsme již řekli, malá hlučnost (v porovnání s Quadrem 4000).
Teploty karty se pohybují okolo 40 až 60 stupňů, nikdy teplota nepřesáhla tuto hodnotu a to ani po dlouhé zátěži. Frekvence jádra v klidu a zátěži je 324 MHz, respektive 705 MHz, pamětí 324 kontra 2700.
Cinebench 11,5
Cinebench 11,5 vycházel ze staré verze CINEMY 4D R11,5, což je verze stará cca 3 roky. Tato verze programu používala OpenGL 2.0 a karta při testu potřebuje jen 128 MB RAM. Navíc, jakkoliv se jedná o test OpenGL (v tomto případě) je podstatný i výkon procesoru, zejména na jednom jádře, které primárně analyzuje scénu, objekty, mapování a také klíče animací. Pro názornost jsem nasnímal zatížení procesoru při testu OpenGL, aby byla tato skutečnost patrná.
Cinebench - test
Poměr: 114,15 % (Q4000 je 100 %).
Zhodnocení. Díky poměrně malému zatížení pamětí i samotných technologií (OpenGL2.0) je výsledek spíše otázkou efektivity celé architektury než komplexního potenciálu karty. Výsledek je však opravdu pozitivní.
CINEMA 4D R14/13
Otázka práce a rychlosti editoru je ovlivněna mnoha věcmi:
1. procesor, protže procesor analyzuje scénu (viz výše) a zejména generátory a deformátory (modifikátory) mohou editor značně zatížit. Všechny tyto události jsou závislé na procesoru.
2. Náhled negativně ovlivňuje (opět z pohledu CPU) počet objektů. Více objektů – delší analýza scény.
3. Shadery – například konverzní shadery generující textury (normálové mapy, opět, vše na CPU).
4. Nový systém výběru. Pokud je kurzor nad objektem, pak se vytváří interaktivní dynamický obrys, který docela dost zatěžuje zobrazení. Pokud je kurzor mimo, pak byla rychlost zobrazení editoru v rychlém stínování okolo 14,5 fps! Výborná hodnota, při několika texturách v rozlišení náhledu 8192×8192. Při interaktivním výběru – ohraničující oblasti byla rychlost ve stejném režimu cca 10,2 až 10,5 fps. Tento element je proti starším „bounding box“ podstatně pomalejší.
5. Vyhlazování. Vyšší vyhlazování scény (i textur) je výborné pro přesný náhled. Profi karta má vyšší potenciál AA scény, výkon se snížil při změně AA z 2 na 16, ale jen nepatrně!
Výkon K5000 je v editoru CINEMY 4D velmi dobrý, musím ale říci, že mne zaskočila náročnost (to je trochu kritika Maxonu) obrysů objektů, protože ty jsou také vyhlazované a mohou zobrazení masivně zpomalit. Musím přiznat, že mi tato vlastnost, kdysi, při recenzi této novinky, nedošla.
CUDA – Iray
Ve videu několikráte opakuji, že klíčem úspěchu těchto karet, tedy profi segmentu, mohou být výpočty a potenciál RAM. Ale, je to „Malý Kepler“, na výpočet se prý nehodí. Jenže potenciál 4GB RAM otevírá možnosti výpočtu opravdu zásadně a zejména v CUDA si pořád vede docela dobře. Iray je toho dobrým příkladem... Mimo to není Iray pro Keplera optimalizovaný a potřebuje dosti inovovat...
Výpočet scény (dětský vláček plus kuličky)
AMD Thuban taktovaný na 3,63 GHz, čas 00:06:42
AMD Thuban 3,63 GHz + NVidia Quadro 4000, čas 00:03:31
AMD Thuban 3,63 GHz + NVidia Quadro K5000, čas 00:02:27
Tedy, pokud jsem stejnou scénu nechal renderovat i na grafické kartě (hybridně), byla délka výpočtu jen 36,57 % na procesoru, a to je řádná úspora! A to i přes absenci optimalizace na novou CUDA a Keplera.
OpenCL Luxmark 2.0 (Sala)
OpenCL je jednoznačně oblast, která „Malému Kepleru“ nesvědčí. Hodnoty „Sala“ scény rendereru /benchmarku Luxmark konkurence, někde okolo 1600 jsou dalece před možnostmi GK104, na druhou stranu, CUDA je výsadou jen NVidia a je jako systém podstatně rychlejší. Tedy, v tomto smyslu je výhodou univerzálnost (že umí i OpenCL), nevýhodou deklarovaný nižší výpočetní výkon v OpenCL který se NVidia karet týká historicky...
Luxmark 2.0
NVidia Quadro K5000: 421 (r/s)
NVidia Quadro 4000: 295 (r/s)
CUDA – fluidní simulace, Turbulence4D
Turbulence 4D je systém pro simulaci fluidních efektů, použitý například ve filmu Iron Sky. Jeho výhodou je, jak jsme si již zmínili, možnost výpočtu jak na procesoru, tak GPU. Procesor může být klíčový, protože tyto simulace jsou extrémně náročné na paměti a tak, i když bychom měli rychlou kartu, může její použítí být eliminováno právě potenciálem RAM.
V ukázce si toto přesně předvedeme. Simulace plamenometu ve výchozím nastavení potřebuje cca 1,4 GB RAM, ale jakmile by byla analyzační voxelová mřížka větší a nebo hustší, může se situace dramaticky změnit! Ostatně, v příkladu jsme si to předvedli. Jen změnou velikosti mřížky se potřeba RAM zvýšila na cca 2,5 GB a plně se tak uplatnil potenciál karty. A to se nedomnívám, že jsme nastolili tak nereálnou situaci!
Druhý aspekt je časový. V případě, že simulaci analyzoval jen procesor, byl výsledek podstatně, až řádově delší....
Turbulence4D – demo scéna, výchozí nastavení
NVidia Quadro K5000, délka výpočtu: 00:02:34
NVidia Quadro 4000, délka výpočtu: 00:09:52
AMD Thuban 1100 3,63 GHz (pouze), délka výpočtu: 00:14:11
V tomto případě je výsledek neuvěřitelný. Pokud do výpočtu zapojíme kartu je rychlost výpočtu jen 18 % délky výpočtu na procesoru! A porovnejte výsledek i s Quadrem 4000!
Octane render (1.03)
Pro test karty jsem použil klasickou scénu koridoru a podstatný z pohledu testu byl režim Pathtracing. Rychlost výpočtu byla 2,13 s/s, což není až tak špatné, ale určitě by se hodilo karet více :-).
Octane render, benchmark scene
NVidia Quadro K5000: 2,13 Ms/s
NVidia Quadro 4000: 1,15 Ms/s
Zde je nárůst také velmi markatní.
Závěr
Byl to velmi příjemný zážitek. Asi nemá smysl se opakovat. Výtečná karta, bezchybné ovladače, výborná práce v editoru, malá hlučnost, nížší spotřeba než předchozí generace, velký potenciál na RAM, který dokáže v mnoha ohledech vyvážit nižší výkon ve výpočetní oblasti. Těžko se mi s ní loučí...
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
14. května 2014
Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
-
23. dubna 2014
Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
-
12. června 2012
-
9. dubna 2014
-
5. ledna 2017
-
6. září 2004
OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
-
13. května 2004
-
19. ledna 2004
QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
-
6. února 2001
-
30. listopadu 2014
Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě
-
14. října 2024
-
9. ledna 2025
Bubnový scanner na 4000dpi optické rozlišení + PC + software
-
9. ledna 2025
Profesionální scaner Scanner Heidelberg TOPAZ I. optické rozlišení bez interpolace 3800DPI