Primegrid auf AMD-Grakas, ganz ohne Stress
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Hat er, aber nicht an der WU^^
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Ergebnisse liegen für GFN-21 vor, Screenshots:
Theoretisch (Quelle geizhals, konkrete Modellbeschreibung, ohne Garantie oder Nachberechnung): Faktor 4,15 höhere AMD Leistung
1070er Rechenleistung: 6221GFLOPS (Single), 194GFLOPS (Double)
7950er Rechenleistung: 3226GFLOPS (Single), 806GFLOPS (Double)
Tatsächlich: Faktor -15% schnellere Nvidia Rechenzeit
1070: 47989 s > 13,3 h
7950: 56149 s > 15,6 h - ist doch wirklich respektabel! Bei wie oben gemessen sehr ähnlicher Stromaufnahme (undervolted).
Mag jeder für sich den Boost Takt der Nvidia rausrechnen*, heute morgen zeigte GPU-Z 1750-1770 Mhz realen Takt für die 1070 an. Unter POEM bei derselben Afterburner Einstellung taktet die GPU übrigens: 1910-1930 Mhz.
* Würde man den Takt egalisieren auf die von mir eingangs erwähnten 1000-1100 Mhz, was u.U. in einer doppelten so langen Rechenzeit bei der 1070 resultieren würde: das werden trotzdem niemals Faktor 4,15.
Beachtlich, die Rechenzeit 1070 vs. 970 (hostid=167868), siehe zweiter Screenshot, siehe dessen GFN-21 Ergebnisse, starke Fluktuation der Rechenzeiten von 64847-142708 s, mit immens hohen CPU Anteilen, dort ist m.E. der Wurm drin.
Fazit für mich bezogen auf Primegrid GFN-21
So bei n=1 WU als Testbasis überhaupt ein Fazit Sinn macht: falls tatsächlich DP Aufgaben auf beiden GPUs gerechnet wurden, sind die theoretischen DP Leistung für die Katz. Die 1070 (1920 Shader) hatte ich "sparsam" laufen lassen, die 7950 Boost Edition (1792 Shader) lief im Takt der Auslieferung mit 1000 Mhz Boost.
Eine weit bessere Annäherung deren Rechenperformance zahlenmäßig zu erfassen liegt im Shader Verältnis: +128 oder + 7% mehr Recheneinheiten. Die Taktraten bzw. das gesamte Chipdesign ist unterschiedlich, doch was liegt näher bzw. erfasst deren Rechenwerk sinnreicher als die Shader? Bin völlig offen für andere Vorschläge wie Erklärungen.
Bei der R290X von Michael sind 2816 Shader aktiv, Laufzeit war - siehe oben - 63655 s, Takt müsste ebenfalls bei 1000 Mhz liegen, in Summe +1024 Shader, aber +13% längere Rechenzeit. Das widerlegt meine These. Oder es liegt an bremsenden Faktoren bis zum Treiber. Für meine 7950 ist Catalyst 15.7 installiert. Vielleicht taugen zwischen den AMD Chip Versionen/Generationen doch noch die theoretischen DP GLOPS Werte, keine Ahnung.
Nächster Test hinsichtlich DP wäre Milkyway, die n-body Simulation soll laut @Sidd auf DP laufen ("So we changed it to be a double precision calculation."). Leider keine WUs verfügbar.
Mache gerne weitere Tests, wenn mir jemand sagen kann: welches Projekt - welche Einstellungen/Rechenaufgaben noch für DP Vergleiche relevant sind.
Theoretisch (Quelle geizhals, konkrete Modellbeschreibung, ohne Garantie oder Nachberechnung): Faktor 4,15 höhere AMD Leistung
1070er Rechenleistung: 6221GFLOPS (Single), 194GFLOPS (Double)
7950er Rechenleistung: 3226GFLOPS (Single), 806GFLOPS (Double)
Tatsächlich: Faktor -15% schnellere Nvidia Rechenzeit
1070: 47989 s > 13,3 h
7950: 56149 s > 15,6 h - ist doch wirklich respektabel! Bei wie oben gemessen sehr ähnlicher Stromaufnahme (undervolted).
Mag jeder für sich den Boost Takt der Nvidia rausrechnen*, heute morgen zeigte GPU-Z 1750-1770 Mhz realen Takt für die 1070 an. Unter POEM bei derselben Afterburner Einstellung taktet die GPU übrigens: 1910-1930 Mhz.
* Würde man den Takt egalisieren auf die von mir eingangs erwähnten 1000-1100 Mhz, was u.U. in einer doppelten so langen Rechenzeit bei der 1070 resultieren würde: das werden trotzdem niemals Faktor 4,15.
Beachtlich, die Rechenzeit 1070 vs. 970 (hostid=167868), siehe zweiter Screenshot, siehe dessen GFN-21 Ergebnisse, starke Fluktuation der Rechenzeiten von 64847-142708 s, mit immens hohen CPU Anteilen, dort ist m.E. der Wurm drin.
Fazit für mich bezogen auf Primegrid GFN-21
So bei n=1 WU als Testbasis überhaupt ein Fazit Sinn macht: falls tatsächlich DP Aufgaben auf beiden GPUs gerechnet wurden, sind die theoretischen DP Leistung für die Katz. Die 1070 (1920 Shader) hatte ich "sparsam" laufen lassen, die 7950 Boost Edition (1792 Shader) lief im Takt der Auslieferung mit 1000 Mhz Boost.
Eine weit bessere Annäherung deren Rechenperformance zahlenmäßig zu erfassen liegt im Shader Verältnis: +128 oder + 7% mehr Recheneinheiten. Die Taktraten bzw. das gesamte Chipdesign ist unterschiedlich, doch was liegt näher bzw. erfasst deren Rechenwerk sinnreicher als die Shader? Bin völlig offen für andere Vorschläge wie Erklärungen.
Bei der R290X von Michael sind 2816 Shader aktiv, Laufzeit war - siehe oben - 63655 s, Takt müsste ebenfalls bei 1000 Mhz liegen, in Summe +1024 Shader, aber +13% längere Rechenzeit. Das widerlegt meine These. Oder es liegt an bremsenden Faktoren bis zum Treiber. Für meine 7950 ist Catalyst 15.7 installiert. Vielleicht taugen zwischen den AMD Chip Versionen/Generationen doch noch die theoretischen DP GLOPS Werte, keine Ahnung.
Nächster Test hinsichtlich DP wäre Milkyway, die n-body Simulation soll laut @Sidd auf DP laufen ("So we changed it to be a double precision calculation."). Leider keine WUs verfügbar.
Mache gerne weitere Tests, wenn mir jemand sagen kann: welches Projekt - welche Einstellungen/Rechenaufgaben noch für DP Vergleiche relevant sind.
Zusammenkommen ist ein Beginn, Zusammenbleiben ist ein Fortschritt, Zusammenarbeiten ist ein Erfolg.
Henry Ford
Henry Ford
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
@X1900AIW - danke für deine Arbeit
Als unwissender Laie möchte ich mit einem entschiedenem JAIN antworten.
JA - ich finde auch, dass gerade beim crunchen bezogen auf die Parallelität der Shader letztendlich der Maßstab aller Dinge ist.
Unter diesem Gesichtspunkt komme ich auch ins schwanken, ob meine nächste GTX 1080 wirklich das Supermodell Gainward bzw Palit sein "muss";
also wirklich die Taktraten bis zum Anschlag ausgereizt werden müssen oder nicht (reicht nicht eine einfache 1080, die nicht so heiß wird und gut ist).
NEIN - die Shader von AMD und NV kann man nicht im - formalen - Verhältnis zueinander setzen, da sie letztlich auf unterschiedliche Archetektur basieren.
Was man machen kann, sind die realen Performance-Ergebnisse setzen (und daraus Rückschlüsse auf die Leistungsfähigkeit des jeweiligen Shader zu ziehen)
und (was jetzt verschiedene PC-Zeitungen tun) die Leistungsentwicklung der jeweiligen Gattung miteinander zu vergleichen (AMD R7 - R9 -.../ GTX 780 TI - GTX 980 TI - GTX 1080),
um an deren Performence-Steigerung zu einer Einschätzung zu kommen, ob es sich "lohnt" . (mindestens 50% Steigerung sei gesetzt).
Als unwissender Laie möchte ich mit einem entschiedenem JAIN antworten.
JA - ich finde auch, dass gerade beim crunchen bezogen auf die Parallelität der Shader letztendlich der Maßstab aller Dinge ist.
Unter diesem Gesichtspunkt komme ich auch ins schwanken, ob meine nächste GTX 1080 wirklich das Supermodell Gainward bzw Palit sein "muss";
also wirklich die Taktraten bis zum Anschlag ausgereizt werden müssen oder nicht (reicht nicht eine einfache 1080, die nicht so heiß wird und gut ist).
NEIN - die Shader von AMD und NV kann man nicht im - formalen - Verhältnis zueinander setzen, da sie letztlich auf unterschiedliche Archetektur basieren.
Was man machen kann, sind die realen Performance-Ergebnisse setzen (und daraus Rückschlüsse auf die Leistungsfähigkeit des jeweiligen Shader zu ziehen)
und (was jetzt verschiedene PC-Zeitungen tun) die Leistungsentwicklung der jeweiligen Gattung miteinander zu vergleichen (AMD R7 - R9 -.../ GTX 780 TI - GTX 980 TI - GTX 1080),
um an deren Performence-Steigerung zu einer Einschätzung zu kommen, ob es sich "lohnt" . (mindestens 50% Steigerung sei gesetzt).
Zuletzt geändert von Felix2015 am 24.07.2016 13:06, insgesamt 1-mal geändert.
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Zwei Ergebnisse für GFN-21 auf meiner 290X (eine dritte WU diesen Typs wird heute noch fertig):
1. WU: Laufzeit: 63,352.61 Sekunden.
2. WU: Laufzeit: 63,655.37 Sekunden.
Zur Beachtung:
(1) Meine Karte hat einen undefinierten Defekt in einem einzigen Benchmarktest und kann fehlerfrei nur eine WU zur Zeit rechnen. Bei mehreren WUs parallel rechnet sie zwar durch, spuckt aber nur falsche Ergebnise aus - das gilt für mehrere GPU-Projekte und zwar unabhängig davon, ob diese SP oder DP nutzen (getestet: POEM / Milkyway).
(2) Desweiteren hockt die Karte in einem Board, dass "nur" PCIe 2.0 (x16) bietet. Es ist somit nicht ganz klar, ob die Karte auch voll ausgefahren werden kann.
(3) Die Karte wird mit einem veralteten Cytalyst-Treiber der Version 14.501.1003.0 vom 20.11.2014 betrieben.
(4) GPU-Clock ist 1080 MHz, RAM-Clock ist 1250 MHz.
Inwieweit jetzt die CPU (bei mir ein Intel(R) Core(TM) i5-2500K CPU @ 3.30GHz [Family 6 Model 42 Stepping 7]) noch eine Rolle spielt - immerhin befeuert sie die Karte mit Arbeit - ist auch nicht ganz definiert.
Die Karte hat ein besonders gutes Kühlkonzept, mit dem ich sie auch unter Vollast - selbst bei einer Umgebungstemperatur um die 30°C - um die 65°C (Chipoberfläche) halten kann.
Michael.
1. WU: Laufzeit: 63,352.61 Sekunden.
2. WU: Laufzeit: 63,655.37 Sekunden.
Zur Beachtung:
(1) Meine Karte hat einen undefinierten Defekt in einem einzigen Benchmarktest und kann fehlerfrei nur eine WU zur Zeit rechnen. Bei mehreren WUs parallel rechnet sie zwar durch, spuckt aber nur falsche Ergebnise aus - das gilt für mehrere GPU-Projekte und zwar unabhängig davon, ob diese SP oder DP nutzen (getestet: POEM / Milkyway).
(2) Desweiteren hockt die Karte in einem Board, dass "nur" PCIe 2.0 (x16) bietet. Es ist somit nicht ganz klar, ob die Karte auch voll ausgefahren werden kann.
(3) Die Karte wird mit einem veralteten Cytalyst-Treiber der Version 14.501.1003.0 vom 20.11.2014 betrieben.
(4) GPU-Clock ist 1080 MHz, RAM-Clock ist 1250 MHz.
Inwieweit jetzt die CPU (bei mir ein Intel(R) Core(TM) i5-2500K CPU @ 3.30GHz [Family 6 Model 42 Stepping 7]) noch eine Rolle spielt - immerhin befeuert sie die Karte mit Arbeit - ist auch nicht ganz definiert.
Die Karte hat ein besonders gutes Kühlkonzept, mit dem ich sie auch unter Vollast - selbst bei einer Umgebungstemperatur um die 30°C - um die 65°C (Chipoberfläche) halten kann.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
ich sehe gerade noch eine fertige 21 er WU von meiner 980. Sie hat 62.295 Sekunden gebraucht (Core i7 6700K mit 4200 MHz HT). Also ziemlich genau so schnell wie deine 290X
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Tjaaaa - das sollte eigentlich nicht sein, wenn DP tatsächlich eine maßgebliche Rolle bei diesen WUs spielt. Wirklich sehr, sehr seltsam.respawner hat geschrieben:ich sehe gerade noch eine fertige 21 er WU von meiner 980. Sie hat 62.295 Sekunden gebraucht (Core i7 6700K mit 4200 MHz HT). Also ziemlich genau so schnell wie deine 290X
Ich vermute allmählich, dass wir doch in verschiedener Hinsicht von unrichtigen / unvollständigen Annahmen ausgehen.
Wo ist da der Wurm drin?
Sicher ist für mich derzeit einzig, dass Deine CPU meiner haushoch überlegen ist.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Zitat aus den Primegrid-Projekteinstellungen zu den GFN-WUs:
Michael.
Kann man daraus überhaupt folgern, dass DP hier zwingend eine maßgebliche Rolle spielt?AMD/ATI GPUs must have double precision floating point hardware for n=21 and n=22.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Im ersten Posting hier sind einige Informationen, die sich mir bislang leider im Detail noch nicht ganz erschließen. Es scheint, dass es verschiedene Implementierungen gibt, um die GFN-21 & -22 WUs abzuarbeiten. Auch zeigt sich, dass CUDA aufgrund geringerer Performance zunehmend durch OpenCL ersetzt wird.
Die strikt auf DP setzende OCL-Variante wurde dabei almählich durch andere Modelle ersetzt?
Muss vielleicht mal eine Mathematiker ran?
Michael.
Die strikt auf DP setzende OCL-Variante wurde dabei almählich durch andere Modelle ersetzt?
Muss vielleicht mal eine Mathematiker ran?
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Ich hatte in einem anderem thread - bezogen auf die Schnittstelle PCIe - erwähnt, dass eine Limitierung wenn überhaupt durch die CPU stattfindet.
GPUGRID braucht kein/kaum ein Core - max 10% Belegung.
POEM braucht (zwingend) ein Core - mit max 25% Belegung (bei 4-Core-CPU) also Volllast.
Nun sind 25% bei einem i5-3570 K @ 3800 Mhz eine andere Limitierung als z.b. bei i3-2500 K @3200 Mhz oder bei einem i7-6700 K @4200 Mhz.
Im ungünstigsten Fall kann also eine "bessere" Graka durch eine schlechtere CPU ausgebremst werden und eine "schlechtere" Graka mit einer stärkeren CPU zieht davon.
Daher ist die Angabe des CPU zur Einschätzung der Limitierung wichtig.
Auch hier kann mensch strategisch vorausschauend planen:
Wenn ich z.B. überwiegend CPU-Projekte crunche, dann lege ich Wert möglichst viele Core beschäftigt zu haben (WCG).
Wenn ich z.B. überwiegend GPU-Projekte crunche, dann lege ich Wert möglichst hochgetakte Core beschäftigt zu haben.
Natürlich am liebsten beides, klar.
In diesem Sinne gilt bei jedem einzelnen GPU-Projekt zu prüfen, ob eine CPU-Limitierung vorliegt oder nicht.
Edit: zu den aktuellen Modifizierungen und Angleichungen - Einstellung - Neu OCL#Cuda steht ne Menge im SG-forum zum Projekt drin (die letzten 2 Seiten)
Das könnte hier im Forum auch mal methodisch aufgedröselt werden.
Natürlich von Member, die sich für das Projekt interessieren.
GPUGRID braucht kein/kaum ein Core - max 10% Belegung.
POEM braucht (zwingend) ein Core - mit max 25% Belegung (bei 4-Core-CPU) also Volllast.
Nun sind 25% bei einem i5-3570 K @ 3800 Mhz eine andere Limitierung als z.b. bei i3-2500 K @3200 Mhz oder bei einem i7-6700 K @4200 Mhz.
Im ungünstigsten Fall kann also eine "bessere" Graka durch eine schlechtere CPU ausgebremst werden und eine "schlechtere" Graka mit einer stärkeren CPU zieht davon.
Daher ist die Angabe des CPU zur Einschätzung der Limitierung wichtig.
Auch hier kann mensch strategisch vorausschauend planen:
Wenn ich z.B. überwiegend CPU-Projekte crunche, dann lege ich Wert möglichst viele Core beschäftigt zu haben (WCG).
Wenn ich z.B. überwiegend GPU-Projekte crunche, dann lege ich Wert möglichst hochgetakte Core beschäftigt zu haben.
Natürlich am liebsten beides, klar.
In diesem Sinne gilt bei jedem einzelnen GPU-Projekt zu prüfen, ob eine CPU-Limitierung vorliegt oder nicht.
Edit: zu den aktuellen Modifizierungen und Angleichungen - Einstellung - Neu OCL#Cuda steht ne Menge im SG-forum zum Projekt drin (die letzten 2 Seiten)
Das könnte hier im Forum auch mal methodisch aufgedröselt werden.
Natürlich von Member, die sich für das Projekt interessieren.
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
3. WU: Laufzeit: 63,632.30 Sekunden.Michael H.W. Weber hat geschrieben:Zwei Ergebnisse für GFN-21 auf meiner 290X (eine dritte WU diesen Typs wird heute noch fertig):
1. WU: Laufzeit: 63,352.61 Sekunden.
2. WU: Laufzeit: 63,655.37 Sekunden.
Zur Beachtung:
(1) Meine Karte hat einen undefinierten Defekt in einem einzigen Benchmarktest und kann fehlerfrei nur eine WU zur Zeit rechnen. Bei mehreren WUs parallel rechnet sie zwar durch, spuckt aber nur falsche Ergebnise aus - das gilt für mehrere GPU-Projekte und zwar unabhängig davon, ob diese SP oder DP nutzen (getestet: POEM / Milkyway).
(2) Desweiteren hockt die Karte in einem Board, dass "nur" PCIe 2.0 (x16) bietet. Es ist somit nicht ganz klar, ob die Karte auch voll ausgefahren werden kann.
(3) Die Karte wird mit einem veralteten Cytalyst-Treiber der Version 14.501.1003.0 vom 20.11.2014 betrieben.
(4) GPU-Clock ist 1080 MHz, RAM-Clock ist 1250 MHz.
Inwieweit jetzt die CPU (bei mir ein Intel(R) Core(TM) i5-2500K CPU @ 3.30GHz [Family 6 Model 42 Stepping 7]) noch eine Rolle spielt - immerhin befeuert sie die Karte mit Arbeit - ist auch nicht ganz definiert.
Die Karte hat ein besonders gutes Kühlkonzept, mit dem ich sie auch unter Vollast - selbst bei einer Umgebungstemperatur um die 30°C - um die 65°C (Chipoberfläche) halten kann.
Jetzt ist eine GFN-22 in Arbeit...
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22419
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
1. GFN-22 WU: Laufzeit: 251,819.47 Sekunden.Michael H.W. Weber hat geschrieben:Jetzt ist eine GFN-22 in Arbeit...
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
- FritzsHero
- PDA-Benutzer
- Beiträge: 37
- Registriert: 01.04.2016 21:12
Re: Primegrid auf AMD-Grakas, ganz ohne Stress
Dumme Frage, ist es absichtlich oder unabsichtlich so, dass der BOINC Client nur so "langsam" entwickelt wird? Fehlen Ideen oder einfach nur die Leute, überlege grad ein bisschen am Client rumzuschrauben.
P.S. Bei mir steht jetzt eine GFN-22 auf 31% nach 23 h.
P.S. Bei mir steht jetzt eine GFN-22 auf 31% nach 23 h.