GPUGRID: Stress mit falschen CUDA-Apps/WUs
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
GPUGRID: Stress mit falschen CUDA-Apps/WUs
Mit den RTX-Karten gibt es wohl etwas Stress bei GPUGRID:
Das Projekt ist entgegen anders lautender Verlautbarungen der Betreiber nicht in der Lage, automatisch die korrekte CUDA-App/WU zuzuordnen.
Bedeutet konkret: Richtig wäre beispiesweise für eine RTX 3080 GraKa selektiv Apps/WUs vom Typ cuda1121 auszuliefern. Es werden aber sowohl Tasks für diese, als auch für cuda101 ausgeliefert.
Leztere crashen dann reihenweise. Kommt das oft vor oder löscht man die falschen manuell aus dem BOINC-Manager, bekommt man für eine Weile keine GPUGRID-WUs mehr.
Michael.
Das Projekt ist entgegen anders lautender Verlautbarungen der Betreiber nicht in der Lage, automatisch die korrekte CUDA-App/WU zuzuordnen.
Bedeutet konkret: Richtig wäre beispiesweise für eine RTX 3080 GraKa selektiv Apps/WUs vom Typ cuda1121 auszuliefern. Es werden aber sowohl Tasks für diese, als auch für cuda101 ausgeliefert.
Leztere crashen dann reihenweise. Kommt das oft vor oder löscht man die falschen manuell aus dem BOINC-Manager, bekommt man für eine Weile keine GPUGRID-WUs mehr.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Kannst du die falschen Apps evtl. per app_config.xml ausklammern?
Ich könnte mir vorstellen, dass du die Apps mit verkehrter plan-class durch das Setzen von 0 parallelen Aufgaben für die jeweiligen plan-classes abweisen könntest.
Ob dies tatsächlich funktioniert, weiß ich aber nicht, deshalb gib uns bitte Rückmeldung.
Ich könnte mir vorstellen, dass du die Apps mit verkehrter plan-class durch das Setzen von 0 parallelen Aufgaben für die jeweiligen plan-classes abweisen könntest.
Ob dies tatsächlich funktioniert, weiß ich aber nicht, deshalb gib uns bitte Rückmeldung.
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Keine Ahnung, ob ich da 'ne separierte App finde - werde in Bälde mal nachschauen und ggf. etwas herumprobieren.
Auf jeden Fall ein guter Tipp, weil - dat nervt.
Michael.
Auf jeden Fall ein guter Tipp, weil - dat nervt.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Heute habe ich eine Cuda 1121 erhalten.
Diese läuft allerdings recht langsam und nutzt nur ca. 36 % Powertarget. Fertig sind etwas über 16 %, wozu sie 3 Std. 22 min. gebraucht hat.
Bin mal gespannt, wie lange sie braucht. Die vorhergesagte Rechenzeit war über 5 Tage.
Diese läuft allerdings recht langsam und nutzt nur ca. 36 % Powertarget. Fertig sind etwas über 16 %, wozu sie 3 Std. 22 min. gebraucht hat.
Bin mal gespannt, wie lange sie braucht. Die vorhergesagte Rechenzeit war über 5 Tage.
Gruß Harald
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
So, ich habe in der client_state.xml folgenden GPUGRID-relevante Bereiche für die jeweilige App gefunden:
...bräuchte jetzt noch etwas Hilfe, was da konkret angepasst werden müßte, damit der untere plan_class abgeschaltet wird.
Michael.
Code: Alles auswählen
<app_version>
<app_name>acemd3</app_name>
<version_num>218</version_num>
<platform>windows_x86_64</platform>
<avg_ncpus>0.992352</avg_ncpus>
<flops>52811277619.411263</flops>
<plan_class>cuda1121</plan_class>
<api_version>7.9.0</api_version>
<file_ref>
<file_name>wrapper_6.1_windows_x86_64.exe</file_name>
<main_program/>
</file_ref>
<file_ref>
<file_name>conda-pack.zip.1d5c404efc7b1e2955ff7117efdcb358</file_name>
<open_name>conda-pack.zip</open_name>
<copy_file/>
</file_ref>
<file_ref>
<file_name>job.xml.c6998e7e5c9c86d287bebb5ce4a28385</file_name>
<open_name>job.xml</open_name>
</file_ref>
<coproc>
<type>NVIDIA</type>
<count>1.000000</count>
</coproc>
<gpu_ram>512.000000</gpu_ram>
<dont_throttle/>
</app_version>
<app_version>
Code: Alles auswählen
<app_name>acemd3</app_name>
<version_num>218</version_num>
<platform>windows_x86_64</platform>
<avg_ncpus>0.992352</avg_ncpus>
<flops>52811277619.411263</flops>
<plan_class>cuda101</plan_class>
<api_version>7.9.0</api_version>
<file_ref>
<file_name>wrapper_6.1_windows_x86_64.exe</file_name>
<main_program/>
</file_ref>
<file_ref>
<file_name>conda-pack.zip.aeb48fd13371f930209a8d253488c86a</file_name>
<open_name>conda-pack.zip</open_name>
<copy_file/>
</file_ref>
<file_ref>
<file_name>job.xml.c6998e7e5c9c86d287bebb5ce4a28385</file_name>
<open_name>job.xml</open_name>
</file_ref>
<coproc>
<type>NVIDIA</type>
<count>1.000000</count>
</coproc>
<gpu_ram>512.000000</gpu_ram>
<dont_throttle/>
</app_version>
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Auf der RTX 3080 hat es für die bisher abgefrühstückten drei WUsKolossus hat geschrieben: ↑05.10.2021 20:41Heute habe ich eine Cuda 1121 erhalten.
Diese läuft allerdings recht langsam und nutzt nur ca. 36 % Powertarget. Fertig sind etwas über 16 %, wozu sie 3 Std. 22 min. gebraucht hat.
Bin mal gespannt, wie lange sie braucht. Die vorhergesagte Rechenzeit war über 5 Tage.
40,531.08
41,480.66
45,104.59
Sekunden pro WU gebraucht, also im Schnitt 11,77 Std. (11 Std. 46 Min).
Ich sollte dazu sagen, dass ich für die GPU WUs - die ja einen CPU Kern benötigen - keinen solchen explizit reserviere. Bedeutet: Auf der Kiste rechnen zusätzlich parallel 32 CPU Tasks und WENN man einen Kern reservierte, würde die WU ggf. noch etwas schneller fertig.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Irgendwann am Abend hat die WU dann doch die volle Leistung benutzt, wurde aber dann von mir auf 50 % PT gedrosselt und hat letztendlich 58.005 Sekunden Zeit gebraucht.
Danach wurde eine 101 gezogen, die aber nach 5 Sek.mit Rechenfehler abbrach.
Jetzt kaut sie die zweite 1121 durch.
Parallel laufen bei mir z.Z. keine CPU-WUs.
Mit welchem Powertarget läuft bei dir die GraKa?
Danach wurde eine 101 gezogen, die aber nach 5 Sek.mit Rechenfehler abbrach.
Jetzt kaut sie die zweite 1121 durch.
Parallel laufen bei mir z.Z. keine CPU-WUs.
Mit welchem Powertarget läuft bei dir die GraKa?
Gruß Harald
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
...die Karte läuft mit ungedrosselten Werkseinstellungen.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Das macht mich neugierig! Die nächste WU läuft dann auch ungedrosselt. Da bin ich ja mal auf den Unterschied der beiden Karten gespannt.Michael H.W. Weber hat geschrieben: ↑06.10.2021 13:12...die Karte läuft mit ungdrosselten Werkseinstellungen.
3080 vs 3080 ti, das wird spannend!
Gruß Harald
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Ich würde es folgendermaßen versuchen:Michael H.W. Weber hat geschrieben: ↑06.10.2021 08:36...bräuchte jetzt noch etwas Hilfe, was da konkret angepasst werden müßte, damit der untere plan_class abgeschaltet wird.
Code: Alles auswählen
<app_config>
<project_max_concurrent>2</project_max_concurrent>
<app>
<name>acemd3</name>
<max_concurrent>1</max_concurrent>
<fraction_done_exact/>
</app>
<app_version>
<app_name>acemd3</app_name>
<plan_class>cuda1121</plan_class>
<ngpus>1</ngpus>
</app_version>
<app_version>
<app_name>acemd3</app_name>
<plan_class>cuda101</plan_class>
<ngpus>0</ngpus>
</app_version>
</app_config>
Ich versuche, für cuda1121 eine GPU zu erlauben, für cuda101 dagegen keine.
Wenn die 0 als 0 gelesen wird, könnte es klappen, wenn sie als 'bedien dich nach Lust und Laune' gelesen wird, eher nicht.
Sollte es nicht klappen, bin ich leider raus.
Anpassung über app_config.xml, nicht client_state.xml!
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Hmmm, ich denke: Wenn ich gar nichts tue, dann wird schlimmstenfalls eine 101 geladen, die abstürzt, worauf eine neue geladen wird, die entweder 1121 oder 101 ist. Falls 101: Absturz, lade neu bis 1121. Wird niemand verübeln und es gibt immer Nachschub. Eine neue WU ist im Nu heruntergeladen. Was soll ich mir da Gedanken machen über eine abstürzende 101? Ich bin da einfach pragmatischer.
Gruß Harald
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
Meine Kommentare sind grundsätzlich nicht Chauvinistischer, Misogynischer, Xenophobischer, Homophobischer oder Religionfeindlicher Natur, sondern dienen lediglich der Konversation und repräsentieren ansonsten die schlichte, rheinische Denkungsweise.
s
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 22434
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs
Wie ich ja schon schrieb, wird Dein Client je nach Anzahl der Fehlversuche erstmal für Stunden gesperrt und gammelt während dessen dann nutzlos herum.Kolossus hat geschrieben: ↑06.10.2021 18:42Hmmm, ich denke: Wenn ich gar nichts tue, dann wird schlimmstenfalls eine 101 geladen, die abstürzt, worauf eine neue geladen wird, die entweder 1121 oder 101 ist. Falls 101: Absturz, lade neu bis 1121. Wird niemand verübeln und es gibt immer Nachschub. Eine neue WU ist im Nu heruntergeladen. Was soll ich mir da Gedanken machen über eine abstürzende 101? Ich bin da einfach pragmatischer.
Das aber gilt es natürlich zu vermeiden, wie der Deibel das Weihwasser.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B