GPUGRID: Stress mit falschen CUDA-Apps/WUs

Analyse und Vorhersage von Struktur und Faltungsweg (Folding@home, GPUGRID, Rosetta@home, ...)
Nachricht
Autor
Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

GPUGRID: Stress mit falschen CUDA-Apps/WUs

#1 Ungelesener Beitrag von Michael H.W. Weber » 05.10.2021 13:15

Mit den RTX-Karten gibt es wohl etwas Stress bei GPUGRID:
Das Projekt ist entgegen anders lautender Verlautbarungen der Betreiber nicht in der Lage, automatisch die korrekte CUDA-App/WU zuzuordnen.

Bedeutet konkret: Richtig wäre beispiesweise für eine RTX 3080 GraKa selektiv Apps/WUs vom Typ cuda1121 auszuliefern. Es werden aber sowohl Tasks für diese, als auch für cuda101 ausgeliefert.
Leztere crashen dann reihenweise. Kommt das oft vor oder löscht man die falschen manuell aus dem BOINC-Manager, bekommt man für eine Weile keine GPUGRID-WUs mehr. :uhoh:

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
gemini8
Vereinsmitglied
Vereinsmitglied
Beiträge: 4431
Registriert: 31.05.2011 10:30
Wohnort: Hannover

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#2 Ungelesener Beitrag von gemini8 » 05.10.2021 15:09

Kannst du die falschen Apps evtl. per app_config.xml ausklammern?
Ich könnte mir vorstellen, dass du die Apps mit verkehrter plan-class durch das Setzen von 0 parallelen Aufgaben für die jeweiligen plan-classes abweisen könntest.
Ob dies tatsächlich funktioniert, weiß ich aber nicht, deshalb gib uns bitte Rückmeldung.
Gruß, Jens
- - - - - -
Lowend-User und Teilzeitcruncher

Bild Bild Bild
Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#3 Ungelesener Beitrag von Michael H.W. Weber » 05.10.2021 17:28

Keine Ahnung, ob ich da 'ne separierte App finde - werde in Bälde mal nachschauen und ggf. etwas herumprobieren.
Auf jeden Fall ein guter Tipp, weil - dat nervt. :roll:

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
Kolossus
TuX-omane
TuX-omane
Beiträge: 3227
Registriert: 26.10.2014 14:51
Wohnort: Köln
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#4 Ungelesener Beitrag von Kolossus » 05.10.2021 20:41

Heute habe ich eine Cuda 1121 erhalten.
Diese läuft allerdings recht langsam und nutzt nur ca. 36 % Powertarget. Fertig sind etwas über 16 %, wozu sie 3 Std. 22 min. gebraucht hat.
Bin mal gespannt, wie lange sie braucht. Die vorhergesagte Rechenzeit war über 5 Tage.
Gruß Harald

Selbst wenn es die Sonne ist, die auf ihn scheint, ein Misthaufen antwortet immer nur mit Gestank

Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#5 Ungelesener Beitrag von Michael H.W. Weber » 06.10.2021 08:36

So, ich habe in der client_state.xml folgenden GPUGRID-relevante Bereiche für die jeweilige App gefunden:

Code: Alles auswählen

<app_version>
    <app_name>acemd3</app_name>
    <version_num>218</version_num>
    <platform>windows_x86_64</platform>
    <avg_ncpus>0.992352</avg_ncpus>
    <flops>52811277619.411263</flops>
    <plan_class>cuda1121</plan_class>
    <api_version>7.9.0</api_version>
    <file_ref>
        <file_name>wrapper_6.1_windows_x86_64.exe</file_name>
        <main_program/>
    </file_ref>
    <file_ref>
        <file_name>conda-pack.zip.1d5c404efc7b1e2955ff7117efdcb358</file_name>
        <open_name>conda-pack.zip</open_name>
        <copy_file/>
    </file_ref>
    <file_ref>
        <file_name>job.xml.c6998e7e5c9c86d287bebb5ce4a28385</file_name>
        <open_name>job.xml</open_name>
    </file_ref>
    <coproc>
        <type>NVIDIA</type>
        <count>1.000000</count>
    </coproc>
    <gpu_ram>512.000000</gpu_ram>
    <dont_throttle/>
</app_version>
<app_version>

Code: Alles auswählen

    <app_name>acemd3</app_name>
    <version_num>218</version_num>
    <platform>windows_x86_64</platform>
    <avg_ncpus>0.992352</avg_ncpus>
    <flops>52811277619.411263</flops>
    <plan_class>cuda101</plan_class>
    <api_version>7.9.0</api_version>
    <file_ref>
        <file_name>wrapper_6.1_windows_x86_64.exe</file_name>
        <main_program/>
    </file_ref>
    <file_ref>
        <file_name>conda-pack.zip.aeb48fd13371f930209a8d253488c86a</file_name>
        <open_name>conda-pack.zip</open_name>
        <copy_file/>
    </file_ref>
    <file_ref>
        <file_name>job.xml.c6998e7e5c9c86d287bebb5ce4a28385</file_name>
        <open_name>job.xml</open_name>
    </file_ref>
    <coproc>
        <type>NVIDIA</type>
        <count>1.000000</count>
    </coproc>
    <gpu_ram>512.000000</gpu_ram>
    <dont_throttle/>
</app_version>
...bräuchte jetzt noch etwas Hilfe, was da konkret angepasst werden müßte, damit der untere plan_class abgeschaltet wird.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#6 Ungelesener Beitrag von Michael H.W. Weber » 06.10.2021 08:40

Kolossus hat geschrieben:
05.10.2021 20:41
Heute habe ich eine Cuda 1121 erhalten.
Diese läuft allerdings recht langsam und nutzt nur ca. 36 % Powertarget. Fertig sind etwas über 16 %, wozu sie 3 Std. 22 min. gebraucht hat.
Bin mal gespannt, wie lange sie braucht. Die vorhergesagte Rechenzeit war über 5 Tage.
Auf der RTX 3080 hat es für die bisher abgefrühstückten drei WUs

40,531.08
41,480.66
45,104.59

Sekunden pro WU gebraucht, also im Schnitt 11,77 Std. (11 Std. 46 Min).
Ich sollte dazu sagen, dass ich für die GPU WUs - die ja einen CPU Kern benötigen - keinen solchen explizit reserviere. Bedeutet: Auf der Kiste rechnen zusätzlich parallel 32 CPU Tasks und WENN man einen Kern reservierte, würde die WU ggf. noch etwas schneller fertig.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
Kolossus
TuX-omane
TuX-omane
Beiträge: 3227
Registriert: 26.10.2014 14:51
Wohnort: Köln
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#7 Ungelesener Beitrag von Kolossus » 06.10.2021 10:50

Irgendwann am Abend hat die WU dann doch die volle Leistung benutzt, wurde aber dann von mir auf 50 % PT gedrosselt und hat letztendlich 58.005 Sekunden Zeit gebraucht.
Danach wurde eine 101 gezogen, die aber nach 5 Sek.mit Rechenfehler abbrach.
Jetzt kaut sie die zweite 1121 durch.
Parallel laufen bei mir z.Z. keine CPU-WUs.

Mit welchem Powertarget läuft bei dir die GraKa?
Gruß Harald

Selbst wenn es die Sonne ist, die auf ihn scheint, ein Misthaufen antwortet immer nur mit Gestank

Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#8 Ungelesener Beitrag von Michael H.W. Weber » 06.10.2021 13:12

Kolossus hat geschrieben:
06.10.2021 10:50
Mit welchem Powertarget läuft bei dir die GraKa?
...die Karte läuft mit ungedrosselten Werkseinstellungen.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
Kolossus
TuX-omane
TuX-omane
Beiträge: 3227
Registriert: 26.10.2014 14:51
Wohnort: Köln
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#9 Ungelesener Beitrag von Kolossus » 06.10.2021 14:15

Michael H.W. Weber hat geschrieben:
06.10.2021 13:12
...die Karte läuft mit ungdrosselten Werkseinstellungen.
Das macht mich neugierig! Die nächste WU läuft dann auch ungedrosselt. Da bin ich ja mal auf den Unterschied der beiden Karten gespannt.
3080 vs 3080 ti, das wird spannend!
Gruß Harald

Selbst wenn es die Sonne ist, die auf ihn scheint, ein Misthaufen antwortet immer nur mit Gestank

Bild

Benutzeravatar
gemini8
Vereinsmitglied
Vereinsmitglied
Beiträge: 4431
Registriert: 31.05.2011 10:30
Wohnort: Hannover

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#10 Ungelesener Beitrag von gemini8 » 06.10.2021 18:04

Michael H.W. Weber hat geschrieben:
06.10.2021 08:36
...bräuchte jetzt noch etwas Hilfe, was da konkret angepasst werden müßte, damit der untere plan_class abgeschaltet wird.
Ich würde es folgendermaßen versuchen:

Code: Alles auswählen

<app_config>
<project_max_concurrent>2</project_max_concurrent>
<app>
   <name>acemd3</name>
      <max_concurrent>1</max_concurrent>
      <fraction_done_exact/>
</app>
   <app_version>
       <app_name>acemd3</app_name>
       <plan_class>cuda1121</plan_class>
       <ngpus>1</ngpus>
   </app_version>
   <app_version>
       <app_name>acemd3</app_name>
       <plan_class>cuda101</plan_class>
       <ngpus>0</ngpus>
   </app_version>
</app_config>
Ob es funktioniert, weiß ich halt nicht.
Ich versuche, für cuda1121 eine GPU zu erlauben, für cuda101 dagegen keine.
Wenn die 0 als 0 gelesen wird, könnte es klappen, wenn sie als 'bedien dich nach Lust und Laune' gelesen wird, eher nicht. ;-)
Sollte es nicht klappen, bin ich leider raus.

Anpassung über app_config.xml, nicht client_state.xml!
Gruß, Jens
- - - - - -
Lowend-User und Teilzeitcruncher

Bild Bild Bild
Bild

Benutzeravatar
Kolossus
TuX-omane
TuX-omane
Beiträge: 3227
Registriert: 26.10.2014 14:51
Wohnort: Köln
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#11 Ungelesener Beitrag von Kolossus » 06.10.2021 18:42

Hmmm, ich denke: Wenn ich gar nichts tue, dann wird schlimmstenfalls eine 101 geladen, die abstürzt, worauf eine neue geladen wird, die entweder 1121 oder 101 ist. Falls 101: Absturz, lade neu bis 1121. Wird niemand verübeln und es gibt immer Nachschub. Eine neue WU ist im Nu heruntergeladen. Was soll ich mir da Gedanken machen über eine abstürzende 101? Ich bin da einfach pragmatischer. :wink:
Gruß Harald

Selbst wenn es die Sonne ist, die auf ihn scheint, ein Misthaufen antwortet immer nur mit Gestank

Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 21375
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: GPUGRID: Stress mit falschen CUDA-Apps/WUs

#12 Ungelesener Beitrag von Michael H.W. Weber » 06.10.2021 20:27

Kolossus hat geschrieben:
06.10.2021 18:42
Hmmm, ich denke: Wenn ich gar nichts tue, dann wird schlimmstenfalls eine 101 geladen, die abstürzt, worauf eine neue geladen wird, die entweder 1121 oder 101 ist. Falls 101: Absturz, lade neu bis 1121. Wird niemand verübeln und es gibt immer Nachschub. Eine neue WU ist im Nu heruntergeladen. Was soll ich mir da Gedanken machen über eine abstürzende 101? Ich bin da einfach pragmatischer. :wink:
Wie ich ja schon schrieb, wird Dein Client je nach Anzahl der Fehlversuche erstmal für Stunden gesperrt und gammelt während dessen dann nutzlos herum.
Das aber gilt es natürlich zu vermeiden, wie der Deibel das Weihwasser. :lol:

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Antworten

Zurück zu „Protein- und Nukleinsäureforschung“