Stress mit Einstein@home

Astronomie (Einstein, Universe@Home, Milkyway@home, ...)
Nachricht
Autor
Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Stress mit Einstein@home

#1 Ungelesener Beitrag von Michael H.W. Weber » 31.03.2017 22:57

Habe seit dem 30.3. das Problem, dass die Credits massiv einbrechen, obwohl meine Maschinen unverändert sind. Validierung schlägt fehl. Andere Projekte rechnen auf denselben GPUs einwandfrei.
Ich hatte Christian heute früh benachrichtigt, bislang aber noch keine Antwort. Da jetzt auch die Webseite leere Seiten für die Aufgaben liefert, habe ich Einstein erstmal vom Netz genommen.
Habt ihr ähnliche Probleme beobachtet?

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
ClaudiusD
Vereinsmitglied
Vereinsmitglied
Beiträge: 1301
Registriert: 29.01.2013 16:52
Wohnort: Wien

Re: Stress mit Einstein@home

#2 Ungelesener Beitrag von ClaudiusD » 01.04.2017 08:57

Nope, bei mir laufens alle ordentlich. Aber ich glaub du nutzt nur AMD-Karten, oder? Bei mir laufen momentan vier NVidia-GPUs für Einstein - sonst nix. Vielleicht hilfts ja beim Problemsuchen.
Bild

ChristianB
Admin
Admin
Beiträge: 1920
Registriert: 23.02.2010 22:12

Re: Stress mit Einstein@home

#3 Ungelesener Beitrag von ChristianB » 01.04.2017 10:42

Das Problem mit den Computer und Aufgabenseiten ist behoben. Bei Validierungsfehlern ist es hilfreich wenn Ihr gleich einen Link zu dem Host postet welcher ungewöhnlich viele dieser Fehler hat. Das erleichtert mir das heraussuchen und ich kann schneller nach der Ursache suchen. Eine generelle Häufung von Validierungsfehlern bei bestimmten FGRPB1 Aufgaben kann ich jetzt nicht bestätigen, ich habe aber auch noch nicht näher reingeschaut. Im EaH Forum gibt es zumindest noch keine anderen Nutzer die ähnliches berichten.

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Stress mit Einstein@home

#4 Ungelesener Beitrag von Michael H.W. Weber » 01.04.2017 11:04

Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Stress mit Einstein@home

#5 Ungelesener Beitrag von Eric » 01.04.2017 20:43

Läuft bei mir mit 0,125 GPU und 0,0125 CPU und liefert um die 180.000 am Tag bei einer wu (also keine parallel).
Bild

Benutzeravatar
Yeti
Oberprojektler
Oberprojektler
Beiträge: 1917
Registriert: 01.04.2008 21:15
Kontaktdaten:

Re: Stress mit Einstein@home

#6 Ungelesener Beitrag von Yeti » 01.04.2017 20:50

Eric hat geschrieben:Läuft bei mir mit 0,125 GPU und 0,0125 CPU und liefert um die 180.000 am Tag bei einer wu (also keine parallel).
Hä ? 0,125 GPU bedeutet doch, das 8 WUs gleichzeitig laufen :uhoh:
Bild

Supporting BOINC, a great concept !

Benutzeravatar
gemini8
Vereinsvorstand
Vereinsvorstand
Beiträge: 5898
Registriert: 31.05.2011 10:30
Wohnort: Hannover

Re: Stress mit Einstein@home

#7 Ungelesener Beitrag von gemini8 » 01.04.2017 21:00

Oder daß nicht mehr an der GPU gezogen wird?
Gruß, Jens
- - - - - -
Lowend-User und Teilzeit-Cruncher

Bild Bild Bild
Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Stress mit Einstein@home

#8 Ungelesener Beitrag von Eric » 01.04.2017 21:01

Theoretisch ja. Es gibt aber noch einen Parameter, der die Anzahl der wu begrenzt. Den habe ich auf 1 gesetzt.
Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Stress mit Einstein@home

#9 Ungelesener Beitrag von Eric » 01.04.2017 21:05

Max_concurrent = 1
Gpu_usage = 0.125
Cpu_usage = 0,0125

Bedeutet, dass nur eine wu mit 1/8 GPU und 0,0125 Cpu laufen darf
Bild

ChristianB
Admin
Admin
Beiträge: 1920
Registriert: 23.02.2010 22:12

Re: Linux: GPU austauschen sowie Systemupdate

#10 Ungelesener Beitrag von ChristianB » 03.04.2017 08:51

Ich habe mir mal zwei Aufgaben rausgepickt. Die eine ist komplett kaputt (Status Validate Error):
2017-04-01 17:05:46.1572 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 1 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1572 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 2 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1572 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 3 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1572 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 4 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1572 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 5 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1573 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 6 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1573 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 7 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1573 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 8 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1573 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 9 column 3 (Power) didn't pass validate function
2017-04-01 17:05:46.1573 check_single(LATeah0020L_1076.0_0_0.0_19583020_0_0): value inf line 10 column 3 (Power) didn't pass validate function
Ursache ist meistens ein Rechenfehler auf der GPU bei einer Häufung deutet es auf schlechte Kühlung hin.

Bei der anderen Aufgabe ist es so dass deine Ergebnisse nicht zu den anderen beiden gepasst haben. Es gab zu große Abweichungen (Status Invalid).

Du hast eine Zeit lang sehr viele Validate error Aufgaben abgeliefert (fast jede zweite war vom ersten Typ). Wenn es ein Problem mit den Aufgaben wäre dann hätten auch andere Nutzer derselben Aufgabe das Problem, dem ist aber nicht so.

Deine aktuelle Übersicht ist: 1513 Aufgaben insgesamt, davon 1050 valide, 229 pending, 220 Validate error (inf Power column), 8 invalid (zu große Abweichungen), Rest aborted by user oder ein anderer uninteressanter Status. Die letzten zurückgelieferten Aufgaben sind alle in Ordnung. Ich tippe also mal eher auf ein lokales Problem entweder ein Hitzestau in der GPU oder eine andere Anwendung die den GPU Speicher durcheinander gebracht hat, das wäre auch nichts ungewöhnliches.

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Stress mit Einstein@home

#11 Ungelesener Beitrag von Michael H.W. Weber » 03.04.2017 12:24

OK.
Ich hoffe, Du meinst mit "eine Zeit lang" den 30./31. März?
Dann würde ich das jetzt nämlich auch mal auf ein thermisches Problem schieben.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

ChristianB
Admin
Admin
Beiträge: 1920
Registriert: 23.02.2010 22:12

Re: Stress mit Einstein@home

#12 Ungelesener Beitrag von ChristianB » 03.04.2017 12:45

Michael H.W. Weber hat geschrieben:OK.
Ich hoffe, Du meinst mit "eine Zeit lang" den 30./31. März?
Dann würde ich das jetzt nämlich auch mal auf ein thermisches Problem schieben.
Ja genau. Ich könnte den Zeitraum jetzt noch näher eingrenzen aber das würde auch keine neuen Erkenntnisse bringen. Wenn es nochmal auftritt dann sollten wir mal genauer schauen. So sieht es aus wie eine normale Fluktuation.

Antworten

Zurück zu „Astronomie“