OWS exited with zero status...

Fehler und Wünsche zum Projekt yoyo@home
Bugs and wishes for the project yoyo@home
Nachricht
Autor
Benutzeravatar
GrafZahl
Vereinsmitglied
Vereinsmitglied
Beiträge: 323
Registriert: 06.09.2001 01:00
Wohnort: Henstedt-Ulzburg

OWS exited with zero status...

#1 Ungelesener Beitrag von GrafZahl » 29.12.2013 06:04

29.12.2013 05:58:05 | yoyo@home | Restarting task ows_25706_145_1388282849_1 using oddWeiredSearch version 2 in slot 13
29.12.2013 05:58:08 | yoyo@home | Task ows_44093_160_1388282849_1 exited with zero status but no 'finished' file
29.12.2013 05:58:08 | yoyo@home | If this happens repeatedly you may need to reset the project.
29.12.2013 05:58:08 | yoyo@home | Restarting task ows_44093_160_1388282849_1 using oddWeiredSearch version 2 in slot 14

A project reset did not help - still the same error. Have seen this on several PCs. / Ein Reset des Projekts hat nicht geholfen. Der Fehler taucht auf mehreren PCs auf.

Benutzeravatar
GrafZahl
Vereinsmitglied
Vereinsmitglied
Beiträge: 323
Registriert: 06.09.2001 01:00
Wohnort: Henstedt-Ulzburg

Re: OWS exited with zero status...

#2 Ungelesener Beitrag von GrafZahl » 06.01.2014 17:38

Da bin ich wohl der einzige mit dem Problem...?

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: OWS exited with zero status...

#3 Ungelesener Beitrag von Ananas » 08.01.2014 10:05

Bekommst Du denn in den WUs irgendwas, das auf den Fehler schliessen liesse, z.B. Heartbeat-Warnungen in der Ausgabe?

Bei mir ist insbesondere ein Dual Xeon anfaellig fuer Heartbeatfehler, wenn dicke Anwendungen ent- oder dicke WUs verpackt werden oder uebertrieben grosse Wiederaufsetzpunkte geschrieben werden.

Potentielle Uebeltaeter sind bei mir dann meist RNA-World und CPDN (beim Auspacken) oder Malaria (beim Zwischenspeichern) und aus mir bisher unbekannten Gruenden EDGeS unmittelbar nach dem Anwendungsstart.

Speziell bei OWS kann es durch die kurze Deadline auch dazu kommen, dass ploetzlich alle anderen WUs pausiert werden und stattdessen nur noch OWS laufen. Dann starten (bei mir) bis zu 16 neue WUs synchron, das legt auch den Coreclient zu lange lahm so dass er den Heartbeat verspaetet rausschickt.

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#4 Ungelesener Beitrag von Matthias Lehmkuhl » 21.03.2014 14:49

Hallo, ich habe das Problem auch.
aber nur auf dem Rechner Windows 64bit mit Boinc Client Version 7.0.64
Zudem läuft auf dem Rechner ein RNAWorld Result.
http://www.rechenkraft.net/yoyo/result. ... d=24821958
Das letzte noch vorhanden Result in meiner Resultliste mit dem Fehler.

Anbei die Fehlermeldungen:
Exit status -226 (0xffffff1e)

<message>
too many exit(0)s
</message>
<stderr_txt>
19:58:04 (6728): BOINC client no longer exists - exiting
19:58:04 (6728): timer handler: client dead, exiting
19:58:14 (5828): BOINC client no longer exists - exiting
19:58:14 (5828): timer handler: client dead, exiting
19:58:24 (4508): BOINC client no longer exists - exiting
19:58:24 (4508): timer handler: client dead, exiting
...
20:16:11 (3748): BOINC client no longer exists - exiting
20:16:11 (3748): timer handler: client dead, exiting
20:16:22 (7092): BOINC client no longer exists - exiting
20:16:22 (7092): timer handler: client dead, exiting

</stderr_txt>

könnte die Boinc Client Version inkompatibel/zu alt sein?
Mit Windows 7 und Boinc Client Version 7.2.x (auf anderen Rechnern) habe ich den Fehler nicht gehabt.

Die ogr Results laufen ohne diesen Fehler, wie alle anderen Projekte auch.

Edit:
es wird immer nur ein ows Result gestartet (per app_config.xml begrenzt)
Matthias

Bild - Bild

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#5 Ungelesener Beitrag von Matthias Lehmkuhl » 03.04.2014 08:35

Jetzt habe ich das Problem auch auf einem Rechner, der die OWS Results bisher erfolgreich berechnet hat
http://www.rechenkraft.net/yoyo/result. ... d=25028032
http://www.rechenkraft.net/yoyo/result. ... d=24992447

Gleiches Verhalten
<core_client_version>7.3.11</core_client_version>
<![CDATA[
<message>
too many exit(0)s
</message>
<stderr_txt>
21:42:28 (8628): BOINC client no longer exists - exiting
21:42:28 (8628): timer handler: client dead, exiting
21:42:39 (2856): BOINC client no longer exists - exiting
21:42:39 (2856): timer handler: client dead, exiting
...
21:59:25 (7408): BOINC client no longer exists - exiting
21:59:25 (7408): timer handler: client dead, exiting
21:59:35 (6948): BOINC client no longer exists - exiting
21:59:35 (6948): timer handler: client dead, exiting

</stderr_txt>
Matthias

Bild - Bild

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: OWS exited with zero status...

#6 Ungelesener Beitrag von Ananas » 27.04.2014 07:56

Sammelt doch mal die BOINC-Versionen, bei denen das auftritt. Ich bin fast sicher, dass es erst ab einer bestimmten Version des Coreclient auftritt.

Es ist kein spezifisches OWS-Problem, bei CPDN haben wir es auch schon gesehen und bisher hatte keiner eine Idee dazu (meine Stichproben hatten alle 7er Coreclients).

Mein Verdacht waere, dass es irgendwie mit der Umstellung auf den Heartbeat-Ersatz zu tun hat, auch wenn der sich auf aeltere (bzw. mit den aelteren APIs gebundene) Project-Binaries eigentlich nicht auswirken sollte. Das ist allerdings ziemlich ins Blaue geraten, die Quelle kenne ich nicht, nur das Konzept - und das gefaellt mir nicht, ich bin daher kein unvoreingenommener Beobachter ;-)

Matthias hat schon die 7.3.11 gemeldet.

p.s.: CPDN hat sogar schon fuer die 7.2.39 ein "Embargo" verhaengt und liefert an diese Version gar keine WUs mehr. Das duerfte aber ein anderes Problem gewesen sein.


p.p.s.: Hier mal der Unterschied in den Ausgaben zwischen altem und neuen Coreclient bei Heartbeatfehler :

Clientversion 7.2.33 :

CPDN Monitor - No 'heartbeat' from BOINC...
06:19:56 (153116): BOINC client no longer exists - exiting
06:19:56 (153116): timer handler: client dead, exiting

Solche Results enden typischerweise mit Abbruch
--------------------------------------------
Clientversion 5.10.28 :

00:42:25 (360): No heartbeat from core client for 30 sec - exiting
CPDN Monitor - No 'heartbeat' from BOINC...

Solche Results enden meist trotzdem erfolgreich

Hier die Ausgabe eines 5.10.28 fuer eine (erfolgreiche) OWS-WU mit Heartbeatfehler (wurde beide Male beim Auspacken jeweils einer CPDN-WU "abgeschossen"):

Code: Alles auswählen

<core_client_version>5.10.28</core_client_version>
<![CDATA[
<stderr_txt>
22:08:31 (2456): No heartbeat from client for 30 sec - exiting
22:08:31 (2456): timer handler: client dead, exiting
23:31:12 (3036): No heartbeat from client for 30 sec - exiting
23:31:12 (3036): timer handler: client dead, exiting
23:31:57 (3548): called boinc_finish

</stderr_txt>
]]>
Der Fehler tritt also grundsaetzlich auch bei aelteren Clients auf, die "berappeln" sich aber nach dem Fehler wieder waehrend es bei den neuen immer zum nicht erfolgreichen Abbruch der WU fuehrt.

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: OWS exited with zero status...

#7 Ungelesener Beitrag von Ananas » 29.04.2014 21:54

Nachtrag : Nach Heartbeatfehler enden meine Results zwar mit "Success", scheitern aber dann an der Validierung. Bei OWS funktionieren Checkpoints nicht sauber.

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#8 Ungelesener Beitrag von Matthias Lehmkuhl » 01.05.2014 09:55

So, jetzt habe ich den Fehler (mal) wieder. Auf einem Rechner der schon erfolgreich OWS gerechnet hat. Das Problem war letzten Sonntag, da lief auf dem Rechner auch sonst nichts. Werde morgen mal die Logs ansehen und auch die Ereignisanzeige von Windows prüfen.
<core_client_version>7.3.15</core_client_version>
<![CDATA[
<message>
too many exit(0)s
</message>
<stderr_txt>
11:06:59 (5312): BOINC client no longer exists - exiting
11:06:59 (5312): timer handler: client dead, exiting
11:07:10 (5744): BOINC client no longer exists - exiting
...
11:30:29 (1676): timer handler: client dead, exiting
11:30:42 (4984): BOINC client no longer exists - exiting
11:30:42 (4984): timer handler: client dead, exiting

</stderr_txt>
]
Den Verdacht mit dem Checkpointing hatte ich auch schon, aber in der kurzen Zeit kann eigentlich kein Checkpointing erfolgen.

Der Fehler an sich scheint schon länger zu bestehen.
http://www.primegrid.com/forum_thread.php?id=1446#17427
Und es scheint auch nicht Projekt bezogen zu sein
http://comments.gmane.org/gmane.comp.di ... devel/7356

Habe mal mit google gesucht nach "boinc Exit status 226" und es gibt das Problem häufig und seit längerer Zeit.
Matthias

Bild - Bild

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#9 Ungelesener Beitrag von Matthias Lehmkuhl » 02.05.2014 09:38

OK, ich konnte jetzt das Log stoutdae.txt prüfen.
Während der Zeit mit dem OWS Problem liefen folgende andere Projekte:
RNA World vbox64
NFS@Home GC_5_330...
zusätzlich wohl eines von den folgenden Projekten (leider wird nur noch der Start protokolliert und nicht die Wiederaufnahme nach einem suspend)
Leiden Classical oder SETI@home Beta Test oder malariacontrol.net

Der Fehler tritt immer sofort nach dem Starten des Results auf.
27-Apr-2014 11:06:49 [yoyo@home] Starting task ows_a_1000000_216_1398549007_1
27-Apr-2014 11:06:59 [yoyo@home] Task ows_a_1000000_216_1398549007_1 exited with zero status but no 'finished' file
27-Apr-2014 11:06:59 [yoyo@home] If this happens repeatedly you may need to reset the project.

3 Minuten nach dem Start von OWS kam dann
eon2
hinzu

Wichtig ist auch noch, der Fehler "exited with zero status but no 'finished' file" tritt nur bei OWS auf, alle anderen Results laufen in der Zeit ohne Fehler weiter.

In der Windows Ereignisanzeige habe ich auch keine Einträge in Zusammenhang mit OWS gefunden.
Matthias

Bild - Bild

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: OWS exited with zero status...

#10 Ungelesener Beitrag von Ananas » 03.05.2014 22:40

Potentiell "checkpoint-kritisch" sind davon :

NFS, aber nur wenn's mehrere von den "dicken" waren, z.B. 16e wegen des Speicherverbrauchs, die den Rechner zum Swappen gebracht haben

Malaria wegen der Checkpoints. Malaria schreibt z.T. monstroese Checkpoints via gzopen/gzwrite - die werden also "on the fly" beim Speichern hochkomprimiert. Wegen Malaria habe ich Checkpoints auf 6 Minuten hochgesetzt (als mal zeitweise ein Haufen groesserer Malaria-WUs kam, sogar 1 Stunde), damit neben der Komprimiererei auch noch etwas Zeit zum Rechnen bleibt - und die Festplattenlast beim simultanen Checkpointen mehrerer Malarias ist immens. Unter Windows kann man das daran sehen, dass die Systemlast (rote Linie im Taskmanager) ungewoehnlich hoch wird. Unter *ix muesste man es mit sar, top oder topas nachvollziehen koennen.

eon2 weiss ich momentan nicht, hab' schon zu lange nicht mehr dafuer gerechnet.

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#11 Ungelesener Beitrag von Matthias Lehmkuhl » 04.05.2014 16:52

Das OWS Verhalten ist schon sehr komisch,
das Result wird gestartet und meldet nach ca. 10 Sekunden
11:06:59 (5312): BOINC client no longer exists - exiting
Das geht ca. 25 Minuten im 10 Sekundenrhythmus so weiter. Dann ist die Anzahl maximal erlaubter Neustarts erreicht und das Result wird abgebrochen.
Als Summe kommt das Result dann auf 9 Sekunden Laufzeit. Ungefähr die Zeit seit dem letzten Neustart.
Zudem hat der Prozess bei jedem Abbruch eine neue ProzessID, wenn ich die stderr.txt richtig lese.

Für mich kommt eher noch die Antivirensoftware in Betracht, dort habe ich aber auch keine aktive Benachrichtigung gehabt. Hier werde ich versuchen, mir die Logs anzusehen.
Aber ich hatte den Fehler bisher auf 2 verschiedenen Rechnern mit unterschiedlicher Antivirussoftware.

Obwohl meine erste Vermutung auch auf das OWS Programm ging. Das Händling mit dem boinc client scheint manchmal nicht zu funktionieren.

Irgendwie ist das sehr mysteriös.
Matthias

Bild - Bild

Matthias Lehmkuhl
Prozessor-Polier
Prozessor-Polier
Beiträge: 125
Registriert: 12.03.2008 20:42

Re: OWS exited with zero status...

#12 Ungelesener Beitrag von Matthias Lehmkuhl » 15.07.2014 10:49

Habe den Fehler wohl gefunden, im Zusammenhang mit Seti Beta AP tests (gleicher Fehler bei den optimierten Apps) habe ich den BOINC Client von Service Installation auf normale Installation (Boinc startet nach der Anmeldung) geändert.
Jetzt konnte ich mit Boinc 7.2.42 ein erstes Result ohne Fehler beenden.
Somit hat Ananas die richtig Vermutung in Zusammenhang mit der BOINC Version gehabt, meine letzten erfolgreichen OWS Results habe ich mit BOINC Client 7.0.64 (RNA World sei dank) als Service Installation gehabt.
Der Fehler tritt aber nur auf, wenn der BOINC Client als Service läuft/installiert ist.
So, hier das erfolgreiche Result:
http://www.rechenkraft.net/yoyo/result. ... d=25964925
<core_client_version>7.2.42</core_client_version>
<![CDATA[
<stderr_txt>
08:58:45 (3972): BOINC client no longer exists - exiting
08:58:45 (3972): timer handler: client dead, exiting
...
09:14:50 (5608): BOINC client no longer exists - exiting
09:14:50 (5608): timer handler: client dead, exiting
11:02:16 (5888): called boinc_finish
Die Änderung auf normale Installation erfolgte nach 09:14:50 Uhr, siehe neue PID

Und hier das letzte OWS Result vor der Umstellung:
http://www.rechenkraft.net/yoyo/result. ... d=25927103
<core_client_version>7.2.42</core_client_version>
<![CDATA[
<message>
too many exit(0)s
</message>
<stderr_txt>
17:14:35 (4228): BOINC client no longer exists - exiting
17:14:35 (4228): timer handler: client dead, exiting
17:14:47 (3956): BOINC client no longer exists - exiting
...
17:33:17 (3960): timer handler: client dead, exiting
Matthias

Bild - Bild

Antworten

Zurück zu „Fehler, Wünsche / Bugs, Wishes“