Haertetest Heartbeat-Bugfix

Alles zum Projekt RNA World
Nachricht
Autor
Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Haertetest Heartbeat-Bugfix

#1 Ungelesener Beitrag von Ananas » 17.08.2013 08:23

Die Methode, wie derzeit NFS seinen Server offline geschaltet hat (Umleitung auf eine Wartungsseite, die besagt : "Netz nicht erreichbar" und beim Versuch, den - ebenfalls umgeleiteten - Uploadserver zu erreichen, hat's dann bei meinen BOINCs gekracht) hat meine Coreclients auf 2 Rechnern komplett ausser Gefecht gesetzt. Sie liefen zwar noch, haben aber auf nichts mehr reagiert (Maus, Tastatur, BoincManager, BoincView).

Nach Abschiessen und Neustart des Coreclients lief er sofort wieder in den gleichen Zustand, ich musste manuell alle Workunits und Results von NFS aus client_state.xml rauswerfen, um BOINC auf dem einen Rechner wieder ans Rennen zu bringen.


Auf einem der Rechner habe ich eine aktive RNA-WU, die nach 178 Std. bei 100% ilaeuft.

Ich habe da den Coreclient mal nicht abgeschossen und lasse RNA ohne BOINC weiterlaufen, die CPU-Zeit stimmt noch, es ist also noch der alte Prozess. Bin mal gespannt, ob die WU das ueberlebt.

p.s.: den Wrapper hat es eventuell zwischendurch zerlegt, in stdout steht naemlich :

Code: Alles auswählen

RNA World wrapper v0.04
wrapper: no checkpoint file found
wrapper: running unzip (-o *.zip)
wrapper: no checkpoint file found
wrapper: running unzip_cpufeat (cmsearch.zip)
wrapper: no checkpoint file found
wrapper: running cmsearch (--forecast 1 -T 0.0 --fil-T-hmm 0.0 --fil-T-qdb 0.0
 RF00028_Intron_gpI.cm Pyrobaculum-aerophilum-str.-IM2_AE009441.cir.EMBL.fasta)
forecast.txt found.
wrapper: no checkpoint file found
wrapper: running cmsearch (-o cms_GA-p[a-Lin64f-2]_Pyrobaculum-aerophilum-str.-IM2_AE009441.cir.EMBL_RF00028_Intron_gpI_1358582223_94_0 -T 0.0 --fil-T-hmm 0.0 --fil-T-qdb 0.0
 RF00028_Intron_gpI.cm Pyrobaculum-aerophilum-str.-IM2_AE009441.cir.EMBL.fasta)
forecast.txt found.
wrapper: windows. no checkpoint image
08:49:52 (1572): Can't acquire lockfile (32) - waiting 35s
08:50:08 (2352): Can't acquire lockfile (32) - waiting 35s
08:50:27 (1572): Can't acquire lockfile (32) - exiting
08:50:27 (1572): Error: Der Prozess kann nicht auf die Datei zugreifen, da sie von einem anderen Prozess verwendet wird. (0x20)
08:50:43 (2352): Can't acquire lockfile (32) - exiting
08:50:43 (2352): Error: Der Prozess kann nicht auf die Datei zugreifen, da sie von einem anderen Prozess verwendet wird. (0x20)
In der Prozesstabelle laeuft aber noch ein cmswrapper, keine Ahnung, ob der neu oder alt ist. Die Uhrzeiten passen etwa zum "Tod" des Coreclient - aber ohne Datum kann die Meldung auch uralt sein. Sollte die Zahl in Klammern eine PID sein, dann ist der aktuell laufende Wrapper entweder neu (der hat 1928) oder BOINC hatte zwischenzeitlich versucht, den Wrapper nochmal zu starten und die neuen Instanzen haben die Ausgabe gemacht.

Die Checkpointdatei besagt uebgigens 3 132.453125, ich nehme mal an, die WU ist rein rechnerisch bei 132% und der Wrapper "clippt" das auf 100% - richtig?
vi BOINC/checkin_notes
:1,$s/bug/feature/g
:wq!

Erzaehlen sich Biologen eigentlich Klein-RNA-Witze?

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: Haertetest Heartbeat-Bugfix

#2 Ungelesener Beitrag von Ananas » 17.08.2013 10:03

Hmmmm .... ich denke, grundsaetzlich hat das geklappt, allerdings wurde die WU vermutlich beim zweiten Wrapper-Start (also beim Restart des Coreclients waehrend der "Crashphase") vermurkst.

@Yoyo : Hast Du die Moeglichkeit, die Out-Datei manuell ins System zu bringen, der WU die knapp 180 Stunden (die genaue Zeit ist im ZIP in der _1-Datei zu sehen) "beizubiegen" und sie wieder aktiv zu schalten ?

http://oct31.de/out.zip

gehoert zu

http://www.rnaworld.de/rnaworld/result. ... d=14916678

Das muss unbedingt repariert werden, weil das ungueltige Result vermutlich in der Datenbank gelandet ist, nachdem 2 Leer-Ergebnisse gegeneinander validiert wurden.

Vielleicht waere eine Plausi auf // in der letzten nicht-leeren Zeile hilfreich? Ein gueltiges Result muss auf // enden.
vi BOINC/checkin_notes
:1,$s/bug/feature/g
:wq!

Erzaehlen sich Biologen eigentlich Klein-RNA-Witze?

Benutzeravatar
yoyo
Vereinsvorstand
Vereinsvorstand
Beiträge: 8134
Registriert: 17.12.2002 14:09
Wohnort: Berlin

Re: Haertetest Heartbeat-Bugfix

#3 Ungelesener Beitrag von yoyo » 17.08.2013 10:12

Ich versuchs heute Abend mal. Ist halt sehr Risikoreich, die ganzen Stati der Results und der Workunit richtig zu setzen. Auf alle Fälle werd ich die in Michaels Ergebnis Archiv schieben, das ist das Wichtigste.

yoyo
HILF mit im Rechenkraft-WiKi, dies gibts zu tun.
Wiki - FAQ - Verein - Chat

Bild Bild

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: Haertetest Heartbeat-Bugfix

#4 Ungelesener Beitrag von Ananas » 17.08.2013 11:21

Stimmt, die Science-DB ist am wichtigsten. Die WU zu reparieren ist nur deshalb von Interesse, weil da noch Results unterwegs sind und die wuerden - selbst wenn sie korrekt abliefern - faelschlich als Invalid erkannt.
vi BOINC/checkin_notes
:1,$s/bug/feature/g
:wq!

Erzaehlen sich Biologen eigentlich Klein-RNA-Witze?

Benutzeravatar
yoyo
Vereinsvorstand
Vereinsvorstand
Beiträge: 8134
Registriert: 17.12.2002 14:09
Wohnort: Berlin

Re: Haertetest Heartbeat-Bugfix

#5 Ungelesener Beitrag von yoyo » 17.08.2013 19:44

Habs mal Deine cpu Zeit, Deine Credits gefixt, Dein Result eingespielt, so dass der nächste dagegen validiert wird sofern er was zurückliefert. In der WU hab ich auch Dein Result als das richtige eingetragen.

yoyo
HILF mit im Rechenkraft-WiKi, dies gibts zu tun.
Wiki - FAQ - Verein - Chat

Bild Bild

Ananas
WU-Schieber
WU-Schieber
Beiträge: 1184
Registriert: 27.04.2008 18:37
Wohnort: Nordlichter Köln

Re: Haertetest Heartbeat-Bugfix

#6 Ungelesener Beitrag von Ananas » 17.08.2013 20:05

fein :-)

Merzi !
vi BOINC/checkin_notes
:1,$s/bug/feature/g
:wq!

Erzaehlen sich Biologen eigentlich Klein-RNA-Witze?

Zurück zu „RNA World Diskussionen (deutsch)“