Fehlersammlung zu ATLAS@home vervollständigen

LHC@home etc.
Nachricht
Autor
Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Fehlersammlung zu ATLAS@home vervollständigen

#1 Ungelesener Beitrag von Michael H.W. Weber » 23.09.2015 14:48

Nachdem ich nun letzte Woche in Genf war dort und einige Leute vom CERN getroffen habe - darunter den Entwickler vom Virtual Atom Smasher-Projekt (das auf mein Anraten hin wohl in Kürze in ein BOINC-Projekt verwabndelt werden wird), der ebenfalls in ATLAS@home eingebunden ist - habe ich heute mal probiert, die bei mir ständig auftretenden Fehler systematisiert im ATLAS@home Forum zu sammeln:

Vorschlag von mir, wie man den "kernel panic"-Ärger lösen kann:
http://atlasathome.cern.ch/forum_thread.php?id=356

"Kernel panic" Fehlersammlung:
http://atlasathome.cern.ch/forum_thread.php?id=358

Fehlersammlung zu nie enden wollenden WUs (ohne "kernel panic"!):
http://atlasathome.cern.ch/forum_thread.php?id=360

Sammlung von angeblich "invalid results", die von ansonsten einwandfrei laufenden Maschinen angeliefert werden:
http://atlasathome.cern.ch/forum_thread.php?id=359#3026

Es könnte helfen, wenn ihr dort eure Schwierigkeiten ebenfalls dokumentieren könntet.

Ich hatte mir ja am CERN auch den LHC angesehen und war schwer beeindruckt. Und mich beeindruckt Technik eigentlich inzwischen eher selten. Schon gar nicht schwer. :wink:
Wäre doch gut, wenn wir einen kleinen Beitrag leisten könnten, dass das Projekt weiter vorankommt.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#2 Ungelesener Beitrag von Eric » 23.09.2015 15:20

Könnte schwierig werden. Das Projekt scheint nicht so beliebt zu sein.
Dadurch dass es virtualbox braucht, ist es bei mir leider auch kein Kandidat.
Ich mache das Spiel, dass jedes Projekt eine unterschiedliche Version von Virtualbox haben möchte, nicht mit. Geschweige denn virtualbox auf einem Linux-Server ohne GUI zum Laufen zu bringen.
Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Fehlersammlung zu ATLAS@home vervollständigen

#3 Ungelesener Beitrag von Michael H.W. Weber » 24.09.2015 10:05

Da kann geholfen werden: ALLE VirtualBox benötigenden DC-Projekte laufen mit VirtualBox Version 4.3.12 (also RNA World, vLHC@home und auch ATLAS@home).

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#4 Ungelesener Beitrag von Eric » 11.03.2016 09:59

Michael H.W. Weber hat geschrieben: Sammlung von angeblich "invalid results", die von ansonsten einwandfrei laufenden Maschinen angeliefert werden:
http://atlasathome.cern.ch/forum_thread.php?id=359#3026
Es gibt Neuigkeiten bezüglich der invaliden wu (Bestätigungsfehler):
Hello,

we found the problem!
the issue was on our side, one of the server was not patched with the latest wrapper resulting in killing processes before finishing.
Apologises and thank you for having spotted that issue!
:D :good: :roll2:

Ein Server war wohl nicht auf den neuesten Stand des Wrappers gebracht. Das hat dazu geführt, dass die wu vom Server vorzeitig abgebrochen wurden.
Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#5 Ungelesener Beitrag von Eric » 13.03.2016 15:57

So, ATLAS habe ich jetzt abgebrochen.
Nachdem alle meine Tasks "vm hypervisor failed to enter an online state in a timely fashion" zeigten und sich zu nichts mehr haben bewegen lassen, habe ich das abgebrochen.
Die invaliden wu tauchen auch immer noch auf. Damit ist für mich das Thema ATLAS auf unbestimmte Zeit beendet.
Bild

Felix2015

Re: Fehlersammlung zu ATLAS@home vervollständigen

#6 Ungelesener Beitrag von Felix2015 » 13.03.2016 17:50

Also mein Ergebnis besagt:
Bild
Dies entspricht eine Fehlerquote von 3,55% - also doch ziemlich gut.

@eric - statt ständig über irgendwelche Projekte zu mosern, die angeblich mist sind und nicht funktionieren und sowieso schrott (wie bereits bei rosetta@home),
empfehle ich dir, langsam mal darüber nachzudenken, was an deinen PC-Geräten hardware-seitig oder software-seitig nicht optimal ist.
:drinking:

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#7 Ungelesener Beitrag von Eric » 13.03.2016 18:34

Felix2015 hat geschrieben:was an deinen PC-Geräten hardware-seitig oder software-seitig nicht optimal ist.
:drinking:
Mit denen ist alles bestens in Ordnung, zumal 6 12-Kerner Server ja auch gemietet sind.

Aber jetzt sage ich Dir mal was:
Ich erwarte von den Projekten, dass sie im Gegenzug für die Unterstützung, verantwortungsbewusst mit meinen Ressourcen umgehen.
Das Fehler in Projekten auftreten können ist absolut in Ordnung. Nur erwarte ich, dass man sich der Fehler auch annimmt. Das ist bei Rosetta nicht der Fall gewesen. Böse formuliert war deren Aussage: "Wissen wir, aber wir kümmern uns nicht drum...". Da kann ich echt drauf verzichten. Und nein, ich werde Dir die Stelle in deren Forum nicht suchen und übersetzen.

Bei Atlas sieht die Sache anders aus:
Die VM haben zur Folge, dass die Effizienz, gerade bei kurzen WU auf der Strecke bleibt. Bei den wu mit einer Stunde Laufzeit war die CPU nur 86% der Zeit beschäftigt. Bei anderen Projekten liegt dies bei über 98%.
Bei längeren WU im 4 Stunden Bereich sieht es bei Atlas besser aus, aber immer noch deutlich schlechter.
Das ist aber nicht der Punkt. Ich habe verstanden, dass Atlas bestimmte Voraussetzungen braucht um zu laufen. Das ist aber, wenn man auf eine VM verzichtet, nicht ohne weiteres zu gewährleisten. Von daher ist es ok, dass man mit der VM arbeitet. Kann man dadurch sicherstellen, dass egal auf welchem Rechner und OS die Basis für eine WU immer die Gleiche ist.
Auch die invaliden WU sind für mich in Ordnung, solange ich weiß, dass sich der Projektbetreiber bemüht den Fehler zu finden, was nicht immer einfach ist. Dass sie dran sind, sieht man entweder an Posts von denen und/oder neuen Releases der Applikation. Von daher alles gut.
Wenn aber auf einmal alle wu auf Wartend gehen mit der Fehlermeldung oben, blieb nichts anderes übrig als 11 wu abzubrechen und im Summe waren 40 Stunden für die Katz'.
Der Fehler tritt auch bei anderen Projekten, die auf VM setzen auf. Echte Lösungsmöglichkeiten, wie man die wu wieder zum Laufen bringt, habe ich nicht gefunden.
WU anhalten und wieder starten; Boinc stoppen und starten; Rechner neu starten. Alles probiert. Im Idealfall lief die WU wieder, aber ohne Speicherbelastung und CPU auf 2%. Also lief sie doch nicht.
Bleibt ja nichts anderes übrig als die WU irgendwann dann doch abzubrechen.

Und ganz ehrlich, ich habe keine Zeit und Lust Babysitter für ein Projekt zu spielen.
Ich habe bisher bei 37 Projekten mitgerechnet. In meinen Augen gab es davon drei, die negativ aufgefallen sind:
Beal - weil jede wu den gleichen Inhalt hatte.
Constellation - tolles Projekt, aber durch den Betreiber zum Absturz gebracht.
Rosetta - mit der LMAA-Einstellung

Atlas hat mich von den Hardware-Anforderungen einfach mal gereizt und ich bisher ein Bogen um das ganze VM-Thema gemacht (weil jedes Projekt eine andere VM-Version haben wollte und es auch immer wieder zu Problemen kommt/kam).
Atlas schließe ich auch für die Zukunft nicht aus - ich beobachte, wie sich das VM-Thema entwickelt. Betrifft ja auch vLHC und vielleicht auch beauty.

Im Wesentlichen beschränke ich mich aber auf mein Hauptprojekt - ein Ausflug hier und da ist aber auch immer ganz nett. Nur sind die Ausflüge ab und zu dann kürzer als geplant.

Dazu kommt, dass ich im Gegensatz zu manchen hier im Forum, auftretende Probleme auch in dem jeweiligen Forum des Projektes melde, damit sich auch was tun kann.
Bild

Felix2015

Re: Fehlersammlung zu ATLAS@home vervollständigen

#8 Ungelesener Beitrag von Felix2015 » 13.03.2016 19:06

@Eric - es gibt keinen Grund mich von der Seite anzupissen.
Meine Anmerkung zur Überprüfung deiner Hard-und Software war freundlich gemeint aufgrund meiner Fehlerbasis von 3,55 %.
Und bei Rosetta@home war es ~ 5,00%.
Das ist erstmal Fakt.
Zuletzt geändert von Felix2015 am 13.03.2016 19:15, insgesamt 1-mal geändert.

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Fehlersammlung zu ATLAS@home vervollständigen

#9 Ungelesener Beitrag von Michael H.W. Weber » 13.03.2016 19:11

Tjo, von mir dazu ein paar Kommentare:

1. ALLE VM-nutzenden BOINC-Projekte verwenden bei mir fehlerfrei die derzeit neuste Virtualbox-Version: RNA World, ATLAS, vLHC.
2. VMs werden benutzt, um Clients nur für Linux entwickeln und aktuell halten zu müssen UND das Checkpointingproblem universell zu lösen. Der Preis dafür ist eine Effizienzeinbuße von ca.15%.
3. Ich persönlich habe auf meinen 4 Windows-PCs bislang keinen einzigen Fall des "hypervisor failed..."-Problems zu verzeichnen gehabt und dies nach > 1 Jahr 24/7-Unterstützung von RNA World, ATLAS und vLHC.
4. Ich habe auch noch nie WUs mit ATLAS-Laufzeiten von 1 Std. erhalten. Im Gegenteil: Mit Beginn diesen Jahres sind die ATLAS-Laufzeiten wesentlich heterogener und zwar in Richtung länger geworden.
5. Es ist völlig richtig, dass man bei ATLAS den Eindruck bekommt, an der Korrektur der von mir akribisch klassifizierten 3 Fehlerursachen bestünde seitens der Projektbetreiber kein Interesse. Die Fehlerrate liegt bei sehr genau 5% und wem das zu hoch ist, dem kann ich nur anraten, das Projekt auf Eis zu legen und dies bitte in deren Forum mit Angabe des Grundes kund zu tun.
6. Bei Rosetta@home konnte ich keine Fehler feststellen und dies auf rund um die Uhr laufenden 4x Windows-PC und 5x Ubuntu 14.04LTS-Linux-PCs. An diesem Projekt wäre meine Kritik eher das antiquierte Webinterface und die erst von mir gestern entlarvte Tatsache, dass das Projekt IN seinen neusten Publikationen keine Danksagungen mehr an die Rosetta-DC-Community für nötig erachtet. Dazu wird von mir in deren Forum aber noch ein "Donnerwetter" folgen - ich war darüber dermassen schockiert, weil das ja Online bei denen immer sauber passiert, dass ich es noch immer nicht ganz glauben kann und daher nochmal tiefergehend anschauen muss.
7. Ich kann bestätigen, dass Eric seine Probem immer anständig in den zugehörigen Projektforen artikuliert - was unerlässlich ist, damit Dinge verbessert werden können. Dafür ein Dankeschön von mir, der sich auch immer wieder über Probleme ärgert, denn es ist unsere Stromrechnung.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#10 Ungelesener Beitrag von Eric » 13.03.2016 20:03

Zu 1: Richtig. Deshalb habe ich jetzt auch mal einen Versuch gewagt.
Zu 2: Genau. Die Vor- und Nachteile von VM waren mir bewusst. Auch eine Fehlersuche wird für die Entwickler einfacher. Im Atlas Forum ist auch beschrieben, dass es noch mehr Gründe für die VM gab. Die Effizienzeinbussen waren mir erst in der Größenordnung nicht bewusst. Warum braucht die wu solange bis die cpu auf 98% geht? Kaum Plattenaktivität, kaum Traffic und trotzdem dümpelt die wu 10 15 Minuten rum. Vielleicht einfach Aktivitäten innerhalb der wu. Cep2 bei wcg schrubbt ja auch erstmal ordentlich auf der Platte rum bevor es richtig loslegt.
Nach meiner Beobachtung lag der Reibungsverlust bei mIr etwa bei 5% durch die vm.
Zu 3: Ich war auch überrascht und habe den Fehler beim großen G mit kleinen oogle gesucht. Viele Einträge waren veraltet. Und die üblichen Maßnahmen haben nicht gefruchtet und die Kiste hat einige Stunden hohl gedreht. Und wenn die Kisten schon eingeschaltet sind sollen sie auch schaffen und nicht Däumchen drehen. Das bringt der Wissenschaft nämlich nichts. Muss mal schauen, ob ich da was verwertbares zum Beschreiben des Fehlers im Forum finde. Seltsam war, dass es alle 11 wu gleichzeitig betraf.
Zu 4: Waren bei mir auch nur die ersten 11 wu.
Zu 5: Ich habe schon den Eindruck, dass Atlas dran arbeitet. Sie hatten ja auch das mit dem Serverupdate geschrieben, weil sie dachten die wu werden dadurch abgebrochen und es kommt dadurch zu invaliden wu. Dass es dann doch nicht die Ursache war, ist doof, aber kann passieren. Vielleicht hat es ja anderes komisches Verhalten behoben.
Zu 6: Dass du keine Fehler hattest kann ich eigentlich nicht glauben, da das Thema mit den fehlerhaften wu ja auch im Taskforce Thread diskutiert wurde. Und in deren Forum wurde klar gesagt, dass man den Fehler mit dem nicht genügend Speicher nicht suchen werde. Warum meine Server leer gelaufen sind (da war ich auch nicht allein) ist mir auch nicht klar. Das lässt sich aber mit großem Cache umgehen.
Und warum Rosetta auf einmal der Meinung war, das OS wäre Android und ich dadurch auch keine wu bekommen habe, lässt sich auch nicht wirklich erklären, oder? Die anderen Punkte von Dir sind allerdings auch nicht die feine englische Art.
Zu 7: Danke. Ich weiß nur zu genau, was es bedeutet Software zu entwickeln und dass man da für jeden Hinweis dankbar ist.
Bild

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22419
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Fehlersammlung zu ATLAS@home vervollständigen

#11 Ungelesener Beitrag von Michael H.W. Weber » 14.03.2016 08:57

Eric hat geschrieben:Zu 6: Dass du keine Fehler hattest kann ich eigentlich nicht glauben, da das Thema mit den fehlerhaften wu ja auch im Taskforce Thread diskutiert wurde. Und in deren Forum wurde klar gesagt, dass man den Fehler mit dem nicht genügend Speicher nicht suchen werde. Warum meine Server leer gelaufen sind (da war ich auch nicht allein) ist mir auch nicht klar. Das lässt sich aber mit großem Cache umgehen.
Ich hatte einzig das Problem, dass einige WUs nach einigen Sekunden bereits mit Berechnungsfehler abbrachen. Für die gab es angeblich Credits (auch wenn das wohl kaum was großes gewesen sein dürfte). Und die betroffene Zahl war extrem gering - weit geringer, als die Fehlerrate bei ATLAS. Hinzu kommt, dass ich aus deren Forum den Eindruck gewann, bei diesen WU-Serien, seien diese "Abbrüche" möglich. Habe sie daher nicht als Problem eingestuft. Möglicherweise wären sie problematisch gewesen, wenn jemand ausgerechnet von diesen einen Bunker angeleg hätte, der dann in wenigen Minuten leer gelaufen wäre und eine tagelang dumm herumstehende Maschine zur Folge gehabt hätte.

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Eric
Powerknopf-Verweigerer
Powerknopf-Verweigerer
Beiträge: 1411
Registriert: 07.05.2013 09:24

Re: Fehlersammlung zu ATLAS@home vervollständigen

#12 Ungelesener Beitrag von Eric » 14.03.2016 10:19

Ok, wenn bei Dir der Berechnungsfehler bei Rosetta schon nach wenigen Sekunden auftritt/auftrat kann ich Deine Wahrnehmung gut verstehen. Das war bei mir deutlich anders.

Zu Atlas und dem Hypervisor-Problem:
Ich werde demnächst noch mal einen Anlauf bei Atlas unternehmen und falls das Problem noch einmal auftritt folgendes probieren:
1. Shut down boinc manager. (You can use "shut down connected client" method if you have some jobs that are still running OK. This will hopefully get them closed down more smoothly.)
2. Open VirtualBox Manager. You may see various states such as "Shutdown", "Aborted", etc. Try this method on any that are there, they all started working again for me.
3. Click on each virtual machine and hit the "Start" arrow.
4. Allow the virtual machine to boot and get into a state where it seems to be running.
5. In each virtual machine's window pull down the "Machine" menu and select "ACPI Shutdown"
6. Wait for VMs to shutdown.
7. Open boinc manager. The tasks should start up and run fine now.
Bild

Antworten

Zurück zu „Atom-/Elementarphysik“