Hardwarespenden

Nachricht

Desti · #13 Ungelesener Beitrag von **Desti** » 06.10.2003 18:10

Pascal hat geschrieben:
Michael H.W. Weber hat geschrieben:..
Haupsache, die Mobos booten auch über LAN! Reicht da 10/100 MBit? Pascal hatte mal Bedenken angemeldet und sicher bin ich mir auch nicht.

Michael.
[...]
Bezüglich LAN ist da eher die Frage, ob's für die Boards mit Onboard-LAN bereits Linuxtreiber gibt.

Also das 100MBit LAN was man auf den Boards findet läuft problemlos (VIA, nVidia), ansonsten halt für 5¤ ne Realtek rein und fertig

#14 Ungelesener Beitrag von **Michael H.W. Weber** » 06.10.2003 18:37

Desti hat geschrieben:Also das 100MBit LAN was man auf den Boards findet läuft problemlos (VIA, nVidia),

Natürlich läuft das problemlos - habe es ja selbst. Die Frage war, ob für einen CLUSTER ohne "node"-eigener Festplatte (z.B. unter MOSIX) GBit LAN her muß.

Michael.

#15 Ungelesener Beitrag von **nico** » 06.10.2003 22:09

Michael H.W. Weber hat geschrieben: Die Frage war, ob für einen CLUSTER ohne "node"-eigener Festplatte (z.B. unter MOSIX) GBit LAN her muß.

Naja für ein bisschen booten und aller paar Sekunden mal ein Zwischenergebnis speichern reichen 100MBit (= theoretisch 12,5MB/s – vor ein paar Jahren Traumwerte einer jeden IDE Festplatte

) locker aus (vorausgesetzt, jede Node hat ihren eigenen DC-Client) sollte der Cluster am Ende jedoch als EIN Rechner funktionieren so sind imo 100MBit zu wenig - Frage ist hier ob das bei - auf DC optimierten - Clients wirklich sinnvoll ist.

Jürgen · #16 Ungelesener Beitrag von **Jürgen** » 06.10.2003 22:13

Vorausgesetzt - auf dem Cluster sollen verschiedene Projekte gleichzeitlig laufen - könnte ein Teil der Nodes ohne eigene Festplatten laufen (hier kommen dan 'festplattenschonende' Projekte zum Einsatz), der andere Teil ist mit eigenden FPs für entspr. intensive Projekte.

Momentan ist das Ganze aber nur eine Idee, am Anfang wird der Cluster nur aus zwei oder vier Nodes bestehen und da macht eine solche Aufteilung keinen Sinn.

SpeedKing · #17 Ungelesener Beitrag von **SpeedKing** » 06.10.2003 23:46

Irgendwie schießt ihr alle brutalst über das Ziel hinaus.
Der 'Cluster' muß folgendermaßen aussehen - nehmen wir mal 4 Nodes an:
1 Server-Node mit Festplatte, Graka, Tastatur usw.
3 Nodes mit Netzwerkkarte (10 MBit reichen völlig, aber es gibt eh nur noch min. 100 MBit) und sonst gar nichts.

Das Ding funktioniert so:
Erst muß der Server komplett gebootet werden. Dann werden die Nodes gebootet. Der Server stellt jedem Node seine eigene Boot-'Partition' zur Verfügung. Per Netz-Boot-Protokoll (weiß jetzt nicht, wie das heißt) bootet jeder vom Server Linux und seine Settings. Jeder Node rechnet seine WU. Jeder Node sieht sein Verzeichnis auf der Server-Festplatte wie wenn es seine eigene Festplatte wäre (NFS machts möglich). Jeder Node kann über den Server aufs Internet zugreifen, schickt seine WUs selber ab und holt sich selber neue. Der Server funktioniert genauso, wenn er nicht gerade servt. Die Nodes können per rsh überwacht werden.

Alle Phantastereien, daß eine WU auf allen Nodes gleichzeitig parallel berechnet wird, könnt ihr euch komplett abschminken, weil:
a) die meisten DC-Clients das gar nicht ermöglichen
b) das ein riesiger Installations und Wartungsaufwand wäre
c) überhaupt nicht sichergestellt wäre, daß alle CPUs immer voll ausgelastet sind - das würde davon abhängen, wie gut der Client programmiert ist.

Sorry für den vielleicht etwas harschen Ton, aber ich hab die Kirche wieder ins Dorf zurückstellen müssen.

#18 Ungelesener Beitrag von **LinuxFan** » 07.10.2003 00:45

Genau das hatte ich ja vorgeschlagen. Von Pascal kam allerdings der berechtigte Einwand, dass ein Ausfall des Servers gleich den gesamten Cluster lahmlegt. Deshalb sollten wir darüber nachdenken, ob es nicht sinnvoller ist, jedem Node eben doch eine eigene Festplatte zu spendieren, statt das Dateisystem per NFS zu mounten.

SpeedKing · #19 Ungelesener Beitrag von **SpeedKing** » 07.10.2003 02:09

LinuxFan hat geschrieben:Genau das hatte ich ja vorgeschlagen. Von Pascal kam allerdings der berechtigte Einwand, dass ein Ausfall des Servers gleich den gesamten Cluster lahmlegt. Deshalb sollten wir darüber nachdenken, ob es nicht sinnvoller ist, jedem Node eben doch eine eigene Festplatte zu spendieren, statt das Dateisystem per NFS zu mounten.

Ach, und wie soll der Ausfall des Servers aussehen?
Wenn irgendein Bauteil (CPU, RAM, etc.) davon ausfällt, dann wirst Du es halt aus einem Node herausnehmen und in den Server einbauen müssen. Dann ist, bis die Ersatzteillieferung eintrifft, ein Node ausgefallen. Das kann man nie verhindern.

Und wenn die Server-Festplatte crasht? Vielleicht sollte der Server ein RAID 1 haben? Aber nein, Du solltest vom komplett eingerichteten Server ein Image auf CD brennen, damit die neue Platte ruck-zuck wieder eingerichtet ist. Die paar verlorenen, halb berechneten WUs im Falle eines Plattencrashs sind wirklich nicht tragisch.
Denn was verlieren wir, wenn der Server ausfällt? Ein paar Stunden, höchstens Tage, Rechenzeit. Und dafür sollen wir 3 Platten kaufen und den zusätzlichen Strom zahlen? Nein danke, so wertvoll ist die Rechenzeit dieses Clusters wirklich nicht - wenn man bedenkt, daß der Server im statistischen Mittel nicht mal alle 5 Jahre einen Plattencrash haben wird. Bei uns steht schließlich keine millionenschwere Produktion still, wenn der Computer ausfällt.

Bitte denkt etwas realitätsnaher und professioneller.

Pascal · #20 Ungelesener Beitrag von **Pascal** » 07.10.2003 07:09

Speedking: ist des denn möglich, F@H, G@H, DF, CP, 17oB und weitere Linuxclients unter Mosix clustermässig einzusetzen? Hast du soetwas schon mal gemacht und hat's geklappt?
Ein paar andere Leute und ich hätten übrigens ein, zwei ältere Platten hier, die für 0 Euro ins Cluster wandern könnten.

#21 Ungelesener Beitrag von **LinuxFan** » 07.10.2003 09:18

@Pascal: Er hat doch gerade geschrieben, dass es unsinnig ist, in diesem Fall Mosix einzusetzen.

#22 Ungelesener Beitrag von **Michael H.W. Weber** » 07.10.2003 10:24

Also MOSIX einzusetzen - sofern es möglich ist - ist genau alles andere als unsinnig, sofern man z.B. Folding@home als Projekt wählt.

Für Folding@home macht es durchaus einen Unterschied, ob man eine gegebene WU von einem "node" in 3 Tagen durchrechnen läßt oder - unter MOSIX - in einem Clusterverbund bestehend aus 3 "nodes" innerhalb eines Tages. Der Grund ist einfach der, daß neue WUs auf den Ergebnissen der alten basieren. Je schneller die WUs zurückgeschickt werden, desto rascher schreitet auch das Projekt als Ganzes voran. Die Projektleiter von FAH betonen immer wieder, daß WUs so schnell wie möglich zurückgeliefert werden sollen.
Aus diesem Grund wäre ich UNBEDINGT dafür, den Cluster von vorn herein so zu planen, daß ein echter Clusterbetrieb (MOSIX, ClusterKNOPPIX) prinzipiell möglich ist. Ob wir es später dann wirklich nutzen, sei dahingestellt. Ich bin nur kein Freund vom Verbauen nützlicher Möglichkeiten...

Michael.

#23 Ungelesener Beitrag von **LinuxFan** » 07.10.2003 10:35

Schon mal getestet, ob FAH überhaupt mit Mosix läuft - Stichwort shared memory? Ansonsten ist diese Diskussion wohl nur rein hypothetischer Natur...

SpeedKing · #24 Ungelesener Beitrag von **SpeedKing** » 07.10.2003 11:11

Michael H.W. Weber hat geschrieben:[...]Für Folding@home macht es durchaus einen Unterschied, ob man eine gegebene WU von einem "node" in 3 Tagen durchrechnen läßt oder - unter MOSIX - in einem Clusterverbund bestehend aus 3 "nodes" innerhalb eines Tages. Der Grund ist einfach der, daß neue WUs auf den Ergebnissen der alten basieren. Je schneller die WUs zurückgeschickt werden, desto rascher schreitet auch das Projekt als Ganzes voran. Die Projektleiter von FAH betonen immer wieder, daß WUs so schnell wie möglich zurückgeliefert werden sollen.[...]

Mal abgesehen davon, daß der FAH-Client einfach nicht multiprozessortauglich ist, kann das gar nicht so sein. Da die zur Zeit 227 Proteine untersuchen, könnten sie dann auch nur 227 Clients beschäftigen. Nein, an jedem Protein werden viele Versuche durchgeführt. Innerhalb jedes Versuchs mag ein Schritt auf dem vorherigen basieren. Wenn unsere 4 Nodes gleichzeitig bei deren Server nach WUs fragen, werden sie an 4 verschiedenen Versuchen arbeiten. Jeder dieser 4 Versuche schreitet dann so schnell voran wie auf einem Node möglich - also wesentlich schneller als auf dem durchschnittlichen FAH-Rechner (Rechenkraft-Durchschnitt: 1,3 GHz).
Die FAH-Betreiber wollen nur verhindern, daß sich jemand monatelang für eine WU Zeit läßt - das sieht man auch an den gegenwärtigen Deadlines.