Gibt es eine Erkennung für Fake-Benchmarks?

Nachricht

magiceye04 · #1 Ungelesener Beitrag von **magiceye04** » 09.10.2022 08:41

Dass Ubuntu sehr hohe Benchmark-Werte erzeugt, ist ja bekannt.
Nun scheinen manche Rechner aber darüber hinaus nochmal deutlich höhere benchmark-Werte zu haben.

Das hier scheint ja "normal" zu sein für einen 3000er Ryzen:
Measured floating point speed 8.249,64 million ops/sec
Measured integer speed 134.071,67 million ops/sec

Es gibt aber auch Rechner, wo bei gleicher Ubuntu-Version auf einem Ryzen3000 sowas raus kommt:
Measured floating point speed 58.994,66 million ops/sec
Measured integer speed 299.008,03 million ops/sec

Da liegen ja Welten dazwischen, integer mehr als Faktor 2 und floating sogar mehr als Faktor 7 - die Berechnungsdauer liegt trotzdem nur im Rahmen des Üblichen, ggf. mit ein wenig Übertaktung
Gibt es irgendeine Art von Fake-Benchmark-Erkennung, die bei solchen Rechnern greifen würde?
Schlägt die womöglich bei 300.000 integers erst an?
Oder wird der Benchmark irgendwie logarithmisch gewertet? Also z.B. 10% mehr Speed=100% mehr claimed credits? (Ich habe auch alte Rechner mit ca. doppelter Berechnungsdauer gesehen, die trotz Ubuntu nur 36 cr. claimen)

Wenn dieser Rechner sich selbst als wingman hat (vermutlich mehrere Instanzen), bekommt der z.B. 7700cr. für eine Sievers-WU.

PS: Ich habe bewusst auf eine Verlinkung verzichtet, ich möchte niemanden an den Pranger stellen. Mir geht es nur um die Information an sich.
PPS: Ich finde das System mit der Punkte-Verknüpfung mit den Benchmarks sehr unglücklich. Was spricht denn gegen eine fixe credit-Vergabe pro Sievers-WU?

Yeti · #2 Ungelesener Beitrag von **Yeti** » 09.10.2022 11:03

Also, das ist ein generelles Problem mit Linux.

Ich habe seit ca. 2 - 3 Monaten Linux-VMs im Einsatz mit Ubuntu 22.x.x.

Bis vor kurzem wurden 1 Milliarde OP/s für Integer und Float gebenchmarkt, aktuell sind es 8 Milliarden Float-OP/s und 95 Milliarden Integer-OP/s. Diese Werte habe ich auf einem meiner Rechner gefunden, auf den anderen bereite ich gerade auch den Benchmark vor.

Interessant könnte sein, daß zwischenzeitlich in den VMs wohl ein Kernel-Update eingespielt wurde, ich habe jedenfalls keinerlei Eingriffe gemacht, um diese Ergebnisse zu erzeugen (außer den Benchmark anzustoßen

)

Prozessor Ryzen 5900X ohne jegliche Übertaktung und mit vernünftig eingegrenztem Powertarget (genaue Werte müßte ich csbyseti fragen)

Yeti · #3 Ungelesener Beitrag von **Yeti** » 09.10.2022 11:05

Hier könnt Ihr Euch gerne umsehen: https://lhcathome.cern.ch/lhcathome/hos ... userid=555

#4 Ungelesener Beitrag von **Michael H.W. Weber** » 09.10.2022 11:56

Ich bin ehrlich gesagt überrascht zu hören, dass die Credits in irgendeiner Weise an den Benchmark gekoppelt sein sollen - denn: Was soll das für einen Sinn machen? Wenn ich mit der Maus wild rumrödle während des Benchmarks oder gar im Hintergrund Rechnungen laufen habe, wird der Benchmark deutlich geringer ausfallen, als würde ich die Kiste völlig unangetastet lassen. Die Credits würden also in jedem Fall verfälscht sein.

Bislang ging ich immer davon aus, dass der Benchmark primär dazu dient, dass der BOINC Manager einigermaßen abschätzen kann, wieviele WUs er pro Zeiteinheit auf einer gegebenen Maschine bewältigen kann.

Nun gibt es natürlich WUs, wo es nicht sinnvoll ist einen fixed Credit pro WU zu geben, da die Rechnungen irgendwelche stochastischen Elemente enthalten, sodass nicht jede WU auf derselben Maschine gleich lang läuft. Dort muss man dann natürlich ein weiteres Kriterium heranziehen. Ich würde da eigentlich CPU- oder GPU-Typ auslesen wollen, damit die Leistungsfähigkeit der Hardware ermitteln und dann die Laufzeit pro WU zusätzlich "einpreisen".

Habe ich da einen Denkfehler drin?

Was oben beschrieben wird, klingt ja fast so als würden einige Leute da dem Projekt Fantasiezahlen als exrem hohe Benchmarkwerte ihres Clients vortäuschen, um damit die Credits pro WU hochzutreiben. Ist das System tatsächlich dermaßen leicht zu betrügen?
Sollte das so sein, dürfte das zumindest das GRIDCOIN-Team interessieren...

Michael.

#5 Ungelesener Beitrag von **gemini8** » 09.10.2022 12:55

Dass Linux beim Siever deutlich höher claimt als bei anderen Applikationen oder als ein Windows, ist nicht erst seit heute bekannt.
Und wenn dann zwei hoch claimende Linuxe aufeinandertreffen, kommen teilweise sehr hohe Werte dabei heraus.
Mit diesem Wissen habe ich mich neulich darüber gewundert, dass es bei einer ganzen Reihe von Aufgaben nicht so war.

Yeti · #6 Ungelesener Beitrag von **Yeti** » 09.10.2022 13:01

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
Ich bin ehrlich gesagt überrascht zu hören, dass die Credits in irgendeiner Weise an den Benchmark gekoppelt sein sollen

Das war schon immer so. Der Benchmark dient dazu, zu ermitteln, welche Leistung eine CPU hat, sowohl für Laufzeit-Berechnungen als auch für die Credits

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
- denn: Was soll das für einen Sinn machen? Wenn ich mit der Maus wild rumrödle während des Benchmarks oder gar im Hintergrund Rechnungen laufen habe, wird der Benchmark deutlich geringer ausfallen, als würde ich die Kiste völlig unangetastet lassen. Die Credits würden also in jedem Fall verfälscht sein.

Deswegen ist es eminent wichtig, bei Benchmarks wirklich nix am Rechner zu machen

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
Nun gibt es natürlich WUs, wo es nicht sinnvoll ist einen fixed Credit pro WU zu geben, da die Rechnungen irgendwelche stochastischen Elemente enthalten, sodass nicht jede WU auf derselben Maschine gleich lang läuft. Dort muss man dann natürlich ein weiteres Kriterium heranziehen. Ich würde da eigentlich CPU- oder GPU-Typ auslesen wollen, damit die Leistungsfähigkeit der Hardware ermitteln und dann die Laufzeit pro WU zusätzlich "einpreisen".

Habe ich da einen Denkfehler drin?

Jein, wer soll denn all die verschiedenen CPU-Typen pflegen und bewerten ?

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
Was oben beschrieben wird, klingt ja fast so als würden einige Leute da dem Projekt Fantasiezahlen als exrem hohe Benchmarkwerte ihres Clients vortäuschen, um damit die Credits pro WU hochzutreiben. Ist das System tatsächlich dermaßen leicht zu betrügen?

früher war es so einfach, einer der Gründe, warum Credit-New eingeführt wurde.

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
Sollte das so sein, dürfte das zumindest das GRIDCOIN-Team interessieren...

Ich bin mir ziemlich sicher, die wissen das.

magiceye04 · #7 Ungelesener Beitrag von **magiceye04** » 09.10.2022 14:25

Yeti hat geschrieben: ↑
09.10.2022 11:03
Also, das ist ein generelles Problem mit Linux.

Ich habe seit ca. 2 - 3 Monaten Linux-VMs im Einsatz mit Ubuntu 22.x.x.

Bis vor kurzem wurden 1 Milliarde OP/s für Integer und Float gebenchmarkt, aktuell sind es 8 Milliarden Float-OP/s und 95 Milliarden Integer-OP/s. Diese Werte habe ich auf einem meiner Rechner gefunden, auf den anderen bereite ich gerade auch den Benchmark vor.

Genau, das ist mir soweit klar und bekannt.

Ich habe mich ja über die 58 Mrd. Floating und 299 Mrd. Integer gewundert - weil es eben noch einmal deutlich mehr ist als die "übliche" Überhöhung durch Ubuntu.

Es fängt damit an, dass man möglichst nichts macht, während der Benchmark läuft. Es geht weiter, in dem man zum benchmarken dafür sorgt, dass der maximale Boost-Takt möglichst lange gehalten wird. Aber wo endet es?

Stiwi · #8 Ungelesener Beitrag von **Stiwi** » 09.10.2022 15:59

Der Benchmark ist aus meiner Sicht eher ein Boinc-Bug. Wobei man dann natürlich auch ältere Versionen nehmen kann um das auszunutzen, selbst wenn es gefixt werden sollte.

Die meisten Projekte haben deshalb ja auch schon ihre Creditvergabe angepasst. Mir persönlich ist nur noch sievers bekannt wo man dadurch extreme Vorteile hat?

Kolossus · #9 Ungelesener Beitrag von **Kolossus** » 09.10.2022 16:03

Michael H.W. Weber hat geschrieben: ↑
09.10.2022 11:56
Ich bin ehrlich gesagt überrascht zu hören, dass die Credits in irgendeiner Weise an den Benchmark gekoppelt sein sollen - denn: Was soll das für einen Sinn machen? Wenn ich mit der Maus wild rumrödle während des Benchmarks oder gar im Hintergrund Rechnungen laufen habe, wird der Benchmark deutlich geringer ausfallen, als würde ich die Kiste völlig unangetastet lassen. Die Credits würden also in jedem Fall verfälscht sein.

Es ist ja nicht nur Michaels wild gewordene Maus, sondern unzählige andere Gegebenheiten, die Einfluss (oder auch nicht) auf das Ergebnis des Benchmarks haben. Ob Temperatur im Raum, die mittlere Mondfeuchtigkeit bei einem Novemberregen, eingestellte Werte bei PPT, aufgehübschte Werte bei Arc, Treiberprobleme allerorten zeigen uns doch nur, was die Ergebnisse wirklich taugen: NIX.
Ich habe noch nie zwei gleichlautende Ergebnisse bei Boinc-benches gehabt. die in irgendeiner Form reproduzierbar waren.
Die Benchfunktion lässt sich unter Boinc auch gänzlich unterbinden. Besser ist das....

Yeti · #10 Ungelesener Beitrag von **Yeti** » 09.10.2022 18:47

Na ja, jedem, dem das nicht paßt, steht es frei, dem Entwickler-Team beizutreten, sich dort einzubringen und es dann besser zu machen

Ich persönlich favorisiere die mittlere Mondfeuchtigkeit im Novemberregen

Stiwi · #11 Ungelesener Beitrag von **Stiwi** » 09.10.2022 19:21

Würde denn etwas gegen feste Credits pro WU sprechen?
Kann man das pro Projekt regeln? Bei Ogr wäre es sicher unfair da die Laufzeiten extrem schwanken, wie ist das bei den anderen Projekten?
Ogr hat sich ja in max 30 Tagen auch erledigt.

#12 Ungelesener Beitrag von **Michael H.W. Weber** » 10.10.2022 17:28

Stiwi hat geschrieben: ↑
09.10.2022 19:21
Würde denn etwas gegen feste Credits pro WU sprechen?
Kann man das pro Projekt regeln? Bei Ogr wäre es sicher unfair da die Laufzeiten extrem schwanken, wie ist das bei den anderen Projekten?
Ogr hat sich ja in max 30 Tagen auch erledigt.

Dort wo es geht, sollte es natürlich immer und nur feste Credits geben.
Es geht aber nicht bei allen Projekten, wie ich oben schon schrieb.

Michael.

Rechenkraft.net e.V.

Gibt es eine Erkennung für Fake-Benchmarks?

Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?

Re: Gibt es eine Erkennung für Fake-Benchmarks?