Distributed Suchmaschine

Aus Platzmangel hier die restlichen Projekte ohne eigenes Forum
Nachricht
Autor
Benutzeravatar
Lasse Kolb
Vereinsvorstand
Vereinsvorstand
Beiträge: 1355
Registriert: 03.12.2002 21:06
Wohnort: Braunschweig/Hondelage
Kontaktdaten:

Distributed Suchmaschine

#1 Ungelesener Beitrag von Lasse Kolb » 19.04.2006 06:56

Unser Bassist hat mir gerade eine E-Mail geschickt, dass er gelegentlich etwas Code für eine Distributed Suchmaschine schreibt, und wollte mir das mal zeigen.
Eventuell (!) wäre das ja was für uns:

http://www.yacy.net/yacy/

Das ganze ist aber wohl noch in der Entwicklung.

Lasse

Benutzeravatar
Velociraptor
Stromkosten-Ignorierer
Stromkosten-Ignorierer
Beiträge: 1029
Registriert: 13.11.2001 01:00
Wohnort: nähe Wien
Kontaktdaten:

Re: Distributed Suchmaschine

#2 Ungelesener Beitrag von Velociraptor » 11.07.2013 22:04

There is no place like 127.0.0.1
--------------------

Benutzeravatar
Dunuin
Vereinsmitglied
Vereinsmitglied
Beiträge: 1743
Registriert: 23.03.2011 12:59
Wohnort: Hamburg

Re: Distributed Suchmaschine

#3 Ungelesener Beitrag von Dunuin » 11.07.2013 22:35

Danke. Wird gleich mal installiert.
Diese, von der Gemeinschaft der Nutzer betriebene Suchmaschine ist nicht zensierbar und speichert auch kein Nutzerverhalten an zentraler Stelle. Das Erreichen von Informationsfreiheit durch freie, dezentrale Suchsoftware ist auch ein Projektziel.
Finde ich ja sehr löblich den Ansatz, auch wenn ich mir wegen der Sicherheit noch etwas unsicher bin.

Oh, jetzt bin ich gerade 2 mal im Forum untergwegs. :roll2:
Mitglieder: Dunuin, YaCy [Bot], ...
Bild

Benutzeravatar
Thomas
Prozessor-Polier
Prozessor-Polier
Beiträge: 141
Registriert: 12.06.2002 09:26
Wohnort: Dresden
Kontaktdaten:

Re: Distributed Suchmaschine

#4 Ungelesener Beitrag von Thomas » 12.07.2013 16:08

Hallo,

YaCy ist Michael Weber und einigen anderen hier bekannt, wir standen ja zum Chemnitzer Linuxtag direkt nebeneinander.....
Ich "Oute" mich hier mal als RKN Vereins-Mitglied und YaCy Administrator/Helfer/Entwickler ;-)

Thomas

Benutzeravatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
Beiträge: 22418
Registriert: 07.01.2002 01:00
Wohnort: Marpurk
Kontaktdaten:

Re: Distributed Suchmaschine

#5 Ungelesener Beitrag von Michael H.W. Weber » 12.07.2013 23:55

Ah, da war der Thomas schneller als ich. :D
In Berlin waren sie auch vertreten!

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

Bild Bild Bild

Benutzeravatar
nico
Vereinsmitglied
Vereinsmitglied
Beiträge: 2211
Registriert: 22.12.2002 13:22
Wohnort: C-Town
Kontaktdaten:

Re: Distributed Suchmaschine

#6 Ungelesener Beitrag von nico » 13.07.2013 12:31

Thomas, sehr gut, da brauche ich mich ja nirgends anmelden ;)

Ich habe jetzt den Port 8090 im Router freigegeben, so dass ich von anderen gefunden werde und habe globale Suche aktiviert. Steht damit nun mein lokaler Index allen zur Verfügung? Wie sage ich ihm, er soll das ganze Internet durchsuchen - also sich von URL zu URL hangeln? Teilt er dann seinen Index (ähnlich zu Hadoop) mit anderen oder ist mein Index weg, sobald ich offline bin? Oder verstehe ich alles Falsch und Ziel ist eigentlich eher eine Suchmaschine für spezielle / eigene Server als eine für das ganze Internet?

Eine Suche nach "Fefe" brachte z.B. kein Ergebnis.
Bild

Benutzeravatar
Dunuin
Vereinsmitglied
Vereinsmitglied
Beiträge: 1743
Registriert: 23.03.2011 12:59
Wohnort: Hamburg

Re: Distributed Suchmaschine

#7 Ungelesener Beitrag von Dunuin » 13.07.2013 15:01

Naja, dezentral heißt mich mich, dass da dein Rechner nichts an einen zentralen Rechner schickt. Sucht jemand etwas, dann fragt er bei ein paar benachbarten PCs an, die fragen wiederum ihre Nachbarn usw. bis einer auf der Festplatte Infos zu der Webseite hat, nach welcher du gesucht hast. Ist ein Rechner offline, dann steht dessen "Wissenspool" auch nicht mehr dem Internet zur Verfügung.
URLs muss man anscheinend einzelnd angeben, damit der Crawler da dann drüberläuft. Das scheint sich aber endlos zu verzweigen, da sich ja immer neue Links auftun, also ist der solange am crawlen, bis deine Festplatte voll ist.

So habe ich das verstanden. Also ein bischen wie im KAD-Netzwerk von eMule.
Bild

Benutzeravatar
nico
Vereinsmitglied
Vereinsmitglied
Beiträge: 2211
Registriert: 22.12.2002 13:22
Wohnort: C-Town
Kontaktdaten:

Re: Distributed Suchmaschine

#8 Ungelesener Beitrag von nico » 13.07.2013 15:31

Ja nachdem ich jetzt durch alle Optionen durch bin, verstehe ich das ganze auch etwas besser. Man bekommt von anderen Peers auch per DHT ein paar Indexe :)

Daher wollte ich das nun auf meinem VServer laufen lassen... leider startet es da nicht:

Code: Alles auswählen

[ ~]$ java -version
java version "1.7.0_25"
OpenJDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)
OpenJDK 64-Bit Server VM (build 23.7-b01, mixed mode)

[ ~]$ tar -xzf yacy_v1.5_20130613_9000.tar.gz 
[ ~]$ cd yacy
[ yacy]$ ./startYACY.sh -d
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ****
****   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ****
**  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                **
**  STOP         YaCy: execute stopYACY.sh and wait some seconds             **
**  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     **
*******************************************************************************
 >> YaCy started as daemon process. Administration at http://localhost:8090 << 
Error occurred during initialization of VM
Could not reserve enough space for code cache

[ yacy]$ free 
             total       used       free     shared    buffers     cached
Mem:       1048576      83496     965080          0          0          0
-/+ buffers/cache:      83496     965080
Swap:            0          0          0
Reduzierung von -XX:ReservedCodeCacheSize=1024m auf 512m im startscript hilft leider auch nicht:

Code: Alles auswählen

[ yacy]$ ./startYACY.sh -d
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ****
****   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ****
**  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                **
**  STOP         YaCy: execute stopYACY.sh and wait some seconds             **
**  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     **
*******************************************************************************
 >> YaCy started as daemon process. Administration at http://localhost:8090 << 
Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.
Was nun? :worry:
Bild

Benutzeravatar
Dunuin
Vereinsmitglied
Vereinsmitglied
Beiträge: 1743
Registriert: 23.03.2011 12:59
Wohnort: Hamburg

Re: Distributed Suchmaschine

#9 Ungelesener Beitrag von Dunuin » 14.07.2013 14:58

Also RKN scheint gut vernetzt zu sein^^
Bild
Bild

Benutzeravatar
Velociraptor
Stromkosten-Ignorierer
Stromkosten-Ignorierer
Beiträge: 1029
Registriert: 13.11.2001 01:00
Wohnort: nähe Wien
Kontaktdaten:

Re: Distributed Suchmaschine

#10 Ungelesener Beitrag von Velociraptor » 14.07.2013 15:36

Also ich hab die Openjdk-v7 auf meinem Wheezy installiert und da läuft es ohne probleme

Bin zwar noch nicht dazu gekommen meinen Homeserver nach aussen zu stellen aber mein index wird ja eh auch per DHT verteil somit sollte das zumindest ok sein.

Ein paar punkte die mich derzeit stören sind.
1) Man kann ihm nicht sagen wie groß er den Index machen darf. Sondern nur indirekt indem man ihm mitteilt Wie viel Platz er auf der HDD frei lassen soll.
2) Das ganze lauft auf java basis ... wie unkuhl :P
3) Es gibt keine gescheite Doku oder Anleitung wie ich finde.
4) Administrieren von dem teil is ja sehr kompliziert ... aber da würde vlt eine Doku helfen :P
5) Es gibt zb keinen Scheduler wo man sagen könnte von wann bis wann er Erlaubnis hat zu Crawlen
6) Bandbreitenbeschränkung geht auch nur indirekt durch die Anzahl an Crawlern und PPM

Sonst gute Idee :) und freut mich das sich jemand damit auseinander setzt :) ... ist ja bereits an der Zeit :P
Und es is noch ausbaufähig meiner Meinung nach^^

meine 2 cent :)
ich hab meine Installation auf http://www.zettabyte.eu/homeser-yacy-suchmaschiene/ Dokumentiert und werde bei Änderungen diese auch immer hier mitziehen

cu V
There is no place like 127.0.0.1
--------------------

Benutzeravatar
Dunuin
Vereinsmitglied
Vereinsmitglied
Beiträge: 1743
Registriert: 23.03.2011 12:59
Wohnort: Hamburg

Re: Distributed Suchmaschine

#11 Ungelesener Beitrag von Dunuin » 14.07.2013 15:59

Also bei mir hat er 20GB Traffic über Nacht gecrawlt. Also nichts für Telekom-Kunden.

Ansonsten kann ich da Velociraptor nur zustimmen.
Bild

respawner
Vereinsmitglied
Vereinsmitglied
Beiträge: 554
Registriert: 10.12.2007 19:42

Re: Distributed Suchmaschine

#12 Ungelesener Beitrag von respawner » 14.07.2013 16:43

ich hab mein PC nur ein paar Stunden am Tag online, ob es da Sinn macht das zu betreiben?
Ich würde es ja auf dem Raspberry Pi laufen lassen, aber da habe ich gemerkt, dass er sich hin und wieder aufhängt, wenn große Datenmengen auf der SD-Karte gelesen oder geschrieben werden (also wenn ich z.B. von meinem PC auf dem Raspi mehrere GB mal rüberkopiere, passiert das hin und wieder). Vielleicht werde ich mal eine andere SD-Karte ausprobieren.
Naja, ich werde es mal auf meinem Windows-PC testen und auch gucken, ob mein Müll-Router damit zu recht kommt (Bei Majestic hatte ich oft Probleme).
BildBild

Antworten

Zurück zu „Sonstiges“