Distributed Suchmaschine

Aus Platzmangel hier die restlichen Projekte ohne eigenes Forum

Distributed Suchmaschine

Unread postby Lasse Kolb » 19.04.2006 06:56

Unser Bassist hat mir gerade eine E-Mail geschickt, dass er gelegentlich etwas Code für eine Distributed Suchmaschine schreibt, und wollte mir das mal zeigen.
Eventuell (!) wäre das ja was für uns:

http://www.yacy.net/yacy/

Das ganze ist aber wohl noch in der Entwicklung.

Lasse
User avatar
Lasse Kolb
Vereinsvorstand
Vereinsvorstand
 
Posts: 1315
Joined: 03.12.2002 21:06
Location: Braunschweig/Hondelage

Re: Distributed Suchmaschine

Unread postby Velociraptor » 11.07.2013 22:04

There is no place like 127.0.0.1
--------------------
User avatar
Velociraptor
Stromkosten-Ignorierer
Stromkosten-Ignorierer
 
Posts: 1029
Joined: 13.11.2001 01:00
Location: nähe Wien

Re: Distributed Suchmaschine

Unread postby Dunuin » 11.07.2013 22:35

Danke. Wird gleich mal installiert.

Diese, von der Gemeinschaft der Nutzer betriebene Suchmaschine ist nicht zensierbar und speichert auch kein Nutzerverhalten an zentraler Stelle. Das Erreichen von Informationsfreiheit durch freie, dezentrale Suchsoftware ist auch ein Projektziel.

Finde ich ja sehr löblich den Ansatz, auch wenn ich mir wegen der Sicherheit noch etwas unsicher bin.

Oh, jetzt bin ich gerade 2 mal im Forum untergwegs. :roll2:
Mitglieder: Dunuin, YaCy [Bot], ...
Image
User avatar
Dunuin
Vereinsmitglied
Vereinsmitglied
 
Posts: 1743
Joined: 23.03.2011 12:59
Location: Hamburg

Re: Distributed Suchmaschine

Unread postby Thomas » 12.07.2013 16:08

Hallo,

YaCy ist Michael Weber und einigen anderen hier bekannt, wir standen ja zum Chemnitzer Linuxtag direkt nebeneinander.....
Ich "Oute" mich hier mal als RKN Vereins-Mitglied und YaCy Administrator/Helfer/Entwickler ;-)

Thomas
User avatar
Thomas
Prozessor-Polier
Prozessor-Polier
 
Posts: 139
Joined: 12.06.2002 09:26
Location: Dresden

Re: Distributed Suchmaschine

Unread postby Michael H.W. Weber » 12.07.2013 23:55

Ah, da war der Thomas schneller als ich. :D
In Berlin waren sie auch vertreten!

Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.

Image

Image Image Image
User avatar
Michael H.W. Weber
Vereinsvorstand
Vereinsvorstand
 
Posts: 19690
Joined: 07.01.2002 01:00
Location: Marpurk

Re: Distributed Suchmaschine

Unread postby nico » 13.07.2013 12:31

Thomas, sehr gut, da brauche ich mich ja nirgends anmelden ;)

Ich habe jetzt den Port 8090 im Router freigegeben, so dass ich von anderen gefunden werde und habe globale Suche aktiviert. Steht damit nun mein lokaler Index allen zur Verfügung? Wie sage ich ihm, er soll das ganze Internet durchsuchen - also sich von URL zu URL hangeln? Teilt er dann seinen Index (ähnlich zu Hadoop) mit anderen oder ist mein Index weg, sobald ich offline bin? Oder verstehe ich alles Falsch und Ziel ist eigentlich eher eine Suchmaschine für spezielle / eigene Server als eine für das ganze Internet?

Eine Suche nach "Fefe" brachte z.B. kein Ergebnis.
Image
User avatar
nico
Vereinsmitglied
Vereinsmitglied
 
Posts: 2211
Joined: 22.12.2002 13:22
Location: C-Town

Re: Distributed Suchmaschine

Unread postby Dunuin » 13.07.2013 15:01

Naja, dezentral heißt mich mich, dass da dein Rechner nichts an einen zentralen Rechner schickt. Sucht jemand etwas, dann fragt er bei ein paar benachbarten PCs an, die fragen wiederum ihre Nachbarn usw. bis einer auf der Festplatte Infos zu der Webseite hat, nach welcher du gesucht hast. Ist ein Rechner offline, dann steht dessen "Wissenspool" auch nicht mehr dem Internet zur Verfügung.
URLs muss man anscheinend einzelnd angeben, damit der Crawler da dann drüberläuft. Das scheint sich aber endlos zu verzweigen, da sich ja immer neue Links auftun, also ist der solange am crawlen, bis deine Festplatte voll ist.

So habe ich das verstanden. Also ein bischen wie im KAD-Netzwerk von eMule.
Image
User avatar
Dunuin
Vereinsmitglied
Vereinsmitglied
 
Posts: 1743
Joined: 23.03.2011 12:59
Location: Hamburg

Re: Distributed Suchmaschine

Unread postby nico » 13.07.2013 15:31

Ja nachdem ich jetzt durch alle Optionen durch bin, verstehe ich das ganze auch etwas besser. Man bekommt von anderen Peers auch per DHT ein paar Indexe :)

Daher wollte ich das nun auf meinem VServer laufen lassen... leider startet es da nicht:

Code: Select all
[ ~]$ java -version
java version "1.7.0_25"
OpenJDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)
OpenJDK 64-Bit Server VM (build 23.7-b01, mixed mode)

[ ~]$ tar -xzf yacy_v1.5_20130613_9000.tar.gz
[ ~]$ cd yacy
[ yacy]$ ./startYACY.sh -d
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ****
****   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ****
**  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                **
**  STOP         YaCy: execute stopYACY.sh and wait some seconds             **
**  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     **
*******************************************************************************
 >> YaCy started as daemon process. Administration at http://localhost:8090 <<
Error occurred during initialization of VM
Could not reserve enough space for code cache

[ yacy]$ free
             total       used       free     shared    buffers     cached
Mem:       1048576      83496     965080          0          0          0
-/+ buffers/cache:      83496     965080
Swap:            0          0          0


Reduzierung von -XX:ReservedCodeCacheSize=1024m auf 512m im startscript hilft leider auch nicht:

Code: Select all
[ yacy]$ ./startYACY.sh -d
****************** YaCy Web Crawler/Indexer & Search Engine *******************
**** (C) by Michael Peter Christen, usage granted under the GPL Version 2  ****
****   USE AT YOUR OWN RISK! Project home and releases: http://yacy.net/   ****
**  LOG of       YaCy: DATA/LOG/yacy00.log (and yacy<xx>.log)                **
**  STOP         YaCy: execute stopYACY.sh and wait some seconds             **
**  GET HELP for YaCy: see http://wiki.yacy.net and http://forum.yacy.de     **
*******************************************************************************
 >> YaCy started as daemon process. Administration at http://localhost:8090 <<
Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.


Was nun? :worry:
Image
User avatar
nico
Vereinsmitglied
Vereinsmitglied
 
Posts: 2211
Joined: 22.12.2002 13:22
Location: C-Town

Re: Distributed Suchmaschine

Unread postby Dunuin » 14.07.2013 14:58

Also RKN scheint gut vernetzt zu sein^^
Image
Image
User avatar
Dunuin
Vereinsmitglied
Vereinsmitglied
 
Posts: 1743
Joined: 23.03.2011 12:59
Location: Hamburg

Re: Distributed Suchmaschine

Unread postby Velociraptor » 14.07.2013 15:36

Also ich hab die Openjdk-v7 auf meinem Wheezy installiert und da läuft es ohne probleme

Bin zwar noch nicht dazu gekommen meinen Homeserver nach aussen zu stellen aber mein index wird ja eh auch per DHT verteil somit sollte das zumindest ok sein.

Ein paar punkte die mich derzeit stören sind.
1) Man kann ihm nicht sagen wie groß er den Index machen darf. Sondern nur indirekt indem man ihm mitteilt Wie viel Platz er auf der HDD frei lassen soll.
2) Das ganze lauft auf java basis ... wie unkuhl :P
3) Es gibt keine gescheite Doku oder Anleitung wie ich finde.
4) Administrieren von dem teil is ja sehr kompliziert ... aber da würde vlt eine Doku helfen :P
5) Es gibt zb keinen Scheduler wo man sagen könnte von wann bis wann er Erlaubnis hat zu Crawlen
6) Bandbreitenbeschränkung geht auch nur indirekt durch die Anzahl an Crawlern und PPM

Sonst gute Idee :) und freut mich das sich jemand damit auseinander setzt :) ... ist ja bereits an der Zeit :P
Und es is noch ausbaufähig meiner Meinung nach^^

meine 2 cent :)
ich hab meine Installation auf http://www.zettabyte.eu/homeser-yacy-suchmaschiene/ Dokumentiert und werde bei Änderungen diese auch immer hier mitziehen

cu V
There is no place like 127.0.0.1
--------------------
User avatar
Velociraptor
Stromkosten-Ignorierer
Stromkosten-Ignorierer
 
Posts: 1029
Joined: 13.11.2001 01:00
Location: nähe Wien

Re: Distributed Suchmaschine

Unread postby Dunuin » 14.07.2013 15:59

Also bei mir hat er 20GB Traffic über Nacht gecrawlt. Also nichts für Telekom-Kunden.

Ansonsten kann ich da Velociraptor nur zustimmen.
Image
User avatar
Dunuin
Vereinsmitglied
Vereinsmitglied
 
Posts: 1743
Joined: 23.03.2011 12:59
Location: Hamburg

Re: Distributed Suchmaschine

Unread postby respawner » 14.07.2013 16:43

ich hab mein PC nur ein paar Stunden am Tag online, ob es da Sinn macht das zu betreiben?
Ich würde es ja auf dem Raspberry Pi laufen lassen, aber da habe ich gemerkt, dass er sich hin und wieder aufhängt, wenn große Datenmengen auf der SD-Karte gelesen oder geschrieben werden (also wenn ich z.B. von meinem PC auf dem Raspi mehrere GB mal rüberkopiere, passiert das hin und wieder). Vielleicht werde ich mal eine andere SD-Karte ausprobieren.
Naja, ich werde es mal auf meinem Windows-PC testen und auch gucken, ob mein Müll-Router damit zu recht kommt (Bei Majestic hatte ich oft Probleme).
ImageImage
respawner
Vereinsmitglied
Vereinsmitglied
 
Posts: 544
Joined: 10.12.2007 19:42

Next

Return to Sonstiges

Who is online

Users browsing this forum: No registered users and 6 guests