Distributed Search: MJ-12, YaCy und 80legs

Infrastruktur

Kurzprofil zum Beitrag.

Distributed Search Engine Verteiltes Suchen, Distributed Search Technique oder Cloud-Searching sind Begriffe, die das Suchen im WWW beschreiben, allerdings crawlen dabei nicht die Suchmaschinen selbst die Domains und indizieren den Content, sondern die Peer-To-Peer-Nutzer, die die Plugins oder Tools verwenden. Majestic

FORMAT
Beitrag
KATEGORIE
Infrastruktur
KONTEXT
Strukturierter News-Beitrag

Distributed Search Engine Verteiltes Suchen, Distributed Search Technique oder Cloud-Searching sind Begriffe, die das Suchen im WWW beschreiben, allerdings crawlen dabei nicht die Suchmaschinen selbst die Domains und indizieren den Content, sondern die Peer-To-Peer-Nutzer, die die Plugins oder Tools verwenden. Majestic

**Distributed Search Engine**

Verteiltes Suchen, Distributed Search Technique oder Cloud-Searching sind Begriffe, die das Suchen im WWW beschreiben, allerdings crawlen dabei nicht die Suchmaschinen selbst die Domains und indizieren den Content, sondern die Peer-To-Peer-Nutzer, die die Plugins oder Tools verwenden.

**Majestic 12**

Der Bot MJ-12(oeffnet in neuem Tab) (Codename Majestic 12(oeffnet in neuem Tab) für ein Geheimkomitee) war eine der ersten “Suchmaschinen”, die über verteiltes Suchen Suchergebnisse bereitstellen. MJ-12 vergleicht sich selbst mit der Technik von SETI@home. Als Plugin für den Firefox ist MJ-12 ein Informationstool, welches weitere themenrelevante Seiten zur angezeigten Seite vorschlägt.

Bei einigen Kundenprojekten mussten wir feststellen, dass der MJ-12-Crawler nicht die robots.txt berücksichtigt und die Seiten in den SERPs auftauchen.

**YaCy**

YaCy.net(oeffnet in neuem Tab) (von Yet another Cyberspace) preist sich selbst als freie Suchmaschinensoftware an. Die Software ist für Windows, Mac und Linux erhältlich. YaCy wird über ein Web-Interface bedient und kann optional auch als Suchlösung im Intranet verwendet werden oder als transparenter Proxy dienen. Standardmäßig arbeitet YaCy mit den Netzen von freeworld, es sind aber auch TOR hidden services zu finden. Aktuelle Crawl-Statistiken und umfangreiche Admin-Einstellungen machen YaCy zu einer sinnvollen Erweiterung im Intranet oder als Ersatz/Ergänzung zu den üblichen Suchmaschinen. Ein weiteres Feature ist der direkte SERPs-Vergleich mit gängigen Suchmaschinen in vertikaler Ansicht.

User-Agent: yacybot (i386 Linux 2.6.28-17-generic; java 1.6.0_0; Europe/en) http://yacy.net/bot.html(oeffnet in neuem Tab)

**80legs**

80legs.com(oeffnet in neuem Tab) ist ein kommerzieller Dienst, der Entwickler unterstützen soll Suchmaschinenabfragen per API in eigene Applikationen zu integrieren. Bei bis zu 100.000 Pages kann 80legs kostenlos genutzt werden. 80legs integriert sich auch in die Eclipse IDE oder die NetBeans IDE. Würde mich über weitere Erfahrungen mit 80legs freuen, da momentan im Netz nicht wirklich interessante Informationen zu finden sind.

User-Agent: Mozilla/5.0 (compatible; 008/0.83; http://www.80legs.com/spider.html(oeffnet in neuem Tab);) Gecko/2008032620

CASE-FIT

Infrastruktur kompakt prüfen.

Relevanz, Risiken und nächste Schritte strukturiert priorisieren.

30 Minuten Fokus auf Ausgangslage, technische Abhängigkeiten und sinnvolle nächste Schritte.

Fokus: Ausgangslage, technische Auswirkungen und belastbare nächste Schritte.
Direkter Kontakt
(09824) 9230427it@artisan-tech.de
Im Fokus
  • Systemstand, Betriebsrisiken und technische Abhängigkeiten prüfen
  • Prioritäten für Stabilität, Wartung und Sicherheit ableiten
  • Nächste Schritte für Betrieb, Migration oder Modernisierung festlegen
CASE-FIT

IT-Situation kompakt prüfen.
Nächste Schritte festlegen.

30 Minuten Fokus auf Betrieb, Risiken und Prioritäten. Danach steht fest, welcher Schritt zuerst sinnvoll ist.