conference logo

Playlist "FrOSCon 2015"

Webcrawler

Florian Liß

Webcrawler


Bau dir deine eigene WWW-API

Die Informationsvielfalt im Internet ist nahezu grenzenlos: fast alles ist tagesaktuell und ständig verfügbar. Leider gibt es nur für einen kleinen Teil dieser Daten öffentlich verfügbare APIs. Ein Webcrawler kann diese Lücke schießen. Er liest öffentlich verfügbare Informationen, verarbeitet sie und wandelt sie in ein maschinenlesbares Format um. Damit werden viele praxisnahe Softwareanwendungen erst möglich.

Dieser Vortrag richtet sich an alle, die sich für den Aufbau und Funktionsweise eines solchen Webcrawler interessieren.

Die Basis-Funktionen eines Webcrawler sind schnell erklärt und einfach implementiert: Man lädt den Inhalt einer Seite, extrahiert die benötigten Daten und verwendet sie nach Belieben. Aber es gibt noch einige Details, auf die man Rücksicht nehmen sollte. Ein schlecht gebauter Bot verärgert schnell die Server-Administratoren und man wird als böswilliger Angreifer beschimpft.

Der Vortrag geht auf wichtige Details beim Bau eines Webcrawler ein und zeigt Herangehenweisen, um mit der riesigen Datenflut fertig zu werden, die, wenn man es eben richtig macht, aus dem Netz frei extrahiert werden kann.

Robots.txt, Parallelisierung, cURL, HTML-Parser, Regular-Expression, PhantomJS… sind nur ein paar Schlüsselwörter auf die der Vortrag eingeht. Aber vor allem können die Zuhörer von den großen Erfahrungen eines lokalen Unternehmens profitieren, welches es zum Marktführer in ganz Deutschland geschafft hat.

Der Vortrag enthält einige Live-Demonstrationen, in denen gezeigt wird, wie leicht das Internet als freie Informationsquelle genutzt werden kann und das man nicht immer auf kostenpflichtige APIs angewiesen ist, um Daten strukturiert zu erhalten. Meistens besteht nicht einmal die Möglichkeit, Daten in einem maschinenlesbarem Format abzurufen. In diesen Fällen schließt ein Webcrawler die Lücke

Kurz gesagt: Dieser Vortrag richtet sich an diejenigen Zuhörer, die sich für eine sichere, effiziente und vorallem freie Möglichkeit interessieren, das Internet als Datenbasis zu nutzen.

The crawling is strong in you