Montag, 26. Mai 2008

Automatische Strukturierung von Dokumenten

Die Nachrichtenagenturen haben bisher wenig mit dem Web 2.0 zu tun. Frei zugängliches Material bieten nur die wenigsten Agenturen an. Doch Reuters hat das moderne Internet für sich entdeckt. Die internationale Nachrichtenagentur hat nun eine frei zugängliche API veröffentlicht, mit der es möglich ist, unstrukturierte HTML-Dokumente semantisch auszuzeichnen.
Der WebService nennt sich OpenCalais und soll Informationen zu Personen, Orten, Unternehmen und Veranstaltungen erkennen und auszeichnen können. Zum Einsatz kommt dabei eine Kombination aus natürlicher Sprachverarbeitung und einer großen lernfähigen Datenbank. Calais analysiert das Dokument und findet die Einheiten innerhalb einer Sekunde, selbst bei großen Dokumenten.

Mit diesen Metadaten kann der Anwender dann bspw. automatisch Links zu Personen, Orten, Wetter uvm. generieren lassen, Diagramme und Verzeichnisse erstellen. Mit diesen Diagrammen kann der Anwender die Seitennavigation verbessern, Inhalte pflegen, strukturierte Schlagwörter erstellen, und den Inhalt analysieren um zu sehen ob das enthalten ist was mich interessiert.

opencalais.com

Keine Kommentare: