The KIM Technology Watch Report: http://metadaten-twr.org

SKOS: eine Sprache für die Übertragung von Thesauri ins Semantic Web

Autor: Kai Eckert, Universitätsbibliothek Mannheim

Das Semantic Web – bzw. Linked Data – hat das Potenzial, die Verfügbarkeit von Daten und Wissen, sowie den Zugriff darauf zu revolutionieren. Einen großen Beitrag dazu können Wissensorganisationssysteme wie Thesauri leisten, die die Daten inhaltlich erschließen und strukturieren. Leider sind immer noch viele dieser Systeme lediglich in Buchform oder in speziellen Anwendungen verfügbar. Wie also lassen sie sich für das Semantic Web nutzen? Das Simple Knowledge Organization System (SKOS) bietet eine Möglichkeit, die Wissensorganisationssysteme in eine Form zu “übersetzen”, die im Web zitiert und mit anderen Resourcen verknüpft werden kann.

SKOS ist ein Datenmodell, um Wissensorganisationssysteme wie Thesauri – aber auch Klassifikationen, kontrollierte Vokabulare oder ähnliches – in RDF (Resource Description Framework, die technische Basis des Semantic Web) darzustellen.

SKOS dient als ein kleinster gemeinsamer Nenner, um die Kommunikation und Interaktion zwischen Anwendungen zu ermöglichen, die verschiedene Konzeptschemata mit – zumindest graduell – unterschiedlichen Datenmodellen verwenden. Dabei ist es nicht das Ziel, mit SKOS als alleinigem und universellem Datenmodell andere Datenmodelle zu ersetzen – vielmehr geht es darum, vorhandene Thesauri portierbar und interoperabel zu machen, indem man sie durch ein vereinfachtes Datenmodell beschreibt.

Um einen Thesaurus in SKOS zu beschreiben, verwendet man die folgenden Elemente:

  • Das zentrale Element in SKOS ist das Konzept (concept). Ein Konzept wird durch eine URI eindeutig identifiziert und durch die weiteren SKOS-Elemente näher beschrieben.
  • Konzepte werden in einem Konzeptschema (conceptscheme) zusammengefasst, die Zugehörigkeit eines Konzepts zu einem Schema wird über das Prädikat inScheme ausgedrückt.
  • Konzepte können mit Bezeichnern in verschiedenen Sprachen versehen werden, wobei zwischen der Vorzugsbezeichnung (prefLabel) und alternativen Bezeichnungen (altLabel) unterschieden werden kann.
  • Es stehen verschiedene Prädikate zur Identifikation und Dokumentation des Konzepts zur Verfügung, die sich an gängige Standards anlehnen, z.B. Notationen (notation) oder Hinweise zum vorgesehenen Einsatz (scopeNote).
  • Zur Beschreibung der hierarchischen Struktur der Konzepte können diese verlinkt werden mit übergeordneten Konzepten (broader), untergeordneten Konzepten (narrower) und anderweitig verwandten Konzepten (related).

Mittels dieser Elemente lassen sich die wichtigsten Aspekte gängiger Thesauri beschreiben.

Das Datenmodell von SKOS ist weitgehend kompatibel zum Modell des aktuellen ISO-Standard-Entwurfs für Thesauri (ISO 25964-1), wenn es auch einige Unterschiede im Detail gibt. Damit ist zu erwarten, dass Thesauri, die diesem Standard folgen, relativ einfach über SKOS als Linked Data zur Verfügung gestellt werden können.

Beispielsweise wird das Konzept “Economic cooperation” im gedruckten UKAT [1] Thesaurus so dargestellt:

Term: Economic cooperation

Used For:
    Economic co-operation

Broader terms:
    Economic policy

Narrower terms:
    Economic integration
    European economic cooperation
    European industrial cooperation
    Industrial cooperation

Related terms:
    Interdependence

Scope Note:
    Includes cooperative measures in banking, trade, industry etc.,
    between and among countries.

Möchte man dieses Konzept in SKOS darstellen, so müssen die einzelnen Informationen zunächst in Aussagen umformuliert werden, die den Vorgaben des Resource Description Frameworks (RDF) entsprechen. Eine Aussage besteht immer aus einem Subjekt, einem Prädikat und einem Objekt. Da ein Objekt selbst wieder zum Subjekt für weitere Aussagen werden kann, lässt sich dieser Graph beliebig um weitere Aussagen erweitern. Die Aussagen, die bezüglich des Beispielprojekts zu treffen sind, lauten wie folgt:

  • Das Konzept hat die Vorzugsbezeichnung “Economic cooperation”.
  • Das Konzept hat die alternative Bezeichnung “Economic co-operation”.
  • Das Konzept hat ein übergeordnetes Konzept mit der Vorzugsbezeichnung “Economic policy”.
  • Das Konzept hat untergeordnete Konzepte mit den Vorzugsbezeichnungen “Economic integration”, “European economic cooperation”, “European industrial cooperation” und “Industrial cooperation”.
  • Das Konzept ist verwandt mit einem Konzept mit der Vorzugsbezeichnung “Interdependence”
  • Das Konzept hat den Verwendungshinweis “Includes cooperative measures in banking, trade, industry etc., between and among countries.”

Das folgende Bild zeigt den vollständigen Graphen, der sich aus den Aussagen bis hierher ergibt:

Ex-ukat-1

Die Prädikate (z.B. “hat die Vorzugsbezeichnung”) wurden bereits als SKOS-Prädikate (”z.B. skos:prefLabel”) formalisiert. Was in der Grafik noch fehlt, ist die Identifikation der Subjekte und Objekte, soweit diese nicht nur aus Text bestehen.

Man beachte, dass in der Ursprungsform die übergeordneten, untergeordneten und verwandten Konzepte durch deren Vorzugsbezeichnung identifiziert werden und somit implizit zwei Aussagen miteinander verbunden werden. In SKOS wird dies anders gelöst. Zur eindeutigen Kennzeichnung dienen weltweit eindeutige Uniform Resource Identifier (URIs). Für UKAT wurden bereits solche URIs vergeben, für das Beispielkonzept “Economic cooperation” ist das die URI <http://www.ukat.org.uk/thesaurus/concept/1750>. Entsprechend gibt es auch URIs für die anderen Konzepte, sowie den Thesaurus selbst, so dass alle Informationen zur Verfügung stehen, um den Graphen zu vervollständigen.

RDF-Aussagen lassen sich in verschiedensten Formaten darstellen, lediglich das Modell der Daten ist vorgegeben. Eine für den Menschen sehr leicht lesbare Form von RDF ist das Notation3-Format (N3), die wahrscheinlich gängigste Variante ist die Darstellung in XML:

<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:skos="http://www.w3.org/2004/02/skos/core#"> 

    <skos:Concept rdf:about="http://www.ukat.org.uk/thesaurus/concept/1750">
        <skos:prefLabel>Economic cooperation</skos:prefLabel>
        <skos:altLabel>Economic co-operation</skos:altLabel>
        <skos:scopeNote>Includes cooperative measures in banking...</skos:scopeNote>
        <skos:broader rdf:resource="http://www.ukat.org.uk/thesaurus/concept/4382"/>
         <skos:narrower rdf:resource="http://www.ukat.org.uk/thesaurus/concept/2108"/>
        <skos:narrower rdf:resource="http://www.ukat.org.uk/thesaurus/concept/9505"/>
        <skos:narrower rdf:resource="http://www.ukat.org.uk/thesaurus/concept/15053"/>
        <skos:narrower rdf:resource="http://www.ukat.org.uk/thesaurus/concept/18987"/>
        <skos:related rdf:resource="http://www.ukat.org.uk/thesaurus/concept/3250"/>
        <skos:inScheme rdf:resource="http://www.ukat.org.uk/thesaurus/"/>
    </skos:Concept>

</rdf:RDF>

In diesem einfachen Beispiel sind die wichtigsten Bestandteile von SKOS enthalten. Mit SKOS steht also ein Datenmodell zur Verfügung, mit dessen Hilfe eine einfache Sicht auf hierarchische Konzeptschemata – Thesauri, Klassifikationen, usw. – erzeugt werden kann. Der Sinn und Zweck von SKOS ist es, Anwendungen und Systeme, die derartige Schemata verwenden, interoperabel zu machen. Auf Datenmodellebene stellt SKOS einen kleinsten gemeinsamen Nenner dar und könnte sich damit zu einer Art Lingua Franca der Thesauri entwickeln. Für diese erfüllt SKOS den selben Zweck, wie Dublin Core für bibliographische Informationen.

In Deutschland haben es die ZBW [2] und die GESIS [3] vorgemacht, jüngst folgte die DNB mit einer teilweisen Veröffentlichung ihrer Normdaten als Linked Data. International sei stellvertretend die Library of Congress genannt, die die LoC Subject Headings ebenfalls veröffentlicht hat.

Hoffentlich folgen noch viele weitere Institutionen den genannten Beispielen und stellen ihre Daten (nicht nur Thesauri) frei und offen zur Verfügung. Denn erst müssen die Daten da sein, bevor sie in neue Anwendungen integriert werden können.

SKOS wurde in zwei Arbeitsgruppen des World Wide Web Consortium (W3C) entwickelt und hat seit August 2009 den Status einer W3C Empfehlung. Seit dem Ende dieser Standardisierungsarbeit sind die Benutzer aufgefordert, eigene Erweiterungen zu SKOS zu entwickeln, zu standardisieren und in der Praxis zum Einsatz zu bringen. Aktuelle Entwicklungen sollen im Wiki des W3C dokumentiert werden. Für alle Detailfragen empfiehlt sich ein Blick in die gut lesbare SKOS Referenz [4] und den SKOS Primer [5].

Danksagung

Das Beispiel inklusive Abbildungen wurde mit Genehmigung des W3C dem Artikel “Quick Guide to Publishing a Thesaurus on the Semantic Web” dankend entnommen [6].

Referenzen

  1.  http://www.ukat.org.uk/
  2. Neubert, Joachim: Bringing the “Thesaurus for Economics” on to the Web of Linked Data. In Linked Data on the Web (LDOW2009), 2009.
  3. Zapilko, Benjamin / Sure, York: Converting the TheSoz to SKOS. Gesis Technical Report, 2009.
  4. http://www.w3.org/TR/skos-reference/
  5. http://www.w3.org/TR/skos-primer/
  6. Miles, Alistair:  Quick Guide to Publishing a Thesaurus on the Semantic Web. W3C Working Draft 17 May 2005.

More information about the author: Kai Eckert


Tags: , , , , , , , , , ,

Leave a Reply

*