OAI Object Reuse and Exchange (ORE)
Autoren: Stefan Gradmann (Humboldt-Universität zu Berlin) & Wolfram Horstmann (Universität Bielefeld)
Abstract: Die Spezifikation ORE der Open Archives Initiative (OAI) definiert Standards für die Beschreibung und den Austausch von komplexen Einheiten aggregierter WWW-Entitäten (’resources’). Einzelne resources können multiplen Medientypen angehören und in verteilten Datenspeichern abgelegt sein. Das Ziel von ORE ist es, den Inhalt und die Binnenstruktur von komplexen Aggregationen zu modellieren, um sie im WWW maschinell verarbeitbar und austauschbar zu machen. Der Artikel gibt einen Überblick über die ORE-Spezifikation, zeigt Anwendungsbeispiele und diskutiert abschließend das Potential von ORE.
| 1.1 Was ist und was leistet OAI ORE? 1.2 Implementierungswege 1.3 Anwendungsbeispiele 1.4 Diskussion 1.5 Dokumentation |
Was ist und was leistet OAI ORE?
Mit dem inzwischen weit verbreiteten Metadaten-Harvesting-Protokoll der Open Archives Initiative [1] OAI PMH können Metadaten über Dokumententitäten im WWW effektiv ausgetauscht werden – nicht jedoch die Dokumententitäten selbst, die häufig in vielen proprietären und untereinander nicht kompatiblen Binnenstrukturen vorliegen. Auf diese Problematik reagiert OAI ORE [2], eine im Oktober 2008 in der Version 1.0 veröffentlichte Spezifikation der Open Archives Initiative, die Standards für die Beschreibung und den Austausch zu komplexen Einheiten aggregierter WWW-Entitäten (’resources’) definiert. In diese Aggregationen können verteilte Quellen mit multiplen Medientypen wie Text, Bild, Daten und Video zu komplexen digitalen Entitäten kombiniert sein. Das Ziel von ORE ist es, den Inhalt und die Binnenstruktur solcher komplexer Aggregationen so zu modellieren, dass diese für Anwendungen verarbeitbar werden, welche ihre Erstellung, das Einstellen, den Austausch, die Visualisierung, Weiterverwendung und Langfristarchivierung ermöglichen.
ORE soll also komplexe Informationen im WWW maschinell verarbeitbar und austauschbar machen und setzt zur Lösung dieser Aufgabe ausschließlich Standards des WWW ein, die es in spezialisierter Weise benutzt und zu einem Modellierungsrahmen kombiniert. Dem entsprechend sind die Grundbausteine des Modells im Sinne der Terminologie des W3C die resource (eine beliebige, im WWW repräsentierbare Entität), URI (das globale Identifikationsmerkmal einer resource), die representation (ein Datenstrom, der dem Zustand einer resource zum Zeitpunkt der Deferenzierung ihrer URI entspricht) und der link (eine gerichtete Verbindung zwischen zwei resources). Diese vier elementaren Grundbausteine werden in ORE unter Verwendung der Syntax eines weiteren W3C-Standards, RDF [3], zu komplexen Einheiten kombiniert. RDF ist ein einfaches Modell, das Aussagen über resources in einer Subjekt – Prädikat – Objekt-Syntax (den so genannten triples) erlaubt.

Das oben stehende Beispiel aus dem ORE Primer zeigt die vier Tripel mit denen die Beziehung zwischen drei resources und einem Literal, dem Autorennamen, in einem einfachen bibliographischen Objekt in RDF modelliert werden kann (s.a. Cool URIs [4] bzw. Linked Data [5] für konkrete Empfehlungen zur Umsetzung). ORE schafft damit Voraussetzungen für die Herstellung semantischer Interoperabilität im Internet verfügbarer komplexer Ressourcenbündel.
Von diesem einfachen Grundprinzip ausgehend führt ORE nun den spezifischen Begriff der aggregation ein, der als gedankliches Konzept die Zusammengehörigkeit einer Reihe von resources zu einer komplexen Entität vereint, und der seine dereferenzierbare (”zugreifbare”) Entsprechung als representation im WWW in einer so genannten resource map findet. Die resource map wiederum wird unter Verwendung von ORE unabhängiger Metadaten-Namensräumen wie etwa dcterms: (Klassen und Eigenschaften für die Beschreibung von Dokumententitäten unter http://dublincore.org/documents/dcmi-terms/) oder foaf: (Klassen und Eigenschaften für die Modellierung sozialer Netzwerke unter http://xmlns.com/foaf/spec/) beschrieben: der spezifische Beitrag von ORE im eigenen Namensraum besteht damit in der Einführung der Prädikate ore:describes und ore:aggregates. Die unten stehende Abbildung aus dem ORE Primer und der korrespondierende Code zur Darstellung einer Publikation auf ARXIV.ORG illustriert diesen Zusammenhang.
<rdf:Description rdf:about="http://arxiv.org/aggregation/astro-ph/0601007"> <rdf:type rdf:resource="http://www.openarchives.org/ore/terms/Aggregation"/> <ore:aggregates rdf:resource="http://arxiv.org/abs/astro-ph/0601007"/> <ore:aggregates rdf:resource="http://arxiv.org/ps/astro-ph/0601007"/> <ore:aggregates rdf:resource="http://arxiv.org/pdf/astro-ph/0601007"/> <dc:title>Parametrization of K-essence and Its Kinetic Term</dc:title> <dcterms:creator rdf:parseType="Resource"> <foaf:name>Hui Li</foaf:name> <foaf:mbox rdf:resource="mailto:lihui@somewhere.cn"/> </dcterms:creator> <dcterms:creator rdf:parseType="Resource"> <foaf:name>Zong-Kuan Guo</foaf:name> </dcterms:creator> <dcterms:creator rdf:parseType="Resource"> <foaf:name>Yuan-Zhong Zhang</foaf:name> </dcterms:creator> </rdf:Description>

Ein weiteres optionales Konstrukt, die so genannten proxies erlauben zusätzlich die Modellierung semantisch typisierter Beziehungen zwischen Aggregationen. Für eine sequentielle Beziehung könnte das Verb in einem entsprechenden RDF-Tripel beispielsweise xyz:hasNext lauten. Unter Verwendung dieser einfachen Grundbausteine können sehr komplexe Informationsaggregationen im WWW modelliert werden. Eine elementare Frage allerdings beantwortet OAI ORE ganz bewusst nicht (mehr): was eigentlich die Aggregation als Entität konstituiert bzw. wie ihre Grenzen bestimmt werden ist nicht Gegenstand des Modells. Ein dahin gehender Ansatz in der Alpha-Version – “An Aggregation is a set of Resources which together form a ‘logical unit’” – wurde in der Endfassung ersatzlos gestrichen. Die etwas unbefriedigende – weil latent tautologische – Konsequenz ist, dass als aggregation definiert ist, was eine gemeinsame resource map hat.
Das Standardmodell schreibt keine bestimmte Implementierungsform vor: prinzipiell sind alle Serialisierungsstrategien zulässig, in denen resource maps modellierbar und in denen RDF-Statements formulierbar sind. Explizit erwähnt werden in den Spezifikationsdokumenten RDF/XML, N3, Turtle und ATOM. Für diese Ansätze ist auch technische Unterstützung von Seiten der Standardisierungsgruppe um Herbert van de Sompel verfügbar. Ein weiterer Aspekt der Implementierung betrifft das Bereitstellen (‚Exponieren’) und Auffinden von resource maps. Spezielle Crawler können zur Auswertung von ORE angepasst werden, beispielsweise um über die Analyse von aggregates-Beziehungen die Struktur einer resource map zu erschließen. Harvester können die Information zur weiteren Aufbereitung in spezialisierten Diensten sammeln. “Batch Discovery” als Prozess zur Massenverarbeitung von resource maps kann beispielsweise mittels ATOM syndication feeds, OAI-PMH oder SiteMaps erfolgen.
Die Anwendungen von ORE befinden sich zum großen Teil in der Explorationsphase mit zahlreichen Beispielen, die verschiedene Anwendungsfelder aufzeigen. Zum einen gibt es Inhaltsanbieter, die ihre bestehenden Daten als eine von mehreren Repräsentationen in ORE modellieren. JSTOR beispielsweise zeigt, wie solche ORE-Repräsentationen ihrer Daten genutzt werden können, um ihre Inhalte zu explorieren: Verweise auf andere Inhalte oder Detailinformation können über einen eingeblendeten Graphen gefunden werden [6]. Die Universitätsbibliothek Ghent gibt für jeden Eintrag im Repositorium eine ORE-Repräsentation in RDF aus, so dass sie von Maschinen ausgewertet und referenziert werden kann [7]. Die Universitätsbibliothek Utrecht [8] bietet dasselbe auch als Massentransport an (”Batch-Processing” mittels OAI-PMH). Im Kontext von MyExperiment [9] werden wissenschaftliche Arbeitsgänge (’Workflows’) auf einer Internet-Plattform für andere zugänglich gemacht, die u.a. als ORE ausgegeben und über semantische Suchen (SPARQL-Endpoint) angesprochen werden können.
Serialisierung einer „Enhanced Publication“ (Quelle: DRIVER)
Ein weiteres Anwendungsfeld gruppiert sich um das Problem, anspruchsvolle wissenschaftliche Inhalte web-basiert zu verarbeiten, wobei die einzelnen Inhaltskomponenten meist über mehrere Datenquellen verteilt vorliegen. Im Kontext der DRIVER-Initiative zeigt ein Demonstrator, wie sog. “Enhanced Publications” [10] – das sind kombinierte Pakete von Texten und ergänzenden Materialien, wie Primärdaten, Bilder, Datenbankabfragen, in deren Mittelpunkt die traditionelle wissenschaftliche Text-basierte Publikation steht – auf Basis von ORE verarbeitet und visualisiert werden können. In weiterführenden Studien der DRIVER-Initiative wird erläutert, welche weiteren Anwendungsfelder im Kontext von Repositorien möglich sind [11] und wie Langzeitarchivierung erreicht werden kann.
Mit dem Publikationsprozess von Texten in Verbindung mit Daten beschäftigt sich auch ein Projekt [12] in der Astronomie (National Virtual Observatory in den USA), das ORE mit SWORD (Simple Web-service Offering Repository Deposit) [13] kombiniert.
Im Kontext von Europeana wird ORE beispielweise eingesetzt werden [14], um die vielfältigen Beziehungen zwischen Entitäten im Europäischen Kulturgut abzubilden, zu verarbeiten und zu präsentieren. Zur Repräsentation des Gemäldes Mona Lisa etwa gehören dort neben Attributen des Gemäldes selbst das mit ihm verbundene Linked-Data-Element für Leonardo aus VIAF oder ebenfalls als WWW-Entitäten referenzierbare Thumbnails oder aber auch im WWW als SKOS-Entitäten verfügbare Konzeptentitäten. In ähnlicher Weise aber in einem viel spezielleren Kontext werden in LORE (Literature Object Re-use and Exchange) literaturwissenschaftlich relevante Informationen auf Basis von ORE (und FRBR) editiert und angeboten [15].
Das Projekt ICE-TheOREM [16] hat Werkzeuge rund um die Erstellung und Publikation von Dissertationen entwickelt und ORE eingesetzt um Daten und Dokumente in verschiedenen Datenspeichern (z.B. einem Content-Management-System und verschiedene Repositorien-Plattformen) gleichermaßen verarbeiten zu können. Schließlich beginnen in einem dritten Anwendungsfeld auch die Entwickler von Werkzeugen ORE zu berücksichtigen: zwei prominente Beispiele sind hier die Microsoft-Plattform für Repositorien “Zentity” [17] und die Blog-Software “Wordpress” [18].
Anhand der Beispiele wird deutlich, dass ORE nicht unbedingt das dem einzelnen Datenspeicher zugrundeliegende Modell ist, sondern vielmehr zur Vernetzung von verteilt vorliegender Information verwendet wird – sozusagen als „semantischer Kleber“. Die Mehrzahl der genannten Beispiele verwendet innerhalb der Datenspeicher andere oder mehrere verschiedene Datenmodelle. Ein wesentlicher Aspekt der meisten Beispiele ist die Verarbeitung im Web, d.h. die starke Nutzung von einfachen Protokollen wie http und die Darstellung über Standard-Browser. Der große Unterschied zu herkömmlichen Web-Anwendungen ist jedoch, dass nicht mehr nur einzelne Objekte verbunden werden können, an denen sich ein Nutzer oder eine Maschine entlang hangeln muss, ohne dabei Information über die Art von Objekt über die Semantik der Relationen berücksichtigen zu können – mit ORE können ganze Aggregationen von Objekten angesprochen werden, wobei sowohl ihre innere Struktur als auch die Semantik einzelner Relationen genutzt wird, um Anwendungen reichhaltiger oder intuitiver zu machen.
Die breite Nutzung von ORE im Alltag wird vor allem davon abhängen, wie viele Datenanbieter tatsächlich ihre Daten als ORE verfügbar machen und damit eine kritische Masse erzeugen können und wie viele Anwendungsentwickler intelligente Methoden finden die Reichhaltigkeit der dann zur Verfügung stehenden Information für Endnutzer in Mehrwerte umzuwandeln. Ein Problem könnte werden, dass ORE sich sehr stark auf die dauerhafte Verfügbarkeit und Unverändertheit von Objekten im Web verlassen muss, um nicht dauernd mit Lücken oder Inkonsistenzen in den ORE-Aggregation zu kämpfen. Vielleicht ist dies auch ein Grund, warum einer der Väter von ORE, Herbert van de Sompel, sich nun mit „zeitreisenden Browsern“ beschäftigt, die auch früher einmal dagewesene, aber inzwischen verschwundene Objekte des Internet noch auffinden können [19]. Auch angesichts dieses sicher weiterführenden Ansatzes bleibt allerdings fraglich, ob das zugrunde liegende Problem damit hinreichend konsequent angegangen wird, denn ob die Rekonstruierbarkeit einzelner Objekte als Teil einzelner Aggregationen ausreichen wird, ist eher fraglich: um dem WWW mit den Worten von Herbert van de Sompel ein Gedächtnis zu geben wäre eigentlich eine Versionierung ganzer Komplexe untereinander verlinkter Aggregationen einschließlich ihrer Teilkomponenten zu leisten. Eine in ihrer Komplexität sicher furchteinflößende Aufgabe. Die Anwendungsbeispiele zeigen jedoch deutlich, dass ORE ohne Frage das Potenzial besitzt, Interoperabilitätsbrücken zwischen Kontexten der internetgestützten wissenschaftlichen Kommunikation und zeitgemäßen Digitalen Bibliotheken zu schlagen.
Die Dokumentation von ORE [20] umfasst eine Spezifikation des Datenmodells (/datamodel), des Vokabulars (/vocabulary), der verfügbaren Entwicklungswerkzeuge (/tools) und ein Einführungsdokument (/primer). Eine gute Einführung unter besonderer Berücksichtigung der Repositorien leistet Tarrant et al.: Using OAI-ORE to Transform Digital Repositories into Interoperable Storage and Services Applications. In: code{4}lib issue 6, 2009-03-30
Dank an Jochen Schirrwagen für hilfreiche Kommentare zu Entwurfsversionen dieses Textes.
- http://www.openarchives.org
- http://www.openarchives.org/ore/
- http://www.w3.org/RDF/
- http://www.w3.org/TR/cooluris/
- http://www.w3.org/DesignIssues/LinkedData.html
- http://indico.cern.ch/contributionDisplay.py?contribId=8&sessionId=3&confId=48321
- http://biblio.ugent.be/input
- http://igitur-archive.library.uu.nl
- http://smartech.gatech.edu/handle/1853/28427
- http://driver2.dans.knaw.nl/demonstrator/html/index.html
- https://biblio.ugent.be/record/723558
- http://indico.cern.ch/contributionDisplay.py?contribId=9&sessionId=3&confId=48321
- http://www.ariadne.ac.uk/issue54/allinson-et-al/
- Das auf ORE beruhende Datenmodell von Europeana befindet sich noch in der Erprobungsphase und ist noch nicht öffentlich zugänglich.
- http://smartech.gatech.edu/handle/1853/28466
- http://smartech.gatech.edu/handle/1853/28424
- http://research.microsoft.com/en-us/projects/zentity/
- http://wordpress.org/extend/plugins/oai-ore/
- http://www.newscientist.com/article/dn18158-timetravelling-browsers-navigate-the-webs-past.html
- http://www.openarchives.org/ore/1.0/
|
Follow comments |
|
Tags: Aggregations, Compound Objects, digital objects, linked open data, Metadata format, OAI, OAI-ORE, Open Archives Initiative, Open Archives Initiative Object Reuse and Exchange, RDF, Repository, Semantic Web, Web resources
