The KIM Technology Watch Report: http://metadaten-twr.org

home  |  filed under: Metadata format

Das PREMIS-Metadatenmodell für digitale Langzeitarchivierung: Stand der Entwicklung

Autor: Karsten Huth, Sächsisches Staatsarchiv (Stand März 2011)

Abstract:
Seit der Veröffentlichung 2005 ist PREMIS einer der wichtigsten Standards zur Langzeitarchivierung. Der Artikel beschreibt die wichtigsten Veränderungen bei den bisher erfolgten Revisionen.

Bisherige Entwicklungen

Das erste PREMIS Data Dictionary[1] wurde im Mai 2005 veröffentlicht. Ziel der PREMIS Arbeitsgruppe war die Definition eines Kernsatzes von Metadaten zur digitalen Langzeitarchivierung (LZA-Metadaten). Dieses Metadatenmodell sollte für alle Institutionen anwendbar sein, die im Bereich der digitalen Langzeitarchivierung tätig sind. Das PREMIS[2] Metadatenmodell erschließt folgende Informationen:

  • Informationen zu den Hardware- und Software-Umgebungen, in denen Digitale Objekte entstehen, verändert und verwendet werden.
  • Informationen zu den technischen Eigenschaften der digitalen Objekte (z. B. Dateigröße, Hashwerte, Dateiformat)
  • Informationen zu den Maßnahmen (z. B. Formatmigration, Virencheck), die an einem digitalen Objekt durchgeführt wurden.
  • Informationen über die Rechte (z. B. Urheberrechte) und die sich ergebenden Einschränkungen bei der Archivierung und der Nutzung eines digitalen Objekts.
  • Informationen zur Struktur bei Digitalen Objekten, die aus mehr als einer Datei bestehen.

Dabei ist stets zu berücksichtigen, dass die Erstellung von LZA-Metadaten immer durch automatisierte Prozesse erfolgen sollte. Deshalb wurde zusammen mit dem PREMIS Data Dictionary auch eine konkrete Umsetzung des Metadatenmodells in einem XML-Schema[3] zur Verfügung gestellt.

Drei Jahre später erschien eine Neuauflage des Data Dictionary Version 2.0 mit den entsprechenden Ergänzungen zum XML-Schema. In diesen drei Jahren entwickelte sich PREMIS zu einem der am meisten zitierten und beachteten Standards im Bereich der digitalen Langzeitarchivierung. Auch in Deutschland hat PREMIS die Arbeit in Gremien und Institutionen beeinflusst[4]. So hatte z.B. das PREMIS Metadatenmodell großen Einfluss auf die Terminologie der kommenden DIN-Normen 31644[5] und 31645[6]. Obwohl in Deutschland noch nicht viele Institutionen mit dem PREMIS-Standard arbeiten, hat PREMIS der Fachgemeinde dennoch geholfen, sich auf gemeinsame Begriffe zu einigen. Somit ist PREMIS etwas gelungen, was vorher nur dem Referenzmodel des Open Archival Information System (OAIS) zugeschrieben werden konnte, nämlich unterschiedlichen Gruppen (Archiven, Bibliotheken, Museen, Computerwissenschaften und der IT-Industrie) mit einem Interesse an der digitalen Langzeitarchivierung die Grundlage für eine gemeinsame Fachsprache zu geben.

Hinter dem Standard PREMIS steht das Editorial Committee, welches die kontinuierliche Weiterentwicklung des Standards weltweit koordiniert. 

Ist-Stand und zukünftige Entwicklungen 

Konformität

Die zunehmende Verbreitung von PREMIS führt zu einem erhöhten Bedarf nach Regelungen bei der Implementierung des Metadatenmodells innerhalb eines digitalen Langzeitarchivs. Dies betrifft vor allem digitale Langzeitarchive, die

  • PREMIS-Daten mit anderen Institutionen teilen,
  • auf öffentliche Registraturen (z.B. PRONOM[7]) zugreifen,
  • Tools für PREMIS entwickeln oder nutzen, oder
  • Software Entwicklern die nötigen Spezifikationen für eine Implementierung liefern wollen.

Im Oktober 2010 gab das Editorial Committee ein Papier[8] heraus, das Leitlinien für eine standardkonforme Verwendung des PREMIS Metadatenmodells definiert. Dabei war eine wesentliche Prämisse, die technische Neutralität des Standards zu erhalten. Das Papier macht in seinem ersten Teil Angaben darüber, welche Grundanforderungen bei der Verwendung von semantischen Einheiten oder der Verwendung des gesamten Data Dictionary erfüllt werden müssen, um standardkonform zu sein. In einem zweiten Teil werden Freiheitsgrade definiert, die den Anwendern bei Erfüllung der Grundanforderungen zur freien Verfügung stehen. Somit beantwortet das Papier zwei wesentliche Fragen.

  • Welche Regeln muss ein digitales Langzeitarchiv einhalten, um die Standardkonformität zu erreichen?
  • Was darf ein digitales Langzeitarchiv tun, ohne die Standardkonformität zu verlieren? 

Neue Version

Das PREMIS Editorial Committee hat im Januar 2011 die neue Version 2.1 des Data Dictionary und des XML-Schemas veröffentlicht. Ein Entwurf des neuen XML-Schemas war vorher für die Fachgemeinde zur Kommentierung innerhalb der PREMIS Implementors Group[9] freigegeben worden.

Die hauptsächliche Änderung gegenüber der Version 2.0 ist die Möglichkeit zur An-bzw. Einbindung von Metadaten aus anderen Standards in ein PREMIS XML-Dokument. Die Entities Objekt, Event, Agent, und Rights enthalten nun alle eine zusätzliche Semantic Unit mit dem Namen Metadata Section (mdSec), welche die bereits in Version 2.0 vorhandene Semantic Unit mit dem Namen Extension ergänzt. Beide Arten von Semantic Units haben den Zweck, bei Bedarf zusätzliche spezielle Informationen, die nicht in PREMIS vorgesehen sind, beizufügen. Z.B. könnte ein Bildarchiv es für nötig befinden, in den Metadaten möglichst detaillierte Informationen über ihre Fotografien zu verzeichnen, da das Bildarchiv die Qualität der Fotos unbedingt erhalten muss. Da PREMIS als Kernsatz für alle möglichen digitalen Objekte konzipiert wurde, enthält es keine spezifischen Semantic Units, um die Objektcharakteristika von Bildern (z.B. für die Bildauflösung oder das Farbprofil) ausführlich zu beschreiben. Mit dem Entwurf zur Version 2.1 kann das Bildarchiv nun zusätzliche Metadaten aus einem speziell dafür entwickelten Standard, wie z.B. dem Standard NISO MIX in ein PREMIS XML-Dokument integrieren. PREMIS verwendet dafür exakt das gleiche Prinzip wie METS. Man kann entweder aus einem PREMIS XML-Dokument heraus durch die Unit mdRef auf einen externen Metadatensatz verweisen, oder den Metadatensatz in die Unit mdWrap direkt hineinschreiben. 

Weitere Planungen

Über die aktuelle Fertigstellung der Version 2.1 hinaus werden weitere mögliche Veränderungen innerhalb des PREMIS Editorial Committee und der PREMIS Implementors Group diskutiert. Ein wichtiges Thema ist dabei der Umgang mit den Intellectual Entities innerhalb des Data Dictionary. Bislang wurden Metadaten, die Objekte formal und inhaltlich beschreiben (z.B. Titelaufnahmen, Findmittel etc.) nicht in PREMIS verzeichnet, sondern über einen festen Identifier (linkingIntellectualEntityIdentifier)verknüpft. Nun wird überlegt, ob die Intellectual Entity nicht auch ein Subtyp der Entity Object werden soll. Damit wäre die Beschreibung einer neuen Ebene in PREMIS möglich.

Eine andere fortlaufende Diskussion ist das Thema PREMIS-Metadaten innerhalb eines METS-Containers und die damit einhergehende Frage nach festen Profilen. Zu diesem Thema wurde im Mai 2010 eine Checkliste[10] veröffentlicht, die Beispiele und Erklärungen zu den häufigsten Problemen liefert, die dann auftreten, wenn ein Archiv PREMIS Metadaten innerhalb von METS-Containern verwenden möchte.

Die Verwendung von kontrollierten Vokabularien für bestimmte Semantic Units ist ein weiterer wesentlicher Punkt auf der Agenda des PREMIS Editorial Committee. Nach Möglichkeit sollten feste Terminologien an festgelegten Orten im Netz verfügbar sein. Eine erste Liste mit Beispielen für Preservation Events[11] ist von der Library of Congress veröffentlicht worden. 

Zusammenfassung

Durch die zunehmende Verbreitung von PREMIS in digitalen Langzeitarchiven und dem damit einhergehenden Zuwachs an Erfahrung bei der technischen Umsetzung des PREMIS-Metadatenmodells in der Praxis, erhöhen sich selbstverständlich auch die Anforderungen an den Standard. Das erste PREMIS Data Dictionary wurde am Reißbrett entworfen und in der Praxis einem harten Test unterworfen. Die Erfahrungen dieser Praxistests werden sich in den neuen Versionen niederschlagen. Die wachsende Nutzergruppe, die stetig an der Verbesserung mitarbeitet, ist die große Stärke von PREMIS.

 


[1] PREMIS Data Dictionary Version 2.1– Januar 2011 <http://www.loc.gov/standards/premis/v2/premis-dd-2-1.pdf>

[2] Unter dem Titel „PREMIS verstehen“ existiert eine ausführliche deutschsprachige Einführung in PREMIS <http://www.loc.gov/standards/premis/understanding_premis_german.pdf>

[3] PREMIS Preservation Metadata Schema Version 2.1 – Januar 2011 <http://www.loc.gov/standards/premis/premis.xsd>

[4] Vgl. Keitel, Christian: Das Repräsentationenmodell des Landesarchivs Baden-Württemberg In: Sonderveröffentlichungen der Staatlichen Archive Bayerns Nr. 7 / Neue Entwicklungen und Erfahrungen im Bereich der digitalen Archivierung: von der Behördenberatung zum Digitalen Archiv – München / 2010; Generaldirektion der Staatlichen Archive Bayerns

[5] DIN 31644 Information und Dokumentation – Kriterien für vertrauenswürdige Langzeitarchive <http://www.nabd.din.de/cmd?level=tpl-proj-detailansicht&committeeid=54738855&projid=117956308&bcrumblevel=3&languageid=de>

[6] DIN 31645 Information und Dokumentation – Leitfaden zur Informationsübernahme in digitale Langzeitarchive

[7] The technical registry PRONOM <http://www.nationalarchives.gov.uk/PRONOM/>

[8] Conformant Implementation of the PREMIS Data Dictionary / PREMIS Editorial Committee October 2010 <http://www.loc.gov/standards/premis/premis-conformance-oct2010.pdf>

[9] PREMIS Implementors Group <http://listserv.loc.gov/listarch/pig.html>

[10] Vermaaten, Sally: A Checklist for Documenting PREMIS-METS Decisions in a METS Profile – Mai 2010, OCLC <http://www.loc.gov/standards/premis/premis_mets_checklist.pdf>

[11] Liste unter: http://id.loc.gov/vocabulary/preservationEvents.html


More information about the author: tobiassteinke


Tags: , ,

Leave a Reply

*