The KIM Technology Watch Report: http://metadaten-twr.org

home  |  filed under: Initiative, Metadata format

Data Documentation Initiative (DDI): Entwicklung eines Metadatenstandards für Forschungsdaten in den Sozialwissenschaften

Autoren: Stefan Kramer, Yale University Library, stefan.kramer@yale.edu; Anne Oechtering, Staatsbibliothek zu Berlin, anne.oechtering@sbb.spk-berlin.de; Joachim Wackerow, GESIS (Leibniz-Institut für Sozialwissenschaften), joachim.wackerow@gesis.org

Abstract:
Numeric datasets generated in the course of research projects in the social sciences pose distinct problems for their efficient and effective description, indexing, locating, reusing, and archiving. The development of the Data Documentation Initiative (DDI) seeks to address these problems. With the release of DDI version 3 as a metadata schema for social science data, the DDI Alliance as the organization behind these efforts now focuses on the development of tools and the promotion of the DDI in appropriate communities of practice.

Forscher und Studierende in den Sozial- und Wirtschaftswissenschaften sind oft auf der Suche nach bereits existierenden Datensätzen, um diese zu neuen Zwecken dann statistisch weiter oder anders zu analysieren, als dies für bereits publizierte Studien schon geschehen ist. Bei diesen Datensätzen kann es sich um Ergebnisse von Meinungsumfragen, Ausgänge von politischen Wahlen, Handelsvolumen und Investitionen zwischen Staaten oder auch um Ergebnisse von Volkszählungen handeln. Die Weiterverarbeitung der Daten kann unter anderem durch Kombination unterschiedlicher bereits verfügbarer oder selbst gesammelter Daten geschehen. In Deutschland werden solche Datensätze unter anderem von der GESIS (Leibniz-Institut für Sozialwissenschaften)1 angeboten.

Heutzutage wird immer häufiger nach online verfügbaren Daten gesucht, was jedoch oftmals die folgenden Probleme nach sich zieht:

1. Numerische Daten können nicht so (leicht) wie Textdokumente indexiert und dann nach Schlagwörtern durchsucht werden, weil sie entweder als Zahlentabellen ohne erklärenden Text gespeichert sind, oder weil sie in Dateiformaten vorliegen, die nur mit entsprechenden Softwareprogrammen, wie z.B. SPSS, geöffnet und bearbeitet werden können. Das Indexieren und Durchsuchen kann bestenfalls für die dazugehörige Dokumentation geschehen; Voraussetzung für ein nützliches Endresultat ist jedoch, dass sowohl eine komplette Auflistung aller Felder und Kodierungen als auch die Beschreibung des Datensammlungsprojekts in der Dokumentation enthalten sind. Datensatzdokumentationen sind allerdings normalerweise für das Lesen durch den Benutzer ausgelegt und nicht zur maschinellen Verarbeitung gedacht.

2.Forschende in den Sozial- und Wirtschaftswissenschaften suchen oft nach Datensätzen, die ganz bestimmten Kriterien entsprechen. Ein Beispiel wäre die Auflistung der Ergebnisse aller amerikanischen Präsidentschaftswahlen von 1980 bis 2004, aufgegliedert nach Landkreis, oder Umfragen zum Demokratieverständnis in verschiedenen osteuropäischen Ländern kurz nach 1990. Solche Kriterien lassen sich oft nicht effizient in unstrukturierte Abfragen von Suchmaschinen umsetzen.

3. Für die Ersteller von Datensätzen ist deren Beschreibung vorrangig für den eigenen Gebrauch von Bedeutung; oft reicht die Beschreibung gerade dazu, die Ergebnisse des Forschungsprojekts zur Publikation zu bringen. Eine Planung für die langfristige Auffindbarkeit oder Erhaltung dieser Datensätze findet oft nicht statt. Hinzu kommt, dass dem Ersteller der Datensätze meist auch einfach anwendbare Instrumente fehlen, die das Auffinden, Durchsuchen und Bewerten dieser Datensätze im Internet durch zukünftige interessierte Benutzer zu Forschungszwecken ermöglichen würden.

Vor rund zehn Jahren begann die Entwicklung der Data Documentation Initiative (DDI) und führte zu diesen Zielsetzungen: Empfehlungen zu entwickeln für die Beschreibung, Verwaltung und Archivierung von sozialwissenschaftlichen Datensätzen; die Voraussetzung zu schaffen für die Erstellung und Interoperabilität ihrer Metadaten; und die effiziente Aufnahme in, und Auffindbarkeit von Datensätzen durch, elektronische Kataloge und Suchmaschinen zu ermöglichen. Diese Entwicklung wird nun durch die DDI Alliance2 vorangetrieben, die inzwischen über dreißig Mitgliedsorganisationen hat 3 — von Produzenten und Archiven von sozial- und wirtschaftswissenschaftlichen Daten, wie dem National Opinion Research Center in Chicago, dem staatlichen dänischen Datenarchiv, oder der World Bank Development Data Group, über Forschungsinstitutionen wie GESIS (Leibniz-Institut für Sozialwissenschaften), bis hin zu Hochschulen wie die University of Alberta, die Emory University oder die University of Surrey.

Die DDI-Spezifikation basiert jetzt auf XML Schemas, nachdem frühere Versionen als Document Type Definitions (DTDs) publiziert wurden. Mit der Veröffentlichung von DDI Version 3.0 im Frühling 20084 soll die Spezifikation nun für alle Phasen, die sozialwissenschaftliche Daten typischerweise durchlaufen, einsetzbar sein – von der Entwicklung beispielsweise eines Fragebogens, über die Datensammlung und –analyse, bis hin zur Einstellung der erhobenen Daten in Datenkataloge5, und letztendlich bis zur Langzeitarchivierung.

Abbildung 1: Data lifecycle (by DDI Alliance Structural Reform Group; adapted by Cole Whiteman, ICPSR)

DDI-Module entsprechen verschiedenen Stadien des Datenlebenszyklus. Die darin enthaltenen Metadaten werden in späteren Stadien wiederbenutzt. Darüberhinaus existieren Module, die die Vergleichbarkeit über Kollektionen von Studien und die Wiederbenutzbarkeit von studienunabhängigen Informationen (wie demographische Standardvariablen) unterstützen. Durch die Definition eines Profils kann ein spezifisches Subset von DDI-Elementen für eine Institution definiert werden. Die Module sind als XML Schema mit eigenem Namespace realisiert. Für jeden Bereich gibt es deskriptive Elemente (”human-readable”) und Elemente mit fest definiertem Datentyp für die Verarbeitung durch Programme (”machine-actionable”).

DDI ist abgestimmt mit anderen Metadatenstandards, wie SDMX (Zeitreihen) für den Austausch von aggregierten Daten, mit ISO/IEC 11179 (Metadaten Registry) zur Erzeugung von Fragen-, Variablen- und Konzeptdatenbanken, und mit FGDC und ISO 19115 (geographische Standards) um GIS Nutzer zu unterstützen. Außerdem sind Dublin Core und ein Subset von XHTML als eigene Module in DDI integriert.

Die Benutzung von strukturierten URNs ermöglicht ein abgestimmtes System von identifizierbaren, versionierbaren und durch eine Institution verwaltete DDI-Elemente. Dadurch wird die Wiederbenutzbarkeit von Metadaten innerhalb einer DDI Instanz, innerhalb einer Institution sowie zwischen Institutionen unterstützt.

Die DDI Alliance konzentriert sich jetzt auf die Entwicklung von Tools6 und Best Practices, welche die Anwendung der DDI-Spezifikation durch verschiedene Benutzergruppen erleichtern sollen, sowie auf die Bekanntmachung der DDI-Entwicklungen in den Communities der digitalen Informationsversorgung und der Sozial- und Wirtschaftswissenschaften. Ein langfristiges Ziel der DDI Alliance ist es, die DDI zu einem offiziellen Standard weiterzuentwickeln. An Mitgliedschaft interessierte Organisationen können sich auf der Join the DDI Alliance-Webseite7 informieren.

Die Jahrestagung der International Association for Social Science Information Service and Technology (IASSIST) bietet normalerweise mehrere Vorträge und Workshops zum Thema DDI an8.
Im Herbst 2009 wird zum dritten Mal ein Intensivtraining zu DDI 3 als GESIS-Workshop in Schloss Dagstuhl, Leibniz-Zentrum für Informatik, durchgeführt9. Im Anschluss findet ebenfalls in Dagstuhl ein Experten-Workshop statt zum Thema Implementation of DDI3 – Advanced Topics10.

Das erste “European DDI User Meeting” wird am 4. Dezember von IZA in Bonn in Kooperation mit GESIS veranstaltet11.

References

  1. http://www.gesis.org/dienstleistungen/daten/
  2. http://www.ddialliance.org/
  3. http://www.ddialliance.org/org/structure.html
  4. http://www.ddialliance.org/ddi3/
  5. z.B.: http://www.icpsr.umich.edu/ICPSR/access/subject.html
  6. http://tools.ddialliance.org/
  7. http://www.ddialliance.org/DDI/org/join.html
  8. http://www.iassistdata.org/
  9. http://www.dagstuhl.de/09442
  10. http://www.dagstuhl.de/09452
  11. http://www.iza.org/eddi09

More information about the author: Stefan Kramer


Tags: ,

Leave a Reply