Dateien organisieren
Regeln für die Organisation digitaler Forschungsdaten festzulegen, ist für die eigene Arbeit und die Arbeit im Team hilfreich. Die Organisation von Dateien umfasst eine nachvollziehbare und konsistente Ordnerstruktur, Versionierung und Dateibenennung.
Hier gelangen Sie zu den einzelnen Inhalten:
Warum Dateien organisieren? – ArbeitseffizienzOrdnerstrukturVersionierungDateibenennungWeiterführende Informationen und Quellen
Warum Dateien organisieren? – Arbeitseffizienz
Fragen Sie sich auch manchmal, welches die finale Version war? Haben Sie schon mal eine Datei versehentlich gelöscht oder verschoben? Die eigenen Dateien systematisch zu organisieren hilft dabei, Forschungsarbeit effizient zu gestalten: für sich selbst, für die Arbeit im Team und nach Projektende, wenn es darum geht, Daten langfristig zu sichern und zu teilen.
Durch systematische Dateiorganisation können Sie Dateien schneller finden und behalten den Überblick. Zudem reduziert sich das Risiko, dass Dateien versehentlich gelöscht oder überschrieben werden.
Im Stamp, dem „Standardisierten Datenmanagementplan für die Bildungsforschung“ ist folgender Standard definiert:
„Daten und Begleitmaterialen werden im Projektverlauf und soweit nötig darüber hinaus systematisch gespeichert, in einem zugriffsgeschützten Back-Up-System gesichert und ihre Nutzbarkeit gewährleistet.“
Ordnerstruktur
Die aufzubauende Ordnerstruktur ist abhängig von den spezifischen Rahmenbedingungen eines Projekts. Diese geben eventuell einen bestimmten Ablageort oder eine bestimmte Sortierung vor. Von Bedeutung sind die Art und Anzahl unterschiedlicher Datentypen, das erwartete Dateivolumen, die datenschutzrechtliche und ethische Sensibilität der Daten sowie Urheberrechte und Lizenzen.
Richtlinien
- Die Ordnerstruktur ist idealerweise hierarchisch gegliedert, umfasst maximal drei Ebenen und baut inhaltlich klar und konsistent aufeinander auf.
- Es empfiehlt sich, eine Readme-Datei anzulegen, in der alle Regeln zur Ordnerstruktur aufgeführt sind.
- In größeren Projektteams sollten zudem Verantwortlichkeiten festgelegt werden, das heißt, welche Personen neue Ordner erstellen und den Zugriff regeln.
Mögliche Kategorien für die Ordnerstruktur
Folgende Kategorien kommen in Betracht, um die Ordner zu sortieren:
- Teilprojekte, Arbeitspakete oder Funktionseinheiten innerhalb eines Projekts
- Personen
- Datum oder Zeitraum, wie Monate oder Quartale
- Inhalte der Ordner oder Ordnertypen, wie Forschungsdaten oder Datentypen, Publikationen und Berichte, Datenanalysen, Konferenzen, Literatur, Projektkoordination
- Art der Dateien, Formate
Beispiel
Ein Beispiel für Ordner im Rahmen eines Ordnersystems findet sich bei Long (2009).
- to clean: Ein Ordner für Dateien, die man noch „aufräumen“ – das heißt an den richtigen Ablageort verschieben muss.
- hold then delete: Ein Ordner für Dateien, die nicht mehr gebraucht werden, die man aber noch nicht löschen möchte, weil: „Vielleicht kann ich sie irgendwann einmal wieder gebrauchen… .“
- posted: Ein Ordner für Dateien, die an Dritte herausgegangen sind. Manchmal werden Versionen von Dateien verschickt, die noch in Bearbeitung sind. Es kann für die spätere Nachvollziehbarkeit wichtig sein, genau diese Version der Datei aufzubewahren.
- mailbox: Ein Ordner für wichtige E-Mails, die aufbewahrt werden sollen. Das eigene E-Mail-Postfach ist schnell überfüllt und unübersichtlich, daher kann die Einrichtung eines solchen Ordners hilfreich sein.
Versionierung
Um verschiedene Stadien der Bearbeitung von Dateien nachvollziehen und unterscheiden zu können, empfiehlt sich eine konsequente Versionierung. Versionierungen können im Dateinamen, in der Datei selbst oder in einem gesonderten Dokument vorgenommen werden.
Richtlinien
- Jede Änderung sollte vermerkt werden.
- Veraltete Versionen sind getrennt zu speichern, zu verwerfen oder zu löschen.
- Die originale Kopie sollte stets erhalten bleiben.
- Die Regeln der Versionierung sind so zu beschreiben, dass sie für andere nachvollziehbar sind.
Möglichkeiten der Versionierung
Informationen zur Version können im Dateinamen enthalten sein oder – ausführlicher – innerhalb des Dokuments, beispielsweise in Tabellenform.
Im Dateinamen kann zwischen größeren und kleineren Änderungen unterschieden werden:
- größere Änderungen: Dateiname_v1.0 wird zu Dateiname_v2.0
- kleinere Änderungen: Dateiname_v1.1 wird zu Dateiname_v1.2
Nicht zu empfehlen sind Dateibenennungen wie „Beispieldatei_Original1“, „Beispieldatei_Bearbeitung“, „Beispieldatei_Bearbeitung2“, „Beispieldatei_final“, „Beispieldatei_final2“.
Tipp: Eine Auto-Back-up-Software kann das Speichern oder Archivieren mehrerer Versionen ersetzen, eine Kontrollsoftware kann die Versionierung überprüfen. Oder Sie nutzen Software mit automatischer Bearbeitungshistorie.
Versionierung kann auch in der Datei selbst oder in einem gesonderten Dokument festgehalten werden.
Beispiel
So könnte die Versionierung in Tabellenform innerhalb der Datei selbst oder einer gesonderten Datei aussehen:
Parameter | |
---|---|
Version | 2.0 |
Datum der letzten Änderung | 19.06.2022 |
Geändert durch | Max Mustermann |
öffentlich / vertraulich | Öffentlich |
Version | Änderungen |
---|---|
1.0 (01.03.2023) | Freigabe |
1.1 (01.07.2023) | Verbesserung Rechtschreibfehler |
1.2 (07.12.2023) | Änderung im Layout |
2.0 (19.06.2024) | Neues Kapitel (3.1.) hinzugefügt |
Dateibenennung
Die Art und Weise der Benennung von Dateien ist ein wichtiger Baustein der Dateiorganisation. Eine klare Dateibenennunghilft dabei, Dateien innerhalb eines Ordners eindeutig unterscheiden zu können und verhindert Probleme, insbesondere wenn mehrere Personen gemeinsam an Dateien arbeiten. Dateinamen dienen der Übersichtlichkeit, wenn Dateien logisch sortiert angezeigt werden.
Tipp: Es gibt Software, die eine automatische Umbenennung von Dateien ermöglicht.
Richtlinien
- Möglichst kurze Benennungen: Die Namen so kurz wie möglich und so lang wie nötig wählen. Ein grober Richtwert für die maximale Länge eines Dateinamens sind 30 Zeichen. Lange Namen und zu viele Ebenen vermeiden, damit nicht die zulässige Pfadlänge von Windows (255 Zeichen) überschritten wird.
- Einheitliche und konsistente Benennung: Im Dateinamen immer dieselben Elemente in einer festgelegten Reihenfolge nutzen. Beispiel: Datum, Inhalt, Namenskürzel, Version, YYYYMMDD_stichprobeX_ag _v1
- Maschinenlesbare Benennung: Leerzeichen, Sonderzeichen ($, @, %, #, &, *, ., (), !, /, ?) sowie Umlaute gilt es zu vermeiden. Für Ordner- und Dateinamen am besten die Buchstaben a bis z, die Zahlen 0 bis 9 und Unterstriche verwenden. Großbuchstaben und Bindestriche können verwendet werden, wenn die verwendete Software diese unterscheiden kann.
- Sinnvolle Sortierung erzeugen: Die Dateinamen so wählen, dass sie automatisch eine sinnvolle Sortierung der Dateien in Ordner erzeugen. Merkmale, nach denen sortiert werden soll, daher vorne im Dateinamen platzieren. Beispiel: Sortierung nach Datum, YYYYMMDD
- Einen den Inhalt beschreibenden Namen wählen: Je besser der gewählte Name die Datei- oder Ordnerinhalte abbildet, umso leichter wird er von den Nutzenden verstanden. Zu empfehlen sind eindeutige Namen anstelle von generischen Namen wie „Daten“ und „Text“, um Verwechslungen zu vermeiden.
- Eine Readme-Datei zur Dokumentation der Regeln anlegen: Allen Beteiligten Zugang zu den Regelungen ermöglichen, um sie konsistent anwenden zu können.
Mögliche Bestandteile von Dateinamen
Folgende Informationen können Bestandteile von Dateinamen sein:
- Inhaltsstichwort oder Kurztitel, Beispiel: 2010-08-11_bioassay_toxicity_V1.sps
- Name oder eindeutiges Kürzel der entsprechenden Bearbeiter*innen /Ersteller*innen/Verantwortlichen
- Name des Forschungsteams/der Abteilung
- Datum der Erstellung/Änderung Publikation im Format Jahr-Monat-Tag: JJJJ-MM-TT oder JJJJ-MM oder JJJJ-JJJJ oder JJMMTT, Beispiel: 2006-03-24_Dateibeschreibung
- Bearbeitungsstadium, wie Original, Entwurf, korrigiert, Ausschnitt, gefiltert
- Versionsnummer
- Projektnummer
Beispiele für Dateibenennungen
Allgemeiner Syntax für die Benennung von Forschungsdaten und Begleitmaterialien: [ID oder Studiennummer]_[Kürzel für Daten- bzw. Materialtyp]_[laufende Nummer]_[ggf. Version]_[ggf. Seriennummer]
- ID oder Studiennummer: zur Zuordnung zur Studie
- Kürzel für Daten- bzw. Materialtyp: Interview, Video, Fragebogen etc.
- laufende Nummer von Datentypen: 001 ff.
- Versionsnummer: falls Änderungen durchgeführt werden und dokumentiert werden sollen, etwa durch Anonymisierung
- Seriennummer: verschiedene Dateien je Datentyp, etwa beimehreren Dateien pro Video a, b, c ff.
Syntax für Dateinamen von Qualitativen Interviews "int": [ID oder Studiennummer]_[Kürzel für Interview]_[laufende Nummer]_[Version]
- RTF-Transkript: s01_int01_v01.rtf
- MP3-Audiodatei: s01_int01_v01.mp3
- WAV-Audiodatei: s01_int01_v01.wav
Syntax bei mehreren Audiodateien je Interview: [ID oder Studiennummer]_[Kürzel für Interview]_[laufende Nummer]_[Version]_[Kennzeichner für Serie]
- Interview 1. Teil, Audiodatei 1: S01_int01_v01_a
- Interview 2. Teil, Audiodatei 2: S01_int01_v01_b
- Interview 3. Teil, Audiodatei 3: S01_int01_v01_c
Syntax für die Benennung von Fokusgruppen "fg": [ID oder Studiennummer]_[Kürzel für Fokusgruppe]_[laufende Nummer]_[Version]
- RTF-Transkript: s01_fg01_v001.rtf
Syntax für die Benennung von Bild- und Videodateien "pic", "vid": [ID oder Studiennummer]_[Kürzel für Bild oder Video]_[laufende Nummer]_[Version]
- erste Bilddatei aus Studie s01: s01_pic001_v01
- erste Videodatei aus Studie s01: s01_vid001_v01
Syntax für die Benennung von Dateien, die miteinander verknüpft sind, etwa ein Interview und ein Bild derselben Person: [ID oder Studiennummer]_ Kürzel für Interview]_[laufende Nummer]_[Version]_[Dateiendung]
- erstes geführtes Interview in Studie s01: s01_int001_v01.mp3
- dazugehöriges Transkript: s01_int001_v01.rtf
- dazugehörige Bilddatei: s01_int001_v01.tiff
Syntax für die Benennung von Beobachtungen "obs", Feldnotizen "notes", am Beispielvon schriftlichen Aufzeichnungen während einer Gedichtinterpretation im Unterricht: [ID oder Studiennummer]_[Art des Unterrichtsmaterials]_[laufende Nummer]
- Gedicht: s01_gedicht01
- Notizen/Transkript der Beobachtungen: s01_obs01
- Feldnotizen: s01_notes01
Syntax für die Benennung von Quantitativen Daten "ds", "syn", "op", am Beispiel mehrerer Dateien eines quantitativen Datensatzes: [ID oder Studiennummer]_[Kennzeichner für Datensatz/Syntax/Output]_[Version]
- Datensatz: s5600_ds01_v01
- Syntax: s5600_syn01_v01
- Output: s5600_op01
Syntax für die Benennung von Begleitmaterialien: [ID oder Studiennummer]_[Dateityp]_[Version]
- Methodenbericht: s01_mb_v01
- Fragebogen: s01_fb_v01
- Codeplan: s01_cp_v01
Weiterführende Informationen und Quellen
Forschungsdatenmanagement in kleinen Forschungsprojekten | 2023
Eine Handreichung für die Praxis des RatSWD mit Informationen zur Dateiorganisation im Kapitel 3.2.3.
The Workflow of Data Analysis Using Stata | 2009
J. S. Long schlägt eine Strategie für die Planung und Durchführung von Datenanalysen in Projekten vor.
Zur Versionierung von Daten hat die Data Documentation Initiative (DDI Alliance) einen Standard formuliert.
Eine Einheit von „MANTRA – Research Data Management Training“ der University of Edinburgh.