Daten-Import
Inhaltsverzeichnis
Vorbereitung der zu importierenden Datei
Wichtige Aspekte bei der Vorbereitung der zu importierenden Datei:
Import mehrerer Kartierer
Waren mehrere Kartierer an einer Aufnahme oder einem Begang beteiligt, können die Kartierer mit Trennzeichen („;“ Semikolon oder „,“ Komma) getrennt innerhalb einer Spalte importiert werden. Zudem erkennt der Parser folgende Beispiele korrekt:
Thomas & Claudia Schneider Thomas und Claudia Schneider Thomas Schneider, Claudia Schneider T. & C. Schneider T.Schneider; C.Schneider T.&C. Schneider T.&C.Schneider T.Schneider & C.Schneider T. und C. Schneider T. & Claudia Schneider, Rudolf May
Für den Trennvorgang ist es also unerheblich, ob der Name direkt ohne Freizeichen oder mit Freizeichen eingegeben wurde. Zudem werden die Begriffe „und“ und das Zeichen „&“ als Trennsymbol akzeptiert.
Import langer Kommentare
Während eine Zelle unter Microsoft Excel nur maximal 254 Zeichen umfassen kann und der Import von Memo-Feldern aus Access oder dBase heraus nicht akzeptiert wird, ist das CSV-Format ein universales Import-Format. Voraussetzung ist, dass das CSV-Format seiner Spezifikation nach korrekt geschrieben ist:
- , - Kommata als Trennsymbol zwischen den Datenfeldern
- " - doppelte Anführungszeichen als Texterkennungszeichen
- „CRLF“ als Trennzeichen der Datensätze
Alle Datenfelder, auch leere und solche, die numerische Informationen oder Daten enthalten, müssen in Anführungszeichen eingeschlossen sein:
- "3.6.2010","Thomas Schneider","Poa annua",""
- "3.6.2010","Thomas Schneider","Poa humilis","nur wenige Exemplare am Straßenrand"
Mit dem CSV-Format lassen sich auch lange Kommentare (Z.B. Anmerkungen zum Sippennachweis oder zur Aufnahme) ebenso wie Zeilenumbrüche innerhalb eines Kommentars importieren. Die maximale Länge einer Zeichenfolge konnte ich bisher nicht herausfinden. Sie wird jedoch von der Tabellendefinition der temporären Importdatei bestimmt. Ich vermute 4000 oder 8000 Zeichen.
Import von Datumsangaben und Zeiträumen
Die in der nachfolgenden Tabelle unter Datum - Zeichenfolge angegebenen Datums- und Zeitraumwerte können vom Import Wizard richtig interpretiert und importiert werden.
Datum - Zeichenfolgen: | Anmerkungen: |
23.03.1987 | Führende "0" kann entfallen (gilt für alle Tages- und Monatszahlen).
Auch Monatsnamen (April) werden richtig interpretiert |
23.03.1987 – 30.03.1987 | Freizeichen vor und hinter dem "-" können entfallen |
03.1987 | |
03.1987 – 05.1987 | Ungleich angegebene Zeiträume sind nicht möglich (12.03.1987 – 05.1987)! |
Sommer 1987 | Jahreszeit und Jahr. Mögliche Einträge:
Frühling, Sommer, Herbst, Winter |
1987 | Jahr |
1981-1983 | Jahrhundertangabe kann für 19xx und 20xx entfallen, wird nach der Einstellung der Jahreszahl für die Jahrhunderttrennung (Extras-Optionen) interpretiert. Besser ist jedoch die vollständige Jahreszahl |
1980- | offener Zeitraum mit Jahreszahl von |
-1797 | offener Zeitraum mit Jahreszahl bis |
Juli | nur Monat |
Sommer | nur Jahreszeit |
Unbekannt | Keine Angabe verfügbar/vorhanden |
18c | Jahrhundert |
18c-19c | Jahrhundert-Zeitraum |
18c- | Nach Beginn Jahrhundert |
-18c | Vor Ende Jahrhundert |
Erfahrungsberichte
Erfahrungsbericht Import Libellendaten Saarland
Wie bereits bei verschiedener Gelegenheit (v.a. bei der Anwendertagung 2010 in Stuttgart bzw. teils auch bei den Einsteiger-Schulungen) erwähnt, wurden mehrfach erfolgreiche Importversuche mit verschiedenen Datenpools aus der Libellenkartierung Saarland durchgeführt.
Meine Erfahrungen aus diesen Importversuchen möchte ich hier allen Recorder-Anwendern kompakt und zusammenfassend zur Verfügung stellen:
1. Vorbemerkungen
Der Import-Wizard von Recorder ist ein sehr mächtiges Werkzeug, das immer weiter verbessert wird. Im Folgenden wird der Import von Excel-Tabellenblättern beschrieben; zahlreiche andere Import-Formate stehen ebenfalls zur Verfügung. Vor dem Import muss die Referenzliste der entsprechenden Artengruppe im Programm implementiert sein, sonst kann die Artzuordnung im Importvorgang nicht vorgenommen werden!
Auch die Verfügbarkeit einer Karte im Raumreferenzsystem der zu importierenden Daten ist hilfreich, nicht zuletzt, um den erfolgreichen Import zu kontrollieren.
Sollte die Information zum Raumbezugssystem nicht in einer eigenen Spalte mit importiert werden, muss das Raumbezugssystem, in dem die Raumreferenzen der Importdaten vorliegen, voreingestellt werden. (Extras → Optionen → Raumbezugssysteme) = bevorzugtes Raumbezugssystem, bei uns im äußersten Südwesten in der Regel GKr2, in RLP auch GKr3!)
- 2. Importdatei gründlich vorbereiten
Je besser die Importdatei vorbereitet ist, desto besser, problemloser und zügiger funktioniert später der Import! Dies ist besonders wichtig bei großen Datenmengen.
- 2a) Teildateien importieren:
Bei großen Datenmengen (> 50.000 Beobachtungen) ist es in mehrfacher Hinsicht besser, mehrere etwas kleinere Dateien nacheinander in eigenen, getrennten Schritten zu importieren. Ein Excel-Datenblatt kann beispielsweise nicht mehr als 65536 Beobachtungen aufnehmen. Bei größeren Datenmengen erhöht sich die Importzeit drastisch. Dann sollte auf andere Importformate (CSV, Access) ausgewichen werden.
Bei Teilimporten sollten die Beobachtungen vor dem Trennen in Teildateien nach Aufnahmen sortiert werden. Also Daten mit gleicher Raumreferenz, gleicher Örtlichkeit, gleichem Datum und identischem Kartierer sollten in der selben Teildatei vorliegen und damit zusammen importiert werden!. Damit wird verhindert, dass Aufnahmen doppelt angelegt werden.
Je nach späterer Verwendung kann es auch sinnvoll sein, Daten verschiedener Raumreferenzsysteme in verschiedene Teildateien zu trennen und in separaten Importschritten in verschiedene Teilprojekte zu importieren.
Der getrennte Import in Teilprojekte für Daten aus verschiedenen Raumreferenzsystemen ist aber nicht zwingend erforderlich, da Recorder selbst damit keine Probleme hat.
Bei großen Datenmengen kann dies aber sinnvoll sein, entweder, um die Daten dadurch leichter überprüfen und bei Bedarf ändern zu können oder auch im Hinblick auf eine gezielte, getrennte Weitergabe (Export oder Bericht).
Bei einer homogenen Teildatei sollte aber das entsprechende Raumreferenzsystem vor dem Import eingestellt sein. Bei Daten mit verschiedenen Raumreferenzsystemen in einer Import-Datei teilt man dies am besten durch eine entsprechende Angabe in einer eigenen zusätzlichen Spalte und der Zuordnung zum Feld Raumreferenzsystem im Import-Wizard mit!
- 2b) weitere zu beachtende Stichworte bei der Vorbereitung der zu importierenden Dateien:
- x- und y-Koordinaten des Raumbezugs (dito Längen- und Breitengrade) müssen, sofern getrennt vorliegend, in einem Datenfeld zusammengeführt werden, getrennt durch Semikolon und einen Leerbuchstaben, in Excel gibt es dazu die Funktion „verketten“ oder auch mit diesem Befehl/Funktion: Angenommen, der x-Wert liegt in der Zelle A1, der y-Wert in der Zelle B1: dann wird für den ersten Datensatz der Zeile 1 in Zelle C1 folgende Formel eingetragen: = A1 & "; " & B1
Zudem muss hier als Dezimaltrennzeichen (wenn die Daten mit Dezimalen vorliegen) das Komma gesetzt werden und die Nachkommastellen bei Gauß-Krüger Koordinaten auf den Zentimeter gekürzt werden. Die vollständige Formel, die auch Punkte als Dezimaltrennzeichen mit Kommata ersetzt, lautet:
=LINKS(WECHSELN(A1;".";",";1);10)&";"&LINKS(WECHSELN(B1;".";",";1);10)
Beispiel (in Zelle A4 ist die Formel, die den Inhalt der Zelle C2 berechnet nochmals als Text eingetragen):
- Namen der Finder: Bei mehreren Beobachtern zu einem Datensatz müssen diese voneinander getrennt werden, damit Recorder sie separat erkennt (auch ev. Kürzel) und den Namen in der Namenliste zuordnen kann: am besten ist es, ein Semikolon (z. B. Lieschen Müller; S. Meier; Trockur) jeweils hinter einem Beobachter einfügen, möglich sind auch das Komma, das Wort "und" oder das Zeichen "&",.
Nicht möglich sind Zeichen wie z. B. "+"; (siehe hier aber auch den Beitrag zur Programmversion 6.15.4)
Neue, noch nicht in der Namenliste geführte Mitarbeiter oder Kartierer, können sowohl während des Importvorganges (über das Namen- und Adressen-Fenster) interaktiv als auch ev. schon vorher angelegt werden.
- einige Sonderzeichen (wie Anführungszeichen) machen Probleme, am besten weglassen
- ein konkret benannter Fundortname ist in der Regel wertvoll: sofern nicht schon vorhanden und ohne Mühe nachzutragen oder am besten vor dem Import rückzufragen ist ein richtiger Ortsbezug, zum Beispiel der Name eines Dorfes, einer Stadt oder einer sonstigen unmissverständlichen Ortsangabe im Fundortnamen. Man denkt, dies sei eigentlich selbstverständlich, ist es offenbar aber nicht, wie ich selbst feststellen musste. Daher wird der Aspekt hier erwähnt, wenn es beispielsweise auf Genauigkeit beim Fundort-Mapping ankommt!
Der Import vieler Zusatzinformationen zu Begängen, Aufnahmen und Beobachtungen ist leicht möglich:
- eine genaue Uhrzeit (13:20) kann als eigenes Datenfeld importiert werden;
- an anderer Stelle war der Import der Startzeit und Endzeit einer Aufnahme gefragt. Will man diese Information nicht einfach nur als textliche Zusatzinformation aus einem Feld Bemerkungen (Zuordnung "Aufnahme Anmerkungen" oder "Sippennachweis Anmerkung") importieren, muss dazu zuerst aus den beiden erfassten Zeitpunkten die Dauer errechnet werden. Es ist nämlich nur möglich, ein einziges Feld mit der Uhrzeit zu importieren.
Das geht in einer xls-Datei alternativ mit folgenden Formeln (Der Startzeitpunkt steht in Spalte G, der Endzeitpunkt in Spalte H):
- Variante 1 - Minuten absolut (in der Bilddarstellung rot umrahmt: 250)
=(H3-G3)*1440
- Variante 2 - Stunden und Minuten in Zeitnotation (4:10):
=WENN(H4>=G4;TEXT(H4-G4;"hh:mm");TEXT(G4-H4;"hh:mm"))
Damit konnte die Information als Aufnahme Startzeit und Aufnahme Dauer importiert werden.
- die Dauer einer speziellen Artbeobachtung (nicht identisch mit Begang, also z.B. nur ein kleines Zeitfenster im Gesamtbegang mit konkreter Artbeobachtung) kann man besten wie zuvor erwähnt entweder im Feld "Bemerkungen" ergänzen oder man muss eine neue Aufnahme nur mit dieser Art, Zeit und Dauer anlegen (Importieren als neuer Datensatz mit eigener Startzeit und Dauer).
3. vorheriger Testimport kleiner Datenpools
Es wird unbedingt empfohlen, immer zuerst einen kleinen Teil als Testdatei mit etwa 15-20 Datensätzen zu importieren! Damit zeigen sich sehr schnell erste, grundsätzlich noch zu verbessernde oder zu ändernde Aspekte an der Struktur der Importdatei. Recorder ist „schlau“ und merkt sich schon vorgenommene Arbeitsschritte für nötige Wiederholungen, am Ende speichert man sich einen erfolgreichen Importvorgang als Vorlage für weitere Importe mit gleicher oder ähnlicher Struktur. Eventuell falsch importierte Daten können dann als kleiner Datenpool recht schnell wieder gelöscht werden, wenn ein erneuter Import nötig werden sollte! Ich habe selbst schon bis zu zehn Optimier-/Korrekturschritte an einer komplexen Testdatei (die dann an der „richtigen“ Datei ev. zu wiederholen sind) vorgenommen und den Importvorgang wieder aufgenommen, bis der Import reibungslos klappte.
4. Zum Import-Wizard-Fenster und der Zuordnung der Felder
Da der Import-Wizard zuvor ausführlich beschrieben werden soll, wird hier nur kurz zusammengefasst:
Im ersten zentralen Importfenster mussten wir zentrale Zuordnungen treffen:
- a) wie für alle Artengruppen geltend, müssen Spalten der zu importierenden Datei (in Excel steckt diese Information in der Regel in Zeile 1 und kann so ausgewählt werden) den Recorder-Ziel-Spalten zugeordnet werden (siehe Beispielabbildung).
Die Reihenfolge wird durch die Organisation der zu importierenden Datei vorgegeben. Recorder erkennt oft schon, welche Informationen in der Spalte enthalten sind und trifft richtige (oder auch falsche und damit zu ändernde) Zuordnungen.
Wie am Beispiel unten zu erkennen ist, wurden einige Zuordnungen automatisch (richtig) getroffen: Recorder-Fenster: =Zuordnung: Kartierer =Bearbeiter/Kartierer Datum =Datum Raumreferenz =rh
Andere wurden hier nicht automatisch gefunden und mussten dann zugeordnet werden: Sippenamen =lat.Artnamen Fundort =Ortbezeichnung/Gewässer)
Wieder andere Spalten wurden weder vorgeschlagen noch ausgewählt und damit für den Import-Vorgang ignoriert: z.B. hier nur der Rechts- oder nur den Hochwert.
- b) für den spezifischen Import - Libellen - waren auszuwählen:
Hier wurden sowohl in der zu importierenden Datei als auch in der dann gespeicherten Recorderimportvorlage die Bestandsgrößen für unsere libellenspezifischen Stati unterschieden (rechts hier zu sehen = Exuvie, Juvenile, Imago) und ausgewählt. Jede Artengruppe muß hier ihre spezifischen Erfassungsparameter bestimmen, festlegen und im Import-Wizard auswählen/zuordnen.
Import-Wizard - Beispiel-Import Libellendaten:
- c) Es folgen dann weitere Fenster zum Projekt (und weiter Angaben) und vor allem zu den Zuordnungen der Namen, Arten und Fundorte (siehe 6.).
5. Vorbereiten und Verteilen optimierter Vorlagen an „Recorder-unwillige“ Mitarbeiter im Kartierprojekt
Es wird nicht gelingen, alle Mitarbeiter eines Projektes zur Dateneingabe in Recorder zu bewegen (Stichwort Recorder-„Muffel“ in Stuttgart und das Tool „EDARec“ zur einfachen Dateneingabe für Floristen)! Manchmal hat man aber auch selbst Dateien aus Projekten, bei denen es einfacher ist, diese zu importieren anstatt die Daten via Recorder neu einzugeben.
Für solche Fälle ist es von großem Wert, eine Vorlage bereit zu stellen, die sowohl für die rasche Eingabe als auch für den Import in Recorder optimiert ist!
So wurde den Kollegen für die Libellenkartierung im Saarland eine für die einfache Eingabe und den Import vorbereitete und bereits mehrfach verbesserte Datei zur Verfügung gestellt (siehe Beispiel im Recorder-Downloadbereich (Kategorie - Sonstiges)) und diese auch schon mit jüngsten Daten erfolgreich importiert:
6. zum Fundort-Mapping
Das korrekte Mapping der Fundorte - d.h. die Zuordnung der zu importierenden Fundorte zu eventuell schon in der Recorder-Datenbank vorhandenen Fundorten - ist beim Importieren meist sehr zeitraubend, kann aber bei guter Vorbereitung der zu importierenden Datei vereinfacht werden. Will man eine gute Fundortdatei erzeugen, muss man hier hohe Sorgfalt anwenden, ansonsten hat man schnell Ortseinträge mit ähnlichen Namen und/oder ähnlichen Koordinaten, die möglicherweise später bei Bedarf (z.B. für fundortbezogene Auswertungen!) mühsam aufzuräumen sind!
Beim Fundort-Mapping eines aktuellen Importvorganges gab es mindestens folgende drei Aspekte oder Möglichkeiten:
- a) es werden aus der Importdatei Fundorte sauber zu solchen zugeordnet (=zum Importieren vorgeschlagen!), die bereits in der Fundortliste vorhanden sind (sofern es vorher dazu schon eine Eingabe oder frühere Importe gab!); Dies ist der Idealfall, die Fundorte sind identisch und entstammen in der Regel einer einheitlichen, identischen Quelle!
- b) es gibt keinen Vorschlag (= keine Übereinstimmung); dieser dann neue Fundort kann mit Anklicken von neuer Eintrag einzeln (oder alle neuen Fundorte zusammen!) übernommen werden. Dadurch wird die Fundortliste in Recorder um die neuen Fundorte ergänzt! Dies ist der Normalfall, insbesondere dann, wenn erstmals mit Importen begonnen wird bzw. noch kaum Daten eingegeben worden sind!
- c) es werden Fundorte zur Übernahme angeboten, deren Namen und/oder Koordinaten nur wenig abweichen.Man kann hier jetzt entscheiden,
- -ob man den Vorschlag annimmt = Auswahl und ev. später von Hand bei Bedarf nacharbeiten oder korrigieren,
oder
- -ob man eine eigene, händige Zuordnung vornimmt, indem man in die Fundortdatenbank wechselt, dort einen neuen Eintrag anlegt und diesen dem zu importierenden Datensatz/Fundort mit F9 zuordnet,
oder
- -ob man zurückgeht, z.B. in Excel, und dort im Fundortnamen eine Ergänzung "Fundort 2" oder anderer Art vornimmt. Damit erhält man ebenfalls einen neuen Fundort mit ähnlichen, aber nicht identischen Namen!
Von Vorteil ist auch hier: Man hat sich schon vorher mit Hilfe des in 3. vorgeschlagenen Testimportes eine optimierte Importvorlage erarbeitet und abgespeichert. Muss der Importvorgang von vorne gestartet werden, bringt die Nutzung der Importvorlage in Verbindung mit dem Gedächtnis von Recorder den Importierenden relativ schnell wieder an die ursprüngliche, unterbrochene Stelle zurück!
Trotz des überaus wertvollen Recorder-Gedächtnisses, der Import-Vorgang und insbesondere das Fundort-Mapping dauert bei großen Datenmengen sehr lange (bei einer großen Teildatei wurde fast einen ganzen Tag "hin und her" optimiert (und vermutlich einige Zuordnungen auch streng genommen falsch getroffen, bzw. „entnervt“ Fundorte mit versch. Koordinaten einfach zusammengefasst!). Daher besser bereits vorher intensiv und gründlich die Fundorte (Namen) in der Importdatei ansehen (sortieren, ...) und am besten hier schon gezielt ändern, z.B. wenn „ganz bewusst“ bei ähnlichen, nahen Koordinaten ein neuer Fundort angelegt werden soll, auch den Namen hier bereits mit Zusatz oder ähnlichem ändern!
Und nun noch ein ►kleiner, aber nicht unwichtiger Hinweis an dieser Stelle:
Ich habe mehrfach versehentlich "Fundortnamen" und nicht "Fundort" im Import-Wizard ausgewählt!
Dies macht zwar keine grundsätzlichen Probleme beim Import, es wird dann aber kein Fundort in der Fundortdatenbank angelegt und man sieht an Begang und Aufnahme nur die Koordinaten!
Will man also einen neuen Fundort inklusive Fundortbezeichnung in der Fundortdatenbank von Recorder direkt angelegt haben, dann muß man im Importvorgang zwingend Fundort – und nicht „Fundortname“ im Importfenster auswählen und zuordnen!
Es gibt aber auch durchaus sinnvolle Berechtigungen, hier "Fundortnamen" auszuwählen (z.B. wenn man nach dem Import hier später gezielt nacharbeiten und Fundorte zuordnen oder neu anlegen will)!
Ein Beispiel dazu:
-Man importiert erstmals einen Datenpool, hier am besten mit Zuordnung Fundort, womit die Fundorte in der Recorder-Datenbank auch als Fundort angelegt werden.
-Man bekommt z.B. in Folgejahren weitere Dateien, ist sich jedoch bewusst, dass es z.B. wegen Änderungen in der Fundortdatei wenig oder keine Übereinstimmung gibt, dann importiert man hier möglicherweise besser mit Zuordnung "Fundortnamen" und arbeitet anschließend nach!
-Was im konkreten Fall am besten ist, kommt jedoch in der Hauptsache auf die Datenstruktur der zu importierenden Datei an!
Für die (von mir in der Regel bevorzugte) Strategie, dass ein Fundort direkt angelegt und auch der Fundortnamen am Begang und an der Aufnahme neben den Koordinaten angezeigt wird, muss hier aber Fundort ausgewählt werden!
Hier der Unterschied noch einmal zusammengefasst und mit zwei Grafiken aus dem Projektfenster als Ergebnis verdeutlicht (gleiche Importdatei, in verschiedene Projekte einmal mit Auswahl Fundortnamen (oben), einmal mit Auswahl Fundort (unten) importiert):
- Fundortname = keine Verknüpfung mit der Recorder-Ortsdatenbank = Recorder-Fundortliste; nur eine textliche Information (siehe nur Eintrag in "Fundortliste") im Projektfenster (links) werden nur die Koordinaten angezeigt:
- Fundort = eigenständiger Eintrag in der Fundortdatenbank (der Importvorgang dauert dadurch länger); Fundortnamen wird an Begang und Aufnahme und auch als bereits ansteuerbaren "Fundort" (rechts) angezeigt:
7. Struktur und Aufgliederung der Projekte
So wie man sich den Aufbau und die Gliederung von Projekten gut überlegen sollte, so sollte auch der Import von Daten sorgfältig überlegt und geplant sein!
Es ist besser und einfacher, später Projekte oder Teile daraus sinnvoll neu zu ordnen oder zusammenzuführen, als schlecht oder falsch zusammengeführte wieder zu trennen. Daher also besser jeweils zu importierende Teildateien in gezielt angelegte Projekte separat importieren. Diese Struktur kann später je nach Bedarf und weiterem Vorgehen geändert werden, Daten oder ganze Projekte können später nach einem erfolgreichen Import verschoben und neu organisiert oder sogar bei Bedarf gelöscht werden. Sinnvoll ist die Trennung der Projekte z.B. nach Regionen, einzelnen Beobachtern, Zeiträumen oder bestimmten Methoden.
8. Fazit
- a) Sorgfältige Vorbereitung und Planung umfangreicher Importe ist vor allem für den ungeübten Nutzer und bei großen Dateien von Vorteil.
- b) Die Kartierer und vor allem die Fundorte wurden durch den Importvorgang in der Recorder-Datenbank angelegt! Insbesondere die Anlage der Fundortliste „ Libellenfundort Saarland“ wird als ein sehr komfortables Begleitergebnis der ersten Importe mit drei großen Teildateien eingeschätzt! Diese Fundorte stehen nun für die weitere direkte Dateneingabe in Recorder zur Verfügung, müssen/sollten jedoch später in einem Verifizierungsschritt überprüft und überarbeitet werden.
- c) besser mehrere und dafür etwas kleinere Dateien nacheinander importieren;
- d) von Vorteil ist es, eine kleine „Testdatei“ mit etwa 20 Datensätzen vorab zum Testen durchlaufen zu lassen und eine Import-Vorlage dazu abzuspeichern;
- e) dem Fundort-Mapping kommt eine zentrale Rolle im Importvorgang zu!