Während die vorangehende Modellierungen (von Fitschen bis Puttkammer) zwei Repräsentationebenen vorgesehen haben:
Némeths UEDb-Modell hat eine zentrale XML-Komponente, die sowohl von den Benutzern als auch von Systempfleger für Korrekturen und Updating benutzt werden kann. Diese Vereinfachung ergab sich durch die Software-Entwicklung der letzten Jahren. Die Zweistufigkeit war vor allem durch Effizienzüberlegungen bedingt, denn es wäre in den neunziger Jahren unrealistisch gewesen, in Text-Datenbeständen der Größenordnung von 10 hoch 8 bis 9 direkt zu recherchieren.
Das eigentliche Problem ist die Sicherung der Effizienz: XML-Datenbestände sind Textdateien, auch wenn sie intern strukturiert sind. Bei großen Dateien (und die UEDb gehört zu diese Klasse) mit aufwendigen, variationsreichen Strukturierungen wachsen leicht die Verarbeitungszeiten ins Unvertretbare. Die Systeme die als Vorführprogrammen glänzen, brechen zusammen, wenn sie mit großen XML-Dateien und mit komplexen Strukturierungen konfrontiert werden. Es gibt auf dem Markt einige Softwarepakete, die angeboten werden um große XML-Dateien mit Abfrageapplikationen zu versehen. Németh hat diese XML-Software getestet und kam zu der Einsicht, daß für die UEDb das java-basierte Infonyte-System die beste Lösung ist.
Infonyte ist eine Java-Applikation. Aus der XML-Datei wird eine binarisiert und indizierte Kompaktdatei gemacht, die effizient und komplett rechechiert werden kann. Die Konversion ist für den Benutzer unsichtbar, da die Daten weiter nach ihrer XML-Struktur erreichbar bleiben. Németh konvertiert UEDB.XML zu UEDB.DOM, die als Grundlage der weiteren Verarbeitung dient. Er macht die einzelnen 1874 Lexikoneinträge direkt zugänglich.
uedb.xml --> uedb.dom --> EINTRAEGE(1-1874.xml)
Andererseit führen verschiedene Pfade in Némeths Modell wieder zusammen: Er übernimmt die von Holger Puttkammer konvertierten und strukturierten XML-Daten und die von Saliha Rabah entwickelten Unicode-Fonts. Seine Abfragesystem macht die bisherige Arbeit präsentierbar. Er stellt Abfrage-Muster zur Verfügung, die es ermöglichen rekonstruierte Formen, einzelsprachliche Belege oder besondere Konfigurationen direkt (mit XQL) abzufragen, z.B.:/UEW/EINTRAG?/ETEM/STAMM/F/regMatch('wete')
/UEW/EINTRAG?/ETEM/(STAMM/F/regMatch('wete') $and$ BED/regMatch('Wasser')) usw.
Drittens, Németh stellt virtuelle Tastaturen zur Verfügung, damit auch die auf den kommerziell zugänglichen Tastaturen fehlenden diakritischen Zeichen miteingegeben werden können.
1.2. Sprachspezifische Font-,Phonem- und Suchwortlisten von Saliha Rabah
Die belegsprachlichen Abfragen sind dadurch erschwert, daß der Benutzer eines etymologischen Wörterbuches nicht notwendigerweise sprachkundig ist, und selbst dann, wenn er das Wort kennt, kann das Wort fehlen, oder die Schreibweise, insbesondere bei den Dialektangaben, variieren. Daher scheint es zweckmäßig zu sein, die jeweiligen Belegworte den Benutzern als Suchwortlisten anzubieten. Bei der Entwicklung der Unicode-Fonts ergab sich die Notwendigkeit für die kontrolle der Zeichen ebenfalls sprach- und dialektspezifische Auflistungen der Fonts zu erstellen. Es wäre auch interessant die sprachspezifischen Listen der Phoneme zusammenzustellen. Mit diesed Aufgaben setzte sich Frau Saliha Rabah in ihrer Studienarbeit auseinander. Die Motivation für die Zusammenstellung der dialektspezifischen Fontlisten ist in erster Linie die konsequente Verwendung der Dialektbezeichnung und deren Klassifizierung gewesen. Die Betrachtung dieser Listen förderte Kodierung- und Konversionsfehlern zu tage und führte zu Revision der Dialektlisten. Die Auflistungen waren u.U. interessanter aus der Perspektive der Konstruktion der Datenbasis als aus der Sicht neuer linguistisch-kompariatistischer Erkennnnisse. Nichtdestotrotz erstellte Frau Saliha Rabah drei interessante Listen in ihrer Studienarbeit, nämlich 1. Auflistung der Fonts nach Sprachen und Dialekten, deren Anzahl während ihrer Arbeit abhängig von Fehlerbereinigung schwankte, bis wir uns zum Schluß bei 208 geeinigt haben. Diese Listen sind interessant aus der Perspektive der Entdeckung von fehlerhafen Datenkonversion (von Winword zu XML) und sonstigen eventuellen Fehlkodierungen, wobei die einmalige Vorkommen der Zeichen immer besonders fehlerverdächtig sind. Die sprachspezifische Fontsauflistungen wurden de facto als Arbeitsgrundlagen für die Fehlerbereinigung benutzt. Die Fontslisten werden aktualisiert und sind weiter verfügbar. (Die Dateinamen sind mit den 5-stelligen Dialektnummern identisch: die finnische Liste hat "der Name" 01000.xml, das Vach-Ostjakische 14101.xml usw. und sie befinden sich in dem Verzeichnis ../pdom/Daten/Dialekt\... )
2. Auflistung der Phoneme nach Sprachen bzw. Dialekten. Während die Fontsauflistungen rein nach der graphischen Form durchgeführt war (wo kyrillische b, r, k usw. als unterschiedlich gezählt haben als die entsprechenden latenischen b, r und k), wurde jetzt die lautliche Gleichheit im Vordergrund gestellt und die an sich unsinnige Doppelzügigkeit durch die kyrillische Schrift eliminiert und die Dialektgruppen sind zusammen gezählt worden. Allerdings blieben die Ergebnisse unbefriedigend da verbindliche Aussagen ohne intime Kenntnisse der Dialekte und der phonologischen Orientierung der beteligten Forscher nicht zu machen sind. Die Weiterführung der Phonemlisten ist nicht geplant.
3. Auflistung der UEDb-Belege nach Sprachen und Dialekten. Diese Auflistung warf die Frage der Sortierfolge auf und führte zu der Überlegungen, in dem Papier Der Unicode-Zeichensatz für die UEDb ausführlich behandelt werden. Salihas einmalige Auflistungen sind zwar vorhanden, aber nicht updatebar.
Da Frau Saliha Rabah mit Delphi arbeitete, erwies sich die Übernahme ihrer Programme in das UEDb-System als schwierig oder de facto unmöglich.
1.3. Formatierungsversuch für den Kommentarteil von Jérôme Diebold
Jérôme Diebold hat in einem auf dem ersten Blick bescheidenen Rahmen vorgenommen die von Puttkammer zurückgestellte Formatierung des Kommentarteils zu bearbeiten. Seine Studienarbeit "Formatierung der Kommentarteile in der UEDb-Datenbank" reproduzierte die Oberfläche der Kommentare in der tabellarischen Form, wie sie in der Word-Version vorlagen.
Beipielsweise sollte eine rekonstruierte Form mit einer Endung auf -ŋ$ (am Wortende) gesucht werden:
Vorgehen
Weitere Beispiele: (Ungarisch) é, ü, á, usw.
Die Generierung der Listen erfolgt jetzt online (früher mit Hilfe eines Programms im Vorfeld, sp¨ter automatisch in der Zeit der Systemgenerierung).
Man kann zwei Sprachen auswählen und auflisten, welche Etymologien in diesem Sprachpaar überhaupt belegt sind.
Also: Ungarisch - Syrjänisch, Mordwinisch - Selkupisch usw. Interessanter ist nicht alle etymologischen Entsprechungen auflisten zu lassen, sondern eine phonologische Konfiguration auszuwählen:
z.B. intervokalisches langes -kk- in der rekonstruierten Form und dessen Reflexe in Mordwinisch und Syrjänisch.
Auch die Entsprechungen einer belegsprachliche Konfiguration können geprüft werden, z.B. Ungarisch: -ngy- in Lappischen.
Da die virtuelle Tastaturen auch hier zur Verfügung stehen, können auch Phonemklassen in Sprachpaaren geprüft bzw. getestet werden:
Beispiel: Entsprechungen der intervokalischen ostjakischen stimmlosen Spiranten im Tscheremissischen.
(Dies ist wahrscheinlich die linguistisch interessanteste Abfragemöglichkeit.)
Man kann anstatt zwei auch drei und mehrere Sprachen (bzw. Sprachzweige) nach den obigen Schema testen. Die Antwortzeiten werden länger und die Treffer weniger zahlreich. Beispiel: Ostseefinnisch, Mordwinisch und Selkup -- mit rekonstruierten -mp-.
Hier werden Etymologien gesucht, die in den Ostseefinnischen Sprachen (mindenstens in einem) belegt sind, Entsprechungen in Mordwinischen (Ersa oder Mokša) sowie in Selkupischen (mindestens in einem Dialekt) haben. Allerdings beschränkt sich die Suche auf die Rekonstruktionen mit inlautenden -mp- . Wenn Belege gefunden werden, werden allerdings alle Entsprechungen angezeigt.
Die Anzeige der Erbegnisse erfolgt in tabellarischer Form. Die Listen werden sortiert und durchnumeriert. Angezeigt werden nur die relevanten Informationen, also die gefragten Lautformen. Partielle Befriedigung der Abfragebedingungen: Wenn mehrere Sprachen gefragt werden und sie nicht alle vorgefunden werden, werden die Teilmengen gebildet und systematisch festgehalten. Wenn die Abfrage partiell befriedigt wird, kann der Benutzer sich diese Listen anzeigen lassen.
Besser verallgemeinert werden kann und benutzerfreundlicher ist die Abfrage mit einer Struktur-Tabelle (DTD). Der Benutzer kann auf der Mustertabelle einklicken, was er sehen möchte. Das System erzeugt die XQL-Suchkette für den angeforderten Knoten der UEDB-XML-Datei. Alle Informationen (tags und attributs) der Datenbasis können abgefragt werden. Der Benutzer legt mit Hilfe einer zweiten DTD-Tabelle fest, wie ihm Suchergebnisse präsentiert werden sollen.
Letzte Änderung: 8.02.2005