Computerlinguistische Erschließung des UEWb-s für die vergleichende Sprachwissenschaft


Wir gehen davon aus, daß die UEWDb ein Forschungsinstrument ist, das künftig dem gedruckten Wörterbuch (wie das UEWb) zur Seite steht und die Arbeit der vergleichenden (und insbesondere der uralischen Sprachforscher) erleichtert und effizienter gemacht wird. Angestrebt werden Leistungen wie:

  1. Anzeige der etymologischen Informationen, wie sie in den traditionellen Quellen üblich ist.

  2. Selektive Anzeige durch Weglassen aktuell irrelevanter Informationen.

  3. Kombinierung ausgesuchter Belegwörter.

  4. Statistische Auswertung des zur Verfügung gestellten Materials.

Informationstechnische Herausforderung stellen die Aufgaben 3 und 4. Sie setzen über die authentische Wiedergabe der lexikalischen Informationen und Quellen hinaus, die freie Verfügbarkeit aller Informationselemente (und darunter auch die für Auswertung der Etymologien relevanten phonologischen Informationen) im Korpus voraus. Die heutigen computerlinguistischen, SGML-basierten Auszeichnungssprachen bieten zwar die Möglichkeit die lexikalischen Informationen erschöpfend zu erschließen, sie stoßen jedoch auf Effizienzgrenzen, wenn komplexe Abfragen auf große Datenmengen bezogen on-line beantwortet werden sollen. Da die Explikation der lexikalischen -- und im UEWb auch die phonologischen -- Beschreibung unumgänglich ist, müssen andere, effizientere Speicherungs- und die Abfragetechniken (Datenbasen und Indizierung) herangezogen werden. Aus der lexikographischen Perspektive betrachtet, bietet die Datenbasis UEWDb die Möglichkeit den Datenbestand gleichzeitig als etymologisches Wörterbuch für alle 25 uralische Hauptsprachen zu nutzen.

 


Formuliert im Zusammenhang mit dem Antrag auf Förderung bei der DFG.