ROUGH DRAFT authorea.com/102917
Main Data History
Export
Show Index Toggle 0 comments
  •  Quick Edit
  • Verwertung lexikalischer Ressourcen (VeleR)

    Ausgangslage

    Das Institut für Deutsche Sprache (IDS) in Mannheim ist seit 1964 die zentrale außeruniversitäre Einrichtung zur Erforschung und Dokumentation der deutschen Sprache in ihrem gegenwärtigen Gebrauch und in ihrer neueren Geschichte. Das IDS ist ein Mitglied der Leibniz-Gemeinschaft. Die digitalen Textsammlungen (Korpora) des IDS zu geschriebener und gesprochener Sprache sind die weltweit umfassendsten zur deutschen Sprache.

    In den letzten Jahren wurde am IDS intensiv daran gearbeitet, die vorhandenen Korpora stark zu erweitern, um die empirische Basis für seine Arbeit auszudehnen. Die Korpora werden für die linguistische Recherche aufbereitet und auf verschiedenen Ebenen annotiert (Anreicherung mit Informationen zu Wortarten, Flexion, Syntax, etc. enthaltende Metadaten). So hat das IDS im Jahr 2015 von der Bertelsmann-Verlagsgruppe spezifische Ressourcen (Daten, Formate, Druckvorlagen etc.) erworben, die vormals als empirische Grundlage für die Erstellung des Wahrig-Fremdwörterbuchs, des Wahrig-Synonymwörterbuchs und des Wahrig-Wörterbuchs der deutschen Sprache dienten (inklusive der Rechte zur Weiterverwendung). Sowohl die Korpora wie auch die Lexikondaten sind von hervorragender Qualität und von den bisherigen Bearbeitern sehr sorgfältig aufbereitet worden. Die Pflege und Aufbereitung dieser Daten erfolgte bisland durch dedizierte Software-Werkzeuge der Firma CLT Sprachtechnologie. Auch diese Technologie befindet sich inzwischen im Besitz des IDS, sodass es einem außeruniversitären Forschungsinstitut nun möglich wäre, in neuen Nutzungskontexten selbst eigene Ausgaben dieser Wörterbücher herauszugeben.

    Für die Produktion von Wörterbüchern ist die Extraktion von Wortlisten aus Korpora erforderlich. Diese Wortlisten werden mit weiteren Informationen zu grammatischen Funktionen, zur Verwendung dieser Wörter und zur Bedeutung angereichert. Für den Druck als Wörterbuch werden diese lexikalischen Rohdaten in eine formatierte Form gebracht. Die Expertise, die das IDS in den letzten Jahrzehnten im Bereich der Arbeit mit großen Textmengen aufgebaut hat, sowie die computerlinguistischen Werkzeuge, die am IDS für die Bearbeitung von Korpora entstanden sind, versetzen das Institut in die Lage, neue innovative Verwendungmöglichkeiten für die erworbenen hochqualitativen Daten zu erschließen, die über den Druck neuer Auflagen der Wörterbücher hinausgehen.

    Ziel des Vorhabens

    Im Rahmen der Fördermaßnahme "Validierung des technologischen und gesellschaftlichen Innovationspotenzials wissenschaftlicher Forschung -- VIP+", verfolgt das IDS zwei Ziele, die einerseits die Verwertung lexikalischer Ressourcen als Rohdaten und andererseits die Verwertung der Extraktionswerkzeuge als Dienstleistung betreffen:

    Es soll das Marktpotenzial von lexikalischen Ressourcen für Sprachtechnologiefirmen im Bereich B2B validiert werden. Wörterbuchproduzenten und auch das IDS erhalten verschiedentlich Anfragen von kommerziellen Akteuren zur Nutzung von lexikalischen Ressourcen, die Produkten im Bereich Wörterbücher zugrunde liegen. Innerhalb des Vorhabens soll ermittelt werden, in welcher Form und unter welchen Lizenzen diese Daten solchen Firmen überlassen werden können. Für eine kommerzielle Nutzung soll ein angemessenes Geschäftsmodell erstellt werden.

    Es soll das Marktpotenzial von Dienstleistungen zur Erstellung von lexikalischen Ressourcen validiert werden. B2B-Firmen, die lexikalische Ressourcen für eigene Anwendungen nutzen möchten, solche Daten jedoch aus eigenen Textsammlungen beziehen möchten, sind interessiert an den Werkzeugen, die das IDS verwendet. Zu ermitteln ist hier, welches Potenzial die Lizenzierung dieser Werkzeuge bietet. Zudem ist die Entwicklung eines Dienstleistungsmodells vorgesehen: Der Auftraggeber übermittelt die Textsammlungen und die gewünschten Charakteristika der lexikalischen Daten, das IDS extrahiert die entsprechenden Daten und stellt diese Leistung in Rechnung.

    Innovationspotenzial des Vorhabens

    Das Innovationspotenzial des Validierungsvorhabens liegt sowohl auf technischer als auch auf gesellschaftlicher Ebene, die hier eng miteinander verbunden sind:

    Die Validierung der Übertragbarkeit der Werkzeuge und lexikalischer Ressourcen, die durch die Neuerwerbungen aufgrund geänderter Lizenzbedingungen nicht nur zu rein wissenschaftlichen Zwecken genutzt, sondern auch auf neue, vornehmlich forschungsexterne Anwendungsszenarien angewandt werden können, erlaubt es, die Entwicklungen des IDS als quasi-Standard zu etablieren. Zum einen betrifft dies die Datenhaltung, zum anderen sind dies Werkzeuge zur Extraktion lexikalischer Daten. Ein erster Schritt ist mit der Veröffentlichung der IDS-spezifischen Erweiterung des TEI-Standards bereits erfolgt.

    Für potentielle Kunden stellen standardisierte Werkzeuge und Verfahren sicher, dass qualitativ hochwertige Ressourcen für die Erstellung von sprachtechnologischen Produkten verwendet werden können. Dies kann sowohl durch die Verwendung solcher Verfahren, als auch durch den Erwerb von Daten erfolgen. Potentielle Kunden sind hier Sprachtechnologieanwender, Lexikonverlage sowie universitäre und außeruniversitäre Forschungseinrichtungen mit sprachwissenschaftlicher, sprachtechnologischer und gesellschaftswissenschaftlicher Ausrichtung. Erstere sehen wir vor allem im Bereich der Unterstützung des Sprachlernens, sowohl für Lerner des Deutschen als Muttersprache in Wort und Schrift (in Kindergarten oder Grundschule), als auch für Lerner des Deutschen als Zweitsprache auf verschiedenen Stufen (Sprachkurse im Rahmen der Integration von Flüchtlingen mit Fokus auf Wortschatz zur Alltagssprache wie auch Sprachkurse für ausländische Fachkräfte mit Fokus auf Fachwortschatz, z.B. Patient-Arzt-Kommunikation).

    Die Datenhaltung von Korpora und lexikalischen Ressourcen für verschiedene Anwendungsszenarien inklusive eine stetige Aktualisierung muss es erlauben, möglichst einfach und ohne spezifische linguistische oder informatische Kenntnisse, Daten zu extrahieren oder zu überprüfen. Von Vorteil ist hier eine sogenannte single-source-Datenhaltung mit definierten Schnittstellen für verschiedene Anwendungstypen zur Extraktion, Erweiterung und Anreicherung der Daten.

    Mit der Erstellung und dem Vertrieb neuer Auflagen der Wörterbücher kommt das IDS einer wichtigen Empfehlung des Rechtschreibrats nach: Die Dokumentation und Normierung der Verwendung der deutschen Sprache darf nicht nur einem Verlag überlassen werden, eine Monopolstellung sollte vermieden werden. Das IDS erfüllt so einen gesellschaftlichen Auftrag, der auch dem Stiftungszweck des IDS aus dem Jahr 1964 entspricht.