Verwertung lexikalischer Ressourcen (VeleR)

Ausgangslage

Das Institut für Deutsche Sprache (IDS) in Mannheim ist seit 1964 die zentrale außeruniversitäre Einrichtung zur Erforschung und Dokumentation der deutschen Sprache in ihrem gegenwärtigen Gebrauch und in ihrer neueren Geschichte. Das IDS ist ein Mitglied der Leibniz-Gemeinschaft. Die digitalen Textsammlungen (Korpora) des IDS zu geschriebener und gesprochener Sprache sind die weltweit umfassendsten zur deutschen Sprache.

In den letzten Jahren wurde am IDS intensiv daran gearbeitet, die vorhandenen Korpora stark zu erweitern, um die empirische Basis für seine Arbeit auszudehnen. Die Korpora werden für die linguistische Recherche aufbereitet und auf verschiedenen Ebenen annotiert (Anreicherung mit Informationen zu Wortarten, Flexion, Syntax, etc. enthaltende Metadaten). So hat das IDS im Jahr 2015 von der Bertelsmann-Verlagsgruppe spezifische Ressourcen (Daten, Formate, Druckvorlagen etc.) erworben, die vormals als empirische Grundlage für die Erstellung des Wahrig-Fremdwörterbuchs, des Wahrig-Synonymwörterbuchs und des Wahrig-Wörterbuchs der deutschen Sprache dienten (inklusive der Rechte zur Weiterverwendung). Sowohl die Korpora wie auch die Lexikondaten sind von hervorragender Qualität und von den bisherigen Bearbeitern sehr sorgfältig aufbereitet worden. Die Pflege und Aufbereitung dieser Daten erfolgte bisland durch dedizierte Software-Werkzeuge der Firma CLT Sprachtechnologie. Auch diese Technologie befindet sich inzwischen im Besitz des IDS, sodass es einem außeruniversitären Forschungsinstitut nun möglich wäre, in neuen Nutzungskontexten selbst eigene Ausgaben dieser Wörterbücher herauszugeben.

Für die Produktion von Wörterbüchern ist die Extraktion von Wortlisten aus Korpora erforderlich. Diese Wortlisten werden mit weiteren Informationen zu grammatischen Funktionen, zur Verwendung dieser Wörter und zur Bedeutung angereichert. Für den Druck als Wörterbuch werden diese lexikalischen Rohdaten in eine formatierte Form gebracht. Die Expertise, die das IDS in den letzten Jahrzehnten im Bereich der Arbeit mit großen Textmengen aufgebaut hat, sowie die computerlinguistischen Werkzeuge, die am IDS für die Bearbeitung von Korpora entstanden sind, versetzen das Institut in die Lage, neue innovative Verwendungmöglichkeiten für die erworbenen hochqualitativen Daten zu erschließen, die über den Druck neuer Auflagen der Wörterbücher hinausgehen.

Ziel des Vorhabens

Im Rahmen der Fördermaßnahme "Validierung des technologischen und gesellschaftlichen Innovationspotenzials wissenschaftlicher Forschung -- VIP+", verfolgt das IDS zwei Ziele, die einerseits die Verwertung lexikalischer Ressourcen als Rohdaten und andererseits die Verwertung der Extraktionswerkzeuge als Dienstleistung betreffen:

Es soll das Marktpotenzial von lexikalischen Ressourcen für Sprachtechnologiefirmen im Bereich B2B validiert werden. Wörterbuchproduzenten und auch das IDS erhalten verschiedentlich Anfragen von kommerziellen Akteuren zur Nutzung von lexikalischen Ressourcen, die Produkten im Bereich Wörterbücher zugrunde liegen. Innerhalb des Vorhabens soll ermittelt werden, in welcher Form und unter welchen Lizenzen diese Daten solchen Firmen überlassen werden können. Für eine kommerzielle Nutzung soll ein angemessenes Geschäftsmodell erstellt werden.

Es soll das Marktpotenzial von Dienstleistungen zur Erstellung von lexikalischen Ressourcen validiert werden. B2B-Firmen, die lexikalische Ressourcen für eigene Anwendungen nutzen möchten, solche Daten jedoch aus eigenen Textsammlungen beziehen möchten, sind interessiert an den Werkzeugen, die das IDS verwendet. Zu ermitteln ist hier, welches Potenzial die Lizenzierung dieser Werkzeuge bietet. Zudem ist die Entwicklung eines Dienstleistungsmodells vorgesehen: Der Auftraggeber übermittelt die Textsammlungen und die gewünschten Charakteristika der lexikalischen Daten, das IDS extrahiert die entsprechenden Daten und stellt diese Leistung in Rechnung.