2024-02-27

New Conference Paper

Our conference paper (by Robert Forkel and myself), submitted to the DHd 2024 conference, co-organized by the Chair fo Multilingual Computational Linguistics, has appeared online now. In this paper, titled "Cross-Linguistic Data Formats (CLDF): D’où Venons Nous? Que Sommes Nous? Où Allons Nous?" (DOI: 10.5281/zenodo.10698325) we present how the Cross-Linguistic Data Formats were established and how we think they could further develop in the next years.

Seit nun mehr zehn Jahren entwickeln wir in Kollaboration mit einer Vielzahl von Forschenden im Bereich der vergleichenden Sprachwissenschaft die sogenannten Cross-Linguistic Data Formats (CLDF), eine Sammlung von Standards, die -- basierend auf tabellarischen Datenformaten -- dazu dient, den großen Wissenschatz, den die linguistische Forschung in den letzten 200 Jahren erschlossen hat, so aufzubereiten, dass er systematisch aggregiert, mit anderen Datensätzen integriert, und transparent analysiert werden kann. Trotz anfänglicher Schwierigkeiten hat sich unser Bemühen als sehr erfolgreich erwiesen, auch wenn manches, von dem wir zuerst dachten, es sei leicht zu realisieren, sich als äußerst komplziert herausgestellt hat. Heute schon liegen in CLDF die größten lexikalischen und typologisch-grammatischen Sammlungen an Sprachdaten vor, und ein Ende ist bisher nicht in Sicht. In unserer Studie stellen wir vor, wie CLDF zu dem wurde, was es heute ist, und wo wir die Standardformate in der Zukunft sehen.