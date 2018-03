"Austrian Media Corpus" - einzigartiges österreichisches Sprachdatencorpus

Projekt der Akademie der Wissenschaften ermöglicht Quantensprung für computergestützte Sprachwissenschaft-Kooperation mit der APA

Wien (OTS) - Sprachforscher der Österreichischen Akademie der Wissenschaften (ÖAW) haben eine neue Sprachdatenbank aufgebaut, die alle bisherigen Maßstäbe sprengt - das "Austrian Media Corpus" (AMC). Die Datenbank umfasst rund 8 Milliarden Text-Wörter, damit ist das AMC derzeit eines der größten digitalen Text-Corpora im gesamten deutschen Sprachraum. Am Institut für Corpuslinguistik und Texttechnologie (ICLTT) kann nun erstmals systematisch untersucht werden, wie sich der Sprachgebrauch in Österreich über die vergangenen Jahrzehnte entwickelt hat.

Ermöglicht wurde dies durch eine enge Zusammenarbeit des ICLTT mit der APA - Austria Presse Agentur, die dem ICLTT große Teile ihrer digitalen Archivbestände für wissenschaftliche Zwecke zur Verfügung stellt. Dazu gehören alle digital verfügbaren APA-Pressemeldungen seit 1955, fast alle Tages- und Wochenzeitungen und die wichtigsten Magazine Österreichs seit Beginn der 1990er Jahre sowie Transkripte österreichischer TV-Nachrichtensendungen.

Durch die enorme Bandbreite der Quelltexte kommt ein wertvoller Sprachdatenpool zustande, der mehrere Jahrzehnte an österreichischen Texten umfasst. Mit dieser Datensammlung haben die Forscher der ÖAW nun Forschungsmaterial, das weltweit sowohl qualitativ als auch quantitativ einzigartig ist.

"Mit dem AMC und den anderen Text-Corpora in unserer ständig wachsenden linguistischen Forschungsinfrastruktur haben wir inzwischen ein Projekt in Angriff nehmen können, dem bisher die empirische Datengrundlage gefehlt hatte: die Dynamik der Sprachentwicklung in Österreich in den vergangenen Jahrzehnten umfassend und systematisch zu untersuchen", so Gerhard Budin, Professor an der Universität Wien und Direktor des ICLTT.

Um allein die große Datenfülle aus dem Bereich Agentur- und Printjournalismus für sprachwissenschaftliche Zwecke nutzbar zu machen, mussten fast 34 Mio. Artikel in mühevoller Arbeit computerlinguistisch und texttechnologisch aufbereitet werden. Nunmehr können eine Fülle von komplexen Suchabfragen durchgeführt werden, vom regionalen Sprachgebrauch über grammatikalische Strukturen bis hin zu nationalen Sprachtrends.

"Mit dem 'Austrian Media Corpus' haben wir so etwas wie eine digitale Sprachschatztruhe an der Hand. Damit ergeben sich ganz neue Möglichkeiten der Erforschung und Beschreibung des österreichischen Deutsch auf einer breiten empirischen Basis", so Jutta Ransmayr, Koordinatorin des Forschungsschwerpunkts "Österreichisches Deutsch" am ICLTT. APA-Chefredakteur Michael Lang betont: "Die APA ist nicht nur das journalistische 'Gedächtnis der Nation'. In unserer Datenbank APA-OnlineManager, die zusätzlich zur APA und OTS ja u.a. auch alle heimischen Tageszeitungen und Abschriften von Radio- und TV-Nachrichten enthält, lassen sich Eigenständigkeit und Wandel des österreichischen Deutsch mit enormen Datenmengen gut gesichert dokumentieren. Als 'die österreichische Nachrichtenagentur' unterstützen wir solche wissenschaftlichen Projekte selbstverständlich nach Kräften."

Das "Austrian Media Corpus" wird bereits in mehreren laufenden Projekten eingesetzt, beispielsweise in der computerlinguistischen Unterstützung der bevorstehenden Neuauflage des Österreichischen Wörterbuchs. Für das Wörterbuchprojekt "Variantenwörterbuch des Deutschen NEU" konnte das ICLTT im Rahmen einer Kooperation mit dem Institut für Germanistik der Universität Wien eine umfassende Datenbasis zum Sprachraum Österreich liefern.

Auch das offizielle Österreich kann vom AMC profitieren. Im Rat für deutsche Rechtschreibung etwa können bei länderspezifischen Rechtschreibanalysen nun auch erstmals Auswertungen zum österreichischen Orthographiegebrauch Eingang in die Diskussion finden und für Empfehlungen des Rats berücksichtigt werden.

Die APA - Austria Presse Agentur ist die nationale Nachrichtenagentur und der führende Informationsdienstleister Österreichs. Sie befindet sich im Eigentum österreichischer Tageszeitungen und des ORF. Die APA-Gruppe setzt sich aus der genossenschaftlich organisierten Nachrichtenagentur und neun Tochterunternehmen zusammen und ist in den Geschäftsfeldern Nachrichtenagentur, Bildagentur, Informationsmanagement und Informationstechnologie tätig. Darüber hinaus umfasst die Gruppe internationale Beteiligungen in der Schweiz (Bildagentur) und in Deutschland (Mobile Publishing Lösungen). Die APA-Redaktionen sorgen für Echtzeit-Nachrichtendienste in Wort, Bild, Grafik, Audio und Video, die Tochterunternehmen bieten Verbreitungs-, Recherche- und Wissensmanagement-Dienste sowie Informationstechnologie-Lösungen. Weitere Informationen unter www.apa.at.

Das Institut für Corpuslinguistik und Texttechnologie (ICLTT) der Österreichischen Akademie der Wissenschaften verfolgt ein weites Feld an Forschungsinteressen, die alle in den Digital Humanities angesiedelt sind. Aufbauend auf einer langen Tradition corpus-basierter Sprach- und Literaturstudien beschäftigen sich die Forschungsprojekte des ICLTT mit digitalen Sprachressourcen (digitalen Textsammlungen, Wörterbüchern, Enzyklopädien usw.) und der Technologie, mit der solche Sprachressourcen erzeugt, modifiziert und verfügbar gemacht werden können. Neben genuin sprachwissenschaftlichen Interessen arbeitet das internationale Team des ICLTT auch in den Bereichen des Semantic Web und der Standards für sprachbasierte Technologien.

