C-Performanz
C-Perform: Methods and Tools for Collocation Extraction and Performance-Oriented Parsing
Wissenschaftsdisziplinen
Informatik (75%); Mathematik (10%); Sprach- und Literaturwissenschaften (15%)
Keywords
-
COMPUTATIONAL LINGUISTICS,
CORPUS-BASED NATURAL LANG.PROC,
COLLOCATIONS,
LEXICALIZATION,
NATURAL LANGUAGE PROCESSING,
PARSING
Ziel des Projekts ist es, die Grundlagen für eine neue Generation von Systemen zur Verarbeitung natürlicher Sprache zu entwickeln, die effizient, schnell und robust arbeiten, gleichzeitig aber auch ausreichend generell sind, um in einer breiten Palette von Anwendungen eingesetzt werden zu können. Derzeit gibt es in der Computerlinguistik zwei grundsätzlich unterschiedliche Ansätze: Zum einen linguistisch fundierte Systeme auf der Basis expliziter Grammatiken, die aber nicht auf große Textmengen angewendet werden können, da sie relativ fragil und langsam sind. Zum anderen schnelle und robuste Systeme, deren (implizite) Grammatik sich aus der statistischen Verarbeitung von Corpora ableitet, die aber nur in relativ engen Domänen und für flache Verarbeitung geeignet anwendbar sind. Um die Lücke zwischen diesen beiden Ansätzen zu schließen, ist eine neue Betrachtungsweise von Grammatik nötig, die Performanz- und Kompetenzaspekte der natürlichen Sprache vereint. Ein möglicher Ansatz besteht darin, Systeme auf der Grundlage von Kompetenzgrammatiken um Strategien zur Steuerung und Kompilation zu erweitern. Dieser Ansatz bringt zwar Fortschritte, kann aber das zugrundeliegende Problem nicht lösen. Eine alternative Möglichkeit besteht darin, statistische (performanzbasierte) Systeme mit linguistischer Information anzureichern. Dies geschieht dadurch, daß man Corpora verwendet, die mit linguistischer Information annotiert sind und dadurch auch Kompetenzinformation enthalten. Auch unser Ansatz geht von der Annahme aus, daß bestimmte Aspekte der Performanz grammatikalisiert sind. Daher sollen Performanz und Kompetenz bereits in der Grammatik miteinander verbunden werden. Insbesondere wollen wir Generativität, das Kennzeichen der Kompetenz, und Lexikalisierung, eine typische Eigenschaft der Performanz, miteinander verknüpfen. Um dieses Ziel zu erreichen, konzentrieren wir uns auf Kollokationen, also idiomatische (lexikalisierte) Konstruktionen der Sprache. Durch den Einfluß der generativen Grammatik auf die Sprachwissenschaft wurden Kollokationen als ein Phänomen angesehen, das außerhalb der Grammatik liegt. Insgesamt hat die starke Betonung der Kompetenz als Grundlage der Grammatik zu Modellen geführt, die die Dichotomie von grammatischen versus ungrammatischen Äußerungen betonen, aber keine Erklärung dafür bieten, daß manche Analysen adäquter sind als andere ebenso grammatische. Daraus ergibt sich starke Ambiguität und in der Folge eben Systeme, die langsam und wenig robust arbeiten. Wir halten Kollokationen als besonders gut dafür geeignet, unser Ziel zu erreichen, weil sie ein exemplarisches Beispiel für die Interaktion zwischen lexikalischer und struktureller Information darstellen. Im Projekt werden wir ein Werkzeug zur automatischen Extraktion von Kollokationen aus Textkorpora entwickeln, und die gewonnenen Ergebnisse für die Entwicklung eines Grammatikmodells verwenden, das in der beschriebenen Weise Kompetenz und Performanz integriert. Parallel dazu wird ein Parser entwickelt, um die Grammatik auch empirisch testen zu können. Das Interesse an performanzorientierten Grammatikmodellen beschränkt sich nicht auf die Computerlinguistik, sondern ist auch für die theoretische Linguistik und die Psycholinguistik von Relevanz. Daher kann die Arbeit in diesem Projekt einerseits Resultate aus diesem breiteren Spektrum nutzen, andererseits aber auch die Forschung in diesen Bereichen stimulieren.
- Hans Uszkoreit, Universität des Saarlandes - Deutschland