Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll.
Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesondere für Module im Bachelor-Studium geeignet macht.
Inhaltsverzeichnis
1. Einleitung 7
2. Geschichte und Gebiete 9
2. 0 Ziele und WarmUp. 9
2. 1 CL-1: Computerlinguistik Der Computer lernt Sprache 10
2. 2 TT-1: Texttechnologie Die Digitalisierung von Texten 17
2. 3 Fazit, Aufgaben, Vertiefung 20
3. Grammatiken 23
3. 0 Ziele und WarmUp. 23
3. 1 CL-2: Kontextfreie Grammatiken Bäume aus Wörtern 23
3. 2 CL-3: Satz-Erzeugung mit einer Konstituenten- Grammatik 29
3. 3 TT-2: Dokumentgrammatiken Regeln, die Texte beschreiben 33
3. 4 Fazit, Aufgaben, Vertiefung 38
4. Parsing und Annotation. 42
4. 0 Ziele und WarmUp. 42
4. 1 CL-4: Parsing mit Grammatik rechnen 42
4. 2 CL-5: Chart-Parsing Parsing mit Gedächtnis 48
4. 3 TT-3: Annotation Strukturinformation in Texten 53
4. 4 Fazit, Aufgaben, Vertiefung 58
5. Merkmale und Attribute. 62
5. 0 Ziele und WarmUp. 62
5. 1 CL-6: Merkmale Aufbau linguistischer Strukturen. 62
5. 2 TT-4: Attribute Texte als textuelle Datenstrukturen 69
5. 3 Fazit, Aufgaben, Vertiefung 74
6. Semantik und Transformation. 77
6. 0 Ziele und WarmUp. 77
6. 1 CL-7: Semantik Übersetzung in die Sprache der Bedeutung 78
6. 2 TT-5: Transformation von Baum zu Baum. 85
6. 3 Fazit, Aufgaben, Vertiefung 92
7. Ressourcen und Standards 95
7. 0 Ziele und WarmUp. 95
7. 1 CL-8: Computerlinguistische Ressourcen Niemand muss bei Null anfangen 96
7. 2 CL-9: Baumbanken Korpora mit grammatischer Struktur. 102
7. 3 TT-6: Texttechnologische Standards Verabredungen für den Datenaustausch 107
7. 4 Fazit, Aufgaben, Vertiefung 113
Literaturverzeichnis. 115
Abkürzungen 118
Register 120