Hello, this is Jan Lehnardt and you're visiting my blog. Thanks for stopping by.
plok — It reads like a blog, but it sounds harder!
↑ Archives
…bin ich jetzt studentische Hilfskraft am Arbeitsbereich Linguistik der Uni Münster.
In den ersten Wochen habe ich mit “Kamerad Merse” Herrn Prof. Paprotté bei der NLP-(Natural Language Processing) Vorlesung und dem Syntax I Seminar unterstützt.
Meine Aufgabe in der Vorlesung war live zu zeigen wie man aus einem Haufen von Text die Anzahl der häufigsten Worte raussucht. Das ist garnicht mal schwer, wenn man weiss wie.
Als erstes braucht man einen Corpus (es ist das Corpus, fragt nicht, ist so). Ein Corpus ist eine (große) Menge von Texten, die in elektronischer Form vorliegen (daher einfach verarbeitbar sind), die mehr oder weniger repräsentant für einen Bereich von Sprache sind. Z.B. Zeitungsartikel aus den 1970ern oder die gesammelten Werke von (ha!) Shakespeare. In der Vorlesung hatten wir zum einen zwei Werke von Mary Shelley (Frankenstein und Mathilda) mit zusammen etwa 130 000 Wörtern und zum anderen den guten alten BNC (British National Corpus), der eine schmucke Sammlung von nur 100 000 000 Wörtern in Textform ist.
Da haben wir dann schnell die häufigsten Wörter rausgesucht und es sind, sehr überraschend, Funktionswörter wie “to”, “the”, “in”, usw. Interessanter wurde die Suche nach Bi- und Trigrammen. Das sind Zweier- bzw. Dreiergruppen von Wörtern in einem Text. “I think” oder “what the” sind z.B Bigramme und “I like Ike” und “elderly woman on” Trigramme. Nun kann man schauen, wie oft so ein n-Gram in einem Corpus vorkommt und schon stoplert man über ganze syntaktische Einheiten, die oft vorkommen. Hier mal eine kleine Liste aus dem BNC:
Warum ist das jetzt spannend? Um eine Rechtschreibkorrektur zu programmieren ist es zwar nett, wenn man schonmal falsche Wörter erkennt, aber grammatikalische Schnitzer sollte man auch finden. Das kann man z.B. erreichen, in dem man die vorkommenden Trigramme in einem Text mit der Häufigkeit in so einer riesigen BNC-Trigramm-Frequenzliste vergleicht und selten bis garnicht vorkommende Kombinationen anstreicht. “Hund bitte wach nicht nicht auf” hat wohl ein “nicht” zu viel und so ein Trigramm “hat nicht nicht” oder “nicht nicht auf” ist wohl selten bis nichtexistent. Treffer, versenkt.
Im Seminar Sprechen wir über die Grundlagen der Syntax. Wie man Teile von Sätzen klassifiziert und miteinander in Beziehung setzt. “I must ask that no one leave the room” ist nicht einfach nur eine zufällige Reihe von Wörtern, sondern dahinter verbirgt sich eine Struktur. Als Sprecher einer Sprache versteht man intuitiv, was Sache ist. Eine Maschine ist hingegen erstmal doof. Wir wissen, dass “I” und “must” und “ask” irgendwie von zentraler Bedeutung sind, dass “must ask” zusammen gehören und was der ganze Rest bedeutet. So eine Satzstruktur lässt sich schön als Baum malen, ein paar Beispiele kann man bei Google bewundern.
Bevor Maschinen Sprache “verstehen” können, müssen sie erstmal die Struktur eines Satzes auf die Kette bekommen, bevor es irgendwie weitergeht. Und weil wir so kreativ mit Sprache umgehen können (“Das is dem Vatter seine Bude”) ist das nicht grade trivial. Es gibt also viel zu tun. Packen wirs an.
das gibbet ja nicht. da habe ich dich seit monaten bei mir im rss-reader drin und ahne nichts böses, und plötzlich schreibst du, dass du mal informatik mit nebenfach englisch studiert hast und nun nach LTI gewechselt hast. hey, wir kennen uns, wenn auch nur vom sehen. du sitzt im AL immer mit thorsten am rechner, nicht wahr?
ich studiere nach wie vor informatik mit englisch und bin auch bald damit fertig. so richtig spannend wird es erst im hauptstudium, wenn die grundlagenthemen erstmal weg sind und es um die wirklich interessanten fragen geht. frauenanteilsmässig habt ihr es ja wirklich gut getroffen. ausser dir, sven und dem bruder von sascha dürften der rest frauen sein. naja, man sieht sich im Arbeitsbereich…