Thursday, June 27, 2013

Weitere Planung

In den nächsten Wochen möchte ich hier einige kleinere - möglicherweise interessante - Compulerlinguistik-Projekte entwickeln und vorstellen.
Das wird in zumindest absehbarer Zeit weiterhin in Python geschehen, daher gibt es zwischendurch kleinere Pythonexkurse geben (einige Techniken funktionieren in Python anders als in anderen Programmiersprachen).
Das erste kleine Projekt wird ein Inverted Index werden. Der Index an sich ist vielleicht noch nicht besonders spannend (auch wenn ich persönlich widersprechen würde), aber auf ihm aufbauend wird eine kleine CL-Anwendung folgen.
Um ihn etwas interessante zu machen, wird die Index-Erzeugung etwas aufgepeppt: zunächst ein paralleler Aufbau (um die Besonderheiten der Parallelisierung unter Python zu demonstrieren und auf einem Multicore-System keine Rechenleistung zu verschwenden), anschließend darauf aufgebaut eine Implementierung mit einem hausgebauten MapReduce-Verfahren (auf einem einzelnen Rechner Verschwendung, aber MapReduce ist ein faszinierendes und auch wichtiges Konzept).
Danach schauen wir uns einige einfachere CL-Algorithmen und -Anwendungen an, die darauf aufgebaut werden können.

Der nächste Beitrag wird die Prinzipien eines Inverted Index beinhalten (was ist das überhaupt?) und einen Suchindex über eine Menge an Textdateien aufbauen - noch unelegant und ineffizient.

Um die Zeit bis dahin zu überbrücken, hier einige interessante Ressourcen und Quellen zu den allgemeinen Themen dieses Blogs:


StackExchange-Seiten für Machine Learning und NLP werden derzeit aufgebaut und hoffentlich in den nächsten Monaten freigegeben.

Monday, June 17, 2013

NLTK 3.0 supports Python 3 (somewhat)

For some time now, NLTK has an alpha release, officially supporting Python 3. It's still in its testing phase, but might be usable for some of you.
I hope to cover it in more detail and similar topics more... regularly in the future.

See here: http://nltk.org/nltk3-alpha/ for more details and download. Python 2.6, Python 2.7, and Python 3 (.x?) will be supported.