Das wird in zumindest absehbarer Zeit weiterhin in Python geschehen, daher gibt es zwischendurch kleinere Pythonexkurse geben (einige Techniken funktionieren in Python anders als in anderen Programmiersprachen).
Das erste kleine Projekt wird ein Inverted Index werden. Der Index an sich ist vielleicht noch nicht besonders spannend (auch wenn ich persönlich widersprechen würde), aber auf ihm aufbauend wird eine kleine CL-Anwendung folgen.
Um ihn etwas interessante zu machen, wird die Index-Erzeugung etwas aufgepeppt: zunächst ein paralleler Aufbau (um die Besonderheiten der Parallelisierung unter Python zu demonstrieren und auf einem Multicore-System keine Rechenleistung zu verschwenden), anschließend darauf aufgebaut eine Implementierung mit einem hausgebauten MapReduce-Verfahren (auf einem einzelnen Rechner Verschwendung, aber MapReduce ist ein faszinierendes und auch wichtiges Konzept).
Danach schauen wir uns einige einfachere CL-Algorithmen und -Anwendungen an, die darauf aufgebaut werden können.
Der nächste Beitrag wird die Prinzipien eines Inverted Index beinhalten (was ist das überhaupt?) und einen Suchindex über eine Menge an Textdateien aufbauen - noch unelegant und ineffizient.
Um die Zeit bis dahin zu überbrücken, hier einige interessante Ressourcen und Quellen zu den allgemeinen Themen dieses Blogs:
- Syntactic Ngrams over Time
- Google Books Ngram Viewer
- From Words to Concepts and Back: Dictionaries for Linking Text, Entities and Ideas (Das wollte ich hier eigentlich ursprünglich entwickeln - konzeptbasierte Textsysteme waren der Grund weshalb ich diesen Blog erstellt hatte. Vielleicht baue ich etwas ähnliches auf dem Index basierend auf)
- Quantitative Analysis of Culture Using Millions of Digitized Books
- StackExchange: Statistics and Data Mining
- StackExchange: Theoretical Computer Science
- Machine Learning, NLP, ...
- StackExchange: Python@StackOverflow
- StackExchange: Python@Programmers
- NLP@Stanford (Coursera Online-Kurs). Bereits abgelaufen, aber noch vollständig einsehbar.
- Machine Learning@Stanford (Coursera Online-Kurs). Beinahe abgelaufen, aber noch vollständig einsehbar.
StackExchange-Seiten für Machine Learning und NLP werden derzeit aufgebaut und hoffentlich in den nächsten Monaten freigegeben.