Analyze Twitter for #Tatort with Python Pandas and NLTK
- Im ersten Schritt werden mit Hilfe der StreamListener API alle Tweets zu einem Hashtag (hier: #Tatort) in eine MongoDB geschrieben
- Im zweiten Schritt wird diese Datenbank mit Python Pandas ausgelesen und anschließend ausgewertet
Am besten das IPython Notebook ansehen.
Mit Hilfe des Natural Language Toolkit kann wertvolle Information aus dem Stream gezogen werden.
Relevante Personen können identifiziert werden.
Mit Hilfe des SentiWS Wortschatzes für Deutsche Sprache kann sogar ein Stimmungsbild aus den Tweets gezogen werden. Ein Naive Bayes Klassifikator, welcher mit dem SentiWS Wortschaft für positiv bzw. negativ konnotierte Wörter angelernt wurde, kann die Tweets klassifizieren.
R. Remus, U. Quasthoff & G. Heyer: SentiWS - a Publicly Available German-language Resource for Sentiment Analysis.
In: Proceedings of the 7th International Language Ressources and Evaluation (LREC'10), pp. 1168--1171, 2010