Giter VIP home page Giter VIP logo

Satzomat

Satzomat: Ein Kompositum aus Satz und Automat. Twittert erste Sätze aus der deutschsprachigen Literatur, ganz von allein.

Warum erste Sätze?

Erste Sätze sind ein Untersuchungsgegenstand der Literaturwissenschaft. Das sind erste Sätze und resp. letzte Sätze in Erzählungen, Romanen, Novellen. Was verrät uns der erste Satz über die sich anschließende Handlung? Wie schließt der letzte Satz eine Geschichte ab? Birgt der erste oder der letzte Satz möglicherweise die Quintessenz der Erzählung? Erste Sätze sind oft die bekanntesten Sätze aus der Literatur: Wer kennt nicht den ersten Satz des Werthers oder Einschlägiges von Kafka? Ist der erste Satz daher das Programm, das Leitmotiv, das durch den Text führt? Oder kann man den Roman im Kopfkino selbst weiterschreiben?

Seit der Beschäftigung mit Literaturgeschichte gibt es diese Fragestellungen zu ersten (und übrigens auch zu letzten) Sätzen immer wieder. 2020 erschien dazu das Buch von Peter Andre-Alt: „Jemand musste Josef K. verleumdet haben …“ – Erste Sätze der Weltliteratur und was sie uns verraten. Sämtliche Untersuchungen zu ersten bzw. letzten Sätzen sind bisher exemplarische, d.h. einzelne Romane, Erzählungen, Novellen werden auf ihre ersten Sätze hin untersucht. Peter Andre-Alt versucht z.B. eine Kategorisierung erster Sätze nach einem selbstdefinierten Typensystem. Er definiert zum Beispiel den Ersten-Satz-Typus „Plötzliches Ereignis“ oder den Typ „Kitsch und Trivales“. Wie ergiebig kann indessen eine Untersuchung mit Distant-Reading-Verfahren sein?

Textkorpus

Um diesen Fragen nachzugehen, stellen wir Textkorpora von ersten und letzten Sätzen zusammen, indem wir sie automatisch aus größeren Textkorpora extrahieren. Begonnen haben wir mit Novellen und Romanen aus dem Deutschen Textarchiv. Dort stehen die Texte im sogenannten DTA-Basisformat zur Verfügung, eine Untermenge des verbreiteten XML-basierten Kodierungs-Standards TEI. Dank dieser Struktur lassen sich Buchteile, Kapitel und Absätze voneinander abgrenzen.

Die automatische Extraktion kann durchaus problematisch sein: Literatur ist vielfältig, und das bildet sich auch im Markup ab. Wie lässt sich der erste Satz zweifelsfrei abgrenzen von beispielsweise einem vorangestellten Motto oder von einem einleitenden Vorwort der Herausgeber? Dazu wurden die Sätze einzeln übergeprüft und gegebenenfalls korrigiert.

Twitter und AutoChirp

Beim Twittern der Texte unter @satzomat hilft uns der Service AutoChirp, der zu geplanten Uhrzeiten zweimal täglich einen ersten Satz postet.

Weiterführende Ressourcen

Satzomat's Projects

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.