EOSv3

Satzendeerkennung (EOS Version 3)

Diese Software wird in 'Programmierpraktika's mit C++' seit dem SS 2008 entwickelt.

Satzendeerkennung in C++

Der Satzendeerkenner untersucht alle potentiellen Satzgrenzen eines Textes mit Hilfe von sogenannten Agenten. Jeder Agent steuert statistisches bzw. linguistisches Know-How bei und bewertet die potentiellen Satzgrenzen. Diese Bewertung führt dazu, dass jede potentielle Satzgrenze entweder akzeptiert bzw. abgelehnt werden kann. Zusätzlich erlaubt der Satzendeerkenner dem Benutzer eigene reguläre Ausdrücke zu spezifizieren, die besondere Zeichenmuster zusätzlich als Satzende definieren lassen.

Verwendete Technologien

Im Programm werden folgende Technologien und Eigenentwicklungen verwendet:

  • UTF-8 Bibliothek
  • Datenstruktur zur performanten Speicherung von Frequenzlisten, siehe Array Hash Map
  • Linguistische Frequenzlisten (Abkürzungen, Wörter am Satzbeginn) aus unseren Korpora
  • JSON basierte Konfigurationsdatei
  • Serverimplementation und frei zugängliche REST-API

API

Die REST-API Dokumentation folgt in Kürze!

Aktuelle Version 3.x

Aktueller Maintainer von EOS ist Stefan Schweter. Projektleiter ist Dr. Max Hadersbeck.

Version 3 (WS 2013/2014)

Folgende Studierende arbeiteten an dem Program: Benno Weck, Jasmin Chebib, Martin Röhrs, Matthias Lindinger, Eamonn Lawlor, Angela Krey und Stefan Schweter.

Version 2 (SS 2010)

Folgende Studierende arbeiteten an dem Program: Florian Fink, Daniel Bruder, Dino Azzano, Estelle Perez und David Kaumanns.

Version 1 (SS 2009 und WS 2009/2010)

Folgende Studierende arbeiteten an dem Program: Estelle Perez, Susanne Peters, Dino Azzano, Daniel Bruder, Florian Fink, David Kaumanns und Simon Thum.

Vorgängerversion (SS 2008 und WS 2008/2009)

Folgende Studierende wirkten an der Ursprungsversion mit: Susanne Peters, Michael Mandl, Daniel Bruder und Jonathan Cummings.

Satzendeerkennung