Textverarbeitung mit Python

Python Praxis 12

In dieser Übung arbeiten wir mit regulären Ausdrücken mittels des Moduls re (import re).


Übung 1: Schreiben Sie ein Programm, das sogenannte "consonant clusters" am Anfang eines Wortes identifiziert. Z.B. "sk" in Englisch "skill", "schl" in Deutsch "schlafen" oder "srpsk" in "Srpsko" (Serbisch). Bei dieser Übung ist der Umgang mit regulären Ausdrücken gefragt.

  1. Modifizieren Sie das Programm, so dass es die jeweils drei längsten consonant clusters in einem Text identifiziert.
  2. Modifizieren Sie das Programm weiter, so dass es auch die consonant clusters am Ende von einem Wort findet und die jeweils drei längsten ausgibt.

Übung 2: Legen Sie das Programm find2.py zugrunde.

  1. Finden Sie nun heraus, was nach dem Verb folgt (Z.B. themselves in Zeile 9). Überspringen Sie aber Funktionswörter wie Artikel (the, a, an).
    9: not be surprised to find themselves in a house of this description."
  2. Erstellen Sie ein Dictionary, in dem die Komplemente von find (also, das was rechts steht) als "key" eingegeben werden, und wie oft dieses Komplement gefunden wurde als "value".
  3. Drucken Sie dieses Dictionary als Output ihres Programms aus. Z.B.:
      her        2
      themselves 3
      out        2
    

Was sind Probleme mit Ihrem Programm? Was könnte durch Tagging vereinfacht werden?


Diese Übung bitte bis zum 19.2. bei Christin einreichen!

Ende