Computational Linguistics & Phonetics Computational Linguistics & Phonetics Fachrichtung 4.7 Universität des Saarlandes

Friedrich Faubel

Mitarbeiter am Lehrstuhl für Sprachsignalverarbeitung

pic

Bei Friedrich haben wir viele interessante Dinge über Spracherkennungssysteme und das "Säubern" von Sprachaufnahmen erfahren.

Zuerst wurde uns ein Programm gezeigt, das Fluglotsen helfen soll, Piloten einfacher zu "lenken" indem es in bestimmten Situationen (z.B. der Landung) hilft. Der Lotse gibt hier jeweils die Details an den Computer mittels Sprache an. Im Moment wird das Programm weiter ausgefeilt und somit funktionstüchtiger gemacht.

Darüber hinaus ist die Säuberung oder auch Trennung von Gesprächen ein wichtiger Punkt bei Friedrichs Arbeit. Dabei geht es darum, Hintergrundgeräusche herauszufiltern oder zwei Sprecher voneinander zu unterscheiden. Hier wurde uns die Methode mit einem so genannten "microphone array" vorgestellt. Dies besteht aus insgesamt acht Mikrofonen, die kreisförmig angeordnet sind. Durch diese kreisförmige Anordnung lässt sich die Gesprächsquelle lokalisieren. Mit dieser Methode lassen sich die Geräusche besser voneinander trennen.

Das ist ähnlich wie beim Menschen, der sich beim Hören ja auch auf eine bestimmte Richtung bzw. auf einen Sprecher konzentrieren kann. Wenn mehrere Sprecher gleichzeitig sprechen (zum Beispiel auf einer Familien- oder Geburtstagsfeier), wird es kompliziert.

Aber die Trennung nur über gerichtetes Hören funktioniert nicht perfekt. Man hört den zweiten Sprecher immer noch durch. Deshalb verwenden wir eine zusätzliche "Frequenztrennung", die darauf beruht, dass zwei Menschen, die gleichzeitig sprechen, nur sehr selten die gleichen Frequenzen verwenden (das ist so, weil sie nur sehr selten zur gleichen Zeit die gleichen Phoneme oder Laute aussprechen). Allerdings hat hierbei die Stimme einen verfremdeten Klang.

Ebenso wurden uns Beispiele vorgespielt, welche mit der "Geräuschreduktion" bearbeitet wurden. Hierbei wird das durchschnittliche Geräuschspektrum des Hintergrundgeräuschs einfach herausgeschnitten, manchmal ein bisschen zu viel und manchmal ein bisschen zu wenig (weil es eben nur den Durchschnitt abzieht).

Das führt dann zu "Muscial Noise", also komischen Tönen, die teilweise wie von einem Musikinstrument gespielt klingen. Um dieses zu verhindern, verwenden wir spezielle Methoden, die "gelernt haben", wie klare Sprache aussieht. So können Abweichungen von der "vorher gelernten" klaren Sprache besser als Geräusch identifiziert und dementsprechend entfernt werden. Zurück bleibt die klare Sprache.

Natürlich haben wir uns gefragt, wo es denn hier eine Anwendung im Alltag gibt. Diese Techniken werden u.a. bei Smartphones (z.B. IPhone) aber auch anderen "Telefonangelegenheiten", wie z.B. Skype angewendet, so dass wir ohne große Störgeräusche miteinander kommunizieren können.

pic pic