MÜNCHEN (IT BOLTWISE) – Künstliche Intelligenz erreicht nun eine Genauigkeit in der Emotionserkennung durch Stimmanalyse, die mit der von Menschen vergleichbar ist.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Worte sind wichtig, um uns auszudrücken. Doch was wir nicht sagen, kann noch aussagekräftiger sein, wenn es darum geht, Emotionen zu vermitteln. Menschen können oft erkennen, wie sich die Menschen um sie herum fühlen, durch nonverbale Hinweise in unserer Stimme.
Forscher in Deutschland wollten herausfinden, ob auch technische Werkzeuge in der Lage sind, emotionale Untertöne in Sprachaufnahmen genau vorherzusagen. Dazu verglichen sie die Genauigkeit von drei maschinellen Lernmodellen, verschiedene Emotionen in Audioausschnitten zu erkennen.
Ihre Ergebnisse wurden in Frontiers in Psychology veröffentlicht. „Hier zeigen wir, dass maschinelles Lernen genutzt werden kann, um Emotionen aus nur 1,5 Sekunden kurzen Audio-Clips zu erkennen“, sagte der Erstautor der Studie, Hannes Diemerling, ein Forscher am Zentrum für Lebensspannenpsychologie am Max-Planck-Institut für Bildungsforschung. „Unsere Modelle erreichten eine Genauigkeit, die mit der von Menschen vergleichbar ist, wenn es darum geht, sinnlose Sätze mit emotionaler Färbung zu kategorisieren, die von Schauspielern gesprochen wurden.“
Die Forscher zogen unsinnige Sätze aus zwei Datensätzen – einem kanadischen und einem deutschen – heran, um zu untersuchen, ob maschinelle Lernmodelle Emotionen unabhängig von Sprache, kulturellen Nuancen und semantischem Inhalt genau erkennen können.
Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt, da dies die Zeitspanne ist, die Menschen benötigen, um Emotionen in der Sprache zu erkennen. Es ist auch die kürzest mögliche Audiolaufzeit, bei der eine Überlappung von Emotionen vermieden werden kann. Die in der Studie berücksichtigten Emotionen waren Freude, Ärger, Traurigkeit, Angst, Ekel und Neutralität.
Basierend auf Trainingsdaten generierten die Forscher ML-Modelle, die auf eine von drei Arten funktionierten: Tiefe neuronale Netze (DNNs) sind wie komplexe Filter, die Soundkomponenten wie Frequenz oder Tonhöhe analysieren – zum Beispiel, wenn eine Stimme lauter ist, weil der Sprecher wütend ist – um zugrunde liegende Emotionen zu identifizieren.
Faltende neuronale Netzwerke (CNNs) suchen nach Mustern in der visuellen Darstellung von Soundtracks, ähnlich wie Emotionen aus dem Rhythmus und der Textur einer Stimme identifiziert werden. Das Hybridmodell (C-DNN) kombiniert beide Techniken und nutzt sowohl Audio als auch dessen visuelles Spektrogramm zur Vorhersage von Emotionen. Die Modelle wurden dann an beiden Datensätzen auf ihre Wirksamkeit getestet.
„Wir fanden heraus, dass DNNs und C-DNNs eine bessere Genauigkeit als die alleinige Verwendung von Spektrogrammen in CNNs erzielen“, sagte Diemerling.
„Unabhängig vom Modell war die Emotionsklassifikation mit einer höheren Wahrscheinlichkeit korrekt als durch Raten erreichbar und vergleichbar mit der Genauigkeit von Menschen.“
Diese Erkenntnisse zeigen auch, dass es möglich ist, Systeme zu entwickeln, die emotionale Hinweise sofort interpretieren können, um unmittelbares und intuitives Feedback in einer Vielzahl von Situationen zu liefern. Dies könnte zu skalierbaren, kosteneffizienten Anwendungen in verschiedenen Bereichen führen, in denen das Verständnis des emotionalen Kontexts entscheidend ist, wie etwa in der Therapie und in der zwischenmenschlichen Kommunikationstechnologie.
Die Forscher wiesen auch auf einige Einschränkungen ihrer Studie hin, zum Beispiel, dass von Schauspielern gesprochene Beispielsätze möglicherweise nicht das volle Spektrum echter, spontaner Emotionen vermitteln. Sie sagten auch, dass zukünftige Arbeiten Audiosegmente untersuchen sollten, die länger oder kürzer als 1,5 Sekunden dauern, um herauszufinden, welche Dauer für die Emotionserkennung optimal ist.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.