Skip to content

Kanzlerkandidat:innen in der KI-Sprachanalyse: Wer liegt der Stimme nach vorn?

Gilching, 24.09.2021 – Heute veröffentlicht der Innovationsführer für intelligente Audioanalyse audEERING eine Gegenüberstellung der Stimmen und Artikulationsstärken der drei Kanzlerkandidat:innen Annalena Baerbock (Grüne), Armin Laschet (CDU) und Olaf Scholz (SPD). Mit Hilfe von Künstlicher Intelligenz wurden die Stimmen entlang diverser Kriterien wie Wortwahl oder Sprechrhythmus analysiert. Die Untersuchung zeigt, wie charismatisch, emotional oder unsicher die drei Kontrahent:innen im Vergleich sprechen.

  • Laschet liegt im artikulatorischen Bereich leicht vor seinen Kontrahent:innen. Seine Reden haben inhaltlich den höchsten Informationsgehalt mit Blick auf die Wortkomplexität und-verteilung.
  • Auf der emotionalen Seite schneidet Baerbock besser ab als ihre Gegenkandidaten. Ihre Stimme hat im Durchschnitt weniger negative Ausprägungen.
  • Scholz‘ Reden weisen im Vergleich mehr Spannungen und Involviertheit auf, klingen so unsicherer.

Die Sprache ist eine der komplexesten Funktionen des menschlichen Körpers. Sie erfordert die Zusammenarbeit von Gehirn, Nerven, Muskel- und Atmungssystem. Zudem besitzt jede Stimme kaum veränderbare Charakteristika wie Tonlage, Sprachmelodie oder -rhythmus. audEERING ist darauf spezialisiert, Stimmen mithilfe von KI auf verschiedene Marker hin zu untersuchen. Anlässlich der Bundestagswahl hat das Gilchinger Unternehmen nun öffentliche Reden der Kanzlerkandidat:innen Annalena Baerbock (Grüne), Armin Laschet (CDU) und Olaf Scholz (SPD) analysiert. Ziel ist es, durch den Vergleich der Artikulationen die Wirkmacht von Stimmmerkmalen jenseits des Gesagten zu demonstrieren. Dazu beziehen sich audEERINGs Analysen nicht auf den Inhalt der Reden, sondern auf akustische, linguistische und emotionale Merkmale. Diese werden mittels wissenschaftlicher Verfahren und auf Basis von audEERINGs mehrfach ausgezeichneten KI-Technologien wie devAIce™ und openSMILE™ identifiziert.

Dominanz und Charisma, die Verständlichkeit von Botschaften sowie verstärkte Aufmerksamkeit werden bspw. durch Energievarianz, Tonhöhenumfang und Melodik ermittelt. Im Vergleich dieser, zu einer positiven Wahrnehmung beitragenden, Kriterien liegt Scholz hinter seinen Mitstreiter:innen. Baerbocks Reden weisen im Vergleich hohe Sonorität auf, was die wahrgenommene Kompetenz, Vertrauenswürdigkeit und Bestimmtheit erhöht. Bei der Gegenüberstellung von Amplitudenschwankungen oder der spektralen Emphase, die Reden unsicher, angestrengt und weniger glaubwürdig klingen lassen, ermittelt audEERINGs Analyse die stärksten Ausprägungen beim SPD-Politiker Scholz, dicht gefolgt von CDU-Chef Laschet.

Hinsichtlich der Wortverteilung und -komplexität werden die Reden entlang ihres Anteils an Adjektiven, Zahlwörtern sowie des Type-Token-Verhältnisses gemessen. Diese Parameter geben Aufschluss darüber, wer die eigenen Aussagen besonders anschaulich untermauert. Adjektive illustrieren das Gesagte und präzisieren den Redeinhalt, während Zahlwörter Details vermitteln. Das Type-Token-Verhältnis wiederum gibt das Verhältnis von Vokabular und Textlänge an und lässt damit Rückschlüsse auf den Informationsgehalt der Rede zu. In all diesen Kategorien liegt der CDU-Kandidat Laschet vorn, er vermittelt seine Inhalte somit etwas präziser und ausdrucksvoller. Daneben beeinflussen die Verwendung komplexer Sätze sowie der Verb-Nomen-Quotient (VNQ) die Verständlichkeit und die

Dynamik des Vortrags. Beide Werte sind bei Scholz am höchsten. Das Problem hierbei: Wenn ein dynamischer Vortrag komplex ist, kann das wiederum auch negativ wahrgenommen werden. Im Bereich der Emotionsanalyse spielen der Grad der Erregtheit und Dominanz in der Stimme eine entscheidende Rolle. Hier zeigt sich Baerbock am emotionalsten in der Ausprägung von Aufregung und Involviertheit in ihrer Stimme. Ihre Reden weisen ferner die höchste Dominanz auf. Sie wirkt damit im Vergleich zu den anderen Kandidaten am engagiertesten und empathischsten.

„Der emotionale Zustand, also wie kommuniziert wird, löst oft einen stärkeren unterbewussten Trigger aus als der reine Redeinhalt. Das trifft ganz besonders bei Politiker:innen zu“, erklärt Dagmar Schuller, CEO und Co-Founder von audEERING. „Es kann von großem Vorteil sein, die eigene Stimme gezielt für die Erzielung bestimmter Wirkungen zu trainieren. KI-basierte Audioanalyse kann hier entscheidend dazu beitragen, den Einfluss der Stimme auf die Wirkung von Politiker:innen zu bewerten.“ audEERING hat bisher sowohl für die US-Präsidentschaftswahl 2016, die österreichische Nationalratswahl 2017 und die Bundestagswahl 2017 die Stimmen der jeweiligen Kandidat:innen analysiert. In allen Analysen zeigte die KI-Technologie bisher deutlich im Vorfeld der Wahl den danach gewählten Präsidenten bzw. den oder die Kanzler:in anhand der Ergebnisse der Stimmanalyse an. „Die aktuelle Analyse zeigt indes eine bemerkenswerte Nicht-Eindeutigkeit eines/r Kandidat:in im Vergleich zu den bisher durchgeführten Analysen. Alle drei Kandidat:innen haben Stärken und Schwächen in unterschiedlichen Bereichen“, erklärt Dagmar Schuller weiter. „Wir haben deshalb auch Markus Söder als potenziellen Kandidaten verglichen, der im Gespräch war. Interessant ist, dass er im direkten stimmlichen Vergleich deutlich besser abschneidet als die aktuellen Kandidat:innen.“

 

Methode

Für die Untersuchung wurden je fünf öffentliche Reden1 der drei Kandidat:innen Annalena Baerbock (Grüne), Armin Laschet (CDU) und Olaf Scholz (SPD) mittels einer Kombination aus drei Methoden untersucht. Die auf openSMILE™ und tiefen neuronalen Netzen basierende akustische Analyse bezog auch Midlevel Descriptor-Merkmalsextraktoren mit ein und diente dazu die klanglichen Merkmale der jeweiligen Stimmen vergleichbar zu machen. Zusätzlich wurde eine linguistische Analyse mit automatisierter Spracherkennung sowie eine Emotionsanalyse mit audEERINGs KI-Technologie durchgeführt. Anschließend wurden ausgewählte Kenngrößen interpretiert nach deren Ausprägung und Intensität analysiert.

Über audEERING

audEERING wurde 2012 als Spin-Off der TU München gegründet und ist führender Innovationstreiber in den Bereichen KI-basierte Audioanalyse, Voice Biomarker und emotionale künstlicher Intelligenz. Durch innovative Verfahren der maschinellen Intelligenz, eigener patentierter Technologien und Deep Learning ermöglichen audEERINGs Produkte die automatische Analyse von u. a. akustischen Umgebungen, Sprecherzuständen, Gesundheitsmerkmalen in der Stimme sowie über 50 verschiedenen Emotionsausprägungen. Zu den Kunden von audEERING zählen multinationale Konzerne wie Huawei, GN Group, BMW, Daimler, Red Bull Media House, Deutsche Telekom und Ipsos. audEERING wurde für seine KI-Technologie unter anderem mit dem VDE Award 2019, dem VisionAward 2019 oder dem Innovationspreis Bayern 2018 ausgezeichnet sowie 2017 zum „Innovator of the Year“ der International Digital Worldcup Series gekürt und als „Vendor to Watch for AI“ von Gartner, Inc. genannt. audEERING ist wissenschaftlich international renommiert und an einer Vielzahl von Forschungsförderprojekten der EU, BMBF, BMWi und EIT als Konsortialpartner beteiligt, unter anderem bei den Projekten SPEAKER (intelligente Sprachassistenten), EcoWeb (Depression), MARVEL (Smart City), ERIK (Autismus), WorkingAge (Smart Working).

Mehr Informationen zu audEERING erhalten Sie unter: www.audeering.com.