
Werden KI-Stimmen die Sprecher ersetzen?
Seitdem die Künstliche Intelligenz immer stärker auf dem Vormarsch ist, fragen sich viele Menschen, ob KI ihre Jobs ersetzen wird. Seitdem KI buchstäblich in aller Munde ist, bangen viele Sprecher um ihren Beruf. Wird KI den Sprecherberuf aussterben lassen? Werden KI-Stimmen die Sprecher ersetzen? Spätestens seit „Siri“, „Alexa“ und Co. nutzen viele Menschen KI Stimmen täglich als smarte Problemlösung in ihrem Alltag. Das gehört mittlerweile in zahlreichen Haushalten und vielen Bereichen zum Standard.
Die Anfänge der KI-Stimmen
Der Begriff KI für Künstliche Intelligenz (oder AI, englisch für: Artificial Intelligence) entstand bereits Mitte der 1950er Jahre. Zur selben Zeit wurde in den USA der erste Roboter erfunden. Die erste künstliche Stimme entstand allerdings schon viel früher. Bereits im Jahr 1791 erfand der ungarische Mechaniker Wolfgang von Kempelen einen Apparat, der die menschliche Stimme imitieren konnte. Dieses Stimmen Gerät konnte zwar noch nicht wirklich sprechen, da es nur Laute hervorbrachte, war aber als solches durchaus bemerkenswert und zukunftsweisend.
Sprechen bedeutet Sprachlaute bilden und Wörter hervorbringen.
In den letzten Jahren sind digitale Sprachgeneratoren mit tausenden Audio-Dateien von echten Stimmen gespeist und anhand von Transkripten trainiert worden. So hat KI gelernt, einen Zusammenhang zwischen Stimmbildung und Wortinhalten herzustellen, also zu sprechen.
Die bisherige Entwicklung von künstlichen Stimmen ist bahnbrechend und die Ergebnisse sind mittlerweile sehr beeindruckend, nicht selten sogar in erschreckenden Dimensionen.
Wussten Sie, dass die Google KI selbst einen messbaren IQ von 47,3 hat? Das entspricht ungefähr dem Entwicklungsstand eines sechsjährigen Kindes …
Die KI Stimmen Technologie lässt sich natürlich auch missbräuchlich nutzen, wie nahezu jede zukunftsweisende Innovation.
Sogenannte stimmliche „Deepfakes“ bringen große Gefahren mit sich, sind sie doch für uns Menschen kaum mehr vom Original zu unterscheiden. Bei solchen Fälschungen kann die Technik inzwischen mittels eines Voice-Conversion Verfahrens die Stimme eines Sprechers sogar mit der Stimme bekannter Persönlichkeiten ersetzen. Wie gesagt, mit erschreckend gefährlichen Möglichkeiten … Stellen Sie sich nur mal vor, was passieren könnte, wenn man dem nordkoreanischen Machthaber Kim Jong-Un mittels passender KI kriegserklärende Worte in den Mund legen würde. Ideen wie diese sind längst keine Utopie mehr.
KI bringt aber auch zahlreiche Vorteile mit sich. Es gibt, wie bei allen Neuerungen, neben erheblichen Risken immer auch zahlreiche Chancen. Inzwischen gibt es schon sehr viele nützliche Dienste, die KI für den Menschen erbringen kann. Beispielsweise im Bereich der Barrierefreiheit, finden sich unter den Hilfsmitteln für blinde und sehbehinderte Menschen, viele nützliche Tools, um nur einen kleinen Teil von unzähligen Möglichkeiten zu nennen.
„Unter künstlicher Intelligenz (KI) verstehen wir Technologien, die menschliche Fähigkeiten im Sehen, Hören, Analysieren, Entscheiden und Handeln ergänzen und stärken.“
Microsoft Corporation
Was ist der entscheidende Unterschied zwischen KI-Stimme und einem echtem Profi-Sprecher?
Bevor man sich den Kopf darüber zerbricht, ob KI-Stimmen die Sprecher ersetzen können, sollte man sich zunächst einmal vor Augen führen, was einen professionellen Sprecher überhaupt ausmacht.
Ein Profi Sprecher beherrscht eine sehr gute Aussprache, nach der sogenannten Hannoveranischen Hochlautung. Auch jeglicher Dialekt oder Akzent sollte gänzlich fehlen oder gezielt weggelassen bzw. gezielt eingesetzt werden können.
Hinzu kommt die Vielschichtigkeit, mit der ein professionell ausgebildeter Sprecher an die Textvorlage herangeht, sowohl inhaltlich, als auch stimmlich.
Zu unterscheiden sind grundsätzlich zwei unterschiedliche Sparten des professionellen Sprechens. Zum einen gibt es die journalistisch informativen Sendeformate, zum anderen den großen Bereich der Fiktion.
Entscheidend ist in beiden Sparten grundsätzlich immer die Ansprechhaltung. Der Sprecher sollte sich daher immer die Frage stellen: Wer spricht zu wem, wo und warum? Es geht um strukturiertes, klares Vortragen, um gezielte Zäsuren und vor allem um die richtige Betonung.
In einigen Genres, z.B. im Bereich der Film-, Hörspiel- und Videospiel-Synchronisation, gehört es zum Standard, dass Sprachaufnahmen von einem Ton-Regisseur begleitet werden. In solchen Sessions zählt die richtige, authentische Ansprechhaltung zum zentralen Punkt der gemeinsamen Aufgabenstellung. Dabei geht es immer um ein emotionales Anliegen, das stimmlich hörbar sein sollte und das von der Regie auch eingefordert wird, um gemeinsam bestmögliche Ergebnisse zu erreichen. Die emotionale Absicht hinter den gesprochenen Worten hörbar zu machen, ist in nahezu allen Sparten, auch bei Voice-Over, Werbung, e-Learning Produktionen und im Bereich Hörbuch der Fall.
Die Synchronsprecher Branche befindet sich zurzeit in einem radikalen Umbruch.
Wussten Sie, dass Netflix bereits über 479 KI-Stimmen mit 65 Sprachen und 110 Dialekten verfügt? Es heißt, dass Netflix für ihre Eigenproduktionen künftig keine menschlichen Voice Artists mehr einsetzen wird, die den deutschen Ton fremdsprachiger Filme und Serien sprechen. Auch die großen Produktionsstudios in Hollywood sollen vermehrt dazu übergegangen sein, die Tonspuren ihrer Filme mit Hilfe von KI gleich in mehreren Sprachen zu produzieren. Dem KI Tool „HeyGen“ sei Dank spricht Brad Pitt nun also auch Deutsch, schlecht zwar, aber immerhin.
Schon jetzt werden ganze Werbespots von KI-Stimmen gesprochen. Coca-Cola hat erstmals eine Werbekampagne veröffentlicht, die komplett mit Hilfe von KI entstanden sein soll. Manch einem gefällt’s, andere sind angesichts dieser Entwicklungen entsetzt.
Womit KI sich schwer tut, ist die richtige Betonung und die große menschliche Bandbreite des emotionalen Ausdrucks. Auch in puncto Ironie und Zwischentöne – können KI Stimmen einen Sprecher ersetzen? Bisher ist zu vieles nicht umsetzbar. Bei der menschlichen Sprechkunst geht es nun mal oft um das, was zwischen den Zeilen steht. Es geht um die Bedeutung eines Satzes, um den Inhalt in einem Kontext, um die Beziehungsebene einer Botschaft. Diesen Zusammenhang kann eine KI nicht erfassen und erst recht nicht umsetzen.
„Wir haben derzeit oft die Situation, dass ein professioneller Bereich – wie das Sprechen – von Laien beurteilt wird.“
Anna-Sophia Lumpe, Erste Vorsitzende beim Verband Deutscher Sprecher:innen
Fazit
KI ist eine reale Gefahr für den Sprecherberuf. Wird KI den Sprecherberuf aussterben lassen? Wahrscheinlich nicht. Allerdings wird sich die wirtschaftliche Lage für die Sprecherszene mit großer Wahrscheinlichkeit noch weiter anspannen. Und es wird sich auf lange Sicht die Spreu vom Weizen noch mehr trennen. KI ist nicht in der Lage, emotionale Tiefe zu erschaffen und diese Emotionen hörbar und damit fühlbar zu machen. Zumindest noch nicht. Das kann nur der denkende und fühlende Mensch.