Es gibt sie, diese unverkennbaren Stimmen: Mit einer ganz bestimmten Höhe oder Tiefe, einem prägnanten Timbre, einem wohlbekannten Rhythmus und einer nachhallenden Sprachmelodie. Wir hören diese unverkennbaren Stimmen immer wieder, wenn wir Filme, Serien, Hörspiele und Computerspiele konsumieren – doch längst nicht immer wissen wir auch, wer dahintersteckt. Nun, vielleicht kennen wir Christian Brückner, der Hollywood-Stars wie Robert De Niro, Harvey Keitel und Robert Redford synchronisiert. Womöglich auch Oliver „Justus Jonas“ Rohrbeck oder Daniela Hoffmann, die Julia Roberts, Jamie Lee Curtis und Sharon Stone ihre Stimme leiht. Darüber hinaus wird das Fachwissen bei den meisten Zeitgenossen aber recht schnell ziemlich dünn: Man kennt die Stimme, aber den Namen und das Aussehen der SynchronsprecherInnen müsste man dann doch vielleicht googlen ...
North, Bailey, Baker
Bei Computerspielen ist es mittlerweile ähnlich wie bei Hollywoodfilmen: Es gibt eine kleine, aber überschaubare Riege von SynchronsprecherInnen, die es zu einigermaßen großer Bekanntheit gebracht hat – vor allem natürlich die englischsprachigen voice actors und actresses. Man kennt Nolan North, der nicht nur Nathan Drake aus Uncharted synchronisiert hat, sondern beispielsweise auch Ghost in den Destiny-Spielen und Desmond Miles in Assassin‘s Creed. Durchaus bekannt ist inzwischen auch Laura Bailey, die englischsprachige Stimme von Figuren wie Rayne in BloodRayne, Chun-Li in Street Fighter und Abby Anderson in The Last of Us. Die allermeisten LeserInnen dürften auch Troy Baker kennen, der Charaktere wie Joel in The Last of Us, Higgs Monaghan in Death Stranding und Ocelot in Metal Gear Solid synchronisiert hat – und der gerade für das neue Indiana-Jones-Spiel von MachineGames gecastet wurde. Leute wie Nolan North, Laura Bailey und Troy Baker kann man durchaus als Stars bezeichnen, auf jeder Comic Con werden sie heftig umlagert. Neben diesem erlauchten Kreis bekannter SprecherInnen gibt es aber auch eine schier unüberschaubare Menge an Fachkräften, die richtig gut beschäftigt sind, gleichwohl aber nicht oder nur selten ins Rampenlicht geraten. Leute, die dutzende Games-Figuren eingesprochen haben – die aber selbst keine „Marke“ sind.
Wir haben mit ungefähr 230 SprecherInnen gearbeitet
Als letztes Jahr die SAG-AFTRA streikte, ging es – auch – um die Zukunft dieser Menschen. Bekanntermaßen war die „Screen Actors Guild-American Federation of Television and Radio Artists“ über mehrere Monate auf die Barrikaden gegangen, um bessere Arbeitsbedingungen für ihre Mitglieder einzufordern. Dabei ging es auch um den künftigen Einsatz von künstlicher Intelligenz in der Unterhaltungsbranche – nicht nur bei der digitalen Erzeugung von Bewegtbildern, sondern eben auch von Stimmen. Die Hollywood-Produktion wurde durch den Streik weitestgehend lahmgelegt, doch zu einem „Teilstreik“ der Computerspiel-AkteurInnen kam es nicht. Stattdessen verhandelte SAG-AFTRA separat mit einer Reihe von Spielefirmen – darunter EA, Epic Games und Take 2 – über bessere Arbeitsbedingungen für ihre Mitglieder. Zu den Forderungen zählten unter anderem transparente und faire Bedingungen für die Reproduktion von menschlichen Stimmen durch KI – ein Feld, das derzeit von immer mehr Spielefirmen sondiert wird. Anfang Januar verkündete SAG-AFTRA übrigens, man habe eine Vereinbarung mit der KI-Stimmen-Firma Replica Studios getroffen: Danach können lizenzierte Stimmen unter klaren Verwertungsbedingungen für die KI-Reproduktion genutzt werden. Was erst mal gar nicht so verkehrt klang, sorgte bei vielen Betroffenen für überschaubare Begeisterung: So listete das Magazin Kotaku etliche Tweets und Post auf, die das Gewerkschaftsabkommen scharf kritisierten.
Aufwendige Vertonung
Alles schön unklar: Wie in so vielen anderen Bereichen der Spieleproduktion wird sich noch zeigen, welche Auswirkungen der Einsatz von Generative AI mittelfristig hat (vgl. IGM 09 und 10/2023). Dass bekannte (menschliche) Stimmen ganz erheblich zum Erfolg eines Spiels beitragen können, steht allerdings außer Frage. CD Projekt Red zählt zu den Studios, die sich in dieser Hinsicht besondere Mühe geben: Cyberpunk 2077 beispielsweise wurde nicht nur aufwendig auf Englisch, sondern auch in vielen anderen Sprachen vertont. Die Lokalisierungsarbeit am Basisspiel dauerte fast zwei Jahre, bei Phantom Liberty war es ein Jahr. „Voice-Over haben wir im Basisspiel letztendlich um die 75.000 Lines, aufgenommen haben wir 95.000“, berichtet Mikolaj Szwed, der Chef der Lokalisierungsabteilung. „Bei Phantom Liberty waren es mehr oder weniger 23.000 Lines, aufgenommen haben wir 27.000. Wir haben mit ungefähr 230 SprecherInnen gearbeitet.“ Dieser enorme Aufwand ist laut Szwed aber auch vollkommen gerechtfertigt. „Wir bei CD Projekt Red glauben, dass eine qualitativ hochwertige Lokalisierung den SpielerInnen eine immersive Spielerfahrung ermöglicht – zum Beispiel muss man nicht die ganze Zeit die Untertitel lesen“, sagt er.
Grundsätzlich sei die Story der wichtigste Bestandteil der hauseigenen Games – auch deshalb gebe man sich alle Mühe bei der Lokalisierung. „Die Sprache, die wir in der englischen Fassung verwendet haben, ist auch nicht die einfachste“, erläutert Szwed. Womöglich hätten – ohne Lokalisierung – längst nicht alle SpielerInnen die vielen sprachlichen und erzählerischen Nuancen erfassen können. „Ich weiß, es wird immer Leute geben, die Spiele in der Originalfassung bevorzugen. Ich möchte sie nur daran erinnern, dass unsere Spiele immer auf Polnisch geschrieben werden – so gesehen ist auch die englische Version eine Lokalisierung“, schmunzelt Szwed. Ziel sei jedenfalls, alle Sprachversionen so zu gestalten, dass sie sich wie die Originalsprache anhören. Als jemand, der selbst etliche Sprachen fließend spricht, ist Szwed davon überzeugt, „dass es Charaktere und Stellen im Spiel gibt, bei denen die deutschsprachige Version das höchste Maß an Kunstfertigkeit bietet“. Und das sagt er nicht, um die deutsche Community zu bauchpinseln.
Enge Zusammenarbeit
Bei der deutschsprachigen Fassung des Spiels hat CD Projekt Red übrigens mit der Firma GlobaLoc zusammengearbeitet. Das Berliner Unternehmen ist nicht nur für die Übersetzung verantwortlich, sondern hat auch alle Sprachaufnahmen produziert: Das umfasst die Castings, die Sessions mit den SprecherInnen und auch die Nachbearbeitung der Tonaufnahmen. „Wir sind mit der Zusammenarbeit mit GlobaLoc sehr zufrieden“, lobt Szwed. Ein Fundament der eigenen Lokalisierungsphilosophie sei, mit kleineren Firmen zusammenzuarbeiten, die sich auf eine bestimmte Sprache spezialisiert haben – eben so wie GlobaLoc. „Dadurch haben wir einen direkten Kontakt zum Team, also zu den ÜbersetzerInnen, RegisseurInnen und TonmeisterInnen“, erzählt Szwed. CD Projekt Red wiederum kümmerte sich um sämtliche Materialien, die für die Produktion der „Loka“ benötigt wurden: Skripte für die ÜbersetzerInnen und für die Aufnahmen, Charakterbeschreibungen, eine Zusammenfassung des Plots und so weiter. „Außerdem korrigieren wir die Übersetzungen und geben den ÜbersetzerInnen Feedback zu ihrer Arbeit“, berichtet Szwed. „Wir wählen auch die SprecherInnen für die Rollen und helfen bei der Regie. Unsere Aufgabe ist es auch, alle Texte und VO-Dateien im Spiel zu implementieren.“ Die Arbeit an der Lokalisierung kann laut Szwed beginnen, sobald ausreichend Dialoge fertig geschrieben sind. „In einer idealen Welt würden wir erst anfangen, wenn das ganze Spiel schon auf Englisch aufgenommen ist“, so der Experte. „Das ist aber leider nicht möglich, weil wir dann viel zu wenig Zeit hätten, um die Loka zu produzieren.“ Genau deshalb läuft bei Entwicklung und Lokalisierung vieles simultan: Das Studio teilt das Spiel in kleinere Abschnitte ein – und beginnt mit der Lokalisierung, sobald einer der Abschnitte mehr oder weniger fertig ist.
Die Sprache ist keine Mathematik
Bei allen seinen Spielen seit The Witcher 2 setzt CD Projekt Red zudem auf dynamische Lip-Sync-Technologien. Basis ist ein Algorithmus, der den Spieltext, sprachspezifische Lexika und auch die Phoneme einer bestimmten Sprache berücksichtigt – also etwa, wie sich der Mund bei bestimmten Lauten bewegt. Aus diesen Informationen erstellt der Algorithmus dann eine Mund-Animation, die dynamisch ins Spiel eingebaut wird. „Bei Cyberpunk 2077 haben wir dafür mit der Firma JALI zusammengearbeitet“, erzählt Szwed. „Wenn ihr mehr darüber wissen wollt, empfehle ich euch unser Video zu dem Thema auf Youtube.“ [youtube.com/watch?v=fa3_Mfqu8KA]
Abwägungssache
Was aber waren die größten Herausforderungen, denen das Studio bei Cyberpunk 2077 begegnete? „Die Synchronisation eines solch riesigen Spiels ist immer eine Herausforderung“, sagt Szwed. „Die Sprache ist keine Mathematik, bei der etwas entweder richtig oder falsch ist.“ Stattdessen müsse man oft mehrere Optionen gegeneinander abwägen, um das bestmögliche Ergebnis zu erhalten. Zum Beispiel musste das Studio entscheiden, welche Begriffe es eindeutscht – und welche es lieber englischsprachig belässt. „Heutzutage benutzen vor allem jüngere Deutsche viele Wörter aus dem Englischen“, gibt Szwed zu bedenken. „Wir mussten gewährleisten, dass sich die Sprache im Spiel auch in dieser Hinsicht natürlich anfühlt.“ Ziel sei gewesen, das Flair von Night City als multikultureller Stadt zu erhalten – einer Stadt, in der man an jeder Ecke verschiedene Sprachen und Akzente hört. Außerdem gab es im Spiel drei wichtige Charaktere, die fließend Japanisch sprechen mussten, betont Szwed. „Da hat GlobaLoc großartige Arbeit geleistet und Deutsch sprechende Japaner gefunden, die diese Charaktere spielen konnten. Ich bin auch sehr stolz darauf, wie das im Spiel klingt.“ Die Rollen der Hauptfiguren übernahmen derweil SprecherInnen, die hierzulande inzwischen einige Bekanntheit genießen: Benjamin Völz synchronisierte Johnny Silverhand; die weibliche V wurde von Flavia Vinzens gesprochen, während Björn Schalla den männlichen V synchronisierte.
GlobaLoc ist bei weitem nicht die einzige Lokalisierungsfirma, die in Berlin ihr Headquarter hat: Die deutsche Hauptstadt bietet landesweit die größte Konzentration solcher Firmen. „Speziell bei Voice-over gilt Berlin als das Silicon Valley der deutschen Synchronisation“, sagt Marie Amigues, Gründerin und CEO von Altagram. „Das garantiert uns einen privilegierten Zugang zu einem umfangreichen Netzwerk lokaler SchauspielerInnen und RegisseurInnen.“ Die Altagram Group hat neben dem Berliner Headquarter auch Niederlassungen in Seoul und Montreal; zu ihren Services zählen Textlokalisierung, Kulturalisierung, Voice-over und Testing in mehr als 55 Sprachen. Speziell bei Voice-over übernimmt Altagram eine ganze Reihe von Aufgaben: Neben Casting und Synchronisation geht es hier auch um die mögliche Anpassung von Drehbüchern, die Pre- und Postproduction sowie Special Effects und Abmischung. „Unser Team von ExpertInnen kümmert sich um die internen Aufnahmen von deutsch- und englischsprachigen SchauspielerInnen“, erläutert Amigues. „Es arbeitet dabei mit den vielen professionellen SynchronsprecherInnen aus den USA und Großbritannien zusammen, die in der Stadt ansässig sind.“ Um hohe Qualität in allen Sprache bieten zu können, hat Altagram auch Partnerschaften mit internationalen Studios aufgebaut. „Diese Kooperationen ermöglichen es uns, eine breite Palette an hochwertigen, muttersprachlichen SprecherInnen und RegisseurInnen anzubieten“, sagt Amigues. Altagram arbeitet auch eng mit seiner Schwesterfirma Alocai zusammen, die eine umfassende KI-gestützte und proprietäre Plattform für Videospiel-Lokalisierung anbietet: Von Textlokalisierung bis hin zur Kommunikation in Form von Nachfragen-Verwaltung und Chats sowie KI-Lösungen für Audio-Prozesse.
Unser Spiel wurde in 14 unterschiedlichen Sprachen mit Untertiteln veröffentlicht
Umfassende Buyouts
Amigues arbeitet seit nunmehr 17 Jahren in der Branche – und hat einen ausgezeichneten Überblick, was Trends der Lokalisierung betrifft. In letzter Zeit beobachtet sie immer mehr Anfragen für Original-Voice-over-Arbeiten, die über die traditionelle Lokalisierung hinausgehen. Solche Anfragen kämen ganz besonders von Kunden, die zuvor US-amerikanische oder kanadische Studios für die englischsprachigen Inhalte bevorzugten, berichtet Amigues: „Dabei geht es vor allem um mittelgroße Projekte.“ Zugleich beobachtet die Firmenchefin ein deutlich steigendes Interesse an umfassenden, unbefristeten Buyouts, die beispielsweise Werbezwecke und Lizenzprodukte umfassen. Einen weiteren Trend sieht Amigues in steigenden Budgets für Voice-over-Services. Dies gehe aber mit dem Wunsch vieler Kunden nach kosteneffizienteren Lösungen einher, so die Expertin – „zum Beispiel durch den Einsatz von SprecherInnen für mehrere Charaktere“. Interessant ist auch, dass die Nachfrage nach Lokalisierungen für brasilianisches Portugiesisch und lateinamerikanisches Spanisch steigen – ganz offensichtlich ein Zeichen dafür, dass die dortigen Spielemärkte brummen. „Während sich diese Trends weiterentwickeln, bleibt Altagram agil“, betont Amigues. Man passe seine Services kontinuierlich an die wachsenden Anforderungen der Branche an.
Nicht nur internationale Blockbuster wie Cyberpunk 2077 setzen auf ausgefeilte Synchronisation – auch für kleine und mittelgroße Produktionen wird dies immer wichtiger, um die nötigen Extrapunkte bei der Zielgruppe zu sammeln. Ein Beispiel ist das Horror-Rätsel-Spiel Ad Infinitum von Hekate aus Berlin, das von den Schrecken des Ersten Weltkriegs und dem Schicksal einer preußischen Industriellenfamilie erzählt – und das der Publisher Nacon 2023 auf den Markt brachte (vgl. IGM 06/2023). „Unser Spiel wurde in 14 unterschiedlichen Sprachen mit Untertiteln veröffentlicht“, erzählt Lukas Deuschel, CEO und Audio Director bei Hekate. So wurde Ad Infinitum unter anderem auf Japanisch, Russisch, Türkisch und auch Thailändisch vertont. Die Sprachaufnahmen begannen bereits Anfang 2022, so Deuschel – nämlich zu dem Zeitpunkt, als die meisten Texte des Autors Matthias Kempke fertig und bereits ins Englische und Französische übersetzt waren. Schon zu Beginn der Produktion hatte das Studio dafür Kontakt mit dem Dienstleister Toneworx aus Hamburg aufgenommen. „Zunächst wurden die deutschen Sprachaufnahmen über einen Zeitraum von etwa zwei Wochen umgesetzt“, erzählt Deuschel. „Vor Ort als Regie waren Matthias und ich dabei. Für die englischen Sprachaufnahmen haben wir nach einiger Suche das britische Studio OMUK engagiert – und für die französischen Sprachaufnahmen mit dem Pariser Studio Hifi-Génie Productions zusammengearbeitet.“ Dabei gab es jede Menge zu tun, denn insgesamt umfasst der Text von Ad Infinitum mehr als 3.300 Lines und fast 26.000 Wörter. Pro Sprache habe man rund 3.000 Aufnahmen angefertigt, erzählt Deuschel: „Dieses Unterfangen nahm über ein halbes Jahr in Anspruch und erforderte die Mitarbeit von fast 70 Personen, darunter etwa 40 SynchronsprecherInnen.“
Vertonte Feinheiten
Für ein narrativ starkes Spiel wie Ad Infinitum seien hochwertige Sprachaufnahmen besonders wichtig, betont Deuschel: „Durch die Darbietung der SynchronsprecherInnen werden die Charaktere erst richtig zum Leben erweckt.“ Hekate und Toneworx ließen manche Lines mehr als 20 Mal aufnehmen, bevor sie mit Ausdruck und Betonung zufrieden waren. Deuschel gibt Beispiele für die Feinheiten, auf die es bei der Synchronisation ankommt: Schon eine kleine Pause mitten im Satz könne ganz gezielt eine unausgesprochene Wahrheit enthalten; bestimmte Betonungen verdeutlichten die Beziehungen der Figuren untereinander. Das Casting für die Hauptrollen – also die Mitglieder der Familie von Schmitt – bezeichnet Deuschel als „aufwendig“: „Für jede Rolle stellten wir eine Kurzbiographie und Charakterübersicht zusammen. Außerdem legten wir neben Alter und Geschlecht bestimmte Kriterien fest.“ Für die Figur des „Schatten“ etwa habe man sich an der bekannten Stimme von Schauspieler Ben Becker orientieren wollen. „Aber noch wichtiger war natürlich eine überzeugende Darbietung“, betont Deuschel. „Unsere Sprecher – zum Beispiel Anne Moll und Jacob Weigert – mussten in ihren Rollen so einige Male an ihre Grenzen gebracht werden.“ Die größte Herausforderung bei der Synchronisation war laut Deuschel die Tatsache, dass Ad Infinitum den Krieg mit all seinen fürchterlichen Konsequenzen zeigt. So gleitet Magdalena von Schmitt (Anne Moll) immer weiter in den Wahnsinn ab, während Johannes von Schmitt (Jacob Weigert) von einem hoffnungsvollen, sensiblen Mann zu einem körperlichen und seelischen Wrack wird. „Diese tiefgreifenden Facetten unserer Charaktere haben alle SynchronsprecherInnen hervorragend zum Leben erweckt“, lobt Deuschel. „Walter Wigand verkörperte den Geist von Fritz Haber in der Rolle als Karl von Schmitt in Perfektion – und auch der inzwischen leider verstorbene Herbert Tennigkeit in der Rolle des Familienpatriachen Lothar von Schmitt, der uns mit spontanen Ständchen im schlesischen Dialekt überraschte.“ Auch Achim Buch habe – in der Rolle des „Schatten“ – Ad Infinitum maßgeblich geprägt.
Bei Altagram erforschen wir diese Möglichkeiten seit 2019
Lukas Deuschel hat intensiv mit den SynchronsprecherInnen gearbeitet. Was aber sagt er zum Trend, die Synchronisation immer stärker in KI-Tools auszulagern? „Ich stehe dem Thema momentan eher skeptisch gegenüber“, kommentiert er. „Mein Standpunkt hierzu ist insbesondere, dass ich nicht glaube, dass AI in der Lage sein wird, diese tiefen Bedeutungsebenen einer echten gespielten Darbietung zu imitieren, geschweige denn zum Leben zu erwecken.“ Was er bisher in puncto KI gesehen und gehört habe, überzeuge ihn noch nicht, so Deuschel. „Und ich glaube auch nicht, dass sich das in naher Zukunft ändern wird.“ Im Zweifelsfall würde der Game-Designer echte, menschliche Stimmen stets KI-generierten Inhalten vorziehen. „Aber mir ist natürlich durchaus bewusst, dass nicht jeder Titel diesen Anspruch einnehmen möchte – und dann vielleicht aus Kostengründen etwas Generisches bevorzugt wird.“ Auch Mikolaj Szwed von CD Projekt Red betrachtet das Thema als hochgradig kontrovers. „Ich glaube, wir befinden uns jetzt an einem Punkt der KI-Revolution in der Spieleentwicklung, der die Branche verändern wird – so, wie sich zum Beispiel Photoshop auf die Fotografie ausgewirkt hat“, sagt er. Szwed spricht sich dafür aus, auch bei der Synchronisation ethische und rechtlichen Rahmenbedingungen zu schaffen, die die Belange der SprecherInnen gebührend berücksichtigen. „Ich persönlich glaube, dass KI die menschliche Komponente – also die SprecherInnen – nie völlig ersetzen kann“, sagt Szwed. „Sie kann aber dafür genutzt werden, die Arbeit an bestimmten Stellen der Entwicklung einfacher oder schneller zu machen. Aber was genau die Zukunft bringen wird, kann – glaube ich – niemand so richtig sagen.“
Nützliche Tools
Was sagt nun eine Expertin wie Marie Amigues zu dem Thema? Ist künstliche Intelligenz etwas, was die Lokalisierungsbranche prägen wird? „KI kann in vielen verschiedenen Bereichen der Audio-Lokalisierung eingesetzt werden“, so Amigues. „Bei Altagram erforschen wir diese Möglichkeiten seit 2019, unterstützt durch die europäische Förderung H2020.“ Dabei habe man KI-Lösungen primär für die Projektplanung, für die Automatisierung der Postproduktion und für Qualitätsprüfungen entwickelt, sagt Amigues. Dies helfe dem Altagram-Team, effizienter hochwertige Ergebnisse zu liefern. „Wir haben zwar Vorbehalte gegenüber dem Einsatz von KI für die Spracherzeugung, vor allem kurzfristig bei AAA-Spielen, die unsere Spezialität sind“, sagt die CEO. „Aber wir erkennen das Potenzial für Unternehmen, die mit Budgetbeschränkungen zu kämpfen haben.“ Bei der Integration von KI-Lösungen sei es Altagram wichtig, auch „ethische Erwägungen, Urheberrechtsgesetze und die unschätzbare Rolle der menschlichen Kreativität und Expertise in unserer Branche zu berücksichtigen“. Man verfolge das Ziel, so die Geschäftsführerin, die KI-Technologien mit den menschlichen Talenten in Einklang zu bringen – denn emotionale Tiefe und eine persönliche Note könnten eben nur menschliche SprecherInnen bieten. „Seien wir ehrlich“, sagt Amigues. „Es gibt Ängste und Unsicherheiten im Zusammenhang mit dem Einsatz von KI – einschließlich der Bedenken zu Urheberrechten und zu den Auswirkungen auf Arbeitsplätze.“ Ziel von Altagram sei, die Effizienz und Qualität seiner Produkte per KI zu verbessern, ohne dabei allerdings den Wert des menschlichen Zutuns zu schmälern.
Wie die Zusammenarbeit von Mensch und Maschine mittelbar auch aussehen mag: Der Branche stehen Umwälzungen bevor. Fakt ist aber auch: Eine tolle Synchronisation – speziell mit menschlicher Beteiligung – kann ein sehr gutes Spiel noch besser machen. (Achim Fehrenbach)