KI im Global People Business

Die einen sehen sie als Chance, andere scheuen sich noch davor: Künstliche Intelligenz, kurz KI, ist in aller Munde. Sie findet in zahlreichen Bereichen Anwendung – gerade im Global Business ist sie nicht mehr wegzudenken. Wir haben uns in den letzten Monaten verstärkt mit dem Thema beschäftigt und möchten Ihnen in diesem Beitrag unsere Learnings zur Verfügung stellen.

Warum KI? Um Zeit & Geld zu sparen!

KI kann vor allem im Global People Business dabei helfen, Sprachbarrieren zu reduzieren. Mithilfe der richtigen Tools lässt sich eine günstigere, schnellere und effektivere globale Kommunikation erreichen – sowohl für die interne Unternehmenskommunikation mit unseren Mitarbeitenden aus über 40 Nationen, als auch mit unseren geschätzten Kund*innen weltweit. Immerhin sind wir mit unseren Services in mehr als 75 Ländern aktiv.

Mit zunehmendem Fokus auf audiovisuelle Kommunikation möchten wir mehr persönliche Einblicke in unser Unternehmen geben und vor allem eines zeigen: Menschen! Untertitel schienen dem kaum gerecht zu werden. Folglich haben wir auf ein KI-Tool zurückgegriffen, um die Originalaufnahmen mit Lippensynchronisation der Sprecher*innen in andere Sprachen zu transferieren.

Welches Tool eignet sich besonders für westliche Sprachen? Unserer Meinung nach “Rask”!

Grundsätzlich bieten KI-Tools zur Videobearbeitung die Möglichkeit, vor Abschließen eines Abos die Funktionen mit einem eigenen Video kostenfrei zu testen. Wir empfehlen Ihnen, dieses Angebot in Anspruch zu nehmen, um anschließend die Ergebnisse vergleichen zu können und das für Ihre Bedürfnisse geeignetste Tool auszuwählen. Unsere Wahl fiel auf “Rask”.

Wie funktioniert die Arbeit mit dem Tool? Zuerst definiert die KI die Anzahl der unterschiedlichen Sprecher*innen. Dann wird das gesprochene Wort transkribiert und in die Zielsprache übersetzt. Anschließend erfolgt die Lippensynchronisation „auf Knopfdruck“. Hierfür werden die Originalstimmen geklont.

Während die komplette Übersetzung je nach Videolänge nur einige Minuten dauert, kann das Generieren der Lippensynchronisation (kurz: LipSync) aktuell noch bis zu mehreren Stunden dauern. Woran das liegt? Die Dauer bis zur Fertigstellung der Synchronisation richtet sich nach Anzahl der Projekte in der Warteschleife, die das Tool bearbeiten muss.

In einigen Fällen kann es notwendig sein, zusätzlich manuellen Videoschnitt anzuwenden. So zum Beispiel, wenn B-Role Material im Video vorhanden ist: Bei Aktivierung der Lippensynchronisation lässt die KI nämlich auch hier die Münder mitbewegen. Auch werden beispielsweise englische Stellen im Original bei der Synchronisation ins Englische nicht „ausgelassen“, sondern neu übersetzt und mit der geklonten Stimme übersprochen.

Mit welchen Herausforderungen ist zu rechnen? Der Teufel liegt im Detail!

Sowohl hinsichtlich Übersetzung als auch Lippensynchronisation zeigten sich Herausforderungen. Zwar werden beide Prozesse „per Knopfdruck“ gestartet. Für die Nachbearbeitung muss allerdings Zeit und Geduld mitgebracht werden:

Herausforderungen bei der Übersetzung und Synchronisation mit KI:

Falsche Übersetzungen aufgrund von zu schnellem und/oder undeutlichem Sprechen
Unterschiedliche Textlängen nach Übersetzung in andere Sprachen: Dies resultierte in unnatürlich schnelle oder langsame Sprechgeschwindigkeiten in der synchronisierten Version (Englische Übersetzungen z.B. sind in den meisten Fällen kürzer als die deutschen Ausgangstexte).

Herausforderungen bei der Lippensynchronisation mit KI:

Münder blieben an manchen Stellen zu und bewegten sich nicht, obwohl die Person sprach
„Flimmern“ im Bereich der Gesichtspartie (v.a. in der Anfangsphase des Tools sowie bei Männern mit Bartwuchs)
Korrekturen sind erst nach erneuter Lippensynchronisation sichtbar. Aufgrund der Detailarbeit musste folglich einiges an Wartezeit mit anderweitiger Arbeit überbrückt werden, sodass die Videos nicht ohne Unterbrechung fertiggestellt werden konnten.

Wie können diese Herausforderungen gemeistert werden? Durch kreative menschliche Umwege!

Automatische Übersetzung? Review durch Natives lohnt sich dennoch:

Trotz der grundsätzlich gut gelungenen, automatisch generierten, Übersetzungen bleibt es weiterhin unabdingbar, diese gründlich überprüfen zu lassen – bestenfalls durch Muttersprachler*innen. Gerade den Kontext erkennt die KI nicht immer richtig, was zu Übersetzungsfehlern und echten Fettnäpfchen führen kann. Auch von nicht zu übersetzenden Begriffen aus dem Corporate Wording macht die KI keinen Halt.

Unzufrieden mit dem Ergebnis der LipSync? Das können Sie tun:

Bis auf einige Ausnahmen ist es grundsätzlich möglich, Unregelmäßigkeiten in der Lippensynchronisation sowie unterschiedliche Sprechtempos durch die Anpassung auf Timestamp-Ebene manuell zu korrigieren. Auf Nachfrage teilte uns der Kundenservice von Rask mit, dass diese Unregelmäßigkeiten (wie ein geschlossener Mund trotz gesprochenem Text) abhängig von der Mundbewegung im Originalvideo sind. Bestimmt werden Updates hier künftig schnell Verbesserungen mit sich bringen.

Unnatürliche Sprechgeschwindigkeit? Abhilfe schafft diese neue Funktion in Rask:

Zu viele oder zu wenige Zeichen in der übersetzten Transkription resultierten in eine unnatürliche Sprechgeschwindigkeit. Einige Updates zuvor war hier die einzige Möglichkeit, sich eigenständig zu überlegen, wie man diese mit Füllwörtern oder zusätzlichen Informationen so ergänzen kann, dass die nötige Zeichenanzahl für den jeweiligen Timeframe erreicht wird. Das war sehr zeitaufwendig. Nun gibt es hierfür eine neue Lösung “per Knopfdruck”: Übersetzungen mit deutlich weniger/mehr Zeichen als im Original können von der KI jetzt ohne Informationsverlust mit der benötigten Zeichenlänge umformuliert werden. Wir haben es getestet und können bestätigen: Es funktioniert!

Falsche Aussprache? Werden Sie kreativ:

Trotz stets gleicher Schreibweise kann es vorkommen, dass die KI ein und dasselbe Wort unterschiedlich aussprechen lässt. Um Ihnen ein Beispiel zu geben: Unser Unternehmensname „ICUnet“ wurde mal richtig (/aisijunet/), mal falsch (/ikunet/) ausgesprochen. Was haben wir gemacht? Verschiedene Schreibweisen getestet in der Hoffnung, dass eine davon dann in der richtigen Aussprache resultiert. Die Lösung für unseren Fall war schließlich: “I see you net”.

Die beeindruckendsten Erkenntnisse?

Eine KI lernt unglaublich schnell!

Jedes einzelne Update brachte deutlich erkennbare Verbesserungen mit sich:

Als wir die Arbeit mit dem Tool begannen, waren wir manchmal noch unzufrieden mit dem Ergebnis der Lippensynchronisation: Flimmern im Bereich der Mundpartie, unnatürliches Lächeln, unechte Zähne. Vor allem seit LipSync bei Rask nicht mehr in der Beta-Phase ist, haben sich die Ergebnisse enorm verbessert. Auch der Synchronisationsprozess geht mittlerweile deutlich schneller.
Die Aussprache in der Synchronisation änderte sich von Zeit zu Zeit: So reagierte die KI beispielsweise irgendwann auf Satzzeichen und veränderte entsprechend die Intonation des Satzes.
Manchmal wurden Länderakzente aus dem Original-Video übernommen: So behielt die geklonte Stimme in der englischen Synchronisation beispielsweise einen österreichischen oder indischen Akzent. Dies ist einerseits beeindruckend, andererseits kann aber gerade dies Kritik mit sich bringen: Impliziert dies, dass eine indische oder eine österreichische Person etwa kein akzentfreies Englisch sprechen kann? Zumindest bot das Tool keine Möglichkeit, dies zu beeinflussen. Erst einige Updates später fielen die Akzente weg.

Es gibt einen Unterschied im Ergebnis der Synchronisation westlicher und östlicher Sprachen!

Mit Rask haben wir unsere Videos in Englisch, Spanisch, Französisch und Chinesisch übersetzen und synchronisieren lassen. Wie fiel nun das Feedback unserer Muttersprachler*innen aus? „Rask“ scheint sich für westliche Sprachen wirklich gut zu eignen. Das Feedback zum chinesischen Ergebnis hingegen war kritisch: Tonlage und Pausen entsprachen nicht den sprachlichen Gewohnheiten, wirkten sehr mechanisch und emotionslos. Die Konsequenz war, dass der individuelle Redestil verloren ging. Die Betonungen waren teilweise falsch und konnten auch nicht manuell korrigiert werden.

Dieses Feedback verdeutlicht, wie wichtig das Einbeziehen interkultureller Expertise und die Korrektur durch Muttersprachler*innen sind. Da also gerade die KI-Standards in China und Europa weit auseinanderklaffen, entschieden wir uns für den chinesischen Markt für Videos mit englischer Lippensynchronisation und chinesischen Untertiteln, deren Qualität wir mit Gewissheit gewährleisten konnten.

Fazit: Wir sagen „Ja“ zu KI – aber unsere Natives behalten das letzte Wort!

Es ist beeindruckend, wie die KI von Rask Stimmen klont und so unsere Mitarbeitenden jegliche Sprachen und Akzente sprechen lassen kann! Es handelt sich um eine innovative Methode zur Überwindung von Sprachbarrieren für eine schnellere globale Kommunikation. Prozesse werden grundsätzlich beschleunigt: Übersetzungen lassen sich deutlich schneller und günstiger umsetzen. Trotz dieser fortschrittlichen KI-Technologie können dennoch Ungenauigkeiten in der Übersetzung und Synchronisation auftreten, was Überprüfungen durch Muttersprachler*innen notwendig macht. Wir sind der Meinung: Nur so kann Qualität und sprachliche Korrektheit gesichert werden.

Und wie schnell arbeitet man sich ein? Anfangs erfordert es, etwas Zeit zu investieren. „Learning by doing“ ist jedoch ein Ansatz, mit dem man hier schnell Sicherheit im Umgang mit dem insgesamt recht intuitiven Tool gewinnt. Bei Fragen ist idR. mit einer schnellen Rückmeldung vom Kundenservice zu rechnen.

Die KI kann einem nicht 100% der Arbeit abnehmen, vor allem, wenn der eigene Qualitätsanspruch hoch ist. Wir haben viele Vorteile bei der Videobearbeitung mit Rask gesehen und sind sehr zufrieden mit dem fertigen Ergebnis. Gleichzeitig freuen wir uns auf weitere revolutionierende Funktionen durch sicherlich engmaschige Updates des Tools.

Abschließend bleibt zu sagen, dass uns Transparenz, Ehrlichkeit sowie ein offener Umgang mit dem Thema wichtig sind. Mitarbeitende wurden vor Veröffentlichung um ihre Zustimmung gebeten und in jedem Video ein deutlich sichtbarer Disclaimer eingebaut. Dieser weist durchgängig darauf hin, dass es sich bei dem bearbeiteten Video nicht um eine Originalaufnahme handelt und KI angewendet wurde.

Neugierig? Im Video können Sie sich ein eigenes Bild der Ergebnisse machen! Falls Sie mehr sehen wollen: Wir laden Sie herzlich dazu ein, sich durch unsere USA, Indien, China, Mexiko und Frankreich Websites zu klicken, denn hier finden Sie die übersetzten und synchronisierten Videos in kompletter Länge.