Bei Anfragen rund um das Thema Sprache und KI stellen sich uns als Sprecher:innen sowie dem gesamten Berufsfeld neue Fragen, auf die es noch keine etablierten Antworten gibt.

Als einer der drei deutschsprachigen Sprecherverbände geben wir als Österreichischer Sprecherverband VOICE zusammen mit dem VDS Deutschland und VPS|ASP Schweiz in unserem gemeinsamen Dokument KI GAGENKOMPASS UND VERTRAGSRICHTLINIEN DACH eine generelle Orientierung in diesen Fragen und richten uns dabei an alle, die Anfragen im KI Kontext stellen oder beantworten wollen.

PDF Download:
KI-Gagenkompass und Vertragsrichtlinien DACH
vom Österreichischen Sprecherverband VOICE

Diese deutschsprachigen Empfehlungen basieren auf den Richtlinien des globalen Dachverbands
UVA - United Voice Artists - AI Guidelines for Voice Work

Veröffentlichung: Juni 2024

Inhalt

Präambel

I Allgemeine Vertragsgrundsätze

II Stimmsynthetisierung

III Gagen KI Nutzung

IV Mindestvertonungen Live

V Weitere Vertragliche Aspekte

Präambel

Die internationale Sprechergemeinschaft ist der Überzeugung, dass Werke, die auf menschlichen Emotionen und zwischenmenschlicher Kommunikation beruhen, von echten menschlichen Stimmen vorgetragen werden sollten. Wir glauben, dass nur Menschen in der Lage sind, Gefühle überzeugend in Worte zu fassen und eine empathische Verbindung mit dem Publikum und den Zuhörer:innen herzustellen. Künstliche Intelligenz (KI) kann die Nuancen, die notwendig sind, um diese Herausforderung in hoher Qualität zu meistern, weder verstehen noch herstellen.

Die jeweiligen Verbände sind sich zugleich darüber im Klaren, dass die Entwicklung synthetischer Stimmen in Kombination mit KI unaufhaltsam voranschreitet und daher eingeordnet und angemessen bewertet werden muss, um allen Marktteilnehmer:innen eine einheitliche Orientierung und eine Berechnungsgrundlage, sowie Schutz vor Missbrauch zu bieten.

Die technischen Möglichkeiten zur Herstellung und Nutzung von KI und synthetischen Stimmen entwickeln sich in immer schnellerem Tempo – zugleich werden die Rechte der Künstler:innen oft übersehen. Vor allem in Europa schützen die DSGVO, Persönlichkeitsrechte, Urheberrechte, Vergütungsansprüche, Haftung usw. die Künstler:innen und ihre Arbeit, während in anderen Ländern der rechtliche Schutz stark variiert.

Die KI-Stimmtechnologie birgt die Gefahr, die wirtschaftliche Grundlage professionell Sprechender im schlimmsten Fall zu vernichten und die Selbstbestimmung über die eigene Stimme zu verlieren. Daher raten die Verbände allen Sprecher:innen weltweit eindringlich, abzuschließende Verträge rund um den Einsatz von KI sehr sorgfältig und gewissenhaft zu prüfen.

Die folgenden Empfehlungen und Richtlinien sollen allen Beteiligten weltweit (z.B. Künstlerinnen, Agenten, Kundinnen, Lizenzgebern, Lizenznehmerinnen, Markenvertretern, Anwältinnen und Gesetzgebern) helfen, vertragliche Vereinbarungen und angemessene Vergütungen für Sprachprojekte mit KI festzulegen. Dieses Dokument dient dabei als Leitfaden für faire Verhandlungen.

Da sich die KI-Technologie fortlaufend weiterentwickelt, müssen die folgenden Empfehlungen
im Kontext des Veröffentlichungsdatums gelesen werden. (Mitte 2024)

I. Allgemeine Vertragsgrundsätze

Um eine faire Zusammenarbeit zu gewährleisten, sollten die folgenden Grundsätze die Basis eines jeden Vertrags bilden.

Generelle Zustimmung

Die Erstellung eines digitalen Abbilds der Stimme einer jeden Person darf nur mit ihrer ausdrücklichen Zustimmung erfolgen. Dabei muss eine detaillierte Beschreibung der beabsichtigten Verwendung gegeben werden.

Angepasste Vergütung

Die Vergütung muss den Umfang aller Nutzungen der digitalen Stimm-Kopie eines Sprechers widerspiegeln und dabei alle Aspekte (quantitativ, zeitlich, räumlich, technisch, medial etc.) berücksichtigen.

Allgemeine Nutzungsbeschränkung

Gänzlich uneingeschränkte Rechte zum Einsatz des digitalen Stimm-Duplikats sollten niemals vereinbart werden.

Zeitliche Beschränkung

Zeitlich uneingeschränkte Rechte zum Einsatz des digitalen Stimm-Duplikats sollten niemals vereinbart werden.

Opt-Out-Prinzip

Der Sprecher muss die Möglichkeit haben, die Verwendung seiner Stimme für die KI-Erstellung zum Ende einer jeden Vertragslaufzeit zu beenden. In dem Fall muss der Lizenznehmer (Auftraggeber) auf Wunsch des Lizenzgebers (Sprecher:in) eine vollständige Löschung der stimmgebenden Daten gewährleisten und darüber hinaus die Herstellung der Stimme oder ihrer Merkmale durch geeignete technische Mittel verhindern.

Stimmtreue (Blended Voices / Morphing)

Im Hinblick auf Rückverfolgbarkeit, Mitbestimmung, Persönlichkeits-, und Werbungsrechte wird das “Blended Voices / Morphing Verfahren” (auch ‘gemischte Stimmen’ genannt) von Sprecherinnen entschieden abgelehnt. Wird eine solche Vereinbarung dennoch getroffen, sollte jeder einzelne Sprecher, dessen Stimme einen Teil der gemischten Stimme ausmacht, nicht nur anteilig, sondern vollständig entschädigt werden. Zudem muss er das volle Zustimmungsrecht behalten und sollte unter allen Umständen in der Lage sein, das Repertoire, in dem die gemischte Stimme verwendet wird, zu kontrollieren.

Sprachtreue (Einzigartigkeit der Sprache, Fremdsprachen)

Um internationale Märkte zu schützen und die Kultur der jeweiligen Sprache zu bewahren, sollten KI-generierte Übersetzungen der gesprochenen Sprache nicht vorgenommen werden.

Marktortprinzip

Um Lohndumping durch unterschiedliche Gagenniveaus im internationalen Markt zu vermeiden, sollte sich das Gagenniveau immer mindestens am Standard des Verwertungslandes orientieren.

II. Stimmsynthetisierung

Damit KI-Systeme in der Lage sind, künstliche Stimmen zu erzeugen, muss die Originalstimme einer Sprecher:in zunächst synthetisiert werden.

Jeder Sprecherin steht es selbstverständlich frei, die eigene Stimme auf eigene Kosten zu synthetisieren und selbstverwaltet anzubieten.

Wird die Stimmsynthetisierung jedoch durch einen Kunden / ein Studio / eine Produktion durchgeführt, so muss der Sprecher dafür vergütet werden. In diesem Kapitel werden die einzelnen Gagenkomponenten dafür dargestellt.

Zusätzlich ist ein vollumfänglicher Vertrag unter Berücksichtigung der Allgemeinen Vertragsgrundsätze (Kapitel I) über den Einsatz der Aufnahmen unabdingbar.

Die Gagenposten dieses Kapitels II ‘Stimmsynthetisierung’ entschädigen nur für den Input der Sprecherin in das KI-System und/oder ihre Studioarbeit, beziehungsweise die Option, die Stimme anzubieten. Sie räumen keine Nutzungsrechte ein. Die Nutzung muss immer zusätzlich vergütet werden. (siehe Kapitel III)

Die ‘Neural Learning Fee’ (II. A.) und die ‘Vergütung zur Herstellung von Trainingsmaterial’ (II. B.) sind als einmalige Zahlungen zu verstehen. Die ‘Listing Fee’ (II. C.) hingegen ist als wiederkehrende Zahlung (z.B. monatlich) zu vereinbaren.

II. A.
Neural Learning Fee

Immer wenn eine menschliche Stimme mit ihrer spezifischen Stimm-Identität in das neuronale Netz eines KI-Anbieters gespeist wird (z.B. Open AI, Eleven Labs, Microsoft, Google), erfährt dieses System einen Lernerfolg. Das stellt die Basis der Weiterentwicklung der stimmgebenden neuronalen KI-Systeme dar, und hat einen hohen Wert.

Wenn dieser Trainingsprozess von Auftraggeberseite nicht eindeutig und nachweisbar ausgeschlossen werden kann, muss muss die ausdrückliche Zustimmung dafür eingeholt und der Sprecher dafür durch eine ‘Neural Learning Fee’ vergütet werden, egal ob vorab aufgenommenes Material genutzt wird oder gezielt Aufnahmen hergestellt werden.

Zum besseren Verständnis:

Das große Problem beim neuronalen Lernen von KI-Systemen liegt darin, dass ein einmal erzielter Lernerfolg niemals wieder rückgängig gemacht werden kann. Das System erfährt eine nachhaltige Weiterentwicklung, auch wenn die ursprünglichen Trainingsdaten gelöscht werden. Insofern stellt das Material von professionellen Sprecher:innen einen enormen Wert für die zu trainierenden Systeme dar.

Da es bei diesem Lernprozess um mehr als nur das Imitieren des Klangs einer Stimme geht, nämlich um die gesamte Stimmidentität eines Menschen, also alle individuellen charakterlichen Parameter, (z.B. Klang, Timing, Atmen, Druck, Lebenserfahrung, Humor, Charme, Liebenswürdigkeit, Persönlichkeit…) stellt der Sprecher damit seine gesamte professionelle Expertise und wirtschaftliche Einzigartigkeit komplett zur Verfügung. Aus diesem Grund kann das neuronale Lernen potenziell einen wirtschaftlichen Totalschaden für den Sprecher bedeuten.

Problematischerweise ist vielen Auftraggebern dabei nicht vollumfänglich bewusst, wie und wo die Trainingsdaten, die sie in ihre Systeme speisen, im Hintergrund weiterverarbeitet werden.

Aus diesem Grund raten die Verbände generell, dem ‘Neural Learning’ eine klare Absage zu erteilen oder ihm, wenn es nicht sicher ausgeschlossen werden kann, einen hohen Wert beizumessen, der im sechsstelligen Bereich liegen sollte.

II. B.
Vergütung Basis-Synthese

Will ein Auftraggeber ein eigenes digitales Stimmduplikat einer Sprecherin herstellen, muss er dafür die grundsätzliche Erlaubnis einholen und mit einer einmaligen Basisgage vergüten. In der Basis-Synthese Gage sind pauschal 5 Studiotage enthalten, in denen die Sprecherin Material für die Synthetisierung einsprechen kann. Darüber hinaus benötigte Studiozeit muss zusätzlich vergütet werden.

Basis-Synthese pauschal (inklusive 5 Studiotage)

5.000 € - 7.500 €

Tagessatz zum Sprechen von zusätzlichem Trainingsmaterial

1.000 € - 1.500 €

Lizenzen und Anmerkungen:
Diese Lizenzen gelten ausschließlich zur Synthetisierung der Stimme im kundeneigenen geschlossenen System unter explizitem Ausschluss von ‘Neural Learning’. Diese Gage beinhaltet keine weiteren Rechte oder Lizenzen, weder zur Nutzung der digitalen Stimmerzeugung, noch zum Einsatz der Ergebnisse der KI-generierten Stimme, noch zum Neural Learning. Diese Rechte müssen bei Bedarf zusätzlich erworben werden.
Die Basisgage ist im Sinne einer Pauschale immer voll zu zahlen, unabhängig davon, ob die Zeit im Studio komplett, teilweise oder gar nicht abgerufen wird. Ein Studiotag ist auf 5 Arbeitsstunden begrenzt.

II. C.
Listing Fee

Anbieten und Verkaufen von synthetisierten Stimmen

Die Weiterentwicklung der KI Stimmtechnologie bietet unterschiedlichen Marktteilnehmern die Möglichkeit, ihre Dienstleistung durch das Feilbieten von digitalisierten Stimmen zu erweitern (z.B. Tonstudios, Sprecherdatenbanken, Agenturen, etc.) Das Angebot digitaler Stimmen muss vorab von den ursprünglichen Sprecher:innen autorisiert und durch eine ‘Listing Fee’ vergütet werden.

Die Höhe der Listing Fee ist frei zu verhandeln und kann von einer symbolischen Gage von 150 Euro pro Jahr bis zu mehreren Tausend Euro pro Jahr angesetzt werden.

Die Listing Fee autorisiert den Anbieter ausschließlich, das synthetisierte Stimmenabbild anzubieten. Die Rechte an der digital nachgebildeten Stimme und deren Output verbleiben jedoch immer beim Originalsprecher. Die Listing Fee beinhaltet keine Nutzungsrechte. Alle Nutzungsrechte müssen unabhängig von der Listing Fee und der möglichen Kompensation für die Stimmsynthetisierung verhandelt und jeweils lizenziert werden.

Die Listing Fee sollte zudem immer von einem abzuschließenden Vertrag begleitet werden, der alle Details der Zusammenarbeit, die Vergütung der Nutzungslizenzen und klare Absprachen zur Transparenz, Qualitätskontrolle und Zustimmung rund um den Stimmeneinsatz regelt.

III. Gagen KI Nutzung

In diesem Kapitel geht es um die Nutzung des KI-generierten Outputs. Grundsätzlich basiert die Vergütung von Sprecher:innen auf dem Verkauf von Nutzungslizenzen ihrer Stimme. Die KI-Technologie ändert an diesem Grundsatz nichts! Es gilt:

Nutzung ist Nutzung.

Die Höhe der Vergütung ist immer abhängig vom Umfang der Nutzung und der erreichten Zielgruppe. Die Verbände geben dafür bereits etablierte nationale Listen heraus, die neben konkreten Gagenhöhen auch Empfehlungen für Pakete, Mengenrabatte und weitere gagenprägende Aspekte beinhalten:

VOICE Österreich

VOICE Honorarsätze

sprecherverband.at/de/honorarsaetze

VDS Deutschland

VDS-Gagenkompass

sprecherverband.de/service/vds-gagenkompass

VPS|ASP Schweiz

VPS-ASP Tarifliste

vps-asp.ch/about/tariff

Zum besseren Verständnis:

Auch wenn die Anwendung von KI dem Kunden im Produktionsprozess möglicherweise Zeit und Geld einsparen kann, bleiben die Ansprüche aus der Vergabe von Nutzungslizenzen für die eigene Stimme unverändert, egal durch welche Methode diese hergestellt wurde. Solange die Qualität einer digitalen Replik den Anforderungen eines Kunden an die Darstellung seiner Marke, seines Produkts oder seiner Inhalte mit einer KI-generierten Stimme gerecht wird, gibt es keinen guten Grund, den Lizenzgeber (Sprecher:in) anders zu vergüten als bisher.

Da die KI-Technologie nicht nur das volle Spektrum bereits bekannter Formen, sondern auch neue Arten und Umfänge der Verwertung von Sprache mit sich bringen kann, sind die konkreten Posten der nationalen Gagenlisten mitunter nicht direkt anwendbar. In dem Fall sollten die nationalen Listen und ihre Gagenhöhen in den jeweiligen Genres die Basis für die Ermittlung einer neu festzusetzenden Gage darstellen - unter Berücksichtigung der in Kapitel II dargelegten ‘Allgemeinen Vertragsgrundsätze’.

IV. Mindestvertonungen live

Bei dem Einsatz von KI-Stimmen ist pro Produktion stets eine Basis an originär menschlich eingesprochenem Material herzustellen.

Die deutschsprachigen Verbände sehen die KI-Stimmsynthese nicht als Ersatz der echten Stimme, sondern als Ergänzung dieser. Deshalb, und um eine stilistische Vielfältigkeit in unterschiedlichen Produktionen und für unterschiedliche Marken zu bewahren, sollte bei den meisten Projekten eine Mindestanzahl an Motiven / Sendungen / Kapiteln / Modulen von der echten Stimme vertont und vergütet werden und erst anschließend durch dessen KI-Stimme im gleichen Sprechstil ergänzt und vergütet werden.

Genre

Umfang Mindest-
vertonungen live

Anmerkungen

Paid Media

5 - 15 Motive

pro Kampagne / Produkt

z.B. TV-Spot, Funk-Spot, Online-Spot usw.

Unpaid Media

1 Motiv / 1 Modul /
2 Min.

pro Kampagne / Produkt

z.B. Webvideo, Imagefilm, Präsentation, App usw.

Hörbuch

60 Min
(1 FAH Final Audio Hour)

pro Hörbuch (Titel)

Games

1 Studiostunde

pro Rolle und pro Titel

Bemessung Textlänge Folgestunde 600 Wörter.

Nur anwendbar bei stimmlich beanspruchenden und monotonen Rollen sowie bis zu 10 Pickups.

Kein KI-Einsatz bei regulären Rollenaufnahmen.

Synchron

1 Studiostunde

pro Rolle und pro Titel

Nur anwendbar bei bis zu 10 Pickups.

Kein KI-Einsatz bei regulären Rollen

Redaktionelle Inhalte

15 Minuten

pro Film, Folge, Sendung, Titel

z.B. Dokumentarfilme, TV-Reportagen usw.

Alle hier nicht aufgeführten Genres benötigen nicht zwangsläufig eine Mindestanzahl an live gesprochenen Anteilen und können, nach Vereinbarung, auch ausschließlich durch die KI-Stimme generiert werden. Die Lizenzen & Anmerkungen zu jedem Genre finden sich in den jeweiligen nationalen Gagenlisten.

Setzt sich eine Kampagne aus mehreren unterschiedlichen Medien zusammen, so gilt die Mindestanzahl des höherpreisigen Segments (z.B. bei Paid Media & Unpaid Media gilt die Anzahl der Paid Media Motive).

V. Weitere Vertragliche Aspekte

Bei der Verhandlung eines KI-Vertrags sollten die folgenden Faktoren gründlich bedacht und berücksichtigt werden.

V. A.
Rechtliche Aspekte

Persönlichkeits- und Veröffentlichungsrechte -
Das Recht an der eigenen Stimme

Die Sprecherin ist durch das Persönlichkeitsrecht besonders geschützt. Das beinhaltet das Recht an der eigenen Stimme. Dieses Recht ist nicht übertragbar, auch nicht im Falle einer Stimmvervielfältigung. Die Sprecherin sollte daher die Möglichkeit haben, eine Nutzung der Aufnahmen abzulehnen, die über den ursprünglich vereinbarten Zweck hinausgeht, auch wenn eine zusätzliche Vergütung angeboten wird.

Urheberrecht und geistiges Eigentum

Es sollte klar kommuniziert und schriftlich festgehalten werden, dass der Sprecher, der die Stimme "leiht", auch die Rechte an der digitalen Kopie besitzt. In der EU sind Sprecher durch das Urheberrecht und geistige Eigentumsrechte geschützt und es können nur Lizenzen für die Nutzung übertragen werden. Alle Beteiligten sollten sich auch darüber im Klaren sein, dass KI-generierte Inhalte nicht automatisch urheberrechtlich geschützt sind.

Datenschutz

Die Lizenznehmerin muss sicherstellen, dass die persönlichen Daten des Sprechers geschützt sind und der Sprecher ordnungsgemäß darüber informiert wird. In der EU ist der Datenschutz durch die Datenschutz-Grundverordnung (DSGVO) streng geregelt. Abgesehen von den Hinweisen unter Punkt II (Allgemeine Vertragsgrundsätze) dürfen die für die Stimmvervielfältigung erforderlichen Daten und die daraus resultierenden Informationen zu keinem Zeitpunkt außerhalb der EU verarbeitet oder dahin übertragen werden. Das bedeutet, dass sich die Server, auf denen die KI gehostet wird, und die Server, auf denen sich der Algorithmus befindet und das Replikat verarbeitet wird, in der EU (bestenfalls im deutschsprachigen Raum) befinden müssen, um ausreichenden Schutz zu gewährleisten.

Gerichtsstand

Der im Vertrag angegebene Gerichtsstand muss das Land des Wohnsitzes der Sprecherin sein.

Haftungsausschluss

Der Sprecher ist von jeglicher Haftung für die mit seiner digitalen Nachbildung produzierten Inhalte zu befreien. Die gesamte Haftung liegt bei der Auftraggeberin, dem Einsatzbetrieb und dem KI-Anbieter (wie im AI Act definiert). Diese Parteien sollten dafür eine Haftpflichtversicherung abschließen.

V. B.
Vertragliche Aspekte

Zustimmung zu neuen Nutzungsformen

Möchte der Kunde das digitale Abbild für ein neues Produkt, Programm oder eine neue Funktion verwenden oder die Nutzung um eine andere, nicht im ursprünglichen Vertrag aufgeführte Weise erweitern, muss er zuvor die erneute und ausdrückliche Zustimmung der Sprecherin in Form einer Vertragsergänzung einholen, in der der neue Verwendungszweck schriftlich, exakt festgehalten wird.

Exklusivität

Eine etwaige Exklusivität muss genau definiert werden. Jede Form der Exklusivität muss im Honorar berücksichtigt werden. Die entsprechende Vergütung kann durchaus im 6-stelligen Bereich liegen,

Verbot der Namensnennung

In einigen Märkten ist das Recht auf Namensnennung des Sprechers gesetzlich verankert. Wird vertraglich vereinbart, dass der Sprecher nicht genannt wird, muss der Wertverlust des Stimmgebers gesondert ausgeglichen werden. Dieser kann auf bis zu 100 % des ursprünglichen Honorars geschätzt werden.

Qualität der digitalen Nachbildung

Die Sprecherin hat ein berechtigtes Interesse daran, zu überprüfen, wie gut die digitale Nachbildung ihre natürliche Stimme imitiert und wie gut sie die Sprache umsetzt (z. B. Phonetik, Sprachmelodie, Betonung, Ausdruck). Da eine minderwertige digitale Nachbildung ihrem Ruf schaden könnte, sollte die Sprecherin das Recht haben, das Endprodukt abzunehmen und vor der Veröffentlichung bei Bedarf eine qualitativ hochwertigere Sprachsynthese zu verlangen.

Spezifische Produkte/Programme

Im Vertrag sollte genau festgelegt werden, für welches Produkt, Programm, welche Plattform, welche Rolle, welches Gebiet, welchen Zeitraum und welche Sprache die digitale Nachbildung verwendet werden darf und in welchem Umfang sie den Nutzern zur Verfügung gestellt wird. Eine teilweise unbeschränkte Nutzung kann zwar auch vereinbart werden, allerdings ist eine klare Eingrenzung notwendig, um die Vergütung und die Nutzungsrechte angemessen zu bestimmen.

Ausschluss von bestimmten Inhalten und Missbrauch

Die Sprecherin sollte das Recht haben, bestimmte Arten von Inhalten auszuschließen. Dies kann unter anderem die Verwendung ihrer Stimme für politische, religiöse, erotische/pornografische oder andere kontroverse Inhalte sein. Darüber hinaus sollte jeglicher Missbrauch durch eine der Parteien, die Zugang zu der digitalen Nachbildung haben (Anbieter, Importeur, Vertreiber oder Bereitsteller im Sinne des AI Acts), unterbunden und auf Kosten des Auftraggebers verfolgt werden. Diese Parteien tragen die Sorgfaltspflicht dafür und müssen die Sprecherin unverzüglich informieren, sobald sie von dem Missbrauch oder der Verwendung in ausgeschlossenen Inhalten erfahren.

Gebührentransparenz

Dem Sprecher sollte das Recht eingeräumt werden, seine vertraglich vereinbarte Vergütungsstruktur in regelmäßigen Abständen (z.B. alle 3 Jahre) anzupassen, um etwaige Marktentwicklungen, Inflation, Änderungen des Marktwertes der eigenen Stimme uvm. abbilden zu können. Der Kundin steht es frei, den Vertrag bei einer Preisanpassung seitens des Sprechers nicht zu verlängern. In diesem Falle ist eine umgehende und vollständige Löschung der stimmgebenden Daten durch die Kundin zu gewährleisten und darüber hinaus die Wiedergabe der Stimme oder ihrer Merkmale durch geeignete technische Mittel zu verhindern.

Klar verständliche Informationen zur Datenverarbeitung

Jede Aufzeichnung, Verwendung oder Speicherung von Sprachdaten ist eine Form der Datenverarbeitung im Sinne der Datenschutz-Grundverordnung (DSGVO), die die menschliche Stimme zu den biometrischen Daten zählt und damit als besonders sensibel einstuft. Daher müssen die Sprecher zum Zeitpunkt der Unterzeichnung der Vereinbarung in einem Datenschutzhinweis ausdrücklich über die betreffende Datenverarbeitung informiert werden. Außerdem sollte eine ausdrückliche Zustimmung darüber eingeholt werden.

Umgang mit NDAs

Verschwiegenheitsvereinbarungen sollten immer zeitlich begrenzt sein und niemals dazu verwendet werden, Industriestandards zu untergraben.

Verschwiegenheitsvereinbarungen oder entsprechende Klauseln dürfen niemals leichtfertig unterzeichnet werden. Sie bringen den Sprecher zum Schweigen und schränken seine Möglichkeiten ein, unlauteres Geschäftsgebaren aufzudecken, zu verfolgen und die Umstände der Gemeinschaft, der Öffentlichkeit und der Presse mitzuteilen.

Vertragssprache & geltendes Recht

Der Vertrag sollte in der Muttersprache der Sprecherin verfasst werden, damit diese ihn vollständig verstehen kann - oder zumindest in einer zweisprachigen Version, bei der die Muttersprache der Sprecherin die maßgebliche und rechtlich bindende Sprache ist. Sollte ein Vertrag in einer anderen Sprache (z.B. Englisch) oder ein zweisprachiger Vertrag erforderlich sein, ist es Aufgabe des Auftraggebers / KI-Anbieters, die Kosten für die Übersetzung in die Muttersprache der Sprecherin zu übernehmen. Besondere Aufmerksamkeit gilt es auch dem auf den Vertrag anwendbaren Recht zu widmen, da es für die Auslegung und Durchsetzung der Vertragsbestimmungen entscheidend ist, insbesondere im Hinblick auf Aspekte der Rechteübertragung.

Anwalts- und Gerichtskosten

Dem Sprecher sollte ausreichend Zeit eingeräumt werden, um den Vertrag von einer Anwältin seiner Wahl prüfen zu lassen. Das bedeutet, dass die in der Synchron- und Gamingbranche gängige Praxis, nach der Sprecher ihren Vertrag direkt vor oder nach der Aufnahmesession im Studio unterschreiben, im KI-Kontext nicht mehr praktikabel ist. Eine juristische Prüfung und Beratung zu Sprecherverträgen ist heutzutage unerlässlich. Die Kosten hierfür sind vom Auftraggeber zu tragen. In jedem Fall muss jeder Vertrag unter Berücksichtigung der konkreten Umstände der jeweiligen Situation ausgehandelt, angepasst und vervollständigt werden und dann durch "Standard-Klauseln" ergänzt werden.

Haftungsausschluss:
Diese Richtlinien und Empfehlungen erheben keinen Anspruch auf Vollständigkeit und können von Zeit zu Zeit geändert werden, da sich die Gesetzgebung in Bezug auf Transparenz von Datenbanken, Kennzeichnung und Nachverfolgbarkeit von KI Inhalten noch im Entwicklungsstadium befindet und von Land zu Land unterschiedlich sein kann (z. B. der EU AI Act im Vergleich zu Gesetzen in den USA). Da die Interpretation und Anwendung der Bestimmungen je nach Gerichtsbarkeit und geltendem Recht variieren kann, empfehlen die Verbände, bei Bedarf Rechtsbeistand in Anspruch zu nehmen und die Standards zu überprüfen, die durch die Arbeit nationaler Gewerkschaften und Verbände etabliert wurden.

Vertragsbedingungen - Generative KI

Präambel

I. Allgemeine Vertragsgrundsätze

Generelle Zustimmung

Angepasste Vergütung

Allgemeine Nutzungsbeschränkung

Zeitliche Beschränkung

Opt-Out-Prinzip

Stimmtreue (Blended Voices / Morphing)

Sprachtreue (Einzigartigkeit der Sprache, Fremdsprachen)

Marktortprinzip

II. Stimmsynthetisierung

II. A. Neural Learning Fee

Zum besseren Verständnis:

II. B. Vergütung Basis-Synthese

II. C. Listing Fee

III. Gagen KI Nutzung

Zum besseren Verständnis:

IV. Mindestvertonungen live

V. Weitere Vertragliche Aspekte

V. A. Rechtliche Aspekte

Persönlichkeits- und Veröffentlichungsrechte - Das Recht an der eigenen Stimme

Urheberrecht und geistiges Eigentum

Datenschutz

Gerichtsstand

Haftungsausschluss

V. B. Vertragliche Aspekte

Zustimmung zu neuen Nutzungsformen

Exklusivität

Verbot der Namensnennung

Qualität der digitalen Nachbildung

Spezifische Produkte/Programme

Ausschluss von bestimmten Inhalten und Missbrauch

Gebührentransparenz

Klar verständliche Informationen zur Datenverarbeitung

Umgang mit NDAs

Vertragssprache & geltendes Recht

Anwalts- und Gerichtskosten

II. A.
Neural Learning Fee

II. B.
Vergütung Basis-Synthese

II. C.
Listing Fee

V. A.
Rechtliche Aspekte

Persönlichkeits- und Veröffentlichungsrechte -
Das Recht an der eigenen Stimme

V. B.
Vertragliche Aspekte