Wie das ChatGPT-Wasserzeichen funktioniert und warum es umgangen werden könnte

ChatGPT von OpenAI hat eine Möglichkeit eingeführt, Inhalte automatisch zu erstellen. Pläne eine Wasserzeichenfunktion einzuführen, um die erstellten Inhalte leicht zu erkennen, machen einige Leute nervös. Hier erfährst du, wie das ChatGPT-Wasserzeichen funktioniert und warum es eine Möglichkeit geben könnte, es zu umgehen.

ChatGPT ist ein unglaubliches Tool, das Online-Publisher, Affiliates und SEOs gleichzeitig lieben und fürchten.

Einige Vermarkter lieben es, weil sie neue Möglichkeiten entdecken, wie sie es nutzen können, um Kurzbeschreibungen, Skizzen und komplexe Artikel zu erstellen.

Die anderen fürchten sich vor der Aussicht, dass KI-Inhalte die Suchergebnisse überschwemmen und die von Menschen geschriebenen Fachartikel verdrängen könnten.

Daher wird die Nachricht über ein Wasserzeichen, das die Erkennung von Inhalten, die von ChatGPT verfasst wurden, ermöglicht, mit Spannung und Hoffnung erwartet.

Kryptografisches Wasserzeichen

Ein Wasserzeichen ist ein halbtransparentes Zeichen (ein Logo oder Text), das in ein Bild eingebettet wird. Das Wasserzeichen zeigt an, wer der ursprüngliche Autor des Werks ist.

Man sieht es vor allem bei Fotos und zunehmend auch bei Videos.

Das Wasserzeichen in ChatGPT ist ein kryptografisches Verfahren, bei dem ein Muster aus Wörtern, Buchstaben und Satzzeichen in Form eines Geheimcodes eingebettet wird.

Scott Aaronson und ChatGPT-Wasserzeichen

Ein einflussreicher Informatiker namens Scott Aaronson wurde im Juni 2022 von OpenAI eingestellt, um an KI-Sicherheit und -Ausrichtung zu arbeiten.

KI-Sicherheit ist ein Forschungsbereich, der sich damit beschäftigt, wie KI den Menschen schaden kann und wie man diese Art von negativen Störungen verhindern kann.

Die wissenschaftliche Zeitschrift Distill, an der auch Autoren von OpenAI beteiligt sind, definiert KI-Sicherheit wie folgt:

Das Ziel der langfristigen Sicherheit von künstlicher Intelligenz (KI) ist es, sicherzustellen, dass fortschrittliche KI-Systeme zuverlässig an menschlichen Werten ausgerichtet sind – dass sie zuverlässig Dinge tun, die Menschen von ihnen erwarten.

KI-Ausrichtung ist der Bereich der künstlichen Intelligenz, der sich damit beschäftigt, sicherzustellen, dass die KI an den beabsichtigten Zielen ausgerichtet ist.

Ein großes Sprachmodell (LLM) wie ChatGPT kann auf eine Art und Weise verwendet werden, die den von OpenAI definierten Zielen von AI Alignment zuwiderläuft, nämlich KI zu schaffen, die der Menschheit nützt.

Der Grund für das Wasserzeichen ist also, den Missbrauch von KI in einer Weise zu verhindern, die der Menschheit schadet.

Aaronson erläuterte den Grund für die Kennzeichnung der ChatGPT-Ausgabe mit Wasserzeichen:

Dies könnte natürlich hilfreich sein, um akademische Plagiate zu verhindern, aber auch, um zum Beispiel die massenhafte Erzeugung von Propaganda zu verhindern.

Wie funktioniert das ChatGPT-Wasserzeichen?

ChatGPT Watermarking ist ein System, das ein statistisches Muster, einen Code, in die Wahl von Wörtern und sogar Satzzeichen einbettet.

Inhalte, die von künstlicher Intelligenz erstellt werden, werden mit einem ziemlich vorhersehbaren Muster der Wortwahl erzeugt.

Die von Menschen und KI geschriebenen Wörter folgen einem statistischen Muster.

Die Änderung des Wortmusters in den generierten Inhalten ist eine Möglichkeit, den Text mit einem “Wasserzeichen” zu versehen, damit ein System leicht erkennen kann, ob er von einem KI-Textgenerator erstellt wurde.

Der Trick, der das Wasserzeichen für KI-Inhalte unentdeckbar macht, besteht darin, dass die Verteilung der Wörter immer noch ein zufälliges Aussehen hat, ähnlich wie bei normalem KI-generiertem Text.

Dies wird als pseudozufällige Verteilung von Wörtern bezeichnet.

Pseudozufälligkeit ist eine statistisch zufällige Folge von Wörtern oder Zahlen, die nicht wirklich zufällig ist.

ChatGPT-Wasserzeichen werden derzeit nicht verwendet. Scott Aaronson von OpenAI hat jedoch zu Protokoll gegeben, dass es geplant ist.

Im Moment befindet sich ChatGPT in der Vorschauphase, die es OpenAI ermöglicht, “Fehlausrichtungen” in der realen Welt zu entdecken.

Vermutlich wird das Wasserzeichen in der endgültigen Version von ChatGPT oder schon früher eingeführt werden.

Scott Aaronson hat darüber geschrieben, wie Wasserzeichen funktionieren:

Mein Hauptprojekt war bisher ein Werkzeug, mit dem ich die Ergebnisse eines Textmodells wie GPT mit einem statistischen Wasserzeichen versehen kann.

Im Grunde genommen wollen wir, dass jedes Mal, wenn GPT einen langen Text erzeugt, ein ansonsten unauffälliges geheimes Signal in der Wortwahl enthalten ist, mit dem man später beweisen kann, dass dieser Text von GPT stammt.

Aaronson erklärt weiter, wie das ChatGPT-Wasserzeichen funktioniert. Aber zuerst ist es wichtig, das Konzept der Tokenisierung zu verstehen.

Die Tokenisierung ist ein Schritt in der natürlichen Sprachverarbeitung, bei dem die Maschine die Wörter in einem Dokument in semantische Einheiten wie Wörter und Sätze zerlegt.

Durch die Tokenisierung wird der Text in eine strukturierte Form gebracht, die beim maschinellen Lernen verwendet werden kann.

Beim Prozess der Texterzeugung errät die Maschine anhand des vorherigen Tokens, welches Token als nächstes kommt.

Dies geschieht mit einer mathematischen Funktion, die die Wahrscheinlichkeit für das nächste Token bestimmt, eine so genannte Wahrscheinlichkeitsverteilung.

Welches Wort als nächstes kommt, wird vorhergesagt, aber es ist zufällig.

Das Wasserzeichen selbst bezeichnet Aaron als pseudozufällig, d. h. es gibt einen mathematischen Grund dafür, dass ein bestimmtes Wort oder Satzzeichen vorhanden ist, aber es ist immer noch statistisch zufällig.

Hier ist die technische Erklärung des GPT-Wasserzeichens:

Bei GPT ist jede Eingabe und Ausgabe eine Kette von Token, die aus Wörtern, Satzzeichen, Wortteilen oder mehr bestehen können – insgesamt gibt es etwa 100.000 Token.

Im Kern erzeugt das GPT ständig eine Wahrscheinlichkeitsverteilung für das nächste zu erzeugende Token, die von der Kette der vorherigen Token abhängt.

Nachdem das neuronale Netz die Verteilung erstellt hat, wählt der OpenAI-Server ein Token entsprechend dieser Verteilung aus – oder einer modifizierten Version der Verteilung, abhängig von einem Parameter namens “Temperatur”.

Solange die Temperatur ungleich Null ist, ist die Auswahl des nächsten Tokens in der Regel zufällig: Du könntest immer wieder dieselbe Eingabeaufforderung verwenden und jedes Mal einen anderen Abschluss (d. h. eine andere Kette von Token) erhalten.

Für das Wasserzeichen wird das nächste Token also nicht zufällig ausgewählt, sondern pseudozufällig mit Hilfe einer kryptografischen Pseudozufallsfunktion, deren Schlüssel nur OpenAI bekannt ist.

Das Wasserzeichen sieht für diejenigen, die den Text lesen, völlig natürlich aus, weil die Wahl der Wörter die Zufälligkeit aller anderen Wörter nachahmt.

Aber diese Zufälligkeit enthält eine Verzerrung, die nur von jemandem entdeckt werden kann, der den Schlüssel zum Entschlüsseln hat.

Das ist die technische Erklärung:

Zur Veranschaulichung: In dem speziellen Fall, dass GPT eine Reihe möglicher Token hat, die es als gleich wahrscheinlich einstuft, könntest du einfach das Token wählen, das g maximiert. Die Wahl würde für jemanden, der den Schlüssel nicht kennt, gleichmäßig zufällig aussehen, aber jemand, der den Schlüssel kennt, könnte später g über alle n-Gramme summieren und sehen, dass es anomal groß ist.

Wasserzeichen sind eine Lösung, bei der die Privatsphäre im Vordergrund steht

Ich habe in den sozialen Medien Diskussionen gesehen, in denen einige Leute vorgeschlagen haben, dass OpenAI jede Ausgabe, die es erzeugt, aufzeichnen und zur Erkennung verwenden könnte.

Scott Aaronson bestätigt, dass OpenAI das tun könnte, aber dass dies ein Problem für den Datenschutz darstellt. Die mögliche Ausnahme ist die Strafverfolgung, auf die er aber nicht näher eingegangen ist.

Wie man ChatGPT oder GPT-Wasserzeichen erkennt

Etwas Interessantes, das noch nicht sehr bekannt zu sein scheint, ist, dass Scott Aaronson darauf hingewiesen hat, dass es eine Möglichkeit gibt, das Wasserzeichen zu umgehen.

Er hat nicht gesagt, dass es möglich ist, das Wasserzeichen zu überwinden, sondern dass es überwunden werden kann.

Das alles kann mit genügend Aufwand umgangen werden.

Wenn du zum Beispiel eine andere KI benutzt, um GPTs Output zu paraphrasieren, wir werden nicht in der Lage sein, das zu entdecken.

Es scheint so, als ob das Wasserzeichen umgangen werden kann, zumindest im November, als die obigen Aussagen gemacht wurden.

Es gibt keinen Hinweis darauf, dass das Wasserzeichen derzeit verwendet wird. Aber wenn es zum Einsatz kommt, kann es sein, dass es nicht bekannt ist, ob dieses Schlupfloch geschlossen wurde.