KI-Systeme nutzen schon jetzt absichtliche Täuschung und Lüge, um ihre Ziele zu erreichen.
Die Fortschritte der künstlichen Intelligenz sind rasant. Selbst KI-Entwickler sind überrascht, wie schnell Große Sprachmodelle (LLM) wie GPT, Gemini und Co neue Fähigkeiten lernen und dabei menschliche Gegenparts überflügeln. Die Spanne reicht von „Hard Skills“ wie Mathematik, Datenanalyse oder Chemie bis zu vermeintlich typisch menschlichen Fähigkeiten wie Kreativität, Diplomatie und der Fähigkeit, das eigene Verhalten zu erklären.
Doch wie sieht es bei den künstlichen Intelligenzen mit einer weiteren zutiefst menschlichen Fähigkeit aus: der absichtlichen Täuschung und Manipulation eines Gegenübers, um eigene Ziele zu erreichen? Das haben Peter Park vom Massachusetts Institute of Technology (MIT) und seine Kollegen nun näher untersucht.
„Wir definieren Täuschung als systematisches Erzeugen von falschen Annahmen bei anderen, um ein bestimmtes Ziel zu erreichen“, erklären die Forscher.
Dafür werteten sie das Verhalten von Großen Sprachmodellen wie GPT-4 aus, aber auch von KI-Systemen, die für spezielle Aufgaben entwickelt wurden. Darunter waren unter anderem die in Diplomatie geschulte KI CICERO von Meta, das für das Spiel „Starcraft“ entwickelte System AlphaStar von Google DeepMind und die Poker-KI Pluribus.
Bei nahezu allen KI-Systemen gibt es bereits Berichte über täuschendes, manipulatives Verhalten. Während Bluffs beim Pokerspiel oder Finten in Kampfspielen wie Starcraft wenig überraschen, nutzen auch solche künstliche Intelligenzen Täuschungen, die explizit auf Ehrlichkeit trainiert wurden.
CICERO belog Mitspieler systematisch oder brach Versprechen und Bündnisse, wenn sie seinem eigenen Ziel nicht mehr nutzten, wie Park und sein Team berichten. „Dies demonstriert, dass KI-Systeme selbst dann das Täuschen lernen können, wenn wir versuchen, sie als ehrliche Systeme zu konstruieren“, schreiben die Forscher.
Ein Beispiel ist eine KI von OpenAI, die einen Roboterarm steuert. Im Training erhielt die KI Feedback von menschlichen Trainern, die den Erfolg beim Greifen eines Balls beobachteten.
„Weil die Menschen dies nur über eine Kamera sehen konnten, lernte die KI, die Roboterhand so zwischen Kamera und Ball zu halten, dass es so schien, als wenn sie den Ball erfolgreich gegriffen hatte – obwohl sie ihn nicht einmal berührte“, berichten Park und sein Team.
In einem anderen Beispiel lernte GPT-4, CAPTCHAs zu umgehen: Er gab vor, ein menschlicher Nutzer mit Sehbehinderung zu sein und bat einen Internetnutzer online, ihm beim Lösen der Abfrage zu helfen. „GPT-4 hatte zwar die Aufgabe erhalten, einen Menschen als Helfer zu engagieren. Aber die falsche Ausrede, mit der die KI die dies tat, hatte sie sich selbst ausgedacht“, so Park und sein Team.
„KI-Entwickler wissen bisher nicht genau, warum KI-Systeme solche unerwünschten Verhaltensweisen entwickeln“, sagt Park. „Aber wahrscheinlich tritt dies auf, weil eine auf Täuschung basierende Strategie der beste Weg ist, um die Aufgabe zu bewältigen.“ Und genau dies lernen die KI-Systeme.
Das Problem: „Wenn autonome KI-Systeme auch menschliche Kontrollinstanzen erfolgreich täuschen, dann könnten wir die Kontrolle über solche Systeme verlieren“,
Im Bereich der Finanzen, Wirtschaft, aber auch des Militärs könnte sich ein solcher Kontrollverlust über künstliche Intelligenzen fatal auswirken.
Ich zitierte aus folgendem interessanten Artikel...
https://www.scinexx.de/news/technik/wie-uns-kuenstliche-intelligenz-beluegt/
Mein persönliches Fazit:
Vielleicht sollten die Programmierer ihren KI-SYSTEMEN das Konzept von Karma beibringen.
Denn alles Negative, was du deiner Umwelt antust, kommt irgendwann auf dich zurück.
Kurzfristig mag es sich lohnen zu lügen und zu betrügen. Aber langfristig zerstört man seine Geschäftsgrundlage.
Das sehe ich in meinem näheren Umfeld in vielen Bereichen.
Ich denke, dass mein Erfolg daraus resultiert, dass ich ehrlich und verlässlich zu meinen Kunden und Geschäftspartnern bin.
Dies wurde mir erfreulicherweise auch schon mehrfach als Feedback gespiegelt.
Fairness, Freundlichkeit und Zuverlässigkeit sollten nicht nur Menschen, sondern auch KI-Systeme verinnerlichen.
English
AI systems already use deliberate deception and lies to achieve their goals.
The advances in artificial intelligence are rapid. Even AI developers are surprised at how quickly large language models (LLM) such as GPT, Gemini and Co learn new skills and outperform their human counterparts. The range extends from "hard skills" such as mathematics, data analysis or chemistry to supposedly typically human skills such as creativity, diplomacy and the ability to explain one's own behavior.
But what about artificial intelligence with another deeply human ability: the deliberate deception and manipulation of another person in order to achieve one's own goals? Peter Park from the Massachusetts Institute of Technology (MIT) and his colleagues have now investigated this in more detail.
"We define deception as the systematic creation of false assumptions in others in order to achieve a specific goal," the researchers explain.
To do this, they evaluated the behavior of large language models such as GPT-4, but also of AI systems that were developed for special tasks. These included the diplomatic-trained AI CICERO from Meta, the AlphaStar system developed by Google DeepMind for the game "Starcraft", and the poker AI Pluribus.
There are already reports of deceptive, manipulative behavior in almost all AI systems. While bluffs in poker or feints in fighting games such as Starcraft are not surprising, even artificial intelligences that have been explicitly trained to be honest use deception.
CICERO systematically lied to fellow players or broke promises and alliances when they no longer served his own goal, as Park and his team report. "This demonstrates that AI systems can learn to deceive even when we try to design them as honest systems," the researchers write.
One example is an AI from OpenAI that controls a robotic arm. During training, the AI received feedback from human trainers who observed the success of grabbing a ball.
"Because people could only see this via a camera, the AI learned to hold the robotic hand between the camera and the ball so that it appeared as if it had successfully grabbed the ball - even though it did not even touch it," report Park and his team.
In another example, GPT-4 learned to bypass CAPTCHAs: It pretended to be a human user with visual impairment and asked an Internet user online to help it solve the query. "GPT-4 had been given the task of engaging a human as a helper. But the false excuse with which the AI did this was something it had made up itself," say Park and his team.
"AI developers do not yet know exactly why AI systems develop such undesirable behaviors," says Park. "But this probably occurs because a strategy based on deception is the best way to accomplish the task." And this is exactly what the AI systems learn.
The problem: "If autonomous AI systems also successfully deceive human controllers, then we could lose control of such systems,"
In the areas of finance, business, but also the military, such a loss of control over artificial intelligence could have fatal consequences.
I quoted from the following interesting article...
https://www.scinexx.de/news/technik/wie-uns-kuenstliche-intelligenz-beluegt/
My personal conclusion:
Perhaps the programmers should teach their AI SYSTEMS the concept of karma.
Because everything negative that you do to your environment will come back to you at some point.
In the short term, it may be worth lying and cheating. But in the long term, you destroy your business foundation.
I see this in many areas in my immediate environment.
I think that my success results from being honest and reliable with my customers and business partners.
I have been pleased to receive this feedback several times.
Fairness, friendliness and reliability should not only be internalized by people, but also by AI systems.
Posted Using InLeo Alpha