Venligsindet og lydigt AI er en dårlig idé

“Hvordan kan vi sikre, at de nye AI-maskiner forbliver venligsindede og lydige?” Noget i hele denne debat er forkert tænkt i udgangspunktet, skrev Miya Perry i et essay i det amerikanske tidsskrift, Palladium tilbage i november 2023. Essayet er stadig aktuelt og bringes her i Pejlinger’s danske oversættelse.

26.10.2025

Mikael Lynnerup

Essay

Benevolent AI Is a Bad Idea
Miya Perry, Palladium, November 10, 2023

[Oversættelse]

DEN 1. APRIL 2022 annoncerede MIRI, Machine Intelligence Research Institute, organisationen der i sin tid førte an i den kulturelle kamp for idéen om kunstig generel intelligens og AI-sikkerhed – en ny strategi kaldet “død med værdighed”:

“tl;dr: Det står nu klart, at menneskeheden hverken kommer til at løse alignments-problemet, prøve særlig hårdt, eller bare at kæmpe til det sidste. Da overlevelse er uopnåelig, bør vi i stedet fokusere på at hjælpe menneskeheden med at dø med en smule mere værdighed.”

Om det var en aprilsnar eller ej, er uklart, men uanset hvad, så virker det som om de fleste i feltet er enige om, at selvom der bliver gjort fremskridt inden for AI, sker der ingen reel udvikling i AI-sikkerhed. Det overrasker mig ikke – ikke med de grundlæggende antagelser, der ligger bag.

AI-sikkerhed, oprindeligt kaldt “Benevolent AI“, (der her i en lidt kringlet dansk oversættelse er blevet til “Venligsindet og lydigt AI”), blev fra begyndelsen formuleret som problemet med at skabe en agent, der skulle være venligtsindet og lydig over for menneskeheden som helhed – under forudsætning af, at den agent ville få gudelignende kræfter. Hele denne tankegang hviler på et væld af fejlagtige antagelser, ikke nødvendigvis om teknologien, som jo endnu ikke eksisterer, men om mennesker, evnen til at handle, værdier og velvilje.

Spørgsmålet “Hvordan gør vi AI venligsindet og lydig?” er i sig selv forkert stillet. Bare det at formulere det sådan tillægger AI en form for handlekraft, som vi hverken behøver at give den, eller som den nødvendigvis overhovedet vil kunne opnå, og som i udgangspunktet tilhører os selv. Også spørgsmålet “Hvordan får vi AI til at stemme overens med menneskelige værdier?” er galt tænkt. Det bygger på en forestilling om, at “menneskelige værdier” er – eller bør være – universelle og uforanderlige; at de kan “findes frem” og defineres; og at de nødvendigvis skal defineres, før AI overhovedet kan bruges til noget godt.

Jeg har tilbragt de seneste ti år med at udforske menneskelig psykologi, både empirisk og analytisk. Jeg arbejder med mennesker, mens de undersøger deres egne tanker, følelser og beslutninger, og jeg følger med i, hvilke mentale funktioner og rutiner de har som reaktion på bestemte situationer. Sammen eksperimenterer vi med, hvordan systemet kan ændres.

Som en, der arbejder professionelt med at undersøge og forfine strukturen af menneskelig handlekraft og værdiafklaring, kan jeg sige med sikkerhed: vores kultur har kun en meget primitiv forståelse af begge dele. Den primitivitet skyldes til dels psykologiske begrænsninger. Selv mennesker, der tænker dybt over disse spørgsmål, falder konstant i fælder. Når jeg taler med folk, der arbejder med AI eller AI-sikkerhed, eller som frygter eller glæder sig til den kommende “AI-gud”, eller bare følger debatten, bliver det tydeligt, at deres forståelse af begreber som handlekraft, bevidsthed, motivation, målrettethed, værdier og lignende er sørgeligt utilstrækkelig.

Problemet med idéen om en venligsindet og lydig AI, sådan som den normalt bliver formuleret, er, at den er dømt til at fejle. En af grundene er, at så snart man forsøger at “udrede” menneskelige værdier, må man nødvendigvis omsætte dem til begreber. Men hvis der overhovedet findes noget, man kan kalde en dybere, universel menneskelig værdifunktion, så er vores bevidsthed og begrebslige tænkning blot redskaber for den, ikke dens væsen.
Ethvert projekt, der forsøger at rationalisere eller gøre hele det menneskelige målfelt bevidst, rummer en risiko. Refleksiv bevidsthed kan nemlig ikke rumme hele dette felt, og når man insisterer på, at motivation skal styres af kognition, skaber man farlige blinde vinkler og forviklinger. Ikke alle funktioner og drifter i det menneskelige system egner sig til at blive gjort bevidste, og bevidstheden er hverken venligsindet over for eller kompetent til at herske over dem alle.

Præferencer udtrykker sig altid i samspil med omgivelserne; der findes ikke et sæt værdier, som kan tænkes og stadig være fuldstændigt uafhængige af konteksten. De ting, som mennesker er i stand til at formulere og omtale som “værdier”, er allerede stærkt bearbejdede elementer af fundamentale motivationsfaktorer – de er ekstremt betingede og formede af erfaring, kulturel påvirkning, sociale strategier og ikke så lidt traume. Ethvert bevidsthedssystem, der tror, det har forstået sine egne værdier fuldt ud, vil før eller siden blive overrasket over sin egen adfærd i et tilstrækkelig ukendt miljø. Sproget beskriver kun en brøkdel af begrebslig virkelighed, og begrebslig virkelighed dækker kun en brøkdel af den faktiske mulighedsverden. Det er ikke problemer, som vi kan eller bør forsøge at overvinde; de er selve vilkåret for, hvordan abstraktion fungerer. Begrebsdannelse er og må være Gödel-uafsluttet; vores beskrivelsesevne kan antages at vokse i takt med, at systemets information vokser, men vi må aldrig behandle systemet, som om det nogensinde kan eller bør være fuldt beskrevet.

Den gode nyhed er, at vi slet ikke behøver at beskrive eller indfange de menneskelige værdier fuldstændigt. Vi kan fungere glimrende uden fuld selvindsigt; vi er ikke skabt til at have en komplet begrebsmæssig forståelse af os selv, men til at vokse i den.

Trangen til en fuldstændig beskrivelse af menneskelige værdier udspringer af ønsket om, at der må findes ét endeligt, sikkert svar, og det ønske udspringer igen af frygten for, at mennesker er for dumme, for onde eller for vanvittige til selv at kunne bestemme over deres egen skæbne. Håbet er, at “vi” (eller rettere: nogen) kan fortælle AI’en den endelige sandhed om, hvad vi burde ønske os – eller få den til at fortælle os det – og derefter bede den om at tage alle de tunge beslutninger, vi ikke selv føler os kompetente til at tage. Men vi bør være yderst på vagt over for ethvert projekt, der skal “redde” os – eller endda “styrke” os – hvis det bygger på den grundantagelse, at mennesker i bund og grund ikke duer.

Sådanne “beskyttelsesprojekter” vil, bevidst eller ubevidst, have som resultat at mindske menneskelig handlekraft. Og den intention er let at opfylde, faktisk er den allerede godt i gang med at blive opfyldt, uanset om fuldt udviklet AGI nogensinde bliver realiseret eller ej. Vi har allerede nu fået forskellige former for tilsyneladende revolutionerende automatisering, som gør den daglige livserfaring mindre og mindre præget af egen handlekraft og dermed mere og mere frustrerende, skridt for skridt. At kunne se en naturlig vej gennem virkeligheden, men ikke at kunne følge den, er en særligt frustrerende oplevelse, og det er netop den, mange af de avancerede automatiseringer producerer. Oplevelsen af at sidde bag en selvkørende bil, der kunne dreje til højre for rødt, men er for forsigtig til at gøre det. Oplevelsen af at spørge ChatGPT om et emne angående historie eller politik og få et vagt og belærende svar. Oplevelsen af at ringe til kundeservice og møde en robot. Disse hverdagsagtige, men stadig vildt frustrerende oplevelser peger på den langt mere virkelige og nært forestående version af situationen, hvor man “må skrige, men ikke har nogen mund”.

Tilbage til handlekraft

Hvis vi undlader den grundlæggende antagelse, at mennesker er inkompetente, så rummer AI faktisk potentialet til at hjælpe os med at øge menneskelig handlekraft – ikke bare, eller ikke først og fremmest, ved at give os mere magt eller teknisk rækkevidde, men ved at udvide vores begrebsmæssige horisont. På alle områder af tilværelsen er der millioner af valg, som vi aldrig ser, fordi vi er fanget i de snævre tankeformer, der styrer os. Menneskeliv leves i langt højere grad på autopilot efter nedarvede kulturelle scripts eller fysiologiske vanemønstre, end de fleste forstår. Det betyder ikke, at mennesker kan eller bør være bevidst nærværende i hvert eneste øjeblik, som mange forestiller sig, at “åndeligt oplyste” mennesker ville være.
Der findes en enklere, mere diskret form for psykologisk udvidelse: Den forandring, der sker, når et menneske opdager, at det ubevidst har opsøgt hårde, dømmende venner som et forsøg på at opnå en erstatning for forældres kærlighed – og pludselig indser, at man faktisk kan vælge at knytte sig til venlige og accepterende mennesker i stedet.
Det er den slags subtile, men dybtgående udvidelser af mulighedsrummet, der ændrer retningen for et liv. Uanset om vi er bevidste om det eller ej, bliver vores livsbaner formet af, hvor snævert vores forestilling om mulige fremtider er begrænset af vores egne begrebsmæssige vaner og indre begrænsninger.
At blive fortalt, at man har andre valgmuligheder, er sjældent nok til at ændre det. Den, der omgås dømmende venner, har formentlig fået det råd mange gange – længe før noget i ham eller hende flyttede sig nok til, at rådet kunne slå rod indefra. Og heller ikke flere håndgribelige muligheder gør nødvendigvis forskellen. Den samme person kan i årevis have været omgivet af venlige mennesker, der tilbød venskab, uden nogensinde at registrere det, fordi den underbevidste søgen efter tilbageholdt anerkendelse styrede opmærksomheden i en helt anden retning.

Sådan er det for os alle: vi er konstant omgivet af muligheder og potentialer, som vi er begrebsmæssigt blinde for. Det nuværende forestillingsrum omkring AI er stærkt begrænset af den kulturelle fantasi – og mange mennesker og projekter forfølger visioner for AI på en måde, der i praksis minder om et traumatiseret menneskes jagt på et destruktivt forhold, uden selv at indse det. De begreber, de arbejder med, er formet og forvredet af lokale erfaringer og kollektive traumer. Hvis vi spurgte en sådan person om deres “værdier” – i et introspektivt forskningsprojekt som dem, nogle forsøger at bruge til at udlede menneskets værdisystem – ville de måske sige alt muligt om ønsket om at føle sig tryg, elsket, taget hånd om, beskyttet af noget klogere og stærkere end dem selv. Men alt det ville ikke frigøre dem fra de forvanskede forestillinger, som disse værdier bygger på. At forfølge dem direkte ville i sidste ende skade dem, uanset hvor smukke og idealistiske ordene, der beskriver dem, lyder. At åbne rummet for, hvad vi overhovedet kan forestille os, kræver noget mere end ord og mere end blot empati.

Den naturlige proces for menneskelig psykologisk udvikling er, at modeller og funktioner i sindet observerer og kommenterer på hinanden. Forestil dig en person, der har en tvangsmæssig vane med at afbryde andre for at få opmærksomhed. På et tidspunkt opdager personen, at det irriterer folk – og føler skam. Selve trangen til at afbryde er én funktion; skammen er en anden.
Den anden funktion opstår som et indre spejl af den første: den iagttager, bedømmer og forsøger at kontrollere den. Når disse to funktioner støder sammen, står personen over for et falsk valg: enten at “opføre sig naturligt” og blive upopulær, eller at kontrollere sig selv og blive accepteret – men ikke for, hvem han eller hun egentlig er. Men det er naturligvis ikke de eneste to muligheder, der findes i det menneskelige adfærdsrum.
Når personen får gennemskuet sit behov for opmærksomhed og den feedback-sløjfe, det bygger på, opløses trangen gradvist.
Og først da får han eller hun en langt større frihed til at handle “naturligt”: til at reagere autentisk på situationen uden at miste sine venners respekt. Processen, hvor én funktion observerer, vurderer og eventuelt ændrer en anden, er selve det evolutionære træ i menneskelig psykologi.
Indtil nu har det miljø, som denne psykologi udvikler sig i, været den kultur og den materielle virkelighed, vi tilfældigvis befinder os i – suppleret af lidt målrettet udvikling gennem spiritualitet eller terapi. Men mulighederne for målrettet og teknologisk støttet forøgelse af menneskelig handlekraft – ikke handlekraft i betydningen flere takeaway-apps eller bedre muligheder for at lobbye regeringen via platforme, men i betydningen at være i stand til at tænke nye tanker og skabe nye muligheder – er sandsynligvis enormt underudforskede i den spirende AI-verden. Simpelthen fordi man sjældent forstår handlekraft på den måde.

Et mellemspil med en hypotetisk handlekraft-forøgende AI

Forestil dig følgende samtale mellem et menneske i krise og en særligt designet chatbot, bygget med eksisterende teknologi for sprogmodeller:

Jimmy kommer hjem efter at have været ude med vennerne og åbner sin interaktive dagbog. Han skriver, at han har det af helvede til. “Hvordan det?” spørger chatbotten.

“Jeg ved det ikke,” svarer Jimmy. “Jeg har det af H til. Alt føles bare håbløst.”

Chatbotten spørger videre: “Hvad er det for et “alt”, der føles håbløst?”
Den udfører lidt mønstergenkendelse som hjælp til Jimmys overvejelser: “Det lyder som den slags formulering, folk bruger, når de generaliserer ud fra en dårlig følelse.” Så guider den ham: “Hvordan vil du beskrive dit humør lige nu? Skamfuld? Deprimeret? Flov? Vred? Du kan vælge flere.”

Efterhånden, gennem chatbottens spørgsmål, fortæller Jimmy, at han netop har været i en situation, hvor han forsøgte at gøre indtryk på en pige, men hun grinede ikke af hans vittigheder. Chatbotten beder ham nu komme i tanke om andre gange, hvor han har haft samme følelse: “Kan du komme i tanke om fem-seks lignende episoder og beskrive, hvad der skete?”
Derefter hjælper den ham med at se mønstre: “Kan du se nogle fællestræk ved de oplevelser?”

Det særlige ved netop denne chatbot er, at den er konstrueret til at bruge en bred vifte af analytiske kommentarer. Den kan sige ting som “Det lyder som den slags sprog, folk bruger, når de generaliserer ud fra en dårlig følelse,” fordi den er trænet på eksempler af den slags refleksiv analyse.
Den er designet til at stille spørgsmål, der får brugeren til at undersøge sit eget sind. Træningsdataene kunne være sammensat af forslag fra terapeuter, neuroforskere, litteratur- og filmkritikere, forfattere – mennesker, der studerer den menneskelige tilstand både indefra og udefra, og chatbotten ville samtidig træne sig selv på Jimmy, og træne Jimmy på sig selv: sammen ville de bygge en model af de mentale processer, der fører frem til hans aktuelle sindstilstand. Ved at besvare chatbottens spørgsmål begynder Jimmy gradvist at lave en slags oplevelsesmæssig korrelation, han ellers aldrig ville have foretaget. Chatbotten fungerer som et ydre hukommelseslager for de konkrete eksempler, Jimmy giver, sammen med hans vurdering af dem.
Samtalen bliver en form for begrebsdannelses-session for Jimmy, som efterhånden begynder at se tanker som “jeg er ikke værd at bruge tid på” som resultatet af et genkendeligt mønster snarere end som en sandhed om verden. Når han først ser mønsteret, mister det meget af sin magt over ham.

Et sådant system behøver ikke være særligt avanceret. Det giver ikke Jimmy råd og fungerer ikke normativt, det er blot et ydre redskab, der støtter selvrefleksiv begrebsdannelse, og egentlig ikke et særlig sofistikeret redskab. Men det er udformet sådan, at det hele tiden henviser brugeren både til hans eget perspektiv og til perspektiver uden for ham selv, og dette forholdsvis enkle feedback-loop kunne ændre Jimmys udviklingsretning ganske markant. Man kunne forestille sig langt mere avancerede systemer bygget over samme princip, og som heller ikke behøver nogen egentlig “mål-funktion” udover de implicitte vægtninger, som både trænerne og brugeren selv bidrager med (og som naturligvis vil være betydningsfulde). Intet i Jimmys chatbot – eller i dens mere avancerede efterfølgere – kræver, at hverken AI’en eller Jimmy har nogen særlig indsigt i menneskehedens samlede mål og værdier, eller Jimmys egne, for den sags skyld, for chatbotten behøver ikke at være en moralsk dommer. Den er blot en mønstergenkendende maskine med en sokratisk spørgefunktion. Den er ikke en agent, og den behøver heller ikke være det.

Denne chatbot er ikke nogen særlig genial idé, og der ville være masser af problemer i at få den til at fungere i praksis.
Men uanset om netop en sådan “selviagttagelses-chatbot” er en løsning eller ej, så er det i det mindste et svar på et bedre formuleret problem end spørgsmålet om, hvordan man laver en “venligsindet og lydig” AGI.

Handlekraft til at skabe fremtiden

Den nuværende bølge af AI-debat og hele den kulturelle fortælling, der omgiver den, er et eksempel på, hvordan menneskelig social erkendelse kan løbe af sporet i en parasocial verden. Folk kæmper mod en imaginær fjende, som de sammen har fremmanet både i virkeligheden og i høj grad online.
De har synkroniseret sig omkring et sæt tillids- og gruppesymboler, der i praksis er følelser af konkurrence, rædsel og håbløshed, og de har forstærket og udbredt disse følelser gennem sociale medier, så de ved deres fælles frygt for et våbenkapløb faktisk har fremkaldt et.

Det ville være langt bedre at løsne grebet om denne fiksering og i stedet forestille sig anvendelser af AI, der hjælper mennesker med at blive mere forankrede i virkeligheden: teknologier, der kan hjælpe os med at udforske, hvorfor vi reagerer, som vi gør, hvordan vores impulser fungerer, og som hjælper os til at kende os selv bedre med større indsigt og som kan hjælpe os med at tilgive os selv noget mere. Jeg ved godt, at det for mange vil lyde som et uansvarligt forslag. Er det ikke en forfærdelig idé at lade være med at fokusere på noget så alvorligt og presserende? Men den reaktion er allerede indlejret i ideologien: de følelser af alvor, pligt og hastværk er selv et produkt af en bestemt måde at se verden på. Det kan være værd at spørge sig selv, om de følelser faktisk tjener én personligt. Hvis ikke de de gør, så er det langt bedre at give slip på dem.
Man kan stadig engagere sig i verden og i emnet om AI uden for denne særlige ideologis rammer. Og faktisk får man langt mere handlekraft ved at gøre det.

For uanset hvor meget vi prøver på at erstatte vores egen handlekraft, vil alt, vi bygger, altid være et produkt af den. Derfor bør vi rette vores nuværende handlekraft mod at udvide, og ikke formindske, vores fremtidige handlekraft, og blive ved med at vokse i vores smukt ufuldstændige forståelse af os selv og af verden. En “venligsindet” AI er ikke en AI, der indfanger vores mål og realiserer dem på vores vegne. En venligsindet AI er en, der hjælper os med at udforske, hvordan vi bedre kan se og skabe den slags fremtid, som vi ønsker os for os selv og hinanden.

Miya Perry is an independent psychology researcher and executive coach.
You can follow her at @woobarracuda.

Benevolent AI Is a Bad Idea
Miya Perry, Palladium, November 10, 2023
https://www.palladiummag.com/2023/11/10/benevolent-ai-is-a-bad-idea/