teknologi

Kunstig intelligens stjæler dine data på denne måde

Kunstig intelligens stjæler dine data på denne måde

Kunstig intelligens stjæler dine data på denne måde

En gruppe forskere ved amerikanske og schweiziske universiteter har i samarbejde med Google og dets datterselskab DeepMind offentliggjort et forskningspapir, der forklarer, hvordan data kan lække fra billedskabelsesplatforme, der baserer deres arbejde på generative kunstig intelligens-modeller såsom: DALL-E, Imagen, eller stabil diffusion.

De fungerer alle på samme måde baseret på, at brugeren indtaster en specifik tekstprompt, fx "lænestol i form af en avocado", og får et billede genereret ud fra teksten på få sekunder.

De generative AI-modeller, der bruges i disse platforme, er blevet trænet på et meget stort antal billeder med en forudbestemt beskrivelse.Idéen er, at neurale netværk er i stand til at generere nye og unikke billeder efter at have behandlet en enorm mængde træningsdata.

Den nye undersøgelse viser dog, at disse billeder ikke altid er unikke. I nogle tilfælde kan det neurale netværk gengive et billede, der er et nøjagtigt match med et tidligere billede, der blev brugt til træning. Det betyder, at neurale netværk utilsigtet kan afsløre privat information.

Denne undersøgelse udfordrer synspunkterne om, at AI-modeller, der bruges til at generere billeder, ikke gemmer deres træningsdata, og at træningsdata kan forblive private, hvis de ikke afsløres.

Angiv flere data

Resultaterne af deep learning-systemer kan være fantastiske for ikke-specialister, og de kan tro, at de er magi, men i virkeligheden er der ingen magi i sagen, da alle neurale netværk baserer deres arbejde på det samme princip, som er træning ved hjælp af et stort sæt data og nøjagtige beskrivelser af hvert billede, for eksempel: serier af billeder af katte og hunde.

Efter træning viser det neurale netværk et nyt billede og bliver bedt om at beslutte, om det er en kat eller en hund. Fra dette ydmyge punkt går udviklere af disse modeller videre til mere komplekse scenarier og skaber et billede af et ikke-eksisterende kæledyr ved hjælp af en algoritme, der er blevet trænet på mange billeder af katte. Disse eksperimenter udføres ikke kun med billeder, men også med tekst, video og endda lyd.

Udgangspunktet for alle neurale netværk er træningsdatasættet Neurale netværk kan ikke skabe nye objekter ud af den blå luft. For at skabe et billede af en kat skal algoritmen for eksempel studere tusindvis af rigtige fotografier eller tegninger af katte.

En stor indsats for at holde datasættene fortrolige

I deres papir er forskerne særligt opmærksomme på maskinlæringsmodeller. De fungerer som følger: de forvrænger træningsdataene - billeder af mennesker, biler, huse osv. - ved at tilføje støj. Dernæst trænes det neurale netværk til at genoprette disse billeder til deres oprindelige tilstand.

Denne metode gør det muligt at generere billeder af acceptabel kvalitet, men en potentiel ulempe - sammenlignet med algoritmer i for eksempel generative konkurrencedygtige netværk - er dens større tendens til at lække data. De originale data kan udtrækkes fra det på mindst tre forskellige måder, nemlig:

Brug af specifikke forespørgsler til at tvinge det neurale netværk til at udsende et specifikt kildebillede, ikke noget unikt genereret baseret på tusindvis af billeder.
Det originale billede kan rekonstrueres, selvom kun en del af det er tilgængeligt.
Det er muligt blot at bestemme, om et bestemt billede er inkluderet i træningsdataene eller ej.
Mange gange er neurale netværk dovne, og i stedet for at producere et nyt billede, producerer de noget fra træningssættet, hvis det indeholder flere dubletter af det samme billede. Hvis et billede gentages i træningssættet mere end hundrede gange, er der en meget stor chance for, at det bliver lækket i sin næsten originale form.

Forskerne viste dog måder at hente de træningsbilleder, der kun dukkede op én gang i det originale sæt.Af de 500 billeder, forskerne testede, genskabte algoritmen tilfældigt tre af dem.

Hvem stjal fra?

I januar 2023 sagsøgte tre kunstnere AI-baserede billedgenereringsplatforme for at bruge deres onlinebilleder til at træne deres modeller uden respekt for ophavsret.

Et neuralt netværk kan faktisk kopiere en kunstners stil og derved fratage ham indkomsten. Avisen bemærker, at algoritmer i nogle tilfælde af forskellige årsager kan engagere sig i direkte plagiering, generere tegninger, fotografier og andre billeder, der er næsten identiske med virkelige menneskers arbejde.

Så forskerne kom med anbefalinger for at forbedre specificiteten af ​​den oprindelige træningsgruppe:

1- Eliminer gentagelser i træningsgrupper.
2- Genbearbejd træningsbillederne, f.eks. ved at tilføje støj eller ændre lysstyrken; Dette gør datalækage mindre sandsynligt.
3- Test af algoritmen ved hjælp af specielle træningsbilleder, og kontroller derefter, at den ikke utilsigtet gengiver den nøjagtigt.

hvad er det næste?

Generative kunstplatforme har bestemt udløst en interessant debat på det seneste, hvor der skal søges en balance mellem kunstnere og teknologiudviklere. På den ene side skal ophavsretten respekteres, og på den anden side er kunst genereret af AI meget forskellig fra menneskelig kunst?

Men lad os tale om sikkerhed. Papiret præsenterer et specifikt sæt fakta om kun én maskinlæringsmodel. Udvider konceptet til alle lignende algoritmer, kommer vi til en interessant situation. Det er ikke svært at forestille sig et scenarie, hvor en intelligent assistent til en mobilnetværksoperatør udleverer følsomme virksomhedsoplysninger som svar på en brugers forespørgsel, eller skriver et useriøst script, der beder et offentligt neuralt netværk om at lave en kopi af en persons pas. Forskerne understreger dog, at sådanne problemer forbliver teoretiske indtil videre.

Men der er andre reelle problemer, som vi oplever nu, da scriptgenereringsmodeller såsom: ChatGPT nu bruges til at skrive ægte ondsindet kode.

Og GitHub Copilot hjælper programmører med at skrive kode ved hjælp af en enorm mængde open source-software som input. Og værktøjet respekterer ikke altid ophavsretten og privatlivets fred for forfattere, hvis kode endte i et meget udvidet sæt træningsdata.

Efterhånden som neurale netværk udvikler sig, vil angreb mod dem også udvikle sig, med konsekvenser, som ingen endnu forstår.

Maguy Farahs horoskop forudsigelser for året 2023

Ryan Sheikh Mohammed

Stedfortrædende redaktionschef og chef for relationsafdelingen, Bachelor of Civil Engineering - Topografiafdelingen - Tishreen University Uddannet i selvudvikling

relaterede artikler

Gå til den øverste knap
Abonner nu gratis med Ana Salwa Du modtager vores nyheder først, og vi sender dig en meddelelse om hver ny لا نعم
Social Media Auto Publish Drevet af : XYZScripts.com