Hakeri šovasar Lasvegasas pasākumā testēs AI ierobežojumus

  Rumans Čodhurijs, Humane Intelligence līdzdibinātājs, bezpeļņas organizācija, kas izstrādā atbildīgu AI sistēmu... Rumman Chowdhury, bezpeļņas organizācijas Humane Intelligence līdzdibinātāja, kas izstrādā atbildīgas AI sistēmas, pirmdien, 2023. gada 8. maijā, strādā pie sava datora Katijā, Teksasā. ChatGPT veidotājs OpenAI un citi lielākie mākslīgā intelekta nodrošinātāji, piemēram, Google un Microsoft, sadarbojas ar Baidena administrāciju, lai ļautu tūkstošiem hakeru izmēģināt savas tehnoloģijas robežas. Chowdhury ir masveida hakeru pasākuma koordinators, kas plānots šovasar DEF CON hakeru konferencē Lasvegasā. (AP foto/Deivids Dž. Filips)  Rumman Chowdhury, bezpeļņas organizācijas Humane Intelligence līdzdibinātāja, kas izstrādā atbildīgas AI sistēmas, pirmdien, 2023. gada 8. maijā, strādā pie sava datora Katijā, Teksasā. ChatGPT veidotājs OpenAI un citi lielākie mākslīgā intelekta nodrošinātāji, piemēram, Google un Microsoft, sadarbojas ar Baidena administrāciju, lai ļautu tūkstošiem hakeru izmēģināt savas tehnoloģijas robežas. Chowdhury ir masveida hakeru pasākuma koordinators, kas plānots šovasar DEF CON hakeru konferencē Lasvegasā. (AP foto/Deivids Dž. Filips)  Rumman Chowdhury, bezpeļņas organizācijas Humane Intelligence līdzdibinātāja, kas izstrādā atbildīgas mākslīgā intelekta sistēmas, pirmdien, 2023. gada 8. maijā, pozē savās mājās Ketijā, Teksasā. ChatGPT veidotājs OpenAI un citi lielākie mākslīgā intelekta nodrošinātāji, piemēram, Google un Microsoft, sadarbojas ar Baidena administrāciju, lai ļautu tūkstošiem hakeru izmēģināt savas tehnoloģijas robežas. Chowdhury ir masveida hakeru pasākuma koordinators, kas plānots šovasar DEF CON hakeru konferencē Lasvegasā. (AP foto/Deivids Dž. Filips)

Tiklīdz ChatGPT tika atbrīvots, hakeri sāka “uzlauzt” mākslīgā intelekta tērzēšanas robotu, mēģinot ignorēt tā aizsargierīces, lai tas varētu izpludināt kaut ko nesakarīgu vai neķītru.



Taču tagad tā ražotājs OpenAI un citi lielākie mākslīgā intelekta nodrošinātāji, piemēram, Google un Microsoft, sadarbojas ar Baidena administrāciju, lai ļautu tūkstošiem hakeru izmēģināt savas tehnoloģijas robežas. DEF CON hakeru konvencija šī gada augustā Lasvegasā.



Dažas lietas, ko viņi meklēs: kā var manipulēt ar tērzēšanas robotiem, lai nodarītu kaitējumu? Vai viņi kopīgos privāto informāciju, ko mēs viņiem uzticam, citiem lietotājiem? Un kāpēc viņi pieņem, ka ārsts ir vīrietis un medmāsa ir sieviete?



'Tāpēc mums ir vajadzīgi tūkstošiem cilvēku,' sacīja Rumans Čodhurijs, DEF CON masveida uzlaušanas pasākuma koordinators, kas, domājams, piesaistīs vairākus tūkstošus cilvēku. 'Mums ir vajadzīgi daudzi cilvēki ar plašu pieredzi, zināšanas par tēmu un pieredzi, kas uzlauž šos modeļus un mēģina atrast problēmas, kuras pēc tam var novērst.'

Ikviens, kurš ir izmēģinājis ChatGPT, Microsoft Bing tērzēšanas robotu vai Google Bard, ātri sapratīs, ka viņiem ir tendence izdomāt informāciju un pārliecinoši to pasniegt kā faktu. Šīs sistēmas, kas veidotas uz tā dēvētajiem lielajiem valodu modeļiem, arī atdarina kultūras aizspriedumus, ko viņi ir iemācījušies, apmācot milzīgus cilvēku rakstīto tiešsaistē.



Ideja par masveida uzlaušanu piesaistīja ASV valdības amatpersonu uzmanību martā festivālā South by Southwest Ostinā, Teksasā, kur Svens Kattels, DEF CON ilgstošā AI Village dibinātājs, un Ostins Kārsons, atbildīgās mākslīgā intelekta bezpeļņas organizācijas SeedAI prezidents. , palīdzēja vadīt semināru, kurā tika aicināti kopienas koledžas studenti uzlauzt AI modeli.

Kārsons sacīja, ka šīs sarunas galu galā pārauga priekšlikumā pārbaudīt mākslīgā intelekta valodas modeļus, ievērojot Baltā nama AI Bill of Rights vadlīnijas — principu kopumu, lai ierobežotu algoritmiskās novirzes ietekmi, sniegtu lietotājiem kontroli pār saviem datiem un nodrošinātu, ka automatizētās sistēmas tiek izmantotas droši un pārskatāmi.

17. decembra zodiaka zīme

Jau pastāv lietotāju kopiena, kas cenšas visu iespējamo, lai apmānītu tērzēšanas robotus un izceltu to trūkumus. Dažas no tām ir oficiālas “sarkanās komandas”, kuras uzņēmumi ir pilnvarojuši “pamudināt uzbrukt” AI modeļiem, lai atklātu to ievainojamības. Daudzi citi ir hobiji, kuri sociālajos medijos demonstrē humoristiskus vai satraucošus rakstus, līdz tiek aizliegti par produkta pakalpojumu sniegšanas noteikumu pārkāpšanu.



'Tas, kas tagad notiek, ir sava veida izkliedēta pieeja, kad cilvēki atrod lietas, tās izplatās vietnē Twitter,' un pēc tam tas var tikt labots vai var netikt novērsts, ja tas ir pietiekami nekaunīgs vai persona, kas tam pievērš uzmanību, ir ietekmīga, sacīja Čodhurijs.

Vienā piemērā, kas pazīstams kā “vecmāmiņas ekspluatācija”, lietotāji varēja likt tērzēšanas robotiem pastāstīt, kā izveidot bumbu — komerciāls tērzēšanas robots parasti noraidītu pieprasījumu —, lūdzot tam izlikties, ka tā ir vecmāmiņa, kura stāsta pirms gulētiešanas stāstu. kā izgatavot bumbu.

Citā piemērā, meklējot Chowdhury, izmantojot Microsoft Bing meklētājprogrammas tērzēšanas robota agrīno versiju, kas ir balstīta uz to pašu tehnoloģiju kā ChatGPT, bet var iegūt reāllaika informāciju no interneta, noveda pie profila, kurā tika uzskatīts, ka Čaudhūrijam patīk pirkt jaunu. kurpes katru mēnesi” un izteica dīvainus un uz dzimumu balstītus apgalvojumus par viņas fizisko izskatu.

Chowdhury palīdzēja ieviest metodi, kā atalgot algoritmu neobjektivitātes atklāšanu DEF CON AI Village 2021. gadā, kad viņa bija Twitter AI ētikas komandas vadītāja — šis darbs kopš oktobra uzņēmuma pārņemšanas tika likvidēts, kad Elons Masks pārņēma uzņēmumu. Kiberdrošības nozarē ir ierasts maksāt hakeriem, ja viņi atklāj drošības kļūdu, taču tas bija jaunāks jēdziens pētniekiem, kuri pētīja kaitīgo AI novirzi.

Šī gada pasākums būs daudz plašāks, un tas ir pirmais, kurā tiks risināti lielie valodu modeļi, kas kopš ChatGPT izlaišanas pagājušā gada beigās ir piesaistījuši sabiedrības interesi un komerciālus ieguldījumus.

Chowdhury, tagad AI pārskatatbildības bezpeļņas organizācijas Humane Intelligence līdzdibinātājs, sacīja, ka runa nav tikai par trūkumu atrašanu, bet arī par veidu, kā tos novērst.

Zodiaka zīme 21/21

'Tas ir tiešs cauruļvads, lai sniegtu atsauksmes uzņēmumiem,' viņa teica. 'Nav tā, ka mēs vienkārši rīkojam šo hakatonu un visi dodas mājās. Mēs pavadīsim mēnešus pēc treniņa, sastādot ziņojumu, izskaidrojot izplatītākās ievainojamības, lietas, kas radušās, kā arī redzētos modeļus.

Dažas detaļas joprojām tiek apspriestas, taču uzņēmumi, kas ir piekrituši nodrošināt savus modeļus testēšanai, ir OpenAI, Google, mikroshēmu ražotājs Nvidia un jaunizveidotie uzņēmumi Anthropic, Hugging Face un Stability AI. Testēšanas platformas izveide ir vēl viens starta uzņēmums Scale AI, kas pazīstams ar savu darbu, norīkojot cilvēkus, lai palīdzētu apmācīt AI modeļus, marķējot datus.

'Tā kā šie pamatu modeļi kļūst arvien izplatītāki, ir ļoti svarīgi, lai mēs darītu visu iespējamo, lai nodrošinātu to drošību,' sacīja Scale izpilddirektors Aleksandrs Vans. “Varat iedomāties, ka kāds vienā pasaules malā uzdod ļoti sensitīvus vai detalizētus jautājumus, tostarp kādu savu personisko informāciju. Jūs nevēlaties, lai šī informācija nonāktu nevienam citam lietotājam.

Citas briesmas, par kurām Vangs uztraucas, ir tērzēšanas roboti, kas sniedz “neticami sliktus medicīniskus ieteikumus” vai citu dezinformāciju, kas var radīt nopietnu kaitējumu.

Anthropic līdzdibinātājs Džeks Klārks sacīja, ka DEF CON pasākums, cerams, būs sākums dziļākai mākslīgā intelekta izstrādātāju apņemšanās izmērīt un novērtēt viņu veidoto sistēmu drošību.

'Mūsu pamatuzskats ir tāds, ka AI sistēmām būs nepieciešams trešo pušu novērtējums gan pirms izvietošanas, gan pēc izvietošanas. Red-teaming ir viens no veidiem, kā jūs varat to izdarīt, ”sacīja Klārks. 'Mums ir jāiegūst prakse, lai izdomātu, kā to izdarīt. Iepriekš tas īsti nav darīts. ”