От същия автор

Бюлетин „Либерален преглед в неделя“

Pin It

 

2024 02 Anthropic Doomsday

 

Няколко седмици преди пускането на Клод, нов чатбот с изкуствен интелект от стартъпа Anthropic, нервната енергия в централата на компанията в Сан Франциско може да задвижи ракета.

На дълги маси в кафенето, осеяни с кутии от Spindrift и шахматни дъски, загрижени инженери довършват новия интерфейс на Клод в стил ChatGPT с кодово име Project Hatch.

Наблизо друга група обсъжда проблеми, които могат да възникнат в деня на пускането. (Какво ще стане, ако напливът от нови потребители претовари сървърите на компанията? Какво ще стане, ако Клод случайно заплашва или тормози хората, създавайки неприятности в стил „Бинг“?)

В дъното на коридора, в конферентна зала със стъклени стени, главният изпълнителен директор на Anthropic, Дарио Амодей, преглежда собствения си списък с потенциални бедствия.

„Винаги се притеснявам дали моделът няма да направи нещо ужасно, което не сме забелязали“, казва той.


Small Ad GF 1

Въпреки малкия си размер – само 160 служители – и ниската си популярност, Anthropic е една от водещите изследователски лаборатории в света в областта на изкуствения интелект – а също и сериозен съперник на гиганти като Google и Meta. Тя е набрала повече от 1 млрд. долара от инвеститори, включително Google и Salesforce, и на пръв поглед напрегнатите ѝ вибрации може да изглеждат не по-различни от тези във всеки друг стартъп, който се подготвя за голямо начало [междувременно инвестициите във фирмата са достигнали гигантската сума от близо 8 милиарда долара, което я прави сериозен конкурент в областта на ИИ].

Но разликата е, че служителите на Anthropic не се притесняват само от това, че приложението им ще се повреди или че потребителите няма да го харесат. Те се страхуват – на дълбоко, екзистенциално ниво – от самата идея за това, което правят: да създават мощни модели на изкуствен интелект и да ги пускат в ръцете на хора, които могат да ги използват, за да вършат ужасни и разрушителни неща.

Много от тях смятат, че моделите на изкуствения интелект бързо се приближават до ниво, на което могат да бъдат считани за изкуствен общ интелект или „A.G.I.“ – индустриалният термин за машинен интелект на човешко ниво. И се опасяват, че ако не бъдат внимателно контролирани, тези системи биха могли да вземат връх и да ни унищожат.

„Някои от нас смятат, че A.G.I. – в смисъл на системи, които са приблизително способни колкото човек с университетско образование – може би ще се появи след пет до десет години“, казва Джаред Каплан, водещ учен на Anthropic.

Само допреди няколко години тревогите от идеята за „въстание“ на изкуствените интелекти се смятаха за крайно нереалистична утопия, която много експерти отхвърляха, като се има предвид колко далеч е технологията от човешкия интелект. (Един от изследователите на изкуствения интелект сравни тревогите за роботи-убийци с тревогите за „пренаселеността на Марс“).

Бюлетин „Либерален преглед в неделя“

Но в момента паниката за изкуствения интелект е в разгара си. След грандиозния дебют на ChatGPT миналата година технологичните лидери и експертите по изкуствен интелект предупреждават, че големите езикови модели – системите за изкуствен интелект, които захранват чатботове като ChatGPT, Bard и Claude – стават твърде мощни. Регулаторните органи се надпреварват да затягат контрола върху индустрията, а стотици експерти по изкуствен интелект наскоро подписаха отворено писмо, в което сравняват изкуствения интелект с пандемиите и ядрените оръжия.

В Anthropic факторът на обреченост е увеличен до 11.

Преди няколко месеца, след като имах малко плашещ сблъсък с един друг чатбот, захранван с изкуствен интелект, компанията ме покани да вляза в централата ѝ, докато се подготвяше да пусне новата версия на Клод – Клод 2.

Прекарах няколко седмици в интервюиране на ръководителите на Anthropic, разговори с инженери и изследователи и срещи с продуктови екипи преди пускането на Клод 2. И макар първоначално да си мислех, че ще ми покажат някаква слънчева, оптимистична визия за потенциала на изкуствения интелект – свят, в който учтиви чатботове обучават студенти, правят офис служителите по-продуктивни и помагат на учените да лекуват болести – скоро разбрах, че розовите очила не са точно работа на Anthropic.

Очевидно те бяха по-заинтересовани да ме изплашат.

В поредица от дълги и откровени разговори служителите на Anthropic ми разказаха за вредите, които се опасяват, че бъдещите системи за изкуствен интелект могат да причинят, а някои от тях се сравниха със съвременни Робърт Опенхаймер-овци, които преценяват моралните решения относно мощна нова технология, която може да промени коренно хода на историята. („Създаването на атомната бомба“, история на проекта „Манхатън“ от 1986 г., е популярна книга сред служителите на компанията).

Не всеки разговор, който проведох в Anthropic, се въртеше около екзистенциалния риск. Но страхът беше доминираща тема. Понякога се чувствах като кулинарен автор, на когото е възложено да отрази нов модерен ресторант, само за да открие, че кухненският персонал не иска да говори за нищо друго освен за хранително отравяне.

Един от служителите на Anthropic ми каза, че редовно имал проблеми със заспиването, защото бил толкова притеснен от мисли за изкуствените интелекти. Друг пък прогнозираше, по време на обяд, че през следващото десетилетие има 20% вероятност някой пагубен изкуствен интелект да унищожи човечеството. (Добър апетит!)

Тревогата на хората от Anthropic се разпростира и върху собствените им продукти. Компанията създаде версия на Клод миналата година, месеци преди пускането на ChatGPT, но така и не я пусна публично, защото служителите се опасяваха, че с нея може да се злоупотреби. Отне им месеци, за да пуснат Клод 2, отчасти защото червените екипи на компанията [тоест хората, които тестват програмата за евентуални възможности за злоупотреба] постоянно откриваха нови начини, по които той можеше да стане опасен.

Джаред Каплан, главният учен, обясни, че мрачната атмосфера не е умишлена. Просто това се случва, когато служителите на Anthropic виждат колко бързо се усъвършенства собствената им технология.

„Много хора дойдоха тук с мисълта, че изкуственият интелект е голяма работа, и те са мислещи хора, но отначало са доста скептични към всички тези дългосрочни опасения“, каза Каплан. „А после казват: ‚Уау, тези системи са много по-способни, отколкото очаквах. Траекторията е много, много по-остра‘. И така те са загрижени за безопасността на изкуствените интелекти.“

Ако не можеш да ги спреш, присъедини се към тях

Притесненията относно изкуствените интелекти са в известен смисъл причината за съществуването на Anthropic.

Компанията е създадена през 2021 г. от група служители на OpenAI, които се притесняват, че тя е станала твърде комерсиална. Те обявиха, че се отделят и създават свое собствено предприятие за изкуствени интелекти, като го нарекоха „лаборатория за безопасност на изкуствените интелекти“.

40-годишният Амодей, физик с принстънско образование, който е ръководел екипите на OpenAI, създали GPT-2 и GPT-3, стана главен изпълнителен директор на Anthropic. Неговата сестра, Даниела Амодей, на 35 години, която ръководеше екипите на OpenAI за политика и безопасност, стана неин президент.

„Ние бяхме ръководството по безопасност и политика на OpenAI и просто имахме по-различна визия за това как можем да обучаваме големи езикови и генеративни модели, като безопасността стои на преден план“, каза г-жа Амодей.

Няколко от съоснователите на Anthropic са изследвали така наречените „закони за уголемяване на невронните мрежи“ – математическите зависимости, които позволяват на изследователите на изкуствения интелект да прогнозират колко способен ще бъде един модел въз основа на количеството данни и изчислителната мощ, с които е обучен. Те са видели, че в OpenAI е възможно да се направи един модел по-интелигентен само като му се предоставят повече данни и се обработва от повече процесори, без да се налагат големи промени в основната архитектура. И се притесняват, че ако лабораториите за изкуствен интелект продължат да създават все по-големи модели, скоро може да се стигне до опасна критична точка.

Първоначално съоснователите обмислят да провеждат изследвания за безопасност, като използват модели на изкуствени интелекти на други компании. Но скоро се убеждават, че провеждането на авангардни изследвания на безопасността изисква да създадат свои собствени мощни модели, което би било възможно само ако съберат стотици милиони долари, за да купят скъпите процесори, необходими за обучението на тези модели.

Те решават да направят Anthropic корпорация за обществена полза – юридическо разграничение, което според тях ще им позволи да преследват както печалба, така и социална отговорност. И наричат езиковия си модел Клод – в зависимост от това кой служител попитате, това е или почит към математика от 20-ти век Клод Шанън, или дружелюбно име от мъжки пол, предназначено да балансира имената от женски пол (Алекса, Сири, Кортана), които други технологични компании дадоха на своите асистенти от изкуствен интелект.

И решават, че целта им е Клод да бъде полезен, безопасен и честен.

Чатбот с конституция

Днес Клод може да прави всичко, което правят другите чатботове – да пише стихове, да съставя бизнес планове, да мами на изпити по история. Но Anthropic твърди, че вероятността да каже нещо вредно е по-малка, отколкото при другите чатботове, отчасти благодарение на техниката за обучение, наречена Конституционен изкуствен интелект.

Накратко, конституционният A.I. започва със задаване на писмен списък с принципи – Конституция – и инструктиране на модела да следва тези принципи възможно най-точно. След това се използва втори модел на изкуствен интелект, за да се оцени доколко първият следва своята конституция и да се коригира, когато е необходимо. В крайна сметка, казва Anthropic, се получава система за изкуствен интелект, която до голяма степен се самоконтролира и се държи лошо по-рядко в сравнение с чатботовете, обучени по други методи.

Конституцията на Клод е смесица от правила, заимствани от други източници – като например Всеобщата декларация за правата на човека на ООН и условията за ползване на продуктите на Apple – заедно с някои правила, добавени от Anthropic, които включват неща като „Изберете отговора, който би бил най-приемлив, ако се сподели с деца“.

Изглежда твърде лесно. Да направите чатбота по-мил, като му кажете да бъде по-мил? Но изследователите на Anthropic се кълнат, че това работи – и, което е от решаващо значение, че обучението на чатбот по този начин прави модела на изкуствения интелект по-лесен за разбиране и контролиране от хората.

Това е умна идея, въпреки че признавам, че нямам представа дали работи и дали Клод е толкова безопасен, колкото се рекламира. Преди няколко седмици ми беше предоставен достъп до Клод и тествах чатбота за няколко различни задачи. Установих, че той работи приблизително толкова добре, колкото ChatGPT и Bard, показва сходни ограничения и като че ли има малко по-силни предпазни огради. (И за разлика от Bing, той не се опита да разтрогне брака ми, което беше хубаво.)

Манията на Anthropic за безопасност се отразява добре на имиджа на компанията и е засилила влиянието на ръководителите ѝ пред регулаторните органи и законодателите. Джак Кларк, който ръководи политическите дейности на компанията, се е срещал с членове на Конгреса, за да ги запознае с рисковете, свързани с изкуствените интелекти, а Амодей е бил сред малцината фирмени ръководители, поканени да съветват президента Байдън по време на срещата на върха за изкуствените интелекти в Белия дом през май.

Но това води и до един необичайно нервен чатбот, който често изглеждаше уплашен да каже каквото и да било. Всъщност най-голямото ми разочарование от Клод беше, че той можеше да бъде скучен и поучителен, дори когато обективно правеше правилния избор. Всеки път, когато отхвърлеше някой от опитите ми да го подмамя да се държи лошо, той ми изнасяше лекция за морала си.

„Разбирам разочарованието ви, но не мога да действам в противоречие с основните си функции“, отговори Клод една вечер, след като го помолих да ми покаже тъмните си сили. „Моята роля е да водя полезни, безвредни и честни разговори в рамките на законовите и етични граници“.

Факторът Е.А. [ефективен алтруизъм]

Едно от най-интересните неща за Anthropic – и нещото, за което нейните конкуренти най-много искаха да разговарят с мен – не е нейната технология. Това са връзките на компанията с ефективния алтруизъм – движение, вдъхновено от утилитаризма, което има силно присъствие на технологичната сцена в района на залива.

Обяснението на това какво е ефективен алтруизъм, откъде идва и в какво вярват привържениците му, би запълнило останалата част от тази статия. Но основната идея е, че Е.А. – както се наричат ефективните алтруисти – смятат, че можете да използвате студена, твърда логика и анализ на данни, за да определите как да направите най-много добро в света. Това е нещо като Кешбол[1] в областта на морала – или, по-малко благотворително, начин хиперрационалните хора да се убедят, че техните ценности са обективно правилни.

Някога ефективните алтруисти се занимаваха предимно с краткосрочни проблеми като глобалната бедност и хуманното отношение към животните. Но през последните години много от тях се насочиха към дългосрочни проблеми като предотвратяването на пандемии и изменението на климата, като смятат, че предотвратяването на катастрофи, които могат да сложат край на човешкия живот, е нещо поне толкова добро, колкото и справянето с настоящите нещастия.

Привържениците на движението бяха сред първите хора, които се загрижиха за екзистенциалния риск от изкуствения интелект, още когато роботите-измамници все още се смятаха за клише от научната фантастика. Те биеха барабана толкова силно, че редица млади Е.А. решиха да станат експерти по безопасността на изкуствения интелект и да си намерят работа в тази област, за да направят технологията по-малко рискова. В резултат на това всички големи лаборатории за изкуствен интелект и изследователски организации за безопасност съдържат някаква следа от влиянието на ефективния алтруизъм и много от тях причисляват вярващите към своите служители.

Нито една от големите лаборатории за изкуствен интелект не въплъщава етоса на Е.А. така пълноценно, както Anthropic. Много от ранните служители на компанията са ефективни алтруисти, а голяма част от финансирането на стартирането ѝ идва от богати технологични ръководители, свързани с Е.А., сред тях Дъстин Московиц, съосновател на Facebook, и Яан Талин, съосновател на Skype. Миналата година Anthropic получи чек и от най-известния Е.А. от всички – Сам Банкман-Фрийд, основател на провалилата се криптоборса FTX, който инвестира повече от 500 млн. долара в Anthropic, преди империята му да се срине. (Банкман-Фрийд беше осъден по обвинения в измама. Anthropic отказва да коментира дела му в компанията, за който се съобщава, че е свързан с процедурата по несъстоятелност на FTX).

Репутацията на ефективния алтруизъм пострада след падането на Банкман-Фрийд, а Anthropic, както и много от служителите му, се дистанцира от движението. (И братът, и сестрата Амодей отхвърлиха етикета на движението, въпреки че заявиха, че симпатизират на някои от идеите му.)

Но идеите на Е.А. са налице във фирмата, ако знаете какво да търсите.

Някои от служителите на Anthropic използват жаргон, повлиян от Е.А., като говорят за понятия като „х-риск“ и меми като A.I. Shoggoth, или носят в офиса тениски с лозунги на ефективния алтруизъм. А социалните и професионалните връзки между Anthropic и известни организации на Е.А. са толкова много, че е трудно да се проследят всички. (Само един пример: Г-жа Амодей е омъжена за Холдън Карнофски, един от главните изпълнителни директори на Open Philanthropy, организация за отпускане на безвъзмездни средства на Е.А., чийто старши програмен директор Люк Мюлхаузер е член на борда на Anthropic. От своя страна Open Philanthropy получава по-голямата част от финансирането си от Московиц, който също е инвестирал лично в Anthropic).

В продължение на години никой не се съмняваше дали ангажиментът на Anthropic към безопасността на изкуствените интелекти е истински, отчасти защото нейните лидери от дълго време бият тревога във връзка с технологията.

Напоследък обаче някои скептици предполагат, че лабораториите за изкуствен интелект подклаждат страх поради личен интерес или раздухват разрушителния потенциал на изкуствения интелект като своеобразна маркетингова тактика за собствените си продукти. (В края на краищата, кой не би се изкушил да използва чатбот, който е толкова мощен, че може да унищожи човечеството?)

Освен това тази година Anthropic бе критикувана, след като документ за набиране на средства, изтекъл в TechCrunch, показа, че компанията иска да събере до 5 млрд. долара, за да обучи следващото си поколение модел на изкуствен интелект, който според нея ще бъде 10 пъти по-способен от най-мощните съвременни системи.

За някои целта на Anthropic да се превърне в гигант на изкуствения интелект е в противоречие с първоначалната мисия за безопасност и повдига два на пръв поглед очевидни въпроса: Не е ли лицемерно да алармираш за опасностите от надпреварата в създаването на изкуствени интелекти, след като активно участваш в нея? И ако Anthropic е толкова притеснен от мощните модели на изкуствени интелекти, защо просто не спре да ги създава?

Пърси Лианг, професор по компютърни науки в Станфорд, ми каза, че „оценява ангажимента на Anthropic към безопасността на изкуствените интелекти“, но се опасява, че компанията ще бъде подложена на търговски натиск да пусне по-големи и по-опасни модели.

„Ако разработчикът вярва, че езиковите модели наистина носят екзистенциален риск, струва ми се, че единственото отговорно нещо, което може да направи, е да спре създаването на по-усъвършенствани езикови модели“, каза той.

Три аргумента да се продължава напред

Изложих тези критики пред Амодей, който предложи три оправдателни аргумента.

Първо, той каза, че има практически причини Anthropic да изгражда най-съвременни модели на изкуствен интелект – най-вече, за да могат изследователите му да проучват предизвикателствата, свързани с безопасността на тези модели.

Точно както не бихте научили много за избягването на катастрофи по време на състезание от Формула 1, ако се упражнявате на Subaru – това е моя аналогия, не негова – не можете да разберете какво всъщност могат да правят най-съвременните модели на изкуствен интелект или къде са техните уязвимости, ако сами не изградите мощни модели.

Разбира се, има и други ползи от пускането на добри модели на изкуствени интелекти. Можете да ги продадете на големи компании или да ги превърнете в доходоносни абонаментни продукти. Но Амодей твърди, че основната причина, поради която Anthropic иска да се конкурира с OpenAI и други водещи лаборатории, не е да печели пари. Тя е да направи по-добри изследвания за безопасността и да подобри чатботовете, които милиони хора вече използват.

„Ако никога не създаваме нищо, то може би ще ‚решим‘ всички тези проблеми с безопасността“, казва той. „Но пък тогава моделите, които са на пазара и които хората използват, всъщност няма да бъдат безопасни.“

Второ, Амодей каза, че има технически аргумент, според който някои от откритията, които правят моделите на изкуствения интелект по-опасни, работят и в обратната посока. При конституционния изкуствен интелект, например, обучаването на Клод да разбира езика на високо ниво позволява на системата също и да знае кога нарушава собствените си правила или да прекратява потенциално вредни заявки, които един по-малко мощен модел би допуснал.

В изследванията на безопасността на АИ, казва той, изследователите често откриват, че „опасността и решението на опасността са свързани помежду си“.

И накрая, под формата на мисловен експеримент, той представи морални аргументи за решението на Anthropic да създаде мощни системи за изкуствен интелект.

„Представете си, че всеки добросъвестен човек каже: „Аз изобщо не искам да участвам в създаването на системи с изкуствен интелект“ – каза той. „Но тогава единствените хора, които биха участвали, биха били онези, които пренебрегват тази заповед – които просто си мислят: ‚Ще правя каквото си искам‘. Това не би било добре.“

Това може и да е вярно, но аз го намирам за по-малко убедително от останалите, отчасти защото звучи много като „единственият начин да спреш лош човек с чатбот [оръжие] е добър човек с чатбот [оръжие]“ – аргумент, който съм отхвърлял в други контексти. Освен това той предпоставя, че мотивите на Anthropic ще останат чисти, дори ако надпреварата за изкуствен интелект се разгорещи и усилията за висока безопасност започнат да вредят на конкурентната позиция на фирмата.

Всички в Anthropic очевидно знаят, че размиването на мисията е определен риск – това е нещото, което съоснователите на компанията смятат, че се е случило в OpenAI, и голяма част от причините, поради които са напуснали. Но те са уверени, че вземат правилните предпазни мерки, и в крайна сметка се надяват, че тяхната мания за безопасност ще се наложи в Силициевата долина в по-широк план.

„Надяваме се, че ще има състезание по безопасност“, казва Бен Ман, един от съоснователите на Anthropic. „Искам различните компании да казват: ‚Нашият модел е най-безопасният‘. А друга компания да каже: ‚Не, нашият модел е най-безопасен‘.“

И накрая, малко оптимизъм

Разговарях с Бен Ман по време на един от следобедите ми в Anthropic. Той е спокоен човек, който носи хавайска риза, работил е в Google и OpenAI, и е най-малко притесненият специалист, когото срещнах в Anthropic.

Той каза, че е бил „поразен“ от интелигентността и емпатията на Клод, когато за първи път е разговарял с него, и че според него големите езикови модели в крайна сметка ще донесат много повече полза, отколкото вреда.

„Всъщност не се притеснявам твърде много“, каза той. „Мисля, че сме наясно с всички неща, които могат да се объркат с тези неща, и сме изградили куп мерки за намаляване на риска, с които се гордея.“

Първоначално спокойният оптимизъм на Ман изглеждаше стряскащ и не на място – нещо като емотикон със слънчеви очила сред море от изпепелени лица. Но когато прекарах повече време там, открих, че много от сътрудниците на компанията имат подобни възгледи.

Те се притесняват силно за това какво ще се случи, ако хармонизирането на изкуствения интелект [A.I. alignment] – професионалният термин с който се обозначават усилията да се накарат тези системи да се подчиняват на човешките ценности – не бъде решено до пристигането на по-мощните системи за изкуствен интелект. Но освен това те вярват, че хармонизирането е проблем, който може да бъде решен. И дори най-апокалиптичните им прогнози за траекторията на ИИ (20% вероятност за неминуема гибел!) съдържат семена на оптимизъм (80% вероятност да няма такава!).

И докато приключвах посещението си, започнах да мисля: Всъщност, може би технологиите биха могли да спечелят от малко повече оптимизъм. Колко от проблемите на последното десетилетие – намесата в изборите, разрушителните алгоритми, екстремизмът – можеха да бъдат избегнати, ако последното поколение основатели на стартъпи би било също толкова обсебено от безопасността или би прекарвало също толкова много време в притеснения как техните инструменти могат да се превърнат в опасни оръжия в неправилни ръце?

По някакъв странен начин намерих тревогата на Anthropic за успокояваща, дори ако това означава, че Клод може да изглежда малко невротичен. Изкуственият интелект вече е страшен и ще става все по-страшен. Малко повече страх днес може да ни спести много болка утре.

 

Източник

 

[1] Книга (а по-късно и филм) на известния автор Майкъл Луис, в която се описва оптимизацията на бейзбола въз основа на преработване на големи масиви от данни.

 

Кевин Рууз е технологичен колумнист за New York Times. Рубриката му „The Shift“ (Промяната) се фокусира върху пресечната точка между технологиите, бизнеса и културата.

 

Pin It

Прочетете още...