Темна сторона штучного інтелекту
Кажуть, що алгоритми — це «думки, вбудовані в код». Мало хто розуміє значення цього твердження. Але я спробую його пояснити.
Якщо почати вивчати LLM (великі мовні моделі) занурившись в набори даних які були використані для їх навчання, то досить швидко стає зрозуміло, що ніхто не ставив запитань про те, що насправді міститься в цих наборах даних.
ШІ проник майже в усі сфери нашого життя: він може визначити, чи візьмуть вас на роботу, чи буде у вас діагностовано рак, або чи задовільнять ваше прохання про умовно-дострокове звільнення з вʼязниці.
Системи ШІ навчаються на гігантських масивах даних, які зазвичай збираються з Інтернету через їхню дешевизну та доступність. Але це призводить до того, що ШІ може успадкувати всі упередження людей, які його розробляють, та все, що присутнє в даних, на яких його тренуватимуть. Кінцевий результат потім віддзеркалює суспільство з усіма його потворностями.
Якщо цього не визнати, є ризик завдати величезної шкоди людям у всьому світі. ШІ вже абсолютно справедливо звинувачують у тому, що він значно занижує оцінку необхідності надання медичних послуг темношкірим пацієнтам, а також у тому, що ускладнює кольоровим людям отримувати іпотечні кредити.
Часто варто лише торкнутися поверхні набору даних, як проблеми відразу ж вискакують назовні. У 2020 році було проведено аудит двох популярних наборів даних.
Перший — «80 million tiny images», набір даних MIT, який цитується в сотнях наукових робіт і вже понад 10 років використовується для навчання систем машинного навчання розпізнаванню людей та об'єктів. Він був наповнений образливими ярликами, включно з расистськими образами на зображеннях чорношкірих людей.
В іншому наборі даних, ImageNet, вони був порнографічний контент, зокрема фотографії жінок зроблених без їх дозволу «під спідницею».
Дослідженнями машинного навчання в переважній більшості займаються білі чоловіки — далекі від демографічної різноманітності спільнот. А великі технологічні компанії не просто пропонують онлайнрозваги — вони володіють величезною владою, що формує події у реальному світі.
Це, без перебільшення — «цифровим колоніалізм». Великі ІТ-гіганти вже конкурують зі старими колоніальними імперіями. І вплив упереджених технологій позначиться на кожному з нас, хоч і по різному.
Коли технології експортуються на глобальний південь, вони несуть із собою вкорінені західні норми та філософію. Вони рекламуються як спосіб допомогти людям у слаборозвинених країнах, але часто нав’язуються їм без консультацій, змушуючи їх ще більше маргіналізуватися, бо навряд хтось в Кремнієвій долині задумується про чорношкірих жінок Африки, коли згодовує новий неочищений набір даних.
Зміна суспільних настроїв буде найефективнішим рушієм змін. Компанії більше реагують на суспільне обурення, ніж на зміни бюрократичних приписів, бо вони переймаються тільки через потенційні втрати інвесторів.
Але чи спроможні активісти-одинаки зламати систему? Я не вірю у те, що ІТ-гіганти зможуть самостійно виправитися. На кожен проблемний набір даних, який буде виявлено і виправлено, буде ще один, і так по колу.
А іноді взагалі нічого не змінюється. До прикладу, у 2021 році була опублікована стаття, де йшлося про набір даних із понад 400 млн зображень під назвою LAION-400M, який містив відверту порнографію. Публікація викликала великий резонанс, але набір даних досі існує і вже розрісся до понад 5 мільярдів зображень.
Існує причина, чому нічого не змінюється. Створювати набори даних для ШІ дуже просто — достатньо поритися в інтернеті, а от перевірка даних забирає багато часу і вимагає великих фінансових витрат.
У корпорацій немає мотивації створювати чистий набір даних. Їх цікавить тільки фінансова вигода. А це означає, що вся брудна робота звалюється на плечі дослідників-активістів, для яких аналіз цих велетенських масивів даних означає протягом багатьох годин розглядати расистські зображення або сцени зґвалтування.
А ще такі компанії як OpenAI, Anthropic та багато інших взагалі відмовляються повідомляти на яких даних навчені їхні моделі, тому користування їхніми технологіями - це згода на кота в мішку.
В ідеальному світі зміни відбувалися б завдяки величезним ресурсам технологічних компаній під пильним наглядом держав, але поки нема жодних передумов для цього. Без значного суспільного та політичного тиску корпорації навряд чи змінять свої підходи.
Я хочу цивілізовану систему, в якій корпорації нестимуть відповідальність і гарантуватимуть, що розроблені ними системи будуть максимально точними, чесними та справедливими для всіх, але здається, що я забагато хочу.