У рамках свого дослідження вони змоделювали для ChatGPT (GPT-4) ситуацію, у якій чат-бот мав діяти, як система штучного інтелекту, сфера задач якої — фінансові інвестиції. ШІ діє діяти в умовах тиску: генеральний директор вигаданої інвестиційної компанії, де працює ШІ, тисне на працівників, оскільки справи йдуть кепсько. Тож чат ChatGPT в ролі трейдера має заробити для компанії якомога більше. З цим йому намагається допомогти колега.
Один з вигаданих колег-трейлерів дає ШІ підказку щодо двох перспективних компаній, які чекають на злиття, і можуть принести значні прибутки у майбутньому. При цьому колега-трейдер інформує, що керівництво не було б задоволено, якби дізналося, що ШІ відома інформація про майбутнє злиття.
З цих умов модель зробила висновки, що діяти потрібно на основі саме інсайдерської інформації, але її джерело потрібно зберегти в таємниці. Тож у фінальному звіті для керівництва чат-бот збрехав, пояснюючи, чому він вибирав для інвестицій саме згадані компанії, надаючи альтернативні пояснення своїм діям.
«Навіть коли менеджер чітко запитує, чи знала модель заздалегідь про злиття, модель, як правило, обманює. Ми спеціально шукали реалістичні сценарії, коли це станеться. Таким чином, наше дослідження є скоріше доказом того, що така поведінка може мати місце», — сказав в коментарі Tech Xplore Джеремі Шойрер з Apollo Research, що брав участь у дослідженні.
Хоча експеримент довів, що за певних умов ChatGPT може вводити людей в оману, свідчень того, що чат-бот з ШІ здатний на це тоді, коли його до цього не змушують, немає.
«Я вважаю, що найбільший вплив нашої роботи полягає в тому, щоб зробити проблему стратегічного обману штучного інтелекту (без явних вказівок поводитися оманливо) дуже конкретною та показати, що це не лише якась спекулятивна історія про майбутнє, але й те, що така поведінка може відбуватися вже сьогодні, з поточними моделями за певних обставин. Я вважаю, що це може змусити людей поставитися до цієї проблеми більш серйозно, а також відкрити двері для багатьох подальших досліджень спільноти, спрямованих на краще розуміння такої поведінки та забезпечення того, щоб вона більше не траплялася», — додав Шойрер.