Curious Replay: сила цікавості для розвитку штучного інтелекту
Цікавий науковий експеримент провели дослідники Айзек Каувар (Isaac Kauvar) та Кріс Дойл (Chris Doyle), коли вирішили з'ясувати, хто виявиться кращим у протистоянні: найсучасніший штучний інтелект (ШІ) чи миша. Їхній новаторський експеримент, який було проведено в Інституті нейронаук Ву Цай при Стенфордському університеті, мав на меті використати природні здібності тварин, щоб підвищити ефективність систем ШІ.
Зацікавлені у вивченні здатностей тварин адаптуватися до нового середовища, дослідники розробили просте завдання. Вони помістили мишу в порожню коробку, а імітацію штучного інтелекту – на віртуальну 3D-арену, і розмістили в кожному просторі червону кульку. Мета експеримента полягала в тому, щоб спостерігати, хто швидше почне взаємодіяти з новим предметом.
На превеликий подив учених, миша швидко наблизилася до червоної кулі та почала її досліджувати, тоді як агент ШІ навіть не помітив її присутності. Цей несподіваний результат призвів до усвідомлення: навіть із найсучаснішим алгоритмом у роботі штучного інтелекту все ще є прогалини.
Це відкриття розпалило цікавість вчених. Чи зможуть вони використати, здавалося б, просту поведінку тварин для покращення роботи систем ШІ? Сповнені рішучості дослідити цю тему, Каувар, Дойл, а також аспірант Лінкі Чжоу (Linqi Zhou) під керівництвом доцента Ніка Хабера (Nick Haber) розпочали розробку нового методу навчання під назвою "допитливе повторення" ("curious replay").
Метод "допитливого повторення" мав на меті спонукати агентів ШІ до самоаналізу та навчання на основі нових досліджень, подібно до того, як це проявилося у поведінці миші з червоною кулькою. Застосування цього методу виявилося вирішальним, оскільки він дозволив агенту ШІ навчитися швидко взаємодіяти з червоною кулькою.
Значення допитливості в нашому житті виходить далеко за межі інтелектуальних пошуків. Вона відіграє важливу роль у виживанні, допомагаючи нам орієнтуватися в небезпечних ситуаціях. Розуміючи важливість цікавості, такі лабораторії, як Хабер, впровадили сигнал цікавості для агентів ШІ, зокрема для агентів, тренування яких відбувалось на основі моделей навчання з підкріпленням. Такий сигнал спонукає їх вибирати дії, які призведуть до більш цікавих результатів, а не відмовлятись від потенційних можливостей.
Однак Каувар, Дойл та їхня команда пішли далі,використовуючи цікавість, щоб навчити агентів ШІ краще розуміти навколишнє середовище. Замість того, щоб просто керувати процесом прийняття рішень, дослідники, стимулюючи допитливість ШІ, хотіли, щоб він самостійно аналізував і обмірковував свій досвід.
Повторення досвіду передбачає збереження спогадів про взаємодії та випадкове їх відтворення для узагальнення знань, подібно до того, як гіпокамп мозку активує певні нейрони під час сну для підсилення пам'яті. Однак у мінливому середовищі повторне відтворення всього досвіду може бути неефективним. Тому дослідники запропонували новий підхід, надавши перевагу відтворенню найцікавіших подій, таких як зустріч із червоною кулею.
Цей метод, що отримав назву "curious replay", миттєво довів свою дієвість,спонукаючи агента ШІ швидше та ефективніше взаємодіяти з кулькою.
Успіх "допитливого повторення" обіцяє змінити майбутнє досліджень ШІ. Він дозволяє агентам ШІ вивчати нові або мінливі середовища та відкриває шляхи для більш адаптивних і гнучких технологій. Це принесе користь у такі сфери, як робототехніка та персоналізовані інструменти навчання.
Проведене дослідження спрямоване на подолання розриву між штучним інтелектом і нейронаукою, поглиблюючи наше розуміння поведінки тварин та основних нейронних процесів. Прочитати дослідження про "допитливе повторення" у повному обсязі можна тут.