У цій статті досліджуються методи створення точних наборів даних для генерації запитів Cypher з тексту, використовуючи великі мовні моделі (LLM) і попередньо визначену граф-схему. Автор також згадує про поточний проект, метою якого є розробка всеосяжного набору даних для точного налаштування з використанням підходу "людина в циклі".
Розблокування ефективності роботів: Мультимодальні моделі ШІ революціонізують комплексне планування
Лабораторія неймовірного штучного інтелекту Массачусетського технологічного інституту розробила мультимодальний фреймворк під назвою HiP, який використовує три різні базові моделі, щоб допомогти роботам створювати детальні плани для виконання складних завдань. На відміну від інших моделей, HiP не потребує доступу до даних парного зору, мови та дій, що робить її більш економічно ефективною та п...
Atacama Biomaterials, стартап, що поєднує архітектуру, машинне навчання та хімічну інженерію, розробляє екологічно чисті матеріали з різними сферами застосування. Їхні технології дозволяють створювати бібліотеки даних і матеріалів за допомогою штучного інтелекту та машинного навчання, виробляючи компостовані пластмаси та пакування з регіональних джерел.
Нейробіологи з Массачусетського технологічного інституту виявили, що речення з незвичною граматикою або неочікуваним значенням викликають сильнішу реакцію в центрах обробки мови в мозку, тоді як прості речення майже не зачіпають ці ділянки. Дослідники використовували мережу штучної мови, щоб передбачити реакцію мозку на різні речення.
Розробники відеоігор з відкритим світом і менеджери з аналітики стикаються з проблемою балансування між розвідкою та експлуатацією. Щоб розв'язати цю проблему, вони можуть будувати альтернативні шляхи, пропонувати системи управління знаннями, розвивати онлайн-спільноти та постійно вдосконалюватися. Продавці, як і геймери, мають основні квести у вигляді конкретних показників, які їм потрібно ві...
У Клініці машинного навчання в охороні здоров'я ім. Абдула Латіфа Джаміля при Массачусетському технологічному інституті обговорили, чи потрібно повністю пояснювати "чорний ящик" процесу прийняття рішень щодо моделей ШІ для схвалення FDA. На заході також наголошувалося на необхідності освіти, доступності даних і співпраці між регуляторними органами та медичними працівниками у регулюванні ШІ в о...
Вчені Массачусетського технологічного інституту розробили дві моделі машинного навчання - нейронну мережу "PRISM" та модель логістичної регресії - для раннього виявлення раку підшлункової залози. Ці моделі перевершили існуючі методи, виявивши 35% випадків у порівнянні зі стандартним рівнем виявлення 10%.
MIT Policy Hackathon об'єднує студентів та професіоналів з усього світу для вирішення суспільних проблем за допомогою інструментів генеративного ШІ, таких як ChatGPT. Команда-переможець "Ctrl+Alt+Defeat" фокусується на вирішенні кризи виселення в США.
Аспіранти Массачусетського технологічного інституту використовують теорію ігор для підвищення точності та надійності моделей природної мови, прагнучи узгодити достовірність моделі з її точністю. Перетворивши генерування мови на гру для двох гравців, вони розробили систему, яка заохочує правдиві та достовірні відповіді, водночас зменшуючи кількість галюцинацій.
Дослідники з Массачусетського технологічного інституту розробили автоматизований агент інтерпретації (AIA), який використовує моделі штучного інтелекту для пояснення поведінки нейронних мереж, пропонуючи інтуїтивно зрозумілі описи та відтворення коду. AIA бере активну участь у формуванні гіпотез, експериментальному тестуванні та ітеративному навчанні, вдосконалюючи своє розуміння інших систем ...
Дослідники з Массачусетського технологічного інституту та компанії IBM розробили новий метод під назвою "глибокий фізичний сурогат" (PEDS), який поєднує в собі фізичний симулятор з низькою точністю та генератор нейронних мереж для створення сурогатних моделей складних фізичних систем на основі даних. Метод PEDS є доступним, ефективним і зменшує кількість необхідних навчальних даних щонайменше ...
У статті обговорюється важливість розуміння контекстних вікон у навчанні та використанні трансформерів, особливо з появою власних LLM і методів, таких як RAG. Досліджується, як різні фактори впливають на максимальну довжину контексту, яку може обробити трансформантна модель, і ставиться питання, чи завжди більше - це краще.
У 2017 році Google Brain представив Transformer - гнучку архітектуру, яка перевершила існуючі підходи до глибокого навчання, і тепер використовується в таких моделях, як BERT і GPT. GPT, модель декодера, використовує завдання мовного моделювання для генерації нових послідовностей і дотримується двоетапної схеми попереднього навчання та точного налаштування.
У цій статті досліджуються обмеження використання великих мовних моделей (ВММ) для аналізу діалогових даних і пропонується методологія "рецептів даних" як альтернатива. Методологія дозволяє створювати бібліотеку рецептів даних для багаторазового використання, покращуючи час відгуку і забезпечуючи внесок спільноти.
Розробка LLM-додатків може бути як захоплюючою, так і складною справою, адже потрібно враховувати безпеку, продуктивність і вартість. Починаючи з додатків з низьким рівнем ризику і приймаючи політику "Спочатку дешевий LLM", ви можете зменшити ризики і скоротити обсяг роботи, необхідний для запуску.