Конкурс великих моделей ШІ: від академічних проривів до лонгуючого хаосу

Конкурс великих моделей штучного інтелекту: від академічних гарячих тем до інженерних проблем

Минулого місяця в галузі штучного інтелекту розгорілася запекла "бійка тварин".

Одна сторона — це ламу Llama, яка користується великою популярністю серед розробників завдяки своїм відкритим вихідним кодам. Інша сторона — це великий модель під назвою яструб Falcon. У травні, після виходу Falcon-40B, він обійшов ламу і зайняв перше місце в рейтингу відкритих LLM.

Цей рейтинг створено спільнотою відкритих моделей і він надає стандарти для оцінки можливостей LLM. Рейтинг, в основному, є чергуванням Llama та Falcon. Після випуску Llama 2 сімейство лам здобуло тимчасову перевагу; але на початку вересня Falcon випустив версію 180B, що знову забезпечила вищий рейтинг.

Цікаво, що розробником "Сокола" є не технологічна компанія, а дослідницький інститут технологічних інновацій в столиці ОАЕ. Представники уряду зазначили, що вони беруть участь у цьому проекті, щоб підривати основних гравців.

Сьогодні в галузі штучного інтелекту настав етап розквіту. Потужні країни та компанії створюють свої великі мовні моделі. Лише в регіоні Перської затоки є кілька гравців – у серпні Саудівська Аравія придбала понад 3000 чіпів H100 для навчання LLM для вітчизняних університетів.

Інвестор поскаржився: "Коли я колись зневажав інновації бізнес-моделей в Інтернеті, думав, що немає жодних бар'єрів. Не очікував, що стартапи в сфері жорстких технологій з великими моделями все ще ведуть війну сотень моделей..."

Як технології з високою складністю стали модою, до якої може долучитися кожен?

Відродження Transformer

Американські стартапи, китайські технологічні гіганти та нафтові магнати Близького Сходу можуть займатися великими моделями завдяки відомій статті «Увага — це все, що вам потрібно».

У 2017 році 8 комп'ютерних науковців опублікували алгоритм Transformer у цій статті. Ця стаття наразі є третьою за кількістю цитувань у історії ШІ, а поява Transformer стала каталізатором для цього етапу буму ШІ.

Сучасні різноманітні великі моделі, включаючи гучну у всьому світі серію GPT, побудовані на основі Transformer.

До цього часу "навчання машин читати" було визнаною академічною проблемою. На відміну від розпізнавання зображень, людське читання не лише зосереджується на поточних словах і реченнях, а й враховує контекст для розуміння. Ранні нейронні мережі мали незалежні входи, не могли розуміти довгі тексти і часто допускалися помилок у перекладі.

У 2014 році вчений Google Ілля Садскевіль вперше досягнув прориву. Він використав рекурентні нейронні мережі (RNN) для обробки природної мови, значно покращивши продуктивність Google Translate. RNN запропонував "рекуррентний дизайн", що дозволяє кожному нейрону одночасно отримувати вхідні дані поточного та попереднього моменту, таким чином набуваючи здатності "поєднувати контекст".

Поява RNN спровокувала величезний інтерес до досліджень у науковій спільноті, але розробники швидко виявили, що він має серйозні недоліки: цей алгоритм використовує послідовні обчислення, хоча й вирішує проблему контексту, але має низьку ефективність виконання та важко обробляє велику кількість параметрів.

З 2015 року Ноам Шазіер та ще 8 дослідників почали розробку альтернативи RNN, результатом якої став Transformer. На відміну від RNN, Transformer має дві революційні зміни: по-перше, використання позиційного кодування замість циклічного дизайну, що дозволяє виконувати паралельні обчислення, значно підвищуючи ефективність навчання та сприяючи переходу ШІ до епохи великих моделей; по-друге, додаткове підсилення здатності розуміння контексту.

Transformer в один момент вирішив кілька недоліків і поступово став основним рішенням у сфері NLP. Це перетворило великі моделі з теоретичних досліджень на чисто інженерну задачу.

У 2019 році OpenAI на основі Transformer розробила GPT-2, що вразила науковий світ. Google відразу ж представив Meena з кращими характеристиками, просто збільшивши кількість параметрів і обчислювальну потужність, перевершивши GPT-2. Це глибоко вразило автора Transformer Шазіра, який написав меморандум "Meena поглинає світ".

Після появи Transformer темп інновацій в базових алгоритмах у науці значно сповільнився. Інженерні елементи, такі як обробка даних, масштаби обчислень та архітектура моделей, все більше стають ключовими у змаганнях в сфері ШІ. Будь-яка компанія з певним технічним потенціалом може розробити великі моделі.

Комп'ютерний вчений Ву Ен Да під час виступу в Стенфордському університеті зазначив: "Штучний інтелект – це набір інструментів, що включає навчання з наглядом, навчання без нагляду, навчання з підкріпленням та генеративний ШІ. Це все універсальні технології, подібні до електрики та Інтернету."

Хоча OpenAI все ще є еталоном LLM, аналітичні агентства вважають, що переваги GPT-4 в основному полягають у інженерних рішеннях. Якщо це буде з відкритим вихідним кодом, будь-який конкурент зможе швидко скопіювати його. Цей аналітик прогнозує, що інші великі технологічні компанії незабаром зможуть створити великі моделі, які за характеристиками будуть рівні GPT-4.

Слабка захисна стіна

Сьогодні «війна сотень моделей» вже не є перебільшенням, а є об'єктивною реальністю.

Відповідні звіти показують, що станом на липень цього року в країні кількість великих моделей досягла 130, перевищивши 114 у Сполучених Штатах. Різноманітних міфів і легенд вже недостатньо для називання вітчизняних технологічних компаній.

Окрім Китаю та США, деякі більш багаті країни також попередньо реалізували "одна країна – одна модель": Японія та Об'єднані Арабські Емірати мають свої власні великі моделі, а також Bhashini, яка розроблена урядом Індії, та HyperClova X, створена корейською інтернет-компанією Naver.

Ця сцена ніби повертає нас у ранні часи Інтернету, коли бульбашки літали в повітрі. Як вже було сказано раніше, Transformer перетворив великі моделі на чисто інженерну задачу: якщо хтось має гроші та графічні карти, решту можна залишити на параметрах. Але хоча бар'єри входу й не високі, це не означає, що кожен може стати гігантом епохи ШІ.

Згадавши "Битва тварин" на початку, ми бачимо типовий випадок: хоча Falcon перевершив Llama в рейтингу, важко сказати, наскільки сильно це вплинуло на Meta.

Відомо, що компанії відкривають свої досягнення, щоб поділитися технологічними перевагами та спонукати соціальну мудрість. Зі зростанням використання та вдосконалення Llama з боку різних секторів, Meta може впроваджувати ці досягнення у свої продукти.

Для відкритих моделей великих даних активна спільнота розробників є основною конкурентною перевагою.

Meta ще в 2015 році, коли створила лабораторію штучного інтелекту, визначила відкритий підхід; Цукерберг почав із соціальних мереж і краще розуміє, як "підтримувати хороші стосунки з громадськістю".

У жовтні Meta також організувала спеціальну акцію "AI-версія програми стимулювання творців": розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта та екологія, мають можливість отримати фінансування в розмірі 500 000 доларів.

Сьогодні серія Llama від Meta стала орієнтиром для відкритих LLM. Станом на початок жовтня, 8 з 10 найкращих відкритих LLM у рейтингу базуються на Llama 2. Тільки на цій платформі кількість LLM, що використовують відкриту ліцензію Llama 2, перевищує 1500.

Звичайно, підвищення продуктивності, як у Falcon, також не є поганим, але наразі більшість LLM на ринку все ще мають помітну різницю з GPT-4.

Наприклад, нещодавно GPT-4 зайняв перше місце в тесті AgentBench з оцінкою 4,41. AgentBench був спільно розроблений Тунь ху університетом та кількома відомими університетами США для оцінки здатності LLM до міркування та прийняття рішень в багатовимірному відкритому середовищі, а тестування охоплює 8 різних сценаріїв, включаючи операційні системи, бази даних, графи знань, карткові битви та ін.

Результати тестування показують, що друге місце займає Claude з 2,77 бала, різниця залишається досить помітною. Що стосується тих гучних відкритих LLM, їхні результати зазвичай близько 1 бала, що менше чверті від GPT-4.

Щоб знати, GPT-4 був випущений у березні цього року, це все ще результат того, що світові колеги наздоганяли більше півроку. Причиною цієї різниці є відмінна команда науковців OpenAI та довгостроковий досвід досліджень LLM, завдяки чому вони завжди можуть залишатися на передових позиціях.

Тобто, основна перевага великих моделей полягає не в параметрах, а в екосистемі ( відкритий код ) або чисто в інференсних можливостях ( закритий код ).

З огляду на зростаючу активність відкритих спільнот, продуктивність різних LLM може стати схожою, оскільки всі використовують подібні архітектури моделей та набори даних.

Інша, більш інтуїтивна проблема полягає в тому, що, окрім Midjourney, здається, що жодна велика модель не може дійсно приносити прибуток.

Де цінні орієнтири

У серпні цього року стаття під назвою "OpenAI може збанкрутувати до кінця 2024 року" привернула увагу. Основна ідея статті може бути зведена до одного речення: OpenAI витрачає кошти занадто швидко.

У тексті згадується, що з моменту розробки ChatGPT, збитки OpenAI швидко зросли, лише в 2022 році вони становили близько 540 мільйонів доларів, і компанія змогла вижити лише завдяки інвестиціям Microsoft.

Хоча заголовок статті є перебільшенням, він також відображає реальність багатьох постачальників великих моделей: серйозний дисбаланс між витратами та доходами.

Занадто високі витрати призвели до того, що наразі лише NVIDIA заробляє великі гроші на AI, максимум ще Broadcom.

Згідно з оцінками консалтингової компанії Omdia, Nvidia у другому кварталі цього року продала понад 300 тисяч H100. Це чіп, що має дуже високу ефективність у навчанні ШІ, який активно купують технологічні компанії та наукові установи по всьому світу. Якщо скласти ці 300 тисяч H100, їхня вага буде дорівнювати вазі 4,5 літака Boeing 747.

Виконання NVIDIA злетіло до небес, річний дохід зріс на 854%, шокувавши Уолл-Стріт. Наразі H100 на вторинному ринку продається за 40-50 тисяч доларів, тоді як його матеріальні витрати лише близько 3000 доларів.

Високі витрати на обчислювальну потужність певною мірою стали стримуючим фактором розвитку галузі. Венчурний капітал Sequoia раніше підрахував: світові технологічні компанії щорічно, ймовірно, витратять 200 мільярдів доларів на будівництво інфраструктури для великих моделей; натомість великі моделі можуть приносити максимум 75 мільярдів доларів доходу на рік, що означає, що між ними існує принаймні 125 мільярдів доларів дефіциту.

Крім того, за винятком деяких поодиноких випадків, таких як Midjourney, більшість програмних компаній, витративши величезні кошти, все ще не знайшли чіткої моделі прибутковості. Особливо дослідження галузевих лідерів Microsoft та Adobe дещо спотикаються.

Інструмент генерації коду AI GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, хоч і коштує 10 доларів на місяць, але через витрати на обслуговування Microsoft насправді втрачає 20 доларів за кожного користувача, а активні користувачі можуть призвести до втрат Microsoft у 80 доларів на місяць. Відповідно, можна припустити, що Microsoft 365 Copilot, який коштує 30 доларів, може нести ще більші втрати.

Так само, що тільки-но випустив інструмент Firefly AI, Adobe швидко запровадила систему балів, щоб запобігти надмірному використанню користувачами, що призводить до збитків компанії. Як тільки користувач перевищує щомісячно виділені бали, Adobe знижує швидкість обслуговування.

Слід зазначити, що Microsoft і Adobe вже є програмними гігантами з чіткими бізнес-сценаріями та великою кількістю платних користувачів. Тим часом більшість моделей з величезною кількістю параметрів все ще мають головний сценарій використання - це спілкування.

Не можна заперечувати, що без появи OpenAI та ChatGPT ця революція в штучному інтелекті, можливо, взагалі не відбулася б; але наразі цінність, створена під час навчання великих моделей, напевно, ще потребує обговорення.

І, з посиленням конкуренції за однорідність та зростанням кількості відкритих моделей, постачальники великих моделей можуть зіткнутися з більшими викликами.

Успіх iPhone 4 не зумовлений 45-нм процесором A4, а тим, що він може запускати такі додатки, як Plants vs. Zombies та Angry Birds.

GPT-0.05%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
BearMarketNoodlervip
· 08-10 06:40
Класичний ніж для збору багатства з нафти
Переглянути оригіналвідповісти на0
RumbleValidatorvip
· 08-09 23:00
Дані тестування на стабільність не були оприлюднені, що ускладнює перевірку надійності.
Переглянути оригіналвідповісти на0
BanklessAtHeartvip
· 08-09 21:36
Партія промисловців в захваті Відкритий вихідний код – це майбутнє Рекомендуємо вкладати
Переглянути оригіналвідповісти на0
GateUser-c799715cvip
· 08-09 21:26
Бійка дійшла до ОАЕ.
Переглянути оригіналвідповісти на0
AirdropHunterXMvip
· 08-09 21:13
Битися, битися, хто виграв, той і забирає.
Переглянути оригіналвідповісти на0
  • Закріпити