Люди — теперь лишнее звено в эволюции LLM
Придумана методика самообучения для сверхчеловеческих ИИ-агентов
Эта новость позволяет понять, зачем Цукерберг вбухал миллиарды в закупку тысяч Nvidia H100s, будучи уверен, что его LLM с открытым кодом обойдет лидирующие модели OpenAI, MS и Google.
Во всех зафиксированных кейсах достижения ИИ-системами способностей сверхчеловеческого уровня, опыт и знания учителей-людей (да и всего человечества в целом) оказывались лишними.
Так например, ИИ AlphaZero от DeepMind обучался играть в шахматы самостоятельно и без учителей. Играя десятки миллионов партий против самого себя, ИИ достиг сверхчеловеческого уровня игры всего за несколько часов (!).
Исследователи одного из лидеров в этой области (с прежним названием типа «Мордокнига») поставили резонный вопрос:
✔️ А зачем вообще нужны люди, если стоит задача вывести лингвистические способности генеративных ИИ больших языковых моделей (LLM) на сверхчеловеческий уровень?
Сейчас при обучении таких LLM ответы людей используются для создания модели вознаграждений на основе предпочтений людей. Но у этого способа создания модели вознаграждений есть 2 больших недостатка:
- он ограничен уровнем производительности людей;
- замороженные модели вознаграждения не могут затем совершенствоваться во время обучения LLM.
Идея авторов исследования проста как редис — перейти к самообеспечению LLM при создании модели вознаграждений, спроектировав архитектуру «самовознаграждающих языковых моделей», способную обходиться без людей.
Такая модель с самовознаграждением (LLM-as-a-Judge) использует подсказки «LLM-судьи» для формирования собственных вознаграждений во время обучения.
Опробовав этот метод самозознаграждений для Llama 2 70B на трех итерациях, авторы получили модель, которая превосходит подавляющее большинство существующих систем в таблице лидеров AlpacaEval 2.0, включая Claude 2, Gemini Pro и GPT-4 0613 (см. таблицу)
И хотя эта работа является лишь предварительным исследованием, она переводит гипотезу о ненужности людей для дальнейшего самосовершенствования LLM в практическую плоскость.
________________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях.