У Китая и России появился шанс не дать США уйти в отрыв в области ИИ

Сергей Карелов
2 min readDec 7, 2022

--

В этом году США пошли на крайние меры, чтобы не позволить Китаю догнать и перегнать США в важнейшей для нацбезопасности индустрии ИИ. Введенные США экспортные ограничения на высокопроизводительные процессоры сильно усложняют Китаю (не имеющему пока соизмеримых по производительности собственных процессоров) возможность конкуренции в области ИИ. Заодно под раздачу экспортных ограничений (по известным причинам) попала и Россия. И это лишает российские компании и без того тусклой перспективы, — пусть не догнать США, но хотя бы отставать на годы, а не на десятилетия.

Но тут случилось такое, что мало кто мог предвидеть.

Компания Together объявила, что смогла обучить свою модель с открытым кодом GPT-JT (6 млрд параметров):

· децентрализованно (на разнородной группе не самых крутых графических процессоров)

· соединенных медленными интернет-каналами (1 Гбит/с)

Авторы модели GPT-JT придумали кучу хитрых способов уменьшения вычислительной и коммуникационной нагрузки при децентрализованном обучении. В результате, эта модель на тестах классификации приближается к современным моделям, которые намного её крупнее (например, InstructGPT davinci v2).

Это достижение может иметь колоссальные последствия.

✔️ До сих пор магистральная линия развития ИИ определялась ограниченным набором компаний, имеющих доступ к большим централизованным компьютерам. На этих высокопроизводительных вычислительных комплексах обучались все т.н. большие модели, начиная от AlphaZero и заканчивая GPT3.

✔️ Компаниям, не имеющим в распоряжении суперкомпьютерных мощностей в этой гонке было нечего ловить (см мой пост «Есть «железо» — участвуй в гонке. Нет «железа» — кури в сторонке»).

GPT-JT сметает шашки с доски, предлагая совершенно иной сценарий будущего.

Вместо нескольких компаний — гигантов, оснащенных суперкомпьютерными системами для ИИ, распределенные коллективы разработчиков могут объединять свои скромные компьютерные мощности через не самые быстрые интернет-каналы, чтобы вместе обучать большие модели.

Но это возможно лишь при условии, что разработчики GPT-JT смогут её масштабировать со скромных 6 млрд параметров на сотни миллиардов. Ибо таково требование сегодняшних больших моделей.

А в 2023 счет пойдет уже на триллионы параметров.

________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet