1. Как работают большие языковые модели?
Про нейросети часто говорят, что они – это эволюционировавший механизм T9, который помогал вам набирать SMS, предсказывая нужные слова. Визуализация от Moebio.com демонстрирует, как сети виртуальных нейронов устанавливают сложные связи, выстраивая «осмысленную» фразу. А по сути – подбирают слова, ориентируясь на закономерности, которые модель усвоила, когда обучалась на колоссальных массивах данных.
Если хотите поиграть с визуализацией сами — зайдите сюда.
2. Что такое ИИ и в каком направлении он развивается?
Полуторачасовая беседа с руководителем бизнес-группы поиска и рекламных технологи компании «Яндекс» Дмитрием Масюком о том, что скрывается в «черном ящике» под названием ИИ, как его обучают и в каком направлении эти технологии будут развиваться в течение ближайших нескольких лет. Благодаря замечательным ведущим – физику Алексею Семихатову и астроному Владимиру Сурдину – разговор получился занимательным и глубоким одновременно.
3. На каком «железе» работает ИИ и как его обучают?
Для обучения больших языковых моделей требуются огромные вычислительные мощности – посмотрите видео о том, как работает суперкомпьютер Colossus, «сердце» чат-бота Илона Маска Grok. В нем установлены 200 тысяч дорогостоящих видеокарт NVidia H100, которые обеспечивают параллельные вычисления.
Еще год назад СМИ писали, что ChatGPT потребляет полтора литра воды, чтобы сгенерировать сто слов: речь идет о затратах на охлаждение «железа». Сегодня аппетиты ИИ несколько снизились и чтобы обработать один запрос он «пьет» всего 0,32 мл воды. И все же проблема дорогостоящей и громоздкой инфраструктуры остается ключевой.
