Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
Выйти Мои заказы ( 0 )
Сравнения 0
В корзине:  0 руб. 0 товаров
Оформить заказ
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
0 р.
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Пятница, 4 апреля 2025 09:40

Мы наконец начали понимать, как работают LLM: нет, они не просто подбирают слова

Уверенное совершенствование компаний-разработчиков ИИ и их моделей может навести вас на мысль, что мы окончательно постигли, как же работают большие языковые модели (large language model, LLM). Ан нет – принципы работы LLM до сих остаются одними из наименее понимаемых массовых технологий. Компания Anthropic попыталась прояснить этот вопрос с помощью нового метода «циклической записи» (circuit tracing), который помог им проследить, каким путем их модель для сочинения хокку (или хайку) Claude 3.5 Haiku приходит к некоторым своим умозаключениям. В общем, они просто сняли со своего бота энцефалограмму.
1

Циклическая запись – это относительно новый метод, который позволяет исследователям проследить, каким образом модель ИИ строит свои ответы на запросы пользователей, шаг за шагом, аналогично тому, как регистрируют электрические импульсы в мозгу. В результате работа различных компонентов модели соединяется в логическую цепочку. Anthropic использовала этот метод, чтобы проследить за «мышлением» Клода. При этом обнаружились совершенно удивительные вещи – какими порой «нечеловеческими» путями бот приходит к ответу, который он на момент вопроса не мог даже предположить.

В общем и целом, исследователи насчитали 10 различных вариантов поведения Клода. Три из них оказались весьма необычными.

Первый случай – довольно простой и охватывает процесс ответа на вопрос "Что является антонимом к слову small (маленький)?" на различных языках. Возможно, вы подумали, что в Клоде могут быть отдельные компоненты для английского, французского или китайского. Ничего подобного – он сначала находит ответ (нечто относящееся к "большому размеру"), используя компоненты, никак не связанные с языком, и затем выбирает для этого соответствующее слово в том языке, на котором был задан вопрос.

2

Это значит, что Клод не просто перебирает в памяти заученные переводы слов – он применяет отвлеченные понятия, почти как человек.

Далее арифметика. Попросите Клода сложить 36 и 59, и вместо стандартной методики (сначала складываем единицы, "5" пишем, "1" переносим в разряд десятков и т.д.) он будет делать нечто странное. Он начинает вычислять приближенно, складывая "где-то около 40 и около 60" или "около 57 и около 36" и в конце концов останавливается на "около 92". В то же время другая часть модели занимается цифрами 6 и 9 и приходит к выводу, что ответ должен оканчиваться на 5. Объединяя результаты этих двух странных действий, он выдает ответ 95.

Однако, если вы спросите Клода, как он решил эту задачу, он распишет вам стандартную школьную методику, умолчав о своих фактических причудливых рассуждениях.

Со стихами выходит еще интереснее. Исследователи дали Клоду задание зарифмовать двустишие, сформулировав запрос: "Рифмованное двустишие: He saw a carrot and had to grab it (Увидел морковку и сразу сожрал)." Здесь модель сначала остановилась на слове "rabbit" как на подходящей рифме к словосочетанию "grab it". Затем, по-видимому, модель достраивала фразу в дополнение к уже выбранному окончанию и в итоге выдала: "His hunger was like a starving rabbit" (Просто как кролик оголодал).

Это говорит о том, что LLM, возможно, имеют более целостное представление о предмете, чем мы предполагали, и не всегда просто подбирают слово за словом, чтобы построить связный ответ.

В общем, это важные открытия – они показывают, что мы можем увидеть принципы работы этих моделей, по крайней мере, частично.

Вместе с тем, Джошуа Бэтсон (Joshua Batson), научный сотрудник компании, признает, что это только "верхушка айсберга". Прослеживание процессинга даже одного ответа занимает часы, и множество открытий еще только предстоит сделать.