слов.арь · bisovka

объясни token --простыми-словами

Иллюстрация к термину «Токен»

Токен

КороткоЕдиница, в которой AI читает и пишет.

Спроси AI, сколько букв R в слове "strawberry", и посмотри, как он споткнется.

Спроси достаточно моделей, и какая-нибудь из них посмотрит тебе прямо в глаза и уверенно поклянется, что их две. Самый умный инструмент, которым ты когда-либо пользовался, проваливается на слове, которое пятилетний ребенок может написать по буквам. Когда ты понимаешь токены, это перестает быть загадкой и становится очевидным.

Вот в чем дело: AI не видит твое предложение так, как его видишь ты. До того как он прочитает хоть что-то из набранного тобой, твои слова режутся на куски, которые называются токенами. Токен иногда бывает целым словом, иногда куском слова. "Cat" — один токен. "Strawberry" разбивается на несколько. Грубое правило:

Думай о них как о кубиках LEGO для языка.

Ты дал AI предложение. Он видит кучку маленьких кирпичиков, и вся его задача — предсказать, какой кирпичик с наибольшей вероятностью защелкнется следующим. Он не думает о твоем смысле. Он играет в самую сложную в мире игру "что идет после этого".

И этот один факт стоит за тремя вещами, с которыми ты наверняка уже сталкивался.

1. Счет. Если ты пользуешься AI через API (то самое окно drive-thru из прошлых объяснений), ты платишь не фиксированную месячную сумму. Ты платишь за токены: и за те, которые отправляешь внутрь, и за те, которые получаешь обратно. Короткий вопрос дешевый. Огромный документ, вставленный в длинный, разболтанный диалог, — нет. У каждого кирпичика есть ценник.

2. Комната. Помнишь контекстное окно, ту самую комнату, куда все должно поместиться? Эта комната измеряется не в страницах и не в сообщениях. Она измеряется в токенах. Когда ты слышишь, что у модели "контекстное окно 200K", это значит, что она может держать 200 000 кирпичиков за раз. Забей комнату кирпичиками, и ранние начнет выталкивать за дверь.

3. Слепая зона. Вернемся к strawberry. AI не смотрит на буквы s-t-r-a-w-b-e-r-r-y. Он смотрит на два или три кирпичика, которые вместе для него означают "strawberry". Отдельные буквы потерялись, когда слово превратилось в кирпичики. Считать R — это вопрос про буквы, а букв уже не осталось, чтобы их считать.

Практически это значит:

Кирпичики — это не только то, за что ты платишь. Это то, чем AI думает. Дай ему более чистую кучку, и получишь меньший счет и более точный ответ от той же самой модели.

← все термины