слов.арь · bisovka

объясни embedding --простыми-словами

Иллюстрация к термину «Эмбеддинг»

Эмбеддинг

КороткоСмысл, превращенный в числа, которые компьютер умеет сравнивать.

Представь город, где у каждого слова есть свой адрес.

"Собака" и "щенок" живут по соседству. "Собака" и "налоговая декларация" — на разных концах города и никогда не пересекаются. Самое дикое: эти адреса никто не расставлял руками. Компьютер сам понял, где чему жить, прочитав гору текста и заметив, что с чем обычно встречается рядом.

Этот адрес и есть эмбеддинг. Кусок текста, превращенный в длинный список чисел, которые работают как координаты на карте и ставят его в одну точную точку на огромной карте смысла. А весь смысл карты — в расстоянии: вещи с похожим смыслом оказываются близко, вещи с разным смыслом — далеко.

Вот почему это важно. Компьютер понятия не имеет, что такое собака на самом деле. Он никогда ее не гладил. Он просто знает, что точка "собака" находится в двух шагах от "щенка" и в другой стране от "налоговой декларации". Смысл превратился в географию, а географию машина может измерить линейкой.

Старый поиск и почему он был туповат.

Старый поиск совпадал по буквам. Ты вводил "собака", он искал точную строку с-о-б-а-к-а и отдавал все, где она есть. Полезно, но хрупко. Введи "как отучить щенка грызть диван" — и поиск по буквам пойдет искать именно эти слова. Он не понимает, что "щенок" и "собака" рядом по смыслу, и что на самом деле вопрос про пса, который уничтожает мебель.

Эмбеддинги это чинят. Оба предложения превращаются в координаты, и потому что они значат примерно одно и то же, они попадают в один район. Совпадение уже не в том, что "ты использовал те же слова". А в том, что "ты имел в виду то же самое". Вот где скачок.

Где ты уже это чувствовал, просто не знал слова.

Этот тихий трюк лежит под кучей вещей, которыми ты постоянно пользуешься:

Представь библиотеку, где книги стоят не по алфавиту названий, а по тому, о чем они. Все про садоводство — в одном углу, кулинарные книги — вместе через зал, детективы — в своем темном проходе. Тебе не нужно знать ни одного названия. Ты идешь в нужный раздел, и все рядом связано с темой. Эмбеддинги делают это с каждым предложением, которое когда-либо было написано, автоматически и без библиотекаря.

Одна честная оговорка, чтобы ты обращался с этим правильно. Карта хороша ровно настолько, насколько хорош текст, на котором она училась. Если в обучающих данных было какое-то ленивое допущение, карта тихо несет его дальше. Близко на карте значит "обычно встречается в похожих контекстах", а это часто то же самое, что "имеет тот же смысл", но не всегда. Это стоит помнить, прежде чем доверять ей что-то важное.

Преврати смысл в координаты, и "похоже" перестает быть ощущением. Это становится расстоянием, которое компьютер может измерить.

← все термины