RAG · Нетехнический технический словарь

Есть два способа сдавать тест. Прийти и отвечать по памяти. Или прийти с открытой книгой, найти нужную страницу и ответить по ней. AI по умолчанию делает первое. RAG — это способ дать ему книгу.

Вот проблема закрытого учебника. Модель отвечает из того, что впитала во время обучения, как студент, вспоминающий все, что когда-либо читал. Но спроси ее про твои вещи — и упрешься в стену. Твои договоры, твои цены, цифры за прошлую неделю, твоя справка. Этого не было в книгах, по которым она училась. Поэтому она галлюцинирует. Все равно отвечает, уверенно, и придумывает что-то, что звучит правдоподобно. Уверенно, но мимо.

RAG превращает тест в открытый учебник. Это расшифровывается как retrieval-augmented generation, длинное название для простого приема. До того как модель ответит, найди релевантные страницы из твоих документов и сначала положи их в окно контекста. Тогда модель отвечает по открытой странице перед собой, а не по памяти.

Я уже показывал тебе двигатель этой штуки, когда мы разбирали векторную базу данных, просто не называл все целиком. Цикл, где система бросает твой вопрос на карту смыслов и забирает ближайшие куски твоих файлов? Это и есть половина "retrieval". RAG — это весь сэндвич:

Ты задаешь вопрос.
По твоим документам запускается поиск и забирает несколько фрагментов, которые больше всего относятся к вопросу, обычно по смыслу, а не по точным словам (это embeddings).
Эти фрагменты вставляются в промпт, и модель пишет ответ по ним, ссылаясь на то, что реально нашла, вместо того чтобы гадать.

Вот и весь трюк. Модель не стала умнее. Она просто перестала отвечать по памяти и начала сначала смотреть в материалы.

Почему именно этот паттерн стоит за каждым "AI, который знает мой бизнес". Бот поддержки, который отвечает по твоему справочному центру. Ассистент, который цитирует тебе твои же политики. Штука, которая читает твой договор на 200 страниц и находит один важный пункт. Ничего из этого не обучали с нуля под тебя. Кто-то направил обычную модель на стопку документов и сказал ей: сначала посмотри, потом говори.

Один честный нюанс, тот же, о котором я говорил с векторной базой данных. RAG отвечает настолько хорошо, насколько хорошо он нашел материалы. Дай ему не те страницы — и он уверенно ответит по не тем страницам. Если твой вопрос касается того, чего в документах вообще нет, он все равно возьмет самые близкие страницы, которые сможет найти, и ответит по ним, хотя близко может быть почти ни к чему. Мусор рядом с твоим вопросом все равно мусор. Поэтому когда AI отвечает по твоим файлам и чуть-чуть промахивается, обычно он поскользнулся именно здесь. Он нашел страницу, которая выглядит похожей, а не правильную.

Есть второй способ заставить AI знать твой мир, и это противоположный ход. Ты меняешь то, что у него в голове, вместо того чтобы давать ему книгу. Это дообучение, и скоро мы поставим их рядом.

AI с закрытым учебником гадает. AI с открытым учебником сначала смотрит. RAG — это открытый учебник.