Представьте студента на экзамене, которому разрешили взять с собой папку с конспектами. Он слышит вопрос, открывает нужную страницу, читает абзац и уверенно отвечает. Никаких догадок, никакого «кажется, на лекции было что-то такое». Только то, что записано в его конспекте.
RAG (Retrieval-Augmented Generation, читается «раг», переводится как «генерация с дополненным поиском») устроен так же. Это технология, которая разрешает нейросети «принести с собой конспект»: заглядывать в ваши документы, свежие новости или базу знаний компании, прежде чем дать ответ. Поэтому она реже выдумывает несуществующие факты и умеет работать с информацией, которой не было в её обучении.
В статье разобрали RAG на пальцах: что это такое, как работает по шагам, зачем нужен, чем отличается от обычного ChatGPT и fine-tuning (дообучения), где вы уже сталкивались с RAG, сами того не зная, и как попробовать его бесплатно прямо сейчас. В конце собрали словарь терминов и ответы на частые вопросы новичков.
Если по ходу встретите незнакомое слово, у нас есть большой словарь IT-терминов простыми словами, где разобраны и LLM, и embedding, и API. А самый известный сегодня RAG-сервис, которым вы, возможно, уже пользуетесь, это Perplexity. Про него у нас есть отдельный гайд для новичков.
Статья пригодится не только программистам. RAG сегодня применяют маркетологи, юристы, HR, преподаватели, продакты и обычные пользователи: везде, где нужно «спросить нейросеть по своим документам». Программировать ничего не придётся: половина примеров в статье про готовые бесплатные сервисы.
Если хочется разобраться в нейросетях системно и научиться применять их в работе, загляните в нашу подборку курсов по нейросетям и искусственному интеллекту: там 316 программ от коротких интенсивов до годовых обучений, с фильтрами по уровню и формату.
RAG простыми словами — что это и зачем
Обычная нейросеть вроде ChatGPT или GigaChat — это «студент, который сдаёт экзамен из головы». Она училась на огромном массиве текстов из интернета и помнит то, что в них было. Спросите её, как сварить борщ или объяснить теорему Пифагора, ответит легко. А спросите «сколько у меня осталось дней отпуска», «что написано в договоре с поставщиком № 712» или «какие изменения внесли в закон на прошлой неделе», и она либо признается, что не знает, либо начнёт фантазировать.
RAG превращает её в «студента с конспектом». Перед тем как сгенерировать ответ, система сначала идёт в вашу базу знаний (документы, PDF, корпоративная вики, свежие новости из интернета), находит там пару-тройку самых подходящих кусков и передаёт их нейросети вместе с вопросом: «вот тебе материал, теперь отвечай по нему». В этом и суть аббревиатуры: Retrieval — поиск, Augmented — дополненный, Generation — генерация. Сначала находим, потом пишем ответ.
Технология не новая: статью с описанием подхода исследователи Facebook AI опубликовали ещё в 2020 году. Но массовым RAG стал в 2024–2026 годах, когда выяснилось, что ни один Claude Opus 4.7, ни GPT-5.5, ни Gemini 3 Pro не умеет сам собой узнать, что написано в ваших внутренних документах или сегодняшней статье на РБК. А бизнес и обычные пользователи именно этого и хотят.
Важно сразу запомнить: RAG не делает нейросеть умнее. Он делает её информированнее. Это как разница между человеком с высоким IQ и человеком, у которого открыта правильная страница «Википедии». Думать всё равно будет нейросеть, просто теперь у неё есть нужная страница перед глазами.
Где вы уже встречали RAG, не зная того
Если вы хоть раз пользовались Perplexity, Google NotebookLM, ChatGPT с включённым поиском в интернете или Яндекс Нейроэкспертом, поздравляем: вы уже работали с RAG. Просто не знали, как это называется.
Perplexity AI — поисковик-чат, который вместо десяти синих ссылок сразу пишет связный ответ со сносками на источники. Под капотом всё то же: вы пишете вопрос, Perplexity ищет свежие статьи в интернете, передаёт самые подходящие в нейросеть, та формирует ответ и ставит ссылки на то, откуда взяла факт. Подробнее в нашем гайде «Что такое Perplexity AI».
Google NotebookLM — бесплатный сервис, в который можно загрузить до 50 источников (PDF, Google Docs, веб-страницы, YouTube-видео), и потом задавать им вопросы. Пишете «составь мне план подготовки к экзамену из этих конспектов», и NotebookLM отвечает строго по тому, что вы загрузили, с указанием конкретного источника для каждого тезиса. Это и есть RAG: ваши документы превращаются в базу знаний, по которой нейросеть отвечает.
ChatGPT с включённой кнопкой поиска (значок глобуса) — это тоже RAG. Без поиска ChatGPT отвечает «из головы» и может промахнуться по свежим событиям. С включённым поиском он сначала идёт в интернет, тащит оттуда несколько статей и уже на их основе пишет ответ.
Яндекс Нейроэксперт — бесплатный российский аналог NotebookLM. Загружаете свои документы, задаёте вопросы, получаете ответы со ссылками на то место в документе, откуда взят факт.
Чат-боты крупных банков и маркетплейсов: Тинькофф, Сбер, Альфа, Ozon. Когда вы пишете в поддержку «как закрыть карту», бот не генерирует ответ из воздуха. Он сначала ищет в корпоративной базе знаний регламент, потом нейросеть переписывает сухую инструкцию в дружелюбный ответ. Это самое массовое применение RAG в российском бизнесе сегодня.
Сюда же относятся внутренние помощники типа GigaChat с подключённой базой знаний компании, корпоративные ассистенты на Confluence, школьные тренажёры по учебнику. Везде один и тот же принцип: «сначала найди в базе, потом сгенерируй ответ».
Как RAG работает по шагам — на примере вопроса студента
Представьте, что Маша готовится к экзамену по истории и загрузила в NotebookLM свои конспекты на 500 страниц. Она пишет: «когда был подписан Тильзитский мир и кто его подписал». Что происходит под капотом?
Шаг 1 — подготовка базы знаний (это сделано заранее, до Машиного вопроса). Когда Маша загрузила конспекты, система разбила их на маленькие кусочки по 200–500 слов. Такие кусочки называются чанками (chunks, «куски»). Каждый чанк прогнали через специальную нейросеть, которая называется embedding-модель (или эмбеддер). Она превращает текст в длинный список чисел: эмбеддинг или вектор. Это что-то вроде «отпечатка смысла»: два кусочка про Наполеона получат похожие наборы чисел, а кусочек про Наполеона и кусочек про борщ окажутся очень разными. Все эти числа сложили в специальное хранилище, векторную базу.
Шаг 2 — поиск (retrieval). Маша задаёт вопрос. Система сначала прогоняет её вопрос через ту же embedding-модель и получает «отпечаток смысла» вопроса. Дальше идёт семантический поиск, то есть поиск по смыслу, не по точному совпадению слов. Система сравнивает эмбеддинг вопроса со всеми эмбеддингами в базе и находит топ-3–5 самых похожих чанков. В Машином случае это будут отрывки конспекта, где упоминается Тильзит, 1807 год, Наполеон и Александр I.
Шаг 3 — сборка промпта. Найденные чанки склеиваются с исходным вопросом в один большой промпт (запрос к нейросети). Грубо говоря, выглядит это так: «Вот тебе три отрывка из конспекта студента. Ответь на его вопрос строго по ним. Вопрос: когда был подписан Тильзитский мир. Отрывок 1: …. Отрывок 2: …. Отрывок 3: ….».
Шаг 4 — генерация ответа. Этот собранный промпт уходит в большую языковую модель, например, Gemini 3 Pro, GPT-5.5 или GigaChat 2 Max. Модель читает отрывки, формулирует связный ответ и возвращает его Маше. В хороших RAG-системах модель ещё добавляет ссылку на то место в документе, откуда взят факт, чтобы Маша могла проверить.
Весь этот конвейер занимает 2–5 секунд. Для Маши это выглядит как обычный чат с нейросетью, только теперь нейросеть «знает» содержание её конспектов, хотя её никто заранее не учил истории России XIX века.
Зачем RAG нужен — три проблемы LLM, которые он решает
Без RAG большие языковые модели вроде ChatGPT, Claude или Gemini упираются в три ограничения. RAG лечит все три разом.
Проблема 1 — знания устарели на момент обучения. Каждая модель училась на текстах до какой-то даты, и эта дата называется cutoff. У Claude Opus 4.7 cutoff приходится на январь 2026, у GPT-5.5 на октябрь 2025. Спросите модель про события прошлой недели: она либо честно скажет «не знаю», либо начнёт сочинять. С RAG этой проблемы нет: модель ходит в интернет или в вашу базу через ретривер, забирает свежие данные и отвечает по ним.
Проблема 2 — галлюцинации. Так называется ситуация, когда нейросеть уверенно пишет неправду: выдумывает несуществующие книги, цитаты, статистику, законы. Корень проблемы в том, что LLM не умеет сказать «я не знаю»: она генерирует самое вероятное продолжение текста, а вероятное не всегда совпадает с истинным. RAG резко снижает количество галлюцинаций, потому что модель пишет ответ по конкретным отрывкам, которые ей подсунул ретривер. По памяти модель уже не работает. Если в базе нет ответа, хорошо настроенный RAG так и скажет: «по вашим документам ответа нет».
Проблема 3 — модель не знает ваших данных. Никакой ChatGPT не учился на договорах вашей компании, на медкарте конкретного пациента, на конспектах конкретного студента. И это хорошо: ваши документы — это ваше частное. RAG позволяет нейросети работать с вашими данными, не передавая их в обучение модели. Вы кладёте документы в свою базу, ретривер находит нужные куски и показывает их модели только в момент ответа.
Есть и бонусом четвёртый плюс: прозрачность. RAG показывает источник каждого ответа. Маша из примера выше может кликнуть на сноску и увидеть, что ответ взят со страницы 42 её собственного конспекта. С обычным ChatGPT такой проверки нет: он просто говорит и надеется, что вы поверите.
RAG vs fine-tuning vs длинный контекст — что выбрать новичку
Когда вы начинаете гуглить «как научить нейросеть моим данным», встретите три подхода: RAG, fine-tuning и «просто загрузить всё в длинный контекст». Они работают по-разному. Чтобы было понятно с первого взгляда, собрали в таблицу:
| Параметр | RAG | Fine-tuning | Длинный контекст |
|---|---|---|---|
| Что делает | Подсовывает модели куски из базы перед ответом | Дообучает саму модель на ваших данных | Загружает все ваши документы в один запрос целиком |
| Когда обновлять | В любой момент: добавили документ, модель «знает» сразу | Дообучать заново при каждом обновлении (долго и дорого) | Перед каждым вопросом загружать всё снова |
| Цена для новичка | От бесплатно (NotebookLM, Нейроэксперт) до 5 000–20 000 ₽/месяц для небольшого бизнеса | Тысячи рублей за один тренировочный прогон + работа специалиста | Платите за токены каждого запроса, на 2M токенов запрос может стоить $5–15 |
| Нужен программист | Нет, если использовать готовые сервисы | Да, обязательно | Нет, но процесс утомительный |
| Когда брать | База быстро меняется, документы большие, нужны ссылки на источники | Нужен особый стиль или поведение модели, данные стабильны | Документы небольшие, одноразовый вопрос, важна полнота картины |
Что выбрать, если непонятно: в 90 % случаев новичку нужен именно RAG. Он гибче, дешевле, не требует программиста на старте и работает на любых данных: от трёх PDF до корпоративной вики на 200 000 страниц. Fine-tuning стоит выбирать, только когда модели нужно поменять манеру речи или научить её жёсткому формату ответов. Длинный контекст — для одноразовых задач: «прочитай этот один большой документ и сделай выжимку».
На практике крупные продукты всё чаще комбинируют все три подхода, но это уже инженерная история, в которую новичку нырять не нужно.
Где RAG применяют — шесть реальных сценариев
Чтобы было понятно, на кого работает RAG прямо сейчас, собрали шесть распространённых сценариев. Возможно, увидите свой.
1. Поддержка клиентов. Самое массовое применение. Чат-бот сайта читает базу знаний компании (FAQ, регламенты, инструкции) и отвечает на вопросы пользователей. Клиент спрашивает «как вернуть заказ», бот находит регламент возврата и переписывает его человеческим языком. Так уже работают чат-боты Тинькофф, Сбера, Ozon, «Авито» и десятков других сервисов.
2. Корпоративный портал для сотрудников. Новый сотрудник вместо чтения 50-страничного welcome-пака пишет в чат: «сколько у меня дней отпуска», «как оформить командировку», «к кому идти за корпоративным ноутбуком». Бот отвечает по внутренней документации с ссылками на конкретные пункты регламента.
3. Юридические помощники. Юрист подключает к RAG базу законов, судебных решений и своих контрактов. Спрашивает «какие прецеденты есть по статье 451 ГК РФ», получает выжимку с ссылками на конкретные дела. Это не заменяет юриста, но экономит часы на ручном перелистывании.
4. Медицинские ассистенты. Врач задаёт вопрос по симптомам пациента, ассистент ищет в клинических рекомендациях, протоколах лечения и последних исследованиях. Здесь особенно важна верификация по источникам: фантазии в медицине опасны, и RAG как раз закрывает эту проблему.
5. Образование и обучение. Студент загружает свои конспекты в NotebookLM и готовится к экзамену, задавая вопросы по материалу. Преподаватель собирает бота-репетитора по учебнику курса. Сюда же относятся школьные платформы, которые проверяют ответы учеников и объясняют ошибки, ссылаясь на параграф из учебника.
6. Исследования и аналитика. Аналитик загружает десяток отчётов конкурентов, статьи по рынку, статистику и просит сделать выжимку: «кто из них в этом году нанимал больше всего сотрудников». RAG достанет нужные куски, нейросеть соберёт их в связный ответ, и аналитик сэкономит несколько дней на ручном чтении.
Сюда же отлично ложатся ассистенты для писателей по собственному архиву, помощники для научных руководителей по диссертациям студентов, репетиторы английского, разговаривающие по вашему учебнику. Идею легко переложить на любую область, где есть много текста и нужно по нему быстро искать.
Как попробовать RAG прямо сейчас — три бесплатных способа
Чтобы понять, нравится ли вам подход и закрывает ли он вашу задачу, программировать ничего не нужно. Есть готовые бесплатные сервисы, у каждого свой плюс.
Способ 1. Google NotebookLM (бесплатно, нужен Google-аккаунт). Заходите на notebooklm.google.com, нажимаете «Создать», загружаете до 50 источников: PDF, Google Docs, YouTube-видео, веб-страницы. NotebookLM проиндексирует их и откроет чат, в который можно задавать вопросы. Подходит студентам, исследователям, авторам курсов, всем, кто работает с большим объёмом своих документов. Под капотом — модель Gemini от Google.
Способ 2. Perplexity AI (бесплатный тариф есть, оплата платного из России затруднена, но есть посредники). Это RAG по интернету: вы задаёте вопрос, Perplexity ищет свежие статьи, читает их и даёт ответ с ссылками. Идеально, когда нужны актуальные данные или сравнение источников по спорному вопросу. Подробный гайд для новичков лежит в нашей статье «Что такое Perplexity AI».
Способ 3. Яндекс Нейроэксперт (полностью бесплатно, без КВН, на русском). Российский аналог NotebookLM от Яндекса. Загружаете документы, задаёте вопросы, получаете ответы с сносками. Под капотом — YandexGPT 5.1 Pro. Самый простой вход для тех, кто не хочет связываться с зарубежными сервисами и оплатой.
Есть и альтернативы посложнее, для тех, кто хочет собрать RAG под себя: GigaChat от Сбера с подключённой базой знаний (есть бесплатный лимит токенов), ChatGPT с кастомным GPT на своих файлах (нужен платный тариф), Claude Projects в Anthropic (для платных аккаунтов). Если хочется ещё глубже, есть no-code конструкторы вроде Flowise и Dify, в которых можно собрать собственный RAG за вечер без программирования.
Если зайдёт и захочется делать своё, следующий шаг разобраться с векторными базами (Chroma, Qdrant, FAISS) и фреймворками LangChain или LlamaIndex. Но это уже путь в сторону профессии специалиста по искусственному интеллекту: там без программирования никак.
Когда RAG не нужен — чек-лист из пяти пунктов
У RAG есть ситуации, где он бесполезен или даже вредит. Если узнаёте свой случай в одном из пяти пунктов ниже, берите обычный ChatGPT или GigaChat без RAG: сэкономите время.
1. Задача не требует ссылок на источник
Нужно перевести текст, переписать письмо в вежливом тоне, написать SEO-описание товара, придумать слоган — RAG только замедлит процесс. Обычная LLM справится за пару секунд из общих знаний.
2. У вас всего один-два документа на 3–10 страниц
В этом случае проще загрузить документ целиком в чат с Claude или Gemini: у них контекстное окно (сколько текста модель может «увидеть» разом) достигает 1–2 миллионов токенов. Десять PDF-страниц — это копейки от такого окна. RAG нужен, когда документов десятки и сотни.
3. Нужно поменять стиль или поведение модели
Если задача в том, чтобы научить модель отвечать в манере конкретного бренда, использовать особую терминологию или жёстко следовать формату ответа, то это задача для fine-tuning. RAG про знания, fine-tuning про стиль.
4. У вас грязная или противоречивая база
RAG достаёт куски из базы и скармливает их модели. Если в базе мусор, дубли, устаревшие версии регламентов вперемешку со свежими, модель честно соберёт мусорный ответ. RAG не умеет фильтровать мусор за вас. Сначала нужно почистить базу.
5. Вопросы требуют сложных вычислений или логики, без фактов из базы
Если задача в том, чтобы посчитать долю склонившихся к ответу «да» в опросе или построить логическую цепочку из пяти условий, RAG здесь не помощник. Эти задачи закрывают модели с режимом рассуждений (Claude Opus 4.7 в thinking-режиме, GPT-5.5 Thinking, o3-pro) и инструменты-калькуляторы, которые подключают к нейросети отдельно.
Словарь терминов RAG одним блоком
Соберём всё, что разобрали по ходу статьи, в один словарь. Можно вернуться сюда, когда встретите термин в другой статье или видео.
- LLM — большая языковая модель (Large Language Model). Нейросеть, которая пишет связный текст: ChatGPT, Claude, Gemini, GigaChat — это всё LLM.
- Промпт — запрос, который вы пишете нейросети. Может быть коротким («переведи на английский») или длинным с примерами и инструкциями.
- Галлюцинация — выдуманный факт, который нейросеть выдала за правду. Несуществующая книга, неверная цитата, фальшивая статистика.
- Контекстное окно — сколько текста модель может «удержать» в голове за один запрос. У Gemini 3 Pro контекст достигает 2 миллионов токенов, у Claude Opus 4.7 — 200 тысяч.
- Токен — единица текста, в которой нейросети считают объём. Один токен это примерно 3–4 символа на русском или одно короткое слово на английском.
- Чанк (chunk) — кусок документа, на которые рубят базу знаний перед загрузкой. Обычно 200–500 слов.
- Эмбеддинг (embedding) — представление текста в виде набора чисел. Чем ближе два эмбеддинга друг к другу, тем ближе по смыслу два текста.
- Вектор — те же самые числа из эмбеддинга, только в терминах математики.
- Embedding-модель (эмбеддер) — отдельная нейросеть, которая превращает текст в эмбеддинг.
- Векторная база данных — специальное хранилище для эмбеддингов, оптимизированное под быстрый поиск по сходству. Примеры: Chroma, Qdrant, Pinecone, Weaviate, FAISS.
- Ретривер (retriever) — компонент RAG, который занимается поиском подходящих чанков по вопросу пользователя.
- Семантический поиск — поиск по смыслу. Запрос «как уволиться» найдёт чанк «процедура расторжения трудового договора», хотя слова разные.
- Fine-tuning — дообучение модели на ваших данных. Меняет «мозги» самой модели, в отличие от RAG, который меняет только её «конспект».
- Гибридный поиск — комбинация семантического и обычного словесного поиска. Используется в продвинутых RAG-системах для большей точности.
- Pipeline (пайплайн) — конвейер всех этапов: документ → чанки → эмбеддинги → векторная база → поиск → промпт → генерация.
- LangChain, LlamaIndex — самые популярные фреймворки (готовые библиотеки) для сборки RAG-систем на Python. С них начинают, когда хочется собрать своё.
Где научиться работать с нейросетями и RAG
RAG — одна из тем внутри большой области «нейросети и искусственный интеллект». Учиться отдельно «только RAG» особо негде, и это правильно: чтобы собрать рабочий проект, нужно понимать, как устроены LLM, что такое промпт-инжиниринг, как работают API популярных моделей и как оформить всё это в продукт.
Чтобы не собирать программу обучения из разрозненных YouTube-роликов, достаточно один раз выбрать нормальный курс. Мы собрали 316 курсов по нейросетям и AI: от коротких интенсивов на месяц для маркетологов и контент-менеджеров до годовых программ для будущих ML-инженеров с трудоустройством. Есть варианты от Яндекс Практикума, Skillbox, Нетологии, GeekBrains, Otus и ещё десятка школ, с фильтрами по цене, длительности, уровню и наличию рассрочки.
| Курс | Школа | Стоимость со скидкой | В рассрочку | Длительность | Обзор курса от Checkroi |
|---|---|---|---|---|---|
| Нейросети для изображений и видео Перейти на сайт курса | 69 100 ₽ | 5758 ₽/мес. | 2 месяца | Обзор курса | |
| Нейросети: практический курс Перейти на сайт курса | 25 990 ₽ | 181 667 ₽/мес. | 3 месяца | Обзор курса | |
| Нейросети для рабочих задач Перейти на сайт курса | 29 800 ₽ | 2483 ₽/мес. | 1 месяц | Обзор курса | |
| Нейросети. Практический курс Перейти на сайт курса | 74 900 ₽ | 6242 ₽/мес. | 3 месяца | Обзор курса | |
| Нейросети для каждого: как решать рабочие задачи быстрее Перейти на сайт курса | 37 300 ₽ | 2763 ₽/мес. | 6 недель | Обзор курса | |
| Нейросети на практике Перейти на сайт курса | 54 515 ₽ | 4542 ₽/мес. | 2 месяца | Обзор курса | |
| Нейросети для дизайна Перейти на сайт курса | 64 000 ₽ | 2612 ₽/мес. | 2 месяца | Обзор курса | |
| Магистратура «Прикладной искусственный интеллект» с УрФУ Перейти на сайт курса | 162 500 ₽ | 244 ₽/мес. | 24 месяца | Обзор курса | |
| Нейросети для анализа данных Перейти на сайт курса | 31 700 ₽ | 2351 ₽/мес. | 8 недель | Обзор курса | |
| Нейросети для финансистов Перейти на сайт курса | 65 600 ₽ | 5466 ₽/мес. | 2 месяца | Обзор курса |
Больше программ — в полном каталоге курсов по нейросетям и искусственному интеллекту
Если ещё думаете, в какую сторону копать дальше, почитайте наши гайды по ключевым AI-инструментам 2026 года: «Что такое AI-агенты» (агенты как раз часто работают поверх RAG), «Что такое GigaChat» и «Что такое Claude Code». А если планируете строить карьеру вокруг этой темы, у нас есть отдельная статья про профессию специалиста по искусственному интеллекту: чем занимается, сколько зарабатывает и как туда зайти.




