«Думающие» режимы у нейросетей звучат как маркетинговый ход, но за ними стоит реальная механика, которая меняет и качество ответа, и цену запроса, и время ожидания. К маю 2026 почти все ведущие модели (Claude Opus 4.7, GPT-5.5, Gemini 3 Pro, Qwen 3.7, DeepSeek V4) дают возможность вручную выставить уровень: Low, Medium, High, Extra High или Max. И здесь начинается самое интересное.
Часто думают, что «дольше думает = лучше отвечает». На деле это не всегда так. На простой задаче режим Max может ответить хуже, чем Medium: модель начинает перебирать варианты, путать сама себя и стоит при этом в 5–10 раз дороже. Поэтому грамотный выбор уровня сводится не к «всегда крутить на максимум», а к пониманию, под какую задачу какой режим работает.
В этой статье разобрали всё в одной матрице: что такое уровни думания простыми словами, чем они отличаются, под какие 12 типовых задач какой уровень включать, как это переключается в ChatGPT, Claude, Claude Code, Gemini, Cursor и российских моделях. Отдельно поговорим про Fast Mode, который часто путают с режимом High, хотя это вообще другая история. Если только начинаете разбираться, что такое токены и контекст, заглядывайте в материал «Что такое токен в нейросети»: без этого некоторые цифры в статье будут абстрактными.
Статья подойдёт всем, кто пользуется AI каждый день: маркетологам, аналитикам, разработчикам, продактам, преподавателям, копирайтерам. Никакого требования к техническому бэкграунду нет, везде, где можно, объясняем на бытовых примерах.
Если хочется освоить нейросети системно, а не методом тыка, у нас собрана подборка курсов по нейросетям и искусственному интеллекту: от коротких интенсивов на выходные до годовых программ с практикой.
А если хотите сравнить конкретные модели одной компании, посмотрите разбор моделей ChatGPT (GPT-5.5, GPT-5.4, o3): там про другой выбор, не про режимы, а про сами линейки.
Что такое режим думания у нейросети простыми словами
Раньше нейросети работали так: получили вопрос, прогнали через себя, выдали ответ. Никаких промежуточных шагов, никаких размышлений: модель просто предсказывала, какое слово должно идти за каким. На простых задачах это норм, на сложных провал: математика, многоступенчатые рассуждения и логические задачки давались слабо.
В 2024 году появилась идея «рассуждающих» (reasoning) моделей. Концепт простой: пусть модель сначала «подумает вслух», запишет себе черновик с промежуточными шагами, проверит варианты, а потом уже даст финальный ответ. Эти черновые мысли называются thinking tokens (токены думания), и вы их обычно не видите. Но именно они стоят дороже всего, потому что считаются как output.
Хорошая аналогия: представьте студента на экзамене. Один пишет ответ сразу, не подумав. Второй сначала делает черновик: рисует схему, прикидывает варианты, перепроверяет, и только потом переписывает в чистовик. Второй обычно отвечает точнее, но тратит больше времени и больше бумаги. С нейросетями ровно то же самое. Токены думания, это черновик. Время ответа, это процесс размышления. Цена, это «больше бумаги».
Уровень думания, это сколько черновика модели разрешено написать перед ответом. Low значит почти без черновика, Medium значит нормальный черновик, High и Max значат большой черновик с перепроверкой и разбором альтернатив. У разных провайдеров эти уровни называются по-разному (reasoning_effort, thinking_level, /effort, ultrathink), но идея одна.
Технически отдельная категория, это специализированные reasoning-модели: o3 и o3-pro у OpenAI, DeepSeek R1, Qwen QwQ-32B, DeepSeek V3.2-Speciale. Они «думают» всегда, это их базовый режим. У них тоже есть переключатели глубины (low / medium / high), но даже на low они думают больше, чем обычная модель типа GPT-5.5 на high. Подробнее про различие линеек смотрите в сравнении моделей ChatGPT.
Пять уровней думания: Low, Medium, High, Extra High и Max
Названия и количество ступеней слегка отличаются у провайдеров (у OpenAI есть ещё уровень Minimal/None, у Gemini только три ступени, у Claude Code четыре через trigger words), но все они укладываются в общую шкалу. Вот сравнение.
| Уровень | Что меняется | Время ответа | Цена vs Low | Кому подходит |
|---|---|---|---|---|
| Low (Minimal, think) | Минимум черновика, модель отвечает почти сразу | 1–3 сек | ×1 (база) | Резюме, перевод, простые вопросы, классификация |
| Medium (megathink) | Нормальный черновик с проверкой шагов | 3–10 сек | ×2–3 | Стандартный кодинг, контент, аналитика, обычная работа |
| High (think harder) | Длинный черновик, перебор вариантов | 15–60 сек | ×5–10 | Архитектура, сложные расчёты, многошаговая логика |
| Extra High (XHigh, Deep Think Mini) | Глубокий разбор с возвратом к промежуточным выводам | 1–3 мин | ×10–15 | Научные задачи, доказательства, дизайн систем |
| Max (ultrathink, Deep Research) | Максимальный бюджет, до часа на одну задачу | 3–60 мин | ×20–50 | Критичные миграции, юр-документы, исследования |
Несколько важных вещей про эту таблицу.
Во-первых, цена считается не за «уровень», а за токены думания, которые модель израсходовала. На Medium она напишет 1000–3000 токенов внутреннего черновика, на High — 5000–20 000, на Max — десятки и даже сотни тысяч. Каждый такой токен тарифицируется как output. У Gemini 3 Pro, например, output стоит $12 за миллион токенов, в 6 раз дороже input. У Claude Opus 4.7 — $75 за миллион output.
Во-вторых, разница в качестве между уровнями нелинейная. По замерам OpenAI, GPT-5.5 на High даёт всего на 1 % лучше результат, чем на Medium (65 % vs 64 % успешных ответов на общем бенчмарке), но стоит в 2 раза дороже. Реальный прирост качества заметен только на узких сложных задачах: математика, многошаговый код, юридический анализ.
В-третьих, Max-режим существует не везде. У Gemini 3 Pro максимум, это High с Deep Think Mini. У GPT-5.5, это xhigh. У Claude Code, это ultrathink (~32 000 токенов бюджета). У o3-pro этот «максимум», встроенная опция модели, без выбора уровня.

Какой уровень брать: матрица под 12 типовых задач
Чтобы не гадать, мы собрали таблицу: какие задачи лучше идут на каком уровне. Это не догма, а точка отсчёта: на практике вы скорректируете под свой случай.
| Задача | Оптимальный уровень | Почему |
|---|---|---|
| Составить план поездки на выходные | Low / Medium | Шаблонная задача, перебирать варианты особо нечего |
| Быстро спросить, как пишется слово | Low / Minimal | Здесь думать вообще нечем, нужен быстрый ответ |
| Резюме статьи или встречи | Low | Сжатие текста, задача без рассуждений |
| Написать резюме для смены профессии | Medium | Нужно структурировать, но это не уравнение в частных производных |
| Разобрать письмо с условиями ипотеки | Medium / High | Длинный текст, нужно выудить нюансы |
| Помочь выбрать курс из десяти по критериям | Medium | Сравнение по нескольким параметрам, это «думание», но не глубокое |
| Дебаг странной ошибки в коде | High | Перебор гипотез, восстановление контекста, ради чего High и нужен |
| Спроектировать архитектуру сервиса | High / Extra High | Много trade-off, надо рассмотреть альтернативы |
| Составить ТЗ на сайт с нюансами | High | Учёт ограничений, склейка требований |
| Юридическое обращение в банк | High / Extra High | Цена ошибки в реальных деньгах, нужна перепроверка формулировок |
| Понять, почему бизнес-план не сходится | Extra High | Многошаговая аналитика, поиск противоречий |
| Исследование «как устроена индустрия X» | Max / Deep Research | Час работы модели окупается, если результат заменяет день работы аналитика |
Универсальное правило: если не уверены, берите Medium. Это дефолт почти у всех провайдеров, и в 90 % случаев он даёт лучший баланс качества, цены и скорости. На Low поднимайтесь только под массовые простые задачи (например, обработать 10 000 писем-классификаторов через API). На High и выше тогда, когда уже на Medium результат не устраивает и ясно, чего конкретно не хватает.
И ещё одно: если задача не логическая, а творческая (написать стихотворение, придумать слоган, переписать текст в другом тоне), высокие уровни думания почти не помогают. Креатив не становится лучше от того, что модель думает дольше, потому что в креативе нет «правильного ответа», который можно проверить. Здесь работают другие приёмы: примеры, развёрнутый бриф, ссылки на референсы. Для таких задач можно посмотреть нашу подборку 50 промптов для маркетолога.
Как это называется и переключается у разных нейросетей
Главная путаница для новичка: одна и та же идея у разных компаний обзывается по-разному. Где-то это параметр API, где-то переключатель в интерфейсе, где-то магическое слово в промпте. Пройдёмся по шести самым массовым сервисам.
ChatGPT и GPT-5.5 от OpenAI
У OpenAI два разных способа управления думанием в зависимости от того, через что вы работаете.
В интерфейсе ChatGPT (chat.openai.com и приложения) есть отдельная модель GPT-5.5 Thinking. Выбираете её из выпадающего списка вверху, и она «думает» автоматически. Уровень думания при этом контролирует сама модель: оценивает сложность вопроса и решает, сколько усилий вложить. Доступна на тарифах Plus ($20/мес) и Pro ($200/мес).
В API всё точнее. Параметр reasoning_effort со значениями minimal / low / medium / high / xhigh. Дефолт — medium. Подробнее про подбор модели смотрите в статье «Какую модель ChatGPT выбрать». Базовое введение в интерфейс есть в «Что такое ChatGPT простыми словами».
Особенность OpenAI: токены думания включаются в общий счёт output. Отдельной строки «reasoning tokens» в счёте нет, но в API ответе видно в поле usage.completion_tokens_details.
Claude и Claude Code от Anthropic

У Anthropic исторически две схемы: extended thinking в API и trigger words в Claude Code.
В API Claude Opus 4.7 (claude-opus-4-7) и Sonnet 4.6 включается extended thinking через параметр thinking: указываете бюджет в токенах (от 1024 до 200 000+). Чем выше бюджет, тем глубже модель думает, но не обязана его весь израсходовать.
В Claude Code (CLI-инструмент для разработчиков) есть четыре уровня через слова в промпте:
- think: базовый уровень, около 4000 токенов на размышление
- think hard / megathink: средний, около 10 000 токенов
- think harder: глубокий, около 20 000 токенов
- ultrathink: максимальный, около 31 999 токенов
Слова работают как триггеры: Claude Code распознаёт их в тексте промпта и выделяет соответствующий бюджет. Альтернатива, команда /effort с аргументами low / medium / high / max, которая задаёт уровень на всю сессию.
Что такое сам Claude и чем он отличается от ChatGPT, есть отдельная статья «Что такое Claude от Anthropic». Про лимиты, контекст и rate limits смотрите в «Лимиты Claude Code в 2026 году».
Gemini 3 Pro от Google
У Google в Gemini 3 Pro и Gemini 3 Flash есть параметр thinking_level: LOW / MEDIUM / HIGH. На HIGH автоматически активируется Deep Think Mini, облегчённая версия большого Deep Think.
Главная грабля: по дефолту Gemini 3 Pro работает на HIGH. То есть если вы не указываете уровень явно, API запросов будет дёргать самый дорогой режим. Это в 5–10 раз увеличивает счёт за месяц по сравнению с MEDIUM, и большинство новичков об этом узнаёт уже из счёта.
В интерфейсе gemini.google.com управление проще: выбираете модель «Gemini 3 Pro Thinking» в дропдауне, и она сама решает, насколько думать. Базовое объяснение Gemini есть в «Что такое Google Gemini в 2026».
Цена thinking-токенов в Gemini 3 Pro: $12 за миллион (в 6 раз дороже input). Через Batch API можно получить 50 % скидку, через context caching кеш стоит $0.50 за миллион.
Cursor и другие AI-IDE
В Cursor (редактор кода на базе VS Code) явного переключателя уровня думания нет. Cursor использует модели разных провайдеров (Claude, GPT, Gemini), и уровень рассуждения зависит от выбранной модели. Если выбираете GPT-5.5 Thinking, она думает по дефолту medium. Если Claude Opus 4.7, extended thinking включается в Agent-режиме автоматически на сложных задачах.
Особенность Cursor, режим Auto: система сама решает, какую модель и с каким уровнем думания вызвать в зависимости от сложности запроса. Это удобно для большинства, но контроля над расходом меньше. Кто создал Cursor и как он вырос, есть отдельная статья.
В Windsurf, JetBrains AI и других IDE логика похожая. Явного слайдера обычно нет, есть выбор модели и иногда галка «think before answering». Список инструментов программиста с примерами промптов есть в подборке «50 промптов для программистов».
Российские модели: YandexGPT, GigaChat, Алиса
У российских моделей режим думания пока не везде доступен или не везде вынесен в интерфейс.
YandexGPT 5.1 Pro, флагман Яндекса, доступен в Алисе Pro (100 ₽/мес) и через API. Явного переключателя уровня нет: модель сама решает, насколько углубляться. Подробное сравнение моделей Яндекса есть в материале «Какую модель YandexGPT выбрать в 2026 году».
GigaChat 2 Max от Сбера в момент релиза занял 1-е место на MERA (российский бенчмарк), обогнав GPT-4o, DeepSeek V3 и Llama 70B на русском. Прозрачного слайдера думания нет, есть выбор модели (Lite / Pro / Max), и фактически это и есть выбор «уровня». Что такое GigaChat, читайте в статье «Что такое GigaChat, нейросеть Сбера».
Алиса AI, надстройка над YandexGPT с ограниченным выбором. Бесплатный тариф работает на YandexGPT 5 Lite, Алиса Pro работает на 5.1 Pro. Подробнее в «Что такое Алиса AI».
Китайские модели: DeepSeek, Qwen
У китайцев своя логика. DeepSeek V3.2-Speciale, это отдельная reasoning-версия их базовой модели, работает только в режиме рассуждения. DeepSeek R1, чистая reasoning-модель, ничего другого не умеет. DeepSeek V4 Pro (релиз апрель 2026), гибрид, поддерживает оба режима.
У Alibaba флагман, Qwen 3.7 Max (релиз 21 мая 2026), text-only с контекстом 1M токенов. На Intelligence Index v4.0, 5-е место в мире, #1 среди китайских моделей. Особенность, самый низкий процент галлюцинаций среди frontier-моделей (22.9 %). Может работать как агент до 35 часов автономно. Цена $2.50/$7.50 за миллион токенов, в 3 раза дешевле GPT-5.5 при сопоставимом качестве рассуждений. Подробнее в статье «Qwen, что это за нейросеть от Alibaba».
Reasoning-вариант у Qwen, отдельная модель QwQ-32B (open-weights, можно запустить локально).
Fast Mode: про скорость, а не про думание
Здесь самая частая путаница новичков. Fast Mode (в Claude Code, команда /fast) и High reasoning звучат похоже, но это разные оси.
Fast Mode не меняет качество думания. Это та же самая модель (Claude Opus 4.7), просто запросы маршрутизируются через более быстрый путь обслуживания: меньше очередь, выделенные серверы, меньше задержка. Anthropic за это берёт повышенный тариф: $30 за миллион input и $150 за миллион output (vs $15/$75 в обычном режиме). На контекстах больше 200K токенов цена $60/$225.
Скорость растёт в 2.5 раза по сравнению со стандартным Opus. То есть если запрос обычно идёт 30 секунд, на Fast Mode он ответит за 12.
Важный момент: Fast Mode совместим с любым уровнем думания. Можно включить и ultrathink, и Fast Mode одновременно, получите глубокое думание, доставленное быстрее. Это и есть правильный способ использования: глубина задаётся уровнем думания, скорость задаётся Fast Mode.
Когда включать Fast Mode:
- Живая итеративная работа в Claude Code: вы на месте, ждёте каждый ответ, и 15 секунд задержки выбивают из концентрации
- Дебаг в реальном времени: нужно быстро попробовать пять гипотез
- Срочный дедлайн: экономия 5 минут на каждом обмене окупает повышенный тариф
- Демонстрация заказчику: пауза в 30 секунд после каждого запроса смотрится тяжело
Когда не включать:
- Долгая автономная задача в Agent-режиме: вы всё равно не ждёте у экрана
- Batch-обработка через API: пакетная обработка через Batch API даёт 50 % скидку, Fast Mode её убьёт
- CI/CD пайплайны: там скорость не критична, важно не переплачивать
- Простые рутинные запросы: на них и стандартный режим отвечает за 3 секунды
Включается командой /fast в Claude Code (нужна версия v2.1.36 или новее, проверка через claude --version) или установкой "fastMode": true в пользовательских настройках. Повторный /fast отключает режим.
Аналога Fast Mode у OpenAI и Google пока нет. У них скорость зависит только от выбранной модели (Flash-варианты у Gemini, mini-варианты у GPT). Это другой подход: чтобы получить ответ быстрее, выбираете более лёгкую модель, а не другой канал доставки.
Пять типичных ошибок при выборе режима
Эти ошибки повторяются у 90 % новичков. Разберём, чтобы не наступать.
Ошибка 1: всегда крутить на максимум
Логика «дороже значит лучше» здесь не работает. На простых задачах Max-режим часто отвечает хуже Medium: модель начинает перебирать варианты, сама себя путать, генерировать избыточный текст. Это называется overthinking. Особенно заметно в creative-задачах и в коротких вопросах.
Что делать: начинать с Medium, поднимать уровень только если конкретно видите, чего не хватает в ответе.
Ошибка 2: забыть про default-HIGH в Gemini
У Gemini 3 Pro дефолтное значение thinking_level равно HIGH. Запросы без явного указания уровня сразу едут на самом дорогом тарифе. Один разработчик описывал, как за неделю получил счёт на $6700 вместо ожидаемых $700, забыл указать thinking_level: medium в production-конфиге.
Что делать: при работе с Gemini 3 API всегда явно прописывать thinking_level. И вообще включить алерты на превышение бюджета.
Ошибка 3: путать reasoning-модели и обычные с включённым reasoning
o3, DeepSeek R1, QwQ-32B, это всегда думающие модели. У них нет режима «не думай», их minimum уже глубокое размышление. Пытаться сэкономить, выставив у o3 параметр reasoning_effort=low, всё равно дороже, чем взять GPT-5.5 на medium.
Что делать: если задача не требует глубокого рассуждения, берите обычную модель (GPT-5.5, Claude Sonnet 4.6, Gemini 3 Flash) и уровень medium, а не reasoning-вариант на минимуме.
Ошибка 4: смешивать Fast Mode и High
Многие думают, что Fast Mode, это «быстрое думание», а High reasoning, это «медленное и глубокое», и выбирают между ними как будто это одно и то же. На деле это две оси: глубина (low / medium / high / max) и скорость доставки (обычная / Fast Mode).
Что делать: понять, что это разные кнопки. Для долгого глубокого думания нужен High. Для живой работы — Fast Mode. Можно совмещать.
Ошибка 5: недооценить latency в продакшене
В интерактивном продукте, где AI отвечает пользователю, разница между Low (3 секунды) и High (60 секунд) — это смерть UX. Никто не будет минуту ждать ответа от чат-бота, даже если он на 5 % точнее.
Что делать: в интерактивных интерфейсах ставить уровень не выше Medium. Если нужно «глубже», выносить запросы в асинхронный режим со статусом «обрабатывается, придёт через минуту». Подробнее про работу с контекстом и агентным режимом смотрите в статье «Что такое RAG».
Где научиться работать с нейросетями системно
Режимы думания, токены, контекстные окна, агенты, RAG, всё это части одного навыка, который сейчас называют AI-грамотностью. Можно учиться методом тыка через ChatGPT, можно на курсе с куратором и практикой. Второй путь обычно занимает 2–4 месяца и даёт работающий навык под рабочие задачи, а не только теоретическое понимание.
Мы собрали актуальные программы, от интенсивов на выходные до полугодовых курсов с дипломом, и отсортировали по нашему рейтингу. Каждая школа проверена редакцией.
| Курс | Школа | Стоимость со скидкой | В рассрочку | Длительность | Обзор курса от Checkroi |
|---|---|---|---|---|---|
| Нейросети для изображений и видео Перейти на сайт курса | 69 100 ₽ | 5758 ₽/мес. | 2 месяца | Обзор курса | |
| Нейросети: практический курс Перейти на сайт курса | 25 990 ₽ | 181 667 ₽/мес. | 3 месяца | Обзор курса | |
| Нейросети для рабочих задач Перейти на сайт курса | 29 800 ₽ | 2483 ₽/мес. | 1 месяц | Обзор курса | |
| Нейросети. Практический курс Перейти на сайт курса | 74 900 ₽ | 6242 ₽/мес. | 3 месяца | Обзор курса | |
| Нейросети для каждого: как решать рабочие задачи быстрее Перейти на сайт курса | 37 300 ₽ | 2763 ₽/мес. | 6 недель | Обзор курса | |
| Нейросети на практике Перейти на сайт курса | 54 515 ₽ | 4542 ₽/мес. | 2 месяца | Обзор курса | |
| Нейросети для дизайна Перейти на сайт курса | 64 000 ₽ | 2612 ₽/мес. | 2 месяца | Обзор курса | |
| Магистратура «Прикладной искусственный интеллект» с УрФУ Перейти на сайт курса | 162 500 ₽ | 244 ₽/мес. | 24 месяца | Обзор курса | |
| Нейросети для анализа данных Перейти на сайт курса | 31 700 ₽ | 2351 ₽/мес. | 8 недель | Обзор курса | |
| Нейросети для финансистов Перейти на сайт курса | 65 600 ₽ | 5466 ₽/мес. | 2 месяца | Обзор курса |
Больше программ — в полном каталоге курсов по нейросетям и искусственному интеллекту
Если уже работаете с AI и хотите углубиться, заглядывайте в нашу подборку «50 промптов для программистов в Cursor, Claude Code и Codex»: там много прикладных примеров под конкретные сценарии.




