Режимы думания нейросетей: Low, Medium, High и Max в 2026

Обновлено 09.06.2026
Опубликовано 27.05.2026
243 просмотра
15 мин. чтения
0 комментариев

Все ведущие нейросети к 2026 году дают выбор уровня думания: Low, Medium, High, Extra High или Max. Звучит сложно, но за этим одно правило: «дольше думает» не значит «лучше отвечает». Разобрали в одной матрице, какой уровень брать под 12 типовых задач в ChatGPT, Claude, Gemini и Cursor. И отдельно про Fast Mode — режим, который часто путают с думанием.

Статью написал:

Ваня Буявец

Основатель Checkroi, продюсер, эксперт в выборе онлайн-курсов

Все 1473 статьи автора Подписаться на Телеграм-канал

Одобрено экспертом:

Наташа Буявец

Основательница Checkroi, продюсер Youtube-каналов, эксперт по онлайн-курсам

Все 2134 экспертных мнения Подписаться на Телеграм-канал

Обложка: Режимы думания нейросетей в 2026: Low, Medium, High и Max и зачем нужен Fast Mode

«Думающие» режимы у нейросетей звучат как маркетинговый ход, но за ними стоит реальная механика, которая меняет и качество ответа, и цену запроса, и время ожидания. К маю 2026 почти все ведущие модели (Claude Opus 4.8, GPT-5.6 Sol, Gemini 3.1 Pro Preview, Qwen 3.7, DeepSeek V4) дают возможность вручную выставить уровень: Low, Medium, High, Extra High или Max. И здесь начинается самое интересное.

Часто думают, что «дольше думает = лучше отвечает». На деле это не всегда так. На простой задаче режим Max может ответить хуже, чем Medium: модель начинает перебирать варианты, путать сама себя и стоит при этом в 5–10 раз дороже. Поэтому грамотный выбор уровня сводится не к «всегда крутить на максимум», а к пониманию, под какую задачу какой режим работает.

В этой статье разобрали всё в одной матрице: что такое уровни думания простыми словами, чем они отличаются, под какие 12 типовых задач какой уровень включать, как это переключается в ChatGPT, Claude, Claude Code, Gemini, Cursor и российских моделях. Отдельно поговорим про Fast Mode, который часто путают с режимом High, хотя это вообще другая история. Если только начинаете разбираться, что такое токены и контекст, заглядывайте в материал «Что такое токен в нейросети»: без этого некоторые цифры в статье будут абстрактными.

Статья подойдёт всем, кто пользуется AI каждый день: маркетологам, аналитикам, разработчикам, продактам, преподавателям, копирайтерам. Никакого требования к техническому бэкграунду нет, везде, где можно, объясняем на бытовых примерах.

Если хочется освоить нейросети системно, а не методом тыка, у нас собрана подборка курсов по нейросетям и искусственному интеллекту: от коротких интенсивов на выходные до годовых программ с практикой.

А если хотите сравнить конкретные модели одной компании, посмотрите разбор моделей ChatGPT (GPT-5.6 Sol, GPT-5.4, o3): там про другой выбор, не про режимы, а про сами линейки.

КурсыСравнение 27 курсов по ClaudeЦены, школы, длительность, рассрочка

Что такое режим думания у нейросети простыми словами

Раньше нейросети работали так: получили вопрос, прогнали через себя, выдали ответ. Никаких промежуточных шагов, никаких размышлений: модель просто предсказывала, какое слово должно идти за каким. На простых задачах это норм, на сложных провал: математика, многоступенчатые рассуждения и логические задачки давались слабо.

В 2024 году появилась идея «рассуждающих» (reasoning) моделей. Концепт простой: пусть модель сначала «подумает вслух», запишет себе черновик с промежуточными шагами, проверит варианты, а потом уже даст финальный ответ. Эти черновые мысли называются thinking tokens (токены думания), и вы их обычно не видите. Но именно они стоят дороже всего, потому что считаются как output.

Хорошая аналогия: представьте студента на экзамене. Один пишет ответ сразу, не подумав. Второй сначала делает черновик: рисует схему, прикидывает варианты, перепроверяет, и только потом переписывает в чистовик. Второй обычно отвечает точнее, но тратит больше времени и больше бумаги. С нейросетями ровно то же самое. Токены думания, это черновик. Время ответа, это процесс размышления. Цена, это «больше бумаги».

Уровень думания, это сколько черновика модели разрешено написать перед ответом. Low значит почти без черновика, Medium значит нормальный черновик, High и Max значат большой черновик с перепроверкой и разбором альтернатив. У разных провайдеров эти уровни называются по-разному (reasoning_effort, thinking_level, /effort, ultrathink), но идея одна.

Технически отдельная категория, это специализированные reasoning-модели: o3 и o3-pro у OpenAI, DeepSeek R1, Qwen QwQ-32B, DeepSeek V3.2-Speciale. Они «думают» всегда, это их базовый режим. У них тоже есть переключатели глубины (low / medium / high), но даже на low они думают больше, чем обычная модель типа GPT-5.6 Sol на high. Подробнее про различие линеек смотрите в сравнении моделей ChatGPT.

Пять уровней думания: Low, Medium, High, Extra High и Max

Названия и количество ступеней слегка отличаются у провайдеров (у OpenAI есть ещё уровень Minimal/None, у Gemini только три ступени, у Claude Code четыре через trigger words), но все они укладываются в общую шкалу. Вот сравнение.

Уровень	Что меняется	Время ответа	Цена vs Low	Кому подходит
Low (Minimal, think)	Минимум черновика, модель отвечает почти сразу	1–3 сек	×1 (база)	Резюме, перевод, простые вопросы, классификация
Medium (megathink)	Нормальный черновик с проверкой шагов	3–10 сек	×2–3	Стандартный кодинг, контент, аналитика, обычная работа
High (think harder)	Длинный черновик, перебор вариантов	15–60 сек	×5–10	Архитектура, сложные расчёты, многошаговая логика
Extra High (XHigh, Deep Think Mini)	Глубокий разбор с возвратом к промежуточным выводам	1–3 мин	×10–15	Научные задачи, доказательства, дизайн систем
Max (ultrathink, Deep Research)	Максимальный бюджет, до часа на одну задачу	3–60 мин	×20–50	Критичные миграции, юр-документы, исследования

Несколько важных вещей про эту таблицу.

Во-первых, цена считается не за «уровень», а за токены думания, которые модель израсходовала. На Medium она напишет 1000–3000 токенов внутреннего черновика, на High — 5000–20 000, на Max — десятки и даже сотни тысяч. Каждый такой токен тарифицируется как output. У Gemini 3.1 Pro Preview, например, output стоит $12 за миллион токенов, в 6 раз дороже input. У Claude Opus 4.8 — $75 за миллион output.

Во-вторых, разница в качестве между уровнями нелинейная. По замерам OpenAI, GPT-5.6 Sol на High даёт всего на 1 % лучше результат, чем на Medium (65 % vs 64 % успешных ответов на общем бенчмарке), но стоит в 2 раза дороже. Реальный прирост качества заметен только на узких сложных задачах: математика, многошаговый код, юридический анализ.

В-третьих, Max-режим существует не везде. У Gemini 3.1 Pro Preview максимум, это High с Deep Think Mini. У GPT-5.6 Sol, это xhigh. У Claude Code, это ultrathink (~32 000 токенов бюджета). У o3-pro этот «максимум», встроенная опция модели, без выбора уровня.

Включаем режимы думания у нейросетей

Какой уровень брать: матрица под 12 типовых задач

Чтобы не гадать, мы собрали таблицу: какие задачи лучше идут на каком уровне. Это не догма, а точка отсчёта: на практике вы скорректируете под свой случай.

Задача	Оптимальный уровень	Почему
Составить план поездки на выходные	Low / Medium	Шаблонная задача, перебирать варианты особо нечего
Быстро спросить, как пишется слово	Low / Minimal	Здесь думать вообще нечем, нужен быстрый ответ
Резюме статьи или встречи	Low	Сжатие текста, задача без рассуждений
Написать резюме для смены профессии	Medium	Нужно структурировать, но это не уравнение в частных производных
Разобрать письмо с условиями ипотеки	Medium / High	Длинный текст, нужно выудить нюансы
Помочь выбрать курс из десяти по критериям	Medium	Сравнение по нескольким параметрам, это «думание», но не глубокое
Дебаг странной ошибки в коде	High	Перебор гипотез, восстановление контекста, ради чего High и нужен
Спроектировать архитектуру сервиса	High / Extra High	Много trade-off, надо рассмотреть альтернативы
Составить ТЗ на сайт с нюансами	High	Учёт ограничений, склейка требований
Юридическое обращение в банк	High / Extra High	Цена ошибки в реальных деньгах, нужна перепроверка формулировок
Понять, почему бизнес-план не сходится	Extra High	Многошаговая аналитика, поиск противоречий
Исследование «как устроена индустрия X»	Max / Deep Research	Час работы модели окупается, если результат заменяет день работы аналитика

Универсальное правило: если не уверены, берите Medium. Это дефолт почти у всех провайдеров, и в 90 % случаев он даёт лучший баланс качества, цены и скорости. На Low поднимайтесь только под массовые простые задачи (например, обработать 10 000 писем-классификаторов через API). На High и выше тогда, когда уже на Medium результат не устраивает и ясно, чего конкретно не хватает.

И ещё одно: если задача не логическая, а творческая (написать стихотворение, придумать слоган, переписать текст в другом тоне), высокие уровни думания почти не помогают. Креатив не становится лучше от того, что модель думает дольше, потому что в креативе нет «правильного ответа», который можно проверить. Здесь работают другие приёмы: примеры, развёрнутый бриф, ссылки на референсы. Для таких задач можно посмотреть нашу подборку 50 промптов для маркетолога.

Ваня Буявец, основатель CheckroiПоказываю, как применять Claude Code, ChatGPT и другие нейросети в учёбе и работе, с примерами и промптамиЧитать в Телеграме

Как это называется и переключается у разных нейросетей

Главная путаница для новичка: одна и та же идея у разных компаний обзывается по-разному. Где-то это параметр API, где-то переключатель в интерфейсе, где-то магическое слово в промпте. Пройдёмся по шести самым массовым сервисам.

ChatGPT и GPT-5.6 Sol от OpenAI

У OpenAI два разных способа управления думанием в зависимости от того, через что вы работаете.

В интерфейсе ChatGPT (chat.openai.com и приложения) есть отдельная модель GPT-5.6 Sol Thinking. Выбираете её из выпадающего списка вверху, и она «думает» автоматически. Уровень думания при этом контролирует сама модель: оценивает сложность вопроса и решает, сколько усилий вложить. Доступна на тарифах Plus ($20/мес) и Pro ($200/мес).

В API всё точнее. Параметр reasoning_effort со значениями minimal / low / medium / high / xhigh. Дефолт — medium. Подробнее про подбор модели смотрите в статье «Какую модель ChatGPT выбрать». Базовое введение в интерфейс есть в «Что такое ChatGPT простыми словами».

Особенность OpenAI: токены думания включаются в общий счёт output. Отдельной строки «reasoning tokens» в счёте нет, но в API ответе видно в поле usage.completion_tokens_details.

Claude и Claude Code от Anthropic

Выбираем режим думания у моделей Claude

У Anthropic исторически две схемы: extended thinking в API и trigger words в Claude Code.

В API Claude Opus 4.8 (claude-opus-4-7) и Sonnet 5 включается extended thinking через параметр thinking: указываете бюджет в токенах (от 1024 до 200 000+). Чем выше бюджет, тем глубже модель думает, но не обязана его весь израсходовать.

В Claude Code (CLI-инструмент для разработчиков) есть четыре уровня через слова в промпте:

think: базовый уровень, около 4000 токенов на размышление
think hard / megathink: средний, около 10 000 токенов
think harder: глубокий, около 20 000 токенов
ultrathink: максимальный, около 31 999 токенов

Слова работают как триггеры: Claude Code распознаёт их в тексте промпта и выделяет соответствующий бюджет. Альтернатива, команда /effort с аргументами low / medium / high / max, которая задаёт уровень на всю сессию.

Что такое сам Claude и чем он отличается от ChatGPT, есть отдельная статья «Что такое Claude от Anthropic». Про лимиты, контекст и rate limits смотрите в «Лимиты Claude Code в 2026 году».

Gemini 3.1 Pro Preview от Google

У Google в Gemini 3.1 Pro Preview и Gemini 3.5 Flash есть параметр thinking_level: LOW / MEDIUM / HIGH. На HIGH автоматически активируется Deep Think Mini, облегчённая версия большого Deep Think.

Главная грабля: по дефолту Gemini 3.1 Pro Preview работает на HIGH. То есть если вы не указываете уровень явно, API запросов будет дёргать самый дорогой режим. Это в 5–10 раз увеличивает счёт за месяц по сравнению с MEDIUM, и большинство новичков об этом узнаёт уже из счёта.

В интерфейсе gemini.google.com управление проще: выбираете модель «Gemini 3.1 Pro Preview Thinking» в дропдауне, и она сама решает, насколько думать. Базовое объяснение Gemini есть в «Что такое Google Gemini в 2026».

Цена thinking-токенов в Gemini 3.1 Pro Preview: $12 за миллион (в 6 раз дороже input). Через Batch API можно получить 50 % скидку, через context caching кеш стоит $0.50 за миллион.

Cursor и другие AI-IDE

В Cursor (редактор кода на базе VS Code) явного переключателя уровня думания нет. Cursor использует модели разных провайдеров (Claude, GPT, Gemini), и уровень рассуждения зависит от выбранной модели. Если выбираете GPT-5.6 Sol Thinking, она думает по дефолту medium. Если Claude Opus 4.8, extended thinking включается в Agent-режиме автоматически на сложных задачах.

Особенность Cursor, режим Auto: система сама решает, какую модель и с каким уровнем думания вызвать в зависимости от сложности запроса. Это удобно для большинства, но контроля над расходом меньше. Кто создал Cursor и как он вырос, есть отдельная статья.

В Windsurf, JetBrains AI и других IDE логика похожая. Явного слайдера обычно нет, есть выбор модели и иногда галка «think before answering». Список инструментов программиста с примерами промптов есть в подборке «50 промптов для программистов».

Российские модели: YandexGPT, GigaChat, Алиса

У российских моделей режим думания пока не везде доступен или не везде вынесен в интерфейс.

YandexGPT 5.1 Pro, флагман Яндекса, доступен в Алисе Pro (100 ₽/мес) и через API. Явного переключателя уровня нет: модель сама решает, насколько углубляться. Подробное сравнение моделей Яндекса есть в материале «Какую модель YandexGPT выбрать в 2026 году».

GigaChat 2 Max от Сбера в момент релиза занял 1-е место на MERA (российский бенчмарк), обогнав GPT-4o, DeepSeek V3 и Llama 70B на русском. Прозрачного слайдера думания нет, есть выбор модели (Lite / Pro / Max), и фактически это и есть выбор «уровня». Что такое GigaChat, читайте в статье «Что такое GigaChat, нейросеть Сбера».

Алиса AI, надстройка над YandexGPT с ограниченным выбором. Бесплатный тариф работает на YandexGPT 5 Lite, Алиса Pro работает на 5.1 Pro. Подробнее в «Что такое Алиса AI».

Китайские модели: DeepSeek, Qwen

КурсыСравнение 48 курсов по GigaChatЦены, школы, длительность, рассрочка

У китайцев своя логика. DeepSeek V3.2-Speciale, это отдельная reasoning-версия их базовой модели, работает только в режиме рассуждения. DeepSeek R1, чистая reasoning-модель, ничего другого не умеет. DeepSeek V4 Pro (релиз апрель 2026), гибрид, поддерживает оба режима.

У Alibaba флагман, Qwen 3.7 Max (релиз 21 мая 2026), text-only с контекстом 1M токенов. На Intelligence Index v4.0, 5-е место в мире, #1 среди китайских моделей. Особенность, самый низкий процент галлюцинаций среди frontier-моделей (22.9 %). Может работать как агент до 35 часов автономно. Цена $2.50/$7.50 за миллион токенов, в 3 раза дешевле GPT-5.6 Sol при сопоставимом качестве рассуждений. Подробнее в статье «Qwen, что это за нейросеть от Alibaba».

Reasoning-вариант у Qwen, отдельная модель QwQ-32B (open-weights, можно запустить локально).

Fast Mode: про скорость, а не про думание

Здесь самая частая путаница новичков. Fast Mode (в Claude Code, команда /fast) и High reasoning звучат похоже, но это разные оси.

Fast Mode не меняет качество думания. Это та же самая модель (Claude Opus 4.8), просто запросы маршрутизируются через более быстрый путь обслуживания: меньше очередь, выделенные серверы, меньше задержка. Anthropic за это берёт повышенный тариф: $30 за миллион input и $150 за миллион output (vs $15/$75 в обычном режиме). На контекстах больше 200K токенов цена $60/$225.

Скорость растёт в 2.5 раза по сравнению со стандартным Opus. То есть если запрос обычно идёт 30 секунд, на Fast Mode он ответит за 12.

Важный момент: Fast Mode совместим с любым уровнем думания. Можно включить и ultrathink, и Fast Mode одновременно, получите глубокое думание, доставленное быстрее. Это и есть правильный способ использования: глубина задаётся уровнем думания, скорость задаётся Fast Mode.

Когда включать Fast Mode:

Живая итеративная работа в Claude Code: вы на месте, ждёте каждый ответ, и 15 секунд задержки выбивают из концентрации
Дебаг в реальном времени: нужно быстро попробовать пять гипотез
Срочный дедлайн: экономия 5 минут на каждом обмене окупает повышенный тариф
Демонстрация заказчику: пауза в 30 секунд после каждого запроса смотрится тяжело

Когда не включать:

Долгая автономная задача в Agent-режиме: вы всё равно не ждёте у экрана
Batch-обработка через API: пакетная обработка через Batch API даёт 50 % скидку, Fast Mode её убьёт
CI/CD пайплайны: там скорость не критична, важно не переплачивать
Простые рутинные запросы: на них и стандартный режим отвечает за 3 секунды

Включается командой /fast в Claude Code (нужна версия v2.1.36 или новее, проверка через claude --version) или установкой "fastMode": true в пользовательских настройках. Повторный /fast отключает режим.

Аналога Fast Mode у OpenAI и Google пока нет. У них скорость зависит только от выбранной модели (Flash-варианты у Gemini, mini-варианты у GPT). Это другой подход: чтобы получить ответ быстрее, выбираете более лёгкую модель, а не другой канал доставки.

Пять типичных ошибок при выборе режима

Эти ошибки повторяются у 90 % новичков. Разберём, чтобы не наступать.

Ошибка 1: всегда крутить на максимум

Логика «дороже значит лучше» здесь не работает. На простых задачах Max-режим часто отвечает хуже Medium: модель начинает перебирать варианты, сама себя путать, генерировать избыточный текст. Это называется overthinking. Особенно заметно в creative-задачах и в коротких вопросах.

Что делать: начинать с Medium, поднимать уровень только если конкретно видите, чего не хватает в ответе.

Ошибка 2: забыть про default-HIGH в Gemini

У Gemini 3.1 Pro Preview дефолтное значение thinking_level равно HIGH. Запросы без явного указания уровня сразу едут на самом дорогом тарифе. Один разработчик описывал, как за неделю получил счёт на $6700 вместо ожидаемых $700, забыл указать thinking_level: medium в production-конфиге.

Что делать: при работе с Gemini 3 API всегда явно прописывать thinking_level. И вообще включить алерты на превышение бюджета.

Ошибка 3: путать reasoning-модели и обычные с включённым reasoning

o3, DeepSeek R1, QwQ-32B, это всегда думающие модели. У них нет режима «не думай», их minimum уже глубокое размышление. Пытаться сэкономить, выставив у o3 параметр reasoning_effort=low, всё равно дороже, чем взять GPT-5.6 Sol на medium.

Что делать: если задача не требует глубокого рассуждения, берите обычную модель (GPT-5.6 Sol, Claude Sonnet 5, Gemini 3.5 Flash) и уровень medium, а не reasoning-вариант на минимуме.

Ошибка 4: смешивать Fast Mode и High

Многие думают, что Fast Mode, это «быстрое думание», а High reasoning, это «медленное и глубокое», и выбирают между ними как будто это одно и то же. На деле это две оси: глубина (low / medium / high / max) и скорость доставки (обычная / Fast Mode).

Что делать: понять, что это разные кнопки. Для долгого глубокого думания нужен High. Для живой работы — Fast Mode. Можно совмещать.

Ошибка 5: недооценить latency в продакшене

В интерактивном продукте, где AI отвечает пользователю, разница между Low (3 секунды) и High (60 секунд) — это смерть UX. Никто не будет минуту ждать ответа от чат-бота, даже если он на 5 % точнее.

Что делать: в интерактивных интерфейсах ставить уровень не выше Medium. Если нужно «глубже», выносить запросы в асинхронный режим со статусом «обрабатывается, придёт через минуту». Подробнее про работу с контекстом и агентным режимом смотрите в статье «Что такое RAG».

Где научиться работать с нейросетями системно

Режимы думания, токены, контекстные окна, агенты, RAG, всё это части одного навыка, который сейчас называют AI-грамотностью. Можно учиться методом тыка через ChatGPT, можно на курсе с куратором и практикой. Второй путь обычно занимает 2–4 месяца и даёт работающий навык под рабочие задачи, а не только теоретическое понимание.

Мы собрали актуальные программы, от интенсивов на выходные до полугодовых курсов с дипломом, и отсортировали по нашему рейтингу. Каждая школа проверена редакцией.

Курс	Школа	Стоимость со скидкой	В рассрочку	Длительность	Обзор курса от Checkroi
Нейросети: практический курс Перейти на сайт курса	Skypro	25 990 ₽	181 667 ₽/мес.	3 месяца	Обзор курса
Нейросети для изображений и видео Перейти на сайт курса	Эдюсон	47 504 ₽	3958 ₽/мес.	2 месяца	Обзор курса
Нейросети для рабочих задач Перейти на сайт курса	Skillbox	31 290 ₽	2608 ₽/мес.	1 месяц	Обзор курса
Нейросети. Практический курс Перейти на сайт курса	Skillbox	74 900 ₽	6242 ₽/мес.	3 месяца	Обзор курса
Нейросети для каждого: как решать рабочие задачи быстрее Перейти на сайт курса	Нетология	37 300 ₽	2763 ₽/мес.	6 недель	Обзор курса
Нейросети для работы Перейти на сайт курса	Skypro	44 690 ₽	125 417 ₽/мес.	3 месяца	Обзор курса
Нейросети для дизайнера Перейти на сайт курса	Skillbox	84 272 ₽	3831 ₽/мес.	4 месяца	Обзор курса
Искусственный интеллект в бизнесе: от хайпа к реальным результатам Перейти на сайт курса	Moscow Business Academy	69 900 ₽	12 ₽/мес.	3 месяца	Обзор курса
Искусственный интеллект в управлении бизнесом Перейти на сайт курса	Moscow Business Academy	286 000 ₽	24 ₽/мес.	6 месяцев	Обзор курса
Нейросети для каждого Перейти на сайт курса	Академия Синергия	39 900 ₽	3325 ₽/мес.	3 месяца	Обзор курса

Нейросети: практический курс
Skypro25 990 ₽181 667 ₽/мес3 месяца
Перейти на сайт курса Обзор
Нейросети для изображений и видео
Эдюсон47 504 ₽3958 ₽/мес2 месяца
Перейти на сайт курса Обзор
Нейросети для рабочих задач
Skillbox31 290 ₽2608 ₽/мес1 месяц
Перейти на сайт курса Обзор
Нейросети. Практический курс
Skillbox74 900 ₽6242 ₽/мес3 месяца
Перейти на сайт курса Обзор
Нейросети для каждого: как решать рабочие задачи быстрее
Нетология37 300 ₽2763 ₽/мес6 недель
Перейти на сайт курса Обзор
Нейросети для работы
Skypro44 690 ₽125 417 ₽/мес3 месяца
Перейти на сайт курса Обзор
Нейросети для дизайнера
Skillbox84 272 ₽3831 ₽/мес4 месяца
Перейти на сайт курса Обзор
Искусственный интеллект в бизнесе: от хайпа к реальным результатам
Moscow Business Academy69 900 ₽12 ₽/мес3 месяца
Перейти на сайт курса Обзор
Искусственный интеллект в управлении бизнесом
Moscow Business Academy286 000 ₽24 ₽/мес6 месяцев
Перейти на сайт курса Обзор
Нейросети для каждого
Академия Синергия39 900 ₽3325 ₽/мес3 месяца
Перейти на сайт курса Обзор

Больше программ — в полном каталоге курсов по нейросетям и искусственному интеллекту

Если уже работаете с AI и хотите углубиться, заглядывайте в нашу подборку «50 промптов для программистов в Cursor, Claude Code и Codex»: там много прикладных примеров под конкретные сценарии.

Прокомментировать

Часто задаваемые вопросы

Можно ли всегда использовать максимальный режим думания?

Технически да, на практике это плохая идея. На простых задачах Max-режим часто отвечает хуже Medium: модель начинает перебирать варианты, сама себя путать, генерировать избыточный текст (overthinking). Плюс цена растёт в 10–50 раз. Грамотный подход — начинать с Medium и поднимать уровень только под конкретные задачи: математика, многошаговый код, юридический анализ.

Сколько стоит думающий режим в деньгах?

Стоимость считается за токены думания, которые модель израсходовала. На Medium это 1000–3000 токенов, на High — 5000–20 000, на Max — десятки тысяч. Каждый такой токен тарифицируется как output. У Gemini 3 Pro — $12 за миллион, у Claude Opus 4.7 — $75 за миллион. То есть один сложный запрос на Max может стоить $0.50–2, тогда как на Medium — $0.05.

Чем reasoning-модель отличается от обычной с включённым reasoning?

Reasoning-модели (o3, o3-pro, DeepSeek R1, QwQ-32B) думают всегда — это их базовый режим, отключить нельзя. Обычные модели (GPT-5.5, Claude Opus 4.7, Gemini 3 Pro) могут работать и в обычном режиме, и с включённым reasoning. На простых задачах reasoning-модель будет дороже и медленнее обычной модели даже с включённым высоким уровнем — потому что она вообще не умеет «не думать».

Что выбрать новичку — Auto или вручную выставлять уровень?

Если только начинаете — Auto. У большинства сервисов (ChatGPT, Cursor, Алиса) автоматический выбор работает разумно: модель сама оценивает сложность и подбирает уровень. Ручное управление имеет смысл, когда вы уже понимаете, что Auto не справляется с вашим типом задач: либо думает слишком долго на простых вопросах, либо отвечает поверхностно на сложных.

Можно ли отключить думание совсем?

У большинства моделей — да, через уровень minimal или low. У OpenAI это значение minimal в reasoning_effort, у Gemini — LOW (с минимумом thinking-токенов). У Claude можно вообще не включать extended thinking. У reasoning-моделей (o3, R1) полностью отключить нельзя — они так устроены. Отключение имеет смысл для массовых задач: классификация писем, перевод, простые ответы.

Fast Mode и High reasoning — это одно и то же?

Нет, это разные оси. High reasoning меняет глубину думания (модель пишет больше внутреннего черновика). Fast Mode меняет скорость доставки (тот же запрос идёт через более быстрый путь). Их можно совмещать — получить глубокое думание, доставленное в 2.5 раза быстрее. Fast Mode пока только у Anthropic в Claude Code, у OpenAI и Google аналога нет.

Думает ли модель «лучше» на длинных контекстах?

Здесь две зависимости. Сам факт длинного контекста (50K+ токенов) обычно ухудшает качество — модель начинает «забывать» детали из начала. Но повышенный уровень reasoning отчасти компенсирует: модель тратит думающие токены на то, чтобы вернуться и перепроверить ключевые куски. У Gemini 3 Pro для контекстов выше 272K input токенов ещё и тариф удваивается, так что планируйте бюджет.

Какую модель и режим выбрать, если думаю про переход в AI?

Начните с бесплатных тарифов: ChatGPT (GPT-5.4 mini в режиме Auto), Gemini 3 Flash и Алиса хватит для большинства задач. Дальше — Claude Pro ($20/мес) с extended thinking, чтобы понять разницу между обычным режимом и глубоким. Параллельно — системный курс. У нас собрана подборка из 316 программ по нейросетям и AI: от 2-недельных интенсивов до годовых программ с практикой и наставником.