Л7. Стратегия: как не устареть

📺 Слайды к лекции

На прошлой лекции мы разобрали AI-агентов изнутри: архитектуру, протоколы, мультиагентные системы. Но пайплайн — не конец истории. Рынок меняется быстрее, чем любой пайплайн успевает устареть. Подписки дорожают, лимиты режут, темпы роста моделей замедляются. Последняя лекция курса — о том, как строить стратегию, когда земля уходит из-под ног.

Блок 1. Экономика сервисов ломается

Конец плоской подписки

Модель «$20/мес и пользуйся сколько влезет» умерла. Плоские потребительские подписки проектировались под человеческое поведение: человек ограничен скоростью набора текста, сном, вниманием. AI-агент ничем таким не ограничен.

Разница масштаба принципиальная. Один agentic-запрос потребляет в 50–100 раз больше токенов, чем автодополнение строки. Автономный агент за рабочий день может сжечь от $1,000 до $5,000 вычислительных ресурсов. При старой модели биллинга вендор уходит в минус на любом серьёзно работающем пользователе.

Анатомия токенного расхода агента

Конкретная разбивка — куда реально уходят токены в agentic сессии (Morph LLM, 2026):

Статья расхода	Доля токенов	Что происходит
Чтение файлов и поиск кода	35–45%	Агент читает целые файлы, чтобы найти одну функцию
Tool outputs (CLI, логи)	15–25%	Вывод команд, огромные error logs
Context re-sending	15–20%	Одни и те же токены повторно в каждом вызове
Внутренний reasoning	10–15%	Планирование и рефлексия агента
Реальная генерация кода	5–15%	То, что вы фактически хотели получить

warning

По данным исследований, до 70% токенов кодинг-агента уходит впустую. Одно из исследований нашло, что 87% токенов тратится на поиск кода, а не на его написание. Это не недоработка конкретного инструмента — это структурная особенность agentic loop.

Есть ещё один механизм: context bloat. Каждый последующий API-вызов требует отправки полной, постоянно растущей истории разговора. Сессия, начинающаяся с 5,000 токенов на вызов, может вырасти до 200,000. И вы платите за одни и те же ранние токены снова и снова — 200K-токенная сессия обходится в 10 раз дороже 20K-токенной.

Когда агент зависает и зацикливается — это особенно дорого. Каждая неудачная итерация добавляет 2,000–5,000 токенов. 15 итераций — 30,000–75,000 токенов бесполезного шума. В одном задокументированном случае агент потратил более 21,000 input-токенов, чтобы исправить однострочную опечатку. В другом — простой фикс на $0.50 превратился в счёт на $30 после 47 неудачных попыток.

Хроника изменений: 2025–2026

timeline
    title Смерть плоской подписки
    2025-06 : Cursor переходит на credit-based биллинг
    2025-07 : Cursor извиняется, возвращает деньги пользователям
    2026-03 : Windsurf меняет кредиты на дневные и недельные квоты
    2026-03 : Anthropic ограничивает 5-часовые лимиты в пиковые часы
    2026-04 : Anthropic блокирует third-party агентов для Pro/Max
    2026-04 : OpenAI запускает $100/мес тир под Codex
    2026-04 : Anthropic убирает токен-пул из enterprise seat-тарифа

Cursor (16 июня 2025). До этого Pro-план давал 500 «fast requests» на продвинутых моделях плюс безлимитные медленные ответы. По новой системе — ровно $20 кредитов в месяц: около 225 запросов к Claude Sonnet, которые активный агентный пользователь мог исчерпать за 1–2 часа. Пользователи без явного лимита автоматически переходили на pay-as-you-go по стандартным API-ценам. Зафиксированы оверажи $350 в неделю.

«We recognize that we didn't handle this pricing rollout well and we're sorry. Our communication was not clear enough and came as a surprise to many of you.» — Michael Truell, CEO Anysphere, июль 2025

Windsurf (19 марта 2026). Windsurf строил лояльную аудиторию на гибкости: $15/мес, кредиты без срока годности. 19 марта 2026 компания бросила эту систему ради жёстких дневных и недельных квот. Конкретные ограничения на Pro-плане:

Premium Plus модели (Claude Opus 4.6, GPT-5.4): 7–27 сообщений в день
Premium модели (Claude Sonnet 4.6, Gemini Pro): 8–101 сообщений в день
Lightweight модели (Haiku, Flash): 47–190 сообщений в день

Новые тиры зеркалят Cursor: Pro $20, Teams $40, Max $200. По словам CEO Jeff Wang, квоты стали необходимостью, чтобы обрабатывать реальность более длинных агентных сессий. Пользователи ответили волной критики: Windsurf выбросил именно то, ради чего к нему пришли — гибкость для «взрывных» разработчиков, которые работают нерегулярно, но интенсивно.

Anthropic (апрель 2026). Заблокировал third-party агентов для Pro и Max подписок (VentureBeat, 2026). Хочешь запускать OpenClaw или любой другой фреймворк — платишь отдельно. В корпоративном тире убрали субсидированный токен-пул: всё enterprise-использование теперь по стандартным API-ценам.

OpenAI запустил тир $100/мес специально под Codex — 5× лимит относительно Plus. Pro $200 = 20× лимит.

Паттерн у всех одинаковый

Что изменилось	До	После
Биллинг	Фиксированные запросы	Кредиты / токены / квоты
Third-party агенты	Включены в подписку	Отдельный API-ключ
Enterprise токены	Субсидированный пул	Pay-as-you-go
Пиковые часы	Без ограничений	Лимиты сгорают быстрее

Agentic-нагрузка уходит в более дорогой тир. То, что раньше шло в комплекте — теперь платное.

Как оптимизировать расходы

По данным Morph LLM, разработчики с оптимизированным workflow сокращают расходы на 40–70%:

Model routing: простые операции к дешёвым моделям; сложные архитектурные задачи — к frontier-моделям
Context compaction: сжатие истории разговора на 50–70% перед отправкой в API
Prompt caching: кэширование Anthropic даёт 90% скидку на повторяющиеся input-токены

подсказка

Реалистичный стек 2026: Copilot Pro ($10) + один агентный инструмент ($20–30) = ~$30–40/мес. Активный harness-пользователь платит $100+. Billing dashboard — обязательная часть workflow, а не опция.

Блок 2. Кризис темпов роста

Откуда брался прогресс и почему стало сложнее

До 2024 года работал один вектор: больше данных, больше параметров — умнее модель. Эта кривая выположилась. Сейчас индустрия добывает прирост другим способом — не наращивая модель при обучении, а давая ей «думать дольше» при ответе.

graph LR
    A["2020–2024<br/>Training compute<br/>Больше данных → умнее"] --> B["2025–2026<br/>Inference-time compute<br/>Дольше думает → лучше"]
    B --> C["Discovery phase → Industrial phase"]

По данным Epoch AI, стоимость обучения frontier-моделей удваивается каждые 7–8 месяцев — 3.5× в год. GPT-3 в 2020 стоил ~$2 млн. Grok 4 (≈5×10²⁶ FLOP) — $500 млн. При сохранении текущей траектории к 2030 году training run достигнет 2×10²⁹ FLOP: 100 млн GPU-эквивалентов H100, стоимость в сотни миллиардов.

Inference-time compute: 10× за одну технику

Epoch AI зафиксировал конкретный коэффициент: chain-of-thought reasoning увеличивает стоимость инференса в 10 раз, но даёт «compute-equivalent-gain» тоже в 10 раз. Позволив модели «думать» дольше при ответе, вы получаете качество, эквивалентное модели, обученной на объёме данных в 10 раз больше.

К 2025 году доля токенов, проходящих через reasoning-оптимизированные модели, превысила 50% всего трафика. Режим «Deep Think» Gemini и «adaptive thinking» Claude Opus 4.6 работают именно так: выделяют дополнительные токены для внутреннего рассуждения до того, как выдать ответ.

Разработчики также используют inference-time compute для создания синтетических обучающих данных: применяют дорогой chain-of-thought на генераторе, получают superior outputs, обучают новую модель на этих результатах. Это фактически удваивает общий вычислительный расход, но позволяет масштабировать возможности даже когда высококачественные человеческие данные заканчиваются.

Инфраструктурный потолок реален

По анализу David Shapiro, 2026 год — это «фаза переваривания», когда амбиции tech-гигантов столкнулись с физическими реалиями инфраструктуры. Энергия — «самый жёсткий стоп» во всём стеке AI-ускорения.

«Capital alone cannot bypass the laws of thermodynamics or the physical limits of the electrical grid.» — David Shapiro, Why AI is slowing down in 2026

Конкретные узкие места:

Очереди на подключение новых дата-центров к электросети США: 5–7 лет
Спрос на электроэнергию для US дата-центров: ~25 ГВт в 2024 → 75.8 ГВт в 2026 → 134 ГВт к 2030 — это эквивалент 130 атомных реакторов за шесть лет
Очереди на силовые трансформаторы — 128–144 недели (2.5–3 года)
HBM-память SK Hynix полностью раскуплена до конца 2026; AI дата-центры потребят 70% мирового производства DRAM в 2026

Чтобы обойти задержки подключения к сети, компании начали действовать как коммунальные хозяйства: Microsoft перезапустил АЭС Three Mile Island, другие строят собственные микросети. Ещё один неожиданный тормоз — страховая индустрия. Страховщики не умеют оценивать риски от AI и вводят абсолютные AI-исключения из полисов. Корпоративные юридические отделы отказываются деплоить AI-решения, даже когда бизнес-кейс убедителен — потому что не могут получить страховое покрытие.

Конвергенция топ-моделей

Пока инфраструктурное узкое место сдерживает масштабирование, разрыв между лидерами сократился. По данным Arena Leaderboard (март 2026), первые два места разделяют 8 очков, а весь топ-4 — 54 очка:

Модель	Arena points	Провайдер
Claude Opus 4.6	1,503	Anthropic (США)
xAI Grok	1,495	xAI (США)
Dola-Seed-2.0 Preview	1,464	Китай
Alibaba Qwen	1,449	Китай
DeepSeek R2	1,424	Китай

Stanford AI Index 2026 фиксирует: разрыв между США и Китаем по возможностям моделей фактически закрылся. Вместо гонки за benchmark-скором конкуренция переместилась в другую плоскость: стоимость, latency, надёжность, доменная специализация.

к сведению

«Жду следующую модель — она сама решит» — это больше не стратегия. Разрыв между теми, кто умеет работать с инструментами, и теми, кто нет, теперь определяется навыком, а не доступом к новой модели.

Блок 3. Закрытость vs открытые веса — новый баланс

Тихий перелом на OpenRouter

В Q2 2026 произошло то, чего многие не ожидали:

Китайские open-weight провайдеры составляют более 45% всего токенного трафика через OpenRouter — рост с менее 2% год назад. По данным Dataconomy, ещё в феврале 2026 эта доля пробила 61%.

pie title OpenRouter developer трафик (апрель 2026)
    "Xiaomi MiMo V2 Pro" : 21.1
    "Alibaba Qwen 3.6 Plus" : 13.9
    "MiniMax + DeepSeek + другие" : 24.6
    "Closed-source модели" : 40.4

По данным OpenRouter State of AI (исследование 100T токенов): Xiaomi MiMo V2 Pro обрабатывает 4.79 трлн токенов в неделю — с трёхкратным отрывом от OpenAI (7.5% трафика). Вместе с Qwen 3.6 Plus они закрывают ~49% всех coding-токенов на платформе.

Где реальный разрыв — в деньгах

Конкретные цены за миллион токенов (апрель 2026):

Модель	Input $/1M	Output $/1M	Тип
Claude Opus 4.6	$5.00	$25.00	Closed
Claude Sonnet 4.6	$3.00	$15.00	Closed
GPT-5.4	$2.50	$15.00	Closed
GPT-4o	$2.50	$10.00	Closed
MiniMax M2.7	$0.30	$1.20	Open-weight API
DeepSeek-V3	$0.27	$1.10	Open-weight API
Self-hosted H100/B200	—	$0.50–1.00	Self-hosted

Использование MiniMax M2.7 для генерации обходится примерно в 20× дешевле Claude Sonnet и в 50× дешевле Claude Opus. При этом на coding-задачах качество конкурентно. Важная деталь: Qwen 3.6 Plus — несмотря на историю Alibaba с открытыми весами — поставляется как closed-weight модель.

Где closed-source всё ещё лидирует

Задача	Closed-source	Open-weight	Разрыв
Coding (bulk)	Конкурентно	Доминирует	Паритет или open победил
Сложные рассуждения	Лидирует	Отстаёт	3–8 п.п.
Multimodal + video	Лидирует	Отстаёт	Значительный
Agentic UI automation	Лидирует (GPT-5.4)	Отстаёт	Значительный

Vendor lock-in — конкретные риски

Anthropic уже показал на практике, что lock-in означает: блокировка third-party агентов из подписок вынудила разработчиков либо перейти в проприетарную среду Claude Code, либо платить значительно больше через API.

Риски закрытых вендоров:

Ценообразование меняется в одностороннем порядке — уже видели в Блоке 1
Нет возможности файн-тюнить под свой домен
Нет гарантий по latency и availability (outage = полная остановка workflow)
API может быть отозван или ограничен без предупреждения

Открытые модели снижают эти риски — но не убирают их полностью.

warning

Многие procurement-команды ошибочно считают «open-weight» синонимом Apache 2.0. В реальности MiMo, MiniMax и DeepSeek поставляются под собственными лицензиями, которые могут включать производственные ограничения или юрисдикционные оговорки. Google Gemma 4 и NVIDIA Nemotron 3 — редкие исключения с чистыми коммерческими условиями. Читайте лицензию перед деплоем.

Открытая инфраструктура как ответ на lock-in

В декабре 2025 Linux Foundation объявил о создании Agentic AI Foundation (AAIF). Founding members — Anthropic, OpenAI, Block, Google, Microsoft, AWS, Bloomberg, Cloudflare.

Три открытых стандарта в основе:

MCP (Anthropic) — протокол подключения моделей к внешним инструментам и данным
goose (Block) — open-source агентный фреймворк на MCP
AGENTS.md (OpenAI) — markdown-стандарт для проектно-специфичных инструкций агентам

Крупные вендоры открывают инфраструктуру, но держат frontier-модели закрытыми. Это сознательная стратегия: стандарты снижают барьер входа и увеличивают рынок, а монетизируется сама модель.

Стратегия портируемого workflow

graph TD
    T["Задача"] --> R["Router / Harness"]
    R --> C["Closed-source<br/>(сложные рассуждения)"]
    R --> O["Open-weight API<br/>(bulk coding, review)"]
    R --> L["Self-hosted<br/>(приватные данные, &gt;500M токенов/мес)"]
    C & O & L --> V["Верификация / CI"]

Практическое правило: если завтра провайдер поднимет цены вдвое — у тебя должен быть план B, который можно активировать за день.

Блок 4. Карьерная стратегия

Что уже автоматизируется

Вопрос «заберёт ли AI работу?» менее полезен, чем вопрос «какие навыки дорожают, а какие дешевеют?»

SWE-Bench Pro — бенчмарк из 1,865 задач из реальных enterprise-репозиториев — показывает разрыв в возможностях агентов:

Бенчмарк	Что тестирует	Лучший агент
SWE-bench standard	Изолированные баги с тестами	70%+
SWE-Bench Pro	Реальные enterprise задачи, дни работы	~23%

Топовые агенты легко справляются с изолированными, хорошо описанными задачами — и значительно хуже с задачами, требующими многодневной работы, понимания бизнес-контекста и координации через несколько файлов.

graph LR
    A["Boilerplate<br/>и шаблонный код"] --> Z["Автоматизируется"]
    B["Юнит-тесты<br/>по шаблону"] --> Z
    C["Миграции между<br/>версиями библиотек"] --> Z
    D["Базовая документация"] --> Z
    E["Простые баг-фиксы"] --> Z

Последствия для рынка труда уже видны. По данным Stack Overflow со ссылкой на Harvard study: компании внедрили GenAI — занятость junior-разработчиков упала на 9–10% в течение шести кварталов. Senior-позиции почти не затронуты. Крупные tech-компании наняли на 50% меньше свежих выпускников за последние три года.

METR study: реальные числа против анекдотов

METR провёл рандомизированное контролируемое исследование на 16 опытных разработчиках, работавших над реальными задачами из своих репозиториев (в среднем 22,000+ звёзд на GitHub, 1M+ строк кода). Методология:

246 реальных задач (баги, фичи, рефакторы)
Рандомное назначение: AI-allowed (Cursor Pro + Claude 3.5/3.7) vs AI-disallowed
Запись экрана, самоотчёт о времени, оплата $150/час

Результат: при доступе к AI-инструментам разработчики тратили на 19% больше времени. Ещё интереснее — восприятие: до начала они ожидали ускорения на 24%. После завершения задач с замедлением на 19% — всё равно считали, что AI их ускорил на 20%.

Исследователи объясняют: AI делает процесс приятнее, но добавляет работу по review и контролю качества. Реальные PR имеют неявные строгие требования к документации, тестированию и форматированию. AI не освобождает от них — он их создаёт заново.

примечание

METR явно предупреждает: не нужно обобщать. Исследование касалось опытных разработчиков в хорошо знакомых кодобазах. Для junior-разработчиков или чужих кодобаз результаты могут быть принципиально другими.

Что дорожает

Навык	Почему AI не заменяет
«Research taste» — понимание что строить	AI не знает бизнес-контекст
Архитектурный выбор и его долгосрочные последствия	AI оптимизирует локально
Quality control AI-генерированного кода	Найти то, что модель не заметила — отдельный навык
Harness ownership — построить пайплайн под задачу	Senior-скилл в 2026
Управление AI-командами	Самый востребованный навык прямо сейчас
Коммуникация с нетехническими стейкхолдерами	AI не объясняет trade-offs на языке бизнеса

GitHub прогнозирует, что AI будет писать 95% кода в течение пяти лет. Роль инженера смещается от написания строк к определению intent и управлению качеством. На рынке уже есть позиции за $400,000/год специально под управление AI-workflow.

T-shaped + harness ownership

По данным рынка, ~45% инженерных ролей сейчас ожидают владения несколькими областями. Узкий специалист рискует обнаружить, что его ниша автоматизирована полностью. Addy Osmani описывает модель так: глубокая экспертиза в одном домене (там, где модели ошибаются чаще, потому что данных меньше) плюс широкий охват через AI.

graph TD
    D["Глубина в одной области<br/>(домен, где модели ошибаются чаще,<br/>потому что данных меньше)"]
    W["Ширина через AI<br/>(делаешь то, на что раньше<br/>нужна была команда)"]
    H["Harness ownership<br/>(управление AI-пайплайном<br/>как системой)"]
    D & W --> H

Harness ownership — это не только промпты. Это:

Установка жёстких лимитов итераций (агенты без надзора зацикливаются — помним про $30 за 47 итераций)
Написание scoped prompts с точными путями к файлам и строкам вместо широких запросов
Динамическая маршрутизация: простые задачи к дешёвым моделям, сложные к дорогим
Мониторинг стоимости как часть workflow

Не ставить на одного вендора

Cursor подорожал — есть OpenCode. Anthropic закрыл подписку для агентов — есть Qwen через OpenRouter. Стек должен работать при выключении любого одного инструмента. Это инженерная гигиена, как резервные копии.

Как следить за реальным прогрессом, а не маркетинговыми анонсами:

Arena leaderboard и деконтаминированные бенчмарки: LiveCodeBench, SWE-bench
Пробовать новые инструменты до того, как они стали мейнстримом
Вести личный «changelog»: что освоил, что делегировал, что перестало работать

Блок 5. Финал курса

Арка курса

graph LR
    L1["Л1<br/>Зачем"] --> L2["Л2<br/>Как мыслят"]
    L2 --> L3["Л3<br/>Контекст"]
    L3 --> L4["Л4<br/>Инструменты"]
    L4 --> L5["Л5<br/>Риски"]
    L5 --> L6["Л6<br/>Агенты"]
    L6 --> L7["Л7<br/>Стратегия"]
    style L7 fill:#3b82f6,color:#fff

Семь лекций, и каждая прибавляла слой: зачем вообще, как устроены изнутри, как управлять контекстом, какие инструменты существуют, что может пойти не так, как строить агентов. Эта лекция — о том, что остаётся, когда конкретные инструменты устаревают.

5 тезисов, которые стоит унести

#	Тезис
1	Flat-rate подписки умерли — считай токены, не только деньги
2	Кризис скейлинга = конец эпохи «жди следующую модель»
3	>60% developer-трафика уже идёт через open-weight модели
4	Vendor lock-in — инженерный риск, а не философский вопрос
5	Твоя ценность = то, что модель не заменяет в твоём контексте

Финальное задание (С9)

Презентация «Мой AI-пайплайн» — 5–7 минут, 50% оценки за семестр.

Вопрос простой: какой инструмент сейчас в центре твоего workflow, и какое допущение о нём ты готов пересмотреть после курса?

Источники и дополнительное чтение

Экономика и биллинг

TechCrunch. Cursor apologizes for unclear pricing changes that upset users — CEO apology, июль 2025
Vantage. Cursor pricing explained — credit-based биллинг, реальные цифры 2026
Windsurf. Windsurf pricing plans — официальный блог о переходе на квоты, март 2026
Efficienist. Windsurf abandons flexible credit system — разбор пользовательского backlash
The Register. «Anthropic ejects bundled tokens from enterprise seat deal» (апрель 2026)
Morph LLM. The Real Cost of AI Coding in 2026 — token waste breakdown, agent loop tax, оптимизации

Скейлинг и инфраструктура

Epoch AI. Training cost trends — удвоение стоимости каждые 7–8 месяцев
Epoch AI. AI Trends dashboard — inference vs training compute tradeoff
CNBC. SK Hynix Q3 2025 earnings — HBM sold out through 2026
SK Hynix. 2026 market outlook: HBM supercycle
David Shapiro. Why AI is slowing down in 2026 — энергетические ограничения, страховые барьеры, digestion phase
Stanford HAI. AI Index Report 2026

Open-weight vs closed-source

OpenRouter. State of AI — 100T token study — оригинальный источник по market share
Dataconomy. Chinese AI models hit 61% market share on OpenRouter (февраль 2026)
LLM Stats. GPT-4o vs DeepSeek-V3 price comparison
Linux Foundation. Formation of the Agentic AI Foundation (декабрь 2025)
TechCrunch. OpenAI, Anthropic and Block join AAIF

Карьерная стратегия

arXiv. SWE-Bench Pro: enterprise-grade tasks — агенты решают ~23% задач enterprise-уровня
SWE-bench. Live leaderboard
GitHub. The developer role is evolving — framework навыков для AI-эпохи
Addy Osmani. Next Two Years of Software Engineering — T-shaped skills, конкретные примеры
Stack Overflow. AI vs Gen Z — Harvard study: junior dev employment -9-10%, AI skills = +56% salary premium
METR. Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity (2025) — RCT, 16 разработчиков, замедление на 19%, методология

Блок 1. Экономика сервисов ломается​

Конец плоской подписки​

Анатомия токенного расхода агента​

Хроника изменений: 2025–2026​

Паттерн у всех одинаковый​

Как оптимизировать расходы​

Блок 2. Кризис темпов роста​

Откуда брался прогресс и почему стало сложнее​

Inference-time compute: 10× за одну технику​

Инфраструктурный потолок реален​

Конвергенция топ-моделей​

Блок 3. Закрытость vs открытые веса — новый баланс​

Тихий перелом на OpenRouter​

Где реальный разрыв — в деньгах​

Где closed-source всё ещё лидирует​

Vendor lock-in — конкретные риски​

Открытая инфраструктура как ответ на lock-in​

Стратегия портируемого workflow​

Блок 4. Карьерная стратегия​

Что уже автоматизируется​

METR study: реальные числа против анекдотов​

Что дорожает​

T-shaped + harness ownership​

Не ставить на одного вендора​

Блок 5. Финал курса​

Арка курса​

5 тезисов, которые стоит унести​

Финальное задание (С9)​

Источники и дополнительное чтение​

Экономика и биллинг​

Скейлинг и инфраструктура​

Open-weight vs closed-source​

Карьерная стратегия​