Перейти к основному содержимому

Л7. Стратегия: как не устареть

📺 Слайды к лекции

На прошлой лекции мы разобрали AI-агентов изнутри: архитектуру, протоколы, мультиагентные системы. Но пайплайн — не конец истории. Рынок меняется быстрее, чем любой пайплайн успевает устареть. Подписки дорожают, лимиты режут, темпы роста моделей замедляются. Последняя лекция курса — о том, как строить стратегию, когда земля уходит из-под ног.


Блок 1. Экономика сервисов ломается

Конец плоской подписки

Модель «$20/мес и пользуйся сколько влезет» умерла. Плоские потребительские подписки проектировались под человеческое поведение: человек ограничен скоростью набора текста, сном, вниманием. AI-агент ничем таким не ограничен.

Разница масштаба принципиальная. Один agentic-запрос потребляет в 50–100 раз больше токенов, чем автодополнение строки. Автономный агент за рабочий день может сжечь от $1,000 до $5,000 вычислительных ресурсов. При старой модели биллинга вендор уходит в минус на любом серьёзно работающем пользователе.

Анатомия токенного расхода агента

Конкретная разбивка — куда реально уходят токены в agentic сессии (Morph LLM, 2026):

Статья расходаДоля токеновЧто происходит
Чтение файлов и поиск кода35–45%Агент читает целые файлы, чтобы найти одну функцию
Tool outputs (CLI, логи)15–25%Вывод команд, огромные error logs
Context re-sending15–20%Одни и те же токены повторно в каждом вызове
Внутренний reasoning10–15%Планирование и рефлексия агента
Реальная генерация кода5–15%То, что вы фактически хотели получить
warning

По данным исследований, до 70% токенов кодинг-агента уходит впустую. Одно из исследований нашло, что 87% токенов тратится на поиск кода, а не на его написание. Это не недоработка конкретного инструмента — это структурная особенность agentic loop.

Есть ещё один механизм: context bloat. Каждый последующий API-вызов требует отправки полной, постоянно растущей истории разговора. Сессия, начинающаяся с 5,000 токенов на вызов, может вырасти до 200,000. И вы платите за одни и те же ранние токены снова и снова — 200K-токенная сессия обходится в 10 раз дороже 20K-токенной.

Когда агент зависает и зацикливается — это особенно дорого. Каждая неудачная итерация добавляет 2,000–5,000 токенов. 15 итераций — 30,000–75,000 токенов бесполезного шума. В одном задокументированном случае агент потратил более 21,000 input-токенов, чтобы исправить однострочную опечатку. В другом — простой фикс на $0.50 превратился в счёт на $30 после 47 неудачных попыток.

Хроника изменений: 2025–2026

timeline
title Смерть плоской подписки
2025-06 : Cursor переходит на credit-based биллинг
2025-07 : Cursor извиняется, возвращает деньги пользователям
2026-03 : Windsurf меняет кредиты на дневные и недельные квоты
2026-03 : Anthropic ограничивает 5-часовые лимиты в пиковые часы
2026-04 : Anthropic блокирует third-party агентов для Pro/Max
2026-04 : OpenAI запускает $100/мес тир под Codex
2026-04 : Anthropic убирает токен-пул из enterprise seat-тарифа

Cursor (16 июня 2025). До этого Pro-план давал 500 «fast requests» на продвинутых моделях плюс безлимитные медленные ответы. По новой системе — ровно $20 кредитов в месяц: около 225 запросов к Claude Sonnet, которые активный агентный пользователь мог исчерпать за 1–2 часа. Пользователи без явного лимита автоматически переходили на pay-as-you-go по стандартным API-ценам. Зафиксированы оверажи $350 в неделю.

«We recognize that we didn't handle this pricing rollout well and we're sorry. Our communication was not clear enough and came as a surprise to many of you.» — Michael Truell, CEO Anysphere, июль 2025

Windsurf (19 марта 2026). Windsurf строил лояльную аудиторию на гибкости: $15/мес, кредиты без срока годности. 19 марта 2026 компания бросила эту систему ради жёстких дневных и недельных квот. Конкретные ограничения на Pro-плане:

  • Premium Plus модели (Claude Opus 4.6, GPT-5.4): 7–27 сообщений в день
  • Premium модели (Claude Sonnet 4.6, Gemini Pro): 8–101 сообщений в день
  • Lightweight модели (Haiku, Flash): 47–190 сообщений в день

Новые тиры зеркалят Cursor: Pro $20, Teams $40, Max $200. По словам CEO Jeff Wang, квоты стали необходимостью, чтобы обрабатывать реальность более длинных агентных сессий. Пользователи ответили волной критики: Windsurf выбросил именно то, ради чего к нему пришли — гибкость для «взрывных» разработчиков, которые работают нерегулярно, но интенсивно.

Anthropic (апрель 2026). Заблокировал third-party агентов для Pro и Max подписок (VentureBeat, 2026). Хочешь запускать OpenClaw или любой другой фреймворк — платишь отдельно. В корпоративном тире убрали субсидированный токен-пул: всё enterprise-использование теперь по стандартным API-ценам.

OpenAI запустил тир $100/мес специально под Codex — 5× лимит относительно Plus. Pro $200 = 20× лимит.

Паттерн у всех одинаковый

Что изменилосьДоПосле
БиллингФиксированные запросыКредиты / токены / квоты
Third-party агентыВключены в подпискуОтдельный API-ключ
Enterprise токеныСубсидированный пулPay-as-you-go
Пиковые часыБез ограниченийЛимиты сгорают быстрее

Agentic-нагрузка уходит в более дорогой тир. То, что раньше шло в комплекте — теперь платное.

Как оптимизировать расходы

По данным Morph LLM, разработчики с оптимизированным workflow сокращают расходы на 40–70%:

  • Model routing: простые операции к дешёвым моделям; сложные архитектурные задачи — к frontier-моделям
  • Context compaction: сжатие истории разговора на 50–70% перед отправкой в API
  • Prompt caching: кэширование Anthropic даёт 90% скидку на повторяющиеся input-токены
подсказка

Реалистичный стек 2026: Copilot Pro ($10) + один агентный инструмент ($20–30) = ~$30–40/мес. Активный harness-пользователь платит $100+. Billing dashboard — обязательная часть workflow, а не опция.


Блок 2. Кризис темпов роста

Откуда брался прогресс и почему стало сложнее

До 2024 года работал один вектор: больше данных, больше параметров — умнее модель. Эта кривая выположилась. Сейчас индустрия добывает прирост другим способом — не наращивая модель при обучении, а давая ей «думать дольше» при ответе.

graph LR
A["2020–2024<br/>Training compute<br/>Больше данных → умнее"] --> B["2025–2026<br/>Inference-time compute<br/>Дольше думает → лучше"]
B --> C["Discovery phase → Industrial phase"]

По данным Epoch AI, стоимость обучения frontier-моделей удваивается каждые 7–8 месяцев — 3.5× в год. GPT-3 в 2020 стоил ~$2 млн. Grok 4 (≈5×10²⁶ FLOP) — $500 млн. При сохранении текущей траектории к 2030 году training run достигнет 2×10²⁹ FLOP: 100 млн GPU-эквивалентов H100, стоимость в сотни миллиардов.

Inference-time compute: 10× за одну технику

Epoch AI зафиксировал конкретный коэффициент: chain-of-thought reasoning увеличивает стоимость инференса в 10 раз, но даёт «compute-equivalent-gain» тоже в 10 раз. Позволив модели «думать» дольше при ответе, вы получаете качество, эквивалентное модели, обученной на объёме данных в 10 раз больше.

К 2025 году доля токенов, проходящих через reasoning-оптимизированные модели, превысила 50% всего трафика. Режим «Deep Think» Gemini и «adaptive thinking» Claude Opus 4.6 работают именно так: выделяют дополнительные токены для внутреннего рассуждения до того, как выдать ответ.

Разработчики также используют inference-time compute для создания синтетических обучающих данных: применяют дорогой chain-of-thought на генераторе, получают superior outputs, обучают новую модель на этих результатах. Это фактически удваивает общий вычислительный расход, но позволяет масштабировать возможности даже когда высококачественные человеческие данные заканчиваются.

Инфраструктурный потолок реален

По анализу David Shapiro, 2026 год — это «фаза переваривания», когда амбиции tech-гигантов столкнулись с физическими реалиями инфраструктуры. Энергия — «самый жёсткий стоп» во всём стеке AI-ускорения.

«Capital alone cannot bypass the laws of thermodynamics or the physical limits of the electrical grid.» — David Shapiro, Why AI is slowing down in 2026

Конкретные узкие места:

Чтобы обойти задержки подключения к сети, компании начали действовать как коммунальные хозяйства: Microsoft перезапустил АЭС Three Mile Island, другие строят собственные микросети. Ещё один неожиданный тормоз — страховая индустрия. Страховщики не умеют оценивать риски от AI и вводят абсолютные AI-исключения из полисов. Корпоративные юридические отделы отказываются деплоить AI-решения, даже когда бизнес-кейс убедителен — потому что не могут получить страховое покрытие.

Конвергенция топ-моделей

Пока инфраструктурное узкое место сдерживает масштабирование, разрыв между лидерами сократился. По данным Arena Leaderboard (март 2026), первые два места разделяют 8 очков, а весь топ-4 — 54 очка:

МодельArena pointsПровайдер
Claude Opus 4.61,503Anthropic (США)
xAI Grok1,495xAI (США)
Dola-Seed-2.0 Preview1,464Китай
Alibaba Qwen1,449Китай
DeepSeek R21,424Китай

Stanford AI Index 2026 фиксирует: разрыв между США и Китаем по возможностям моделей фактически закрылся. Вместо гонки за benchmark-скором конкуренция переместилась в другую плоскость: стоимость, latency, надёжность, доменная специализация.

к сведению

«Жду следующую модель — она сама решит» — это больше не стратегия. Разрыв между теми, кто умеет работать с инструментами, и теми, кто нет, теперь определяется навыком, а не доступом к новой модели.


Блок 3. Закрытость vs открытые веса — новый баланс

Тихий перелом на OpenRouter

В Q2 2026 произошло то, чего многие не ожидали:

Китайские open-weight провайдеры составляют более 45% всего токенного трафика через OpenRouter — рост с менее 2% год назад. По данным Dataconomy, ещё в феврале 2026 эта доля пробила 61%.

pie title OpenRouter developer трафик (апрель 2026)
"Xiaomi MiMo V2 Pro" : 21.1
"Alibaba Qwen 3.6 Plus" : 13.9
"MiniMax + DeepSeek + другие" : 24.6
"Closed-source модели" : 40.4

По данным OpenRouter State of AI (исследование 100T токенов): Xiaomi MiMo V2 Pro обрабатывает 4.79 трлн токенов в неделю — с трёхкратным отрывом от OpenAI (7.5% трафика). Вместе с Qwen 3.6 Plus они закрывают ~49% всех coding-токенов на платформе.

Где реальный разрыв — в деньгах

Конкретные цены за миллион токенов (апрель 2026):

МодельInput $/1MOutput $/1MТип
Claude Opus 4.6$5.00$25.00Closed
Claude Sonnet 4.6$3.00$15.00Closed
GPT-5.4$2.50$15.00Closed
GPT-4o$2.50$10.00Closed
MiniMax M2.7$0.30$1.20Open-weight API
DeepSeek-V3$0.27$1.10Open-weight API
Self-hosted H100/B200$0.50–1.00Self-hosted

Использование MiniMax M2.7 для генерации обходится примерно в 20× дешевле Claude Sonnet и в 50× дешевле Claude Opus. При этом на coding-задачах качество конкурентно. Важная деталь: Qwen 3.6 Plus — несмотря на историю Alibaba с открытыми весами — поставляется как closed-weight модель.

Где closed-source всё ещё лидирует

ЗадачаClosed-sourceOpen-weightРазрыв
Coding (bulk)КонкурентноДоминируетПаритет или open победил
Сложные рассужденияЛидируетОтстаёт3–8 п.п.
Multimodal + videoЛидируетОтстаётЗначительный
Agentic UI automationЛидирует (GPT-5.4)ОтстаётЗначительный

Vendor lock-in — конкретные риски

Anthropic уже показал на практике, что lock-in означает: блокировка third-party агентов из подписок вынудила разработчиков либо перейти в проприетарную среду Claude Code, либо платить значительно больше через API.

Риски закрытых вендоров:

  • Ценообразование меняется в одностороннем порядке — уже видели в Блоке 1
  • Нет возможности файн-тюнить под свой домен
  • Нет гарантий по latency и availability (outage = полная остановка workflow)
  • API может быть отозван или ограничен без предупреждения

Открытые модели снижают эти риски — но не убирают их полностью.

warning

Многие procurement-команды ошибочно считают «open-weight» синонимом Apache 2.0. В реальности MiMo, MiniMax и DeepSeek поставляются под собственными лицензиями, которые могут включать производственные ограничения или юрисдикционные оговорки. Google Gemma 4 и NVIDIA Nemotron 3 — редкие исключения с чистыми коммерческими условиями. Читайте лицензию перед деплоем.

Открытая инфраструктура как ответ на lock-in

В декабре 2025 Linux Foundation объявил о создании Agentic AI Foundation (AAIF). Founding members — Anthropic, OpenAI, Block, Google, Microsoft, AWS, Bloomberg, Cloudflare.

Три открытых стандарта в основе:

  • MCP (Anthropic) — протокол подключения моделей к внешним инструментам и данным
  • goose (Block) — open-source агентный фреймворк на MCP
  • AGENTS.md (OpenAI) — markdown-стандарт для проектно-специфичных инструкций агентам

Крупные вендоры открывают инфраструктуру, но держат frontier-модели закрытыми. Это сознательная стратегия: стандарты снижают барьер входа и увеличивают рынок, а монетизируется сама модель.

Стратегия портируемого workflow

graph TD
T["Задача"] --> R["Router / Harness"]
R --> C["Closed-source<br/>(сложные рассуждения)"]
R --> O["Open-weight API<br/>(bulk coding, review)"]
R --> L["Self-hosted<br/>(приватные данные, &gt;500M токенов/мес)"]
C & O & L --> V["Верификация / CI"]

Практическое правило: если завтра провайдер поднимет цены вдвое — у тебя должен быть план B, который можно активировать за день.


Блок 4. Карьерная стратегия

Что уже автоматизируется

Вопрос «заберёт ли AI работу?» менее полезен, чем вопрос «какие навыки дорожают, а какие дешевеют?»

SWE-Bench Pro — бенчмарк из 1,865 задач из реальных enterprise-репозиториев — показывает разрыв в возможностях агентов:

БенчмаркЧто тестируетЛучший агент
SWE-bench standardИзолированные баги с тестами70%+
SWE-Bench ProРеальные enterprise задачи, дни работы~23%

Топовые агенты легко справляются с изолированными, хорошо описанными задачами — и значительно хуже с задачами, требующими многодневной работы, понимания бизнес-контекста и координации через несколько файлов.

graph LR
A["Boilerplate<br/>и шаблонный код"] --> Z["Автоматизируется"]
B["Юнит-тесты<br/>по шаблону"] --> Z
C["Миграции между<br/>версиями библиотек"] --> Z
D["Базовая документация"] --> Z
E["Простые баг-фиксы"] --> Z

Последствия для рынка труда уже видны. По данным Stack Overflow со ссылкой на Harvard study: компании внедрили GenAI — занятость junior-разработчиков упала на 9–10% в течение шести кварталов. Senior-позиции почти не затронуты. Крупные tech-компании наняли на 50% меньше свежих выпускников за последние три года.

METR study: реальные числа против анекдотов

METR провёл рандомизированное контролируемое исследование на 16 опытных разработчиках, работавших над реальными задачами из своих репозиториев (в среднем 22,000+ звёзд на GitHub, 1M+ строк кода). Методология:

  • 246 реальных задач (баги, фичи, рефакторы)
  • Рандомное назначение: AI-allowed (Cursor Pro + Claude 3.5/3.7) vs AI-disallowed
  • Запись экрана, самоотчёт о времени, оплата $150/час

Результат: при доступе к AI-инструментам разработчики тратили на 19% больше времени. Ещё интереснее — восприятие: до начала они ожидали ускорения на 24%. После завершения задач с замедлением на 19% — всё равно считали, что AI их ускорил на 20%.

Исследователи объясняют: AI делает процесс приятнее, но добавляет работу по review и контролю качества. Реальные PR имеют неявные строгие требования к документации, тестированию и форматированию. AI не освобождает от них — он их создаёт заново.

примечание

METR явно предупреждает: не нужно обобщать. Исследование касалось опытных разработчиков в хорошо знакомых кодобазах. Для junior-разработчиков или чужих кодобаз результаты могут быть принципиально другими.

Что дорожает

НавыкПочему AI не заменяет
«Research taste» — понимание что строитьAI не знает бизнес-контекст
Архитектурный выбор и его долгосрочные последствияAI оптимизирует локально
Quality control AI-генерированного кодаНайти то, что модель не заметила — отдельный навык
Harness ownership — построить пайплайн под задачуSenior-скилл в 2026
Управление AI-командамиСамый востребованный навык прямо сейчас
Коммуникация с нетехническими стейкхолдерамиAI не объясняет trade-offs на языке бизнеса

GitHub прогнозирует, что AI будет писать 95% кода в течение пяти лет. Роль инженера смещается от написания строк к определению intent и управлению качеством. На рынке уже есть позиции за $400,000/год специально под управление AI-workflow.

T-shaped + harness ownership

По данным рынка, ~45% инженерных ролей сейчас ожидают владения несколькими областями. Узкий специалист рискует обнаружить, что его ниша автоматизирована полностью. Addy Osmani описывает модель так: глубокая экспертиза в одном домене (там, где модели ошибаются чаще, потому что данных меньше) плюс широкий охват через AI.

graph TD
D["Глубина в одной области<br/>(домен, где модели ошибаются чаще,<br/>потому что данных меньше)"]
W["Ширина через AI<br/>(делаешь то, на что раньше<br/>нужна была команда)"]
H["Harness ownership<br/>(управление AI-пайплайном<br/>как системой)"]
D & W --> H

Harness ownership — это не только промпты. Это:

  • Установка жёстких лимитов итераций (агенты без надзора зацикливаются — помним про $30 за 47 итераций)
  • Написание scoped prompts с точными путями к файлам и строкам вместо широких запросов
  • Динамическая маршрутизация: простые задачи к дешёвым моделям, сложные к дорогим
  • Мониторинг стоимости как часть workflow

Не ставить на одного вендора

Cursor подорожал — есть OpenCode. Anthropic закрыл подписку для агентов — есть Qwen через OpenRouter. Стек должен работать при выключении любого одного инструмента. Это инженерная гигиена, как резервные копии.

Как следить за реальным прогрессом, а не маркетинговыми анонсами:

  • Arena leaderboard и деконтаминированные бенчмарки: LiveCodeBench, SWE-bench
  • Пробовать новые инструменты до того, как они стали мейнстримом
  • Вести личный «changelog»: что освоил, что делегировал, что перестало работать

Блок 5. Финал курса

Арка курса

graph LR
L1["Л1<br/>Зачем"] --> L2["Л2<br/>Как мыслят"]
L2 --> L3["Л3<br/>Контекст"]
L3 --> L4["Л4<br/>Инструменты"]
L4 --> L5["Л5<br/>Риски"]
L5 --> L6["Л6<br/>Агенты"]
L6 --> L7["Л7<br/>Стратегия"]
style L7 fill:#3b82f6,color:#fff

Семь лекций, и каждая прибавляла слой: зачем вообще, как устроены изнутри, как управлять контекстом, какие инструменты существуют, что может пойти не так, как строить агентов. Эта лекция — о том, что остаётся, когда конкретные инструменты устаревают.

5 тезисов, которые стоит унести

#Тезис
1Flat-rate подписки умерли — считай токены, не только деньги
2Кризис скейлинга = конец эпохи «жди следующую модель»
3>60% developer-трафика уже идёт через open-weight модели
4Vendor lock-in — инженерный риск, а не философский вопрос
5Твоя ценность = то, что модель не заменяет в твоём контексте

Финальное задание (С9)

Презентация «Мой AI-пайплайн» — 5–7 минут, 50% оценки за семестр.

Вопрос простой: какой инструмент сейчас в центре твоего workflow, и какое допущение о нём ты готов пересмотреть после курса?


Источники и дополнительное чтение

Экономика и биллинг

Скейлинг и инфраструктура

Open-weight vs closed-source

Карьерная стратегия