Л4. Как выбирать и оценивать инструменты

📺 Слайды к лекции

На прошлой лекции мы научились управлять контекстом: антипаттерны промптинга, четыре стратегии context engineering, файлы правил, spec-driven development. Закончили на вопросе: «Всё это замечательно, но в каком инструменте это делать?» Сегодня отвечаем --- но не списком «топ-5 лучших IDE», а через фреймворк, по которому вы сможете сами оценить любой инструмент, включая те, что появятся через полгода.

К концу лекции вы будете смотреть на выбор инструмента иначе. Не «что сейчас модно», а «что решает мою задачу, сколько стоит и не закроется ли через полгода». Разберём, почему ощущение скорости обманывает, почему бенчмарки врут, как оценивать инструменты по шести критериям и как собрать рабочий стек.

Блок 0. Иллюзия продуктивности

На первой лекции мы говорили, что AI может давать ложное ощущение скорости. Тогда это был тезис без доказательств. Теперь данные есть --- и они неудобные.

METR: AI замедляет опытных разработчиков

В июле 2025 года организация METR провела RCT --- рандомизированное контролируемое исследование, как в медицине. 16 опытных open-source разработчиков, у каждого за плечами крупные проекты (в среднем 1M+ строк, 22K+ звёзд на GitHub). 246 реальных задач: баги, фичи, рефакторинг.

Задачи случайным образом делились на две группы: «с AI» (Cursor Pro + Claude 3.5/3.7 Sonnet) и «без AI». Средняя задача занимала около двух часов.

Фактическое замедление: 19%. С AI разработчики тратили больше времени, а не меньше.
Ожидаемое ускорение до эксперимента: +24%. Все прогнозировали, что AI поможет.
Субъективное ощущение после: +20%. Даже испытав замедление, они считали, что стали быстрее.

39 процентных пунктов между «чувствую» и «на самом деле».

"When developers are allowed to use AI tools, they take 19% longer to complete issues." --- METR, Measuring the Impact of Early-2025 AI on Experienced OS Developer Productivity (July 2025)

Куда уходит время? Оно не исчезает --- перетекает. С написания кода --- на итерации промптов, верификацию, отладку «полуправильного» кода. Печатать стало быстрее, поэтому кажется, что работа идёт лучше. Но общее время задачи выросло.

Масштаб проблемы: DORA и GitClear

Данные METR --- не аномалия. Google DORA Report 2025: рост AI-adoption на 90% коррелирует с ростом времени code review на 91% и ростом багов на 9%. Код генерируется быстро, но на ревью уходит вдвое больше --- если вы не писали его сами, сначала нужно понять, что он делает.

GitClear проанализировал 150 миллионов строк за 2020--2024: восьмикратный рост дублирования. AI-инструменты не переиспользуют существующий код --- они регенерируют похожий заново.

Comprehension Debt: скрытый долг понимания

Anthropic провели RCT с 52 инженерами. Группа с AI выполнила задачи за то же время, но набрала на 17% меньше баллов на тесте понимания (50% против 67%). Хуже всего просел навык дебага.

Пассивное делегирование --- «просто сделай, чтобы работало» --- создаёт долг понимания. Вы не разбираетесь в коде, который приняли. Когда он ломается в проде --- а он сломается --- вы не знаете, как чинить.

Comprehension Debt --- не теория

Это измеренный эффект. 17% разницы в понимании кода --- при том же затраченном времени. Скорость осталась прежней, а знание уменьшилось. Активное использование AI (с вопросами, ревью, челленджингом) этот эффект снижает.

Хорошие новости: где AI действительно помогает

Не всё так мрачно.

University of Chicago / Cursor (2025--2026): анализ десятков тысяч пользователей Cursor показал, что после перехода на агентный режим организации мержили на 39% больше PR. Revert rate не вырос. Объём кода на PR не изменился --- ускорение было настоящим, а не раздуванием.

Интересная деталь: senior-разработчики извлекали больше пользы, чем junior. На каждое стандартное отклонение опыта --- примерно 6% рост принятия результатов агента. Опытные инженеры лучше пишут спеки и управляют контекстом (привет Л3).

BCG/Harvard (750 консультантов, 2024): для задач внутри «фронтира» AI --- рост качества на 40%. AI выступил как «уравнитель навыков»: слабые консультанты улучшились на 43%, сильные --- на 17%. Но за «фронтиром» --- точность падала с 84% до 60%. Исследователи назвали это «falling asleep at the wheel» --- люди слепо доверяли AI на задачах, где он объективно не справлялся.

Формула реальной продуктивности

Реальная продуктивность = Скорость генерации − (Верификация + Дебаг + Comprehension Debt)

Инструмент --- не серебряная пуля. Выбор инструмента --- инженерное решение. Но если субъективные ощущения врут, а маркетинг ещё хуже --- на что опираться? На бенчмарки? Давайте разберёмся.

Блок 1. Бенчмарки --- почему числам нельзя верить слепо

Эволюция бенчмарков

Бенчмарки для AI-кодинга менялись быстро: HumanEval (2021) --- MBPP --- SWE-bench (2023) --- SWE-bench Verified --- Terminal-Bench --- LiveCodeBench --- SWE-rebench. Каждый следующий появлялся потому, что предыдущий переставал различать модели.

HumanEval измерял, умеет ли модель вообще писать код. SWE-bench спрашивал реалистичнее: может ли она починить баг в настоящем open-source проекте? Terminal-Bench поднял планку: справится ли агент с задачей, которую опытный инженер решает часами?

SWE-bench: от золотого стандарта к провалу

SWE-bench стал главным бенчмарком AI-кодинга. Компании соревновались за каждый процент на его лидерборде. А потом выяснилось, что он измеряет не то, что все думали.

Структурные проблемы:

Построен на 12 open-source Python-репозиториях, примерно половина задач --- Django
Около 90% задач --- простые баг-фиксы, которые человек делает за час
Свыше 94% задач и их решений были доступны в обучающих данных моделей до cutoff-дат

В 2026 году OpenAI официально отказались от SWE-bench Verified: «улучшения на бенчмарке отражают экспозицию к данным, а не реальные способности».

Контаминация: модели помнят ответы, а не рассуждают

Исследование «The SWE-Bench Illusion» (arXiv, 2506.12286) систематически показало, что модели решают SWE-bench по памяти.

File path identification. Моделям давали только текст issue и название репозитория --- без доступа к коду, без структуры файлов. Модель o3 правильно угадывала нужный файл в 76% случаев. На репозиториях за пределами SWE-bench --- ниже 53%. Модели запомнили архитектуру этих 12 проектов.

Verbatim reproduction. Claude Opus 4 выдавал точную копию оригинального патча в 31.6% случаев. Другие модели Claude --- от 12.1% до 21.4%, GPT-4 --- 17--18%. При такой длине кода случайное совпадение невозможно. Модель не решает задачу --- она вспоминает ответ.

External knowledge leakage. При red-teaming OpenAI обнаружили, что GPT-5.2 решил Django-задачу, используя знания из release notes Django 4.1, которых не было в предоставленном контексте. Модель знала ответ из обучающих данных.

"The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason." --- arXiv, 2506.12286

Проблемы качества тестов

Контаминация --- не единственная беда. OpenAI проверили 138 задач, на которых их модель провалилась: 59.4% содержали дефекты в тестах.

Too narrow: тесты отвергают правильный код, если использовано другое имя функции
Too wide: тесты проверяют то, чего не было в описании задачи
Weak oracles: 31% «успешных» решений проходили из-за слабых тестов --- код работал случайно

Scaffold, а не модель

Один и тот же Claude Opus на SWE-bench Verified даёт разные результаты под разными scaffold'ами: Augment, Cursor, Claude Code. Бенчмарк измеряет систему (модель + агент + инструменты), а не «интеллект» модели. Когда компания хвастается результатом на SWE-bench --- спрашивайте, чей scaffold.

Альтернативные бенчмарки

Бенчмарк	Задачи	Что измеряет	Контаминация	Доверие
SWE-bench Verified	~500, Python, 12 репозиториев	Баг-фиксы в OSS	Высокая (94%+ в training data)	Низкое
Terminal-Bench 2.0	89, multi-lang + DevOps	ML, компиляция, реверс-инжиниринг	Низкая (Docker, скрытые тесты)	Высокое
LiveCodeBench	300+, competitive programming	Алгоритмы, self-repair, execution	Нулевая (задачи после cutoff)	Высокое
SWE-rebench	Автогенерация из свежих коммитов	Реальные баг-фиксы	Контроль по датам	Высокое
Aider Polyglot	225, 6 языков	Редактирование кода	Низкая (Exercism)	Среднее

Terminal-Bench 2.0 --- 89 задач: от ML-тренировки до компиляции Linux и реверс-инжиниринга бинарников. Лучшие модели --- ниже 65%. Codex CLI + GPT-5.3 --- 77.3%. Claude Opus 4.5 с Terminus 2 --- 58%. Вот это уже ближе к реальности.

LiveCodeBench --- собирает свежие задачи с LeetCode, AtCoder и Codeforces. Оценивает модели только на задачах после cutoff-даты --- контаминации не будет по определению.

SWE-rebench --- автоматический pipeline из свежих GitHub-коммитов. Новые задачи генерируются непрерывно.

Aider Polyglot --- 225 задач на 6 языках (C++, Go, Java, JavaScript, Python, Rust). Проверяет не только модель, но и качество интеграции: edit format, diff handling.

Как читать бенчмарки правильно

Чеклист

Дата. Результаты старше 3 месяцев --- уже история
Scaffold. Чьи результаты --- модели или системы?
Источник. Self-reported scores или независимая оценка?
Контаминация. Деконтаминированный бенчмарк (LiveCodeBench, SWE-rebench) или нет?
Релевантность. Бенчмарк измеряет то, что вам нужно?

Итого: бенчмаркам слепо верить нельзя. И ощущениям тоже. Нужен собственный фреймворк.

Блок 2. Фреймворк 6 критериев

Почему 6 критериев, а не «какой лучше»

Вопрос «Cursor или Claude Code?» --- неправильный. Правильный: «Для какой задачи, в каком контексте, с каким бюджетом?» Фреймворк делает выбор осознанным. Вы сможете применить его к любому инструменту --- включая те, что ещё не вышли.

Критерий 1: Задача (Task Fit)

Что именно вы делаете? Инструменты попадают в категории:

Категория	Примеры	Когда использовать
Автокомплит / inline	Copilot, Supermaven	Микро-подсказки в потоке, рутинный код
Агентная IDE	Cursor, Windsurf	Визуальные multi-file edits с diff-preview
Терминальный агент	Claude Code, Aider, OpenCode	Автономная работа, сложные задачи, CLI
App builder	Bolt, Lovable, v0	Генерация приложений из описания
Code review	CodeRabbit, Graphite	Автоматическое ревью PR

Cursor хорош для ежедневных фич. Claude Code --- для архитектурных проблем, где нужен глубокий reasoning. Bolt --- для прототипов. Разные задачи, разные инструменты.

Критерий 2: Возможности (Capabilities)

Что умеет инструмент? Размер контекстного окна (Claude Code --- 1M токенов, Copilot --- ~8K). Multi-file editing. Codebase indexing. Выполнение команд: shell, tests, git --- или только генерация текста? Субагенты и параллельное исполнение. Одна модель или выбор.

Критерий 3: Ограничения (Limitations)

Где ломается? Cursor может тормозить на больших кодовых базах. Не все языки поддерживаются одинаково. Инструмент, который хорош для CRUD, может быть бесполезен для оптимизации алгоритмов. CLI и GUI --- разный UX, и для кого-то отсутствие визуального diff --- dealbreaker.

Критерий 4: Интеграция (Integration)

Как инструмент встраивается в ваш workflow? Какой IDE поддерживается? Git integration, auto-commit (как у Aider)? CI/CD? MCP-серверы? Поддержка файлов правил --- CLAUDE.md, .cursor/rules --- то, что мы учили на Л3.

Критерий 5: Стоимость (Cost)

Инструмент	Цена	Модель биллинга
Copilot Free	$0	2000 completions + 50 chat/мес
Copilot Pro	$10/мес	Unlimited completions
Windsurf Pro	$15/мес	500 кредитов
Cursor Pro	$20/мес	500 fast requests
Claude Code Max	$100--200/мес	Usage-based (токены)
Cline / OpenCode	$0 + API costs	BYOM --- оплата только API

Один запрос агенту --- десятки внутренних вызовов модели. Cursor Pro на $20/мес может закончиться за день интенсивного рефакторинга. Claude Code при активном использовании стабильно выходит на $150--200/мес. Это не предупреждение, это арифметика.

Критерий 6: Траектория (Trajectory)

Куда движется инструмент?

Команда и фондинг: стартап на seed-раунде или часть Google/Anthropic/Microsoft?
Open-source vs proprietary: кто контролирует roadmap?
Скорость развития: changelog, community, issues
Vendor lock-in risk: что будет, если проект купят?

Windsurf (бывший Codeium) --- OpenAI купили за $3B в 2025. Пользователи Codeium Free оказались в новой экосистеме с новыми правилами. Такое случается, и случается быстро.

Шаблон «Карточка инструмента»

Заполняйте карточку по 6 критериям. Пример для Claude Code:

Критерий	Claude Code
Task Fit	Терминальный агент, сложные задачи, архитектура
Capabilities	1M контекст, shell/git/tests, субагенты, Agent Teams
Limitations	Нет GUI diff, дорого, lock-in в Anthropic
Integration	Терминал, VS Code extension, CLAUDE.md, MCP
Cost	$20/мес (Pro) -- $200/мес (Max), usage-based
Trajectory	Anthropic ($2.5B ARR), быстрое развитие, proprietary

Подготовка к С6

Заполнение карточки для 1--2 инструментов --- часть подготовки к семинару 6. Попробуйте инструмент на реальной задаче из своего проекта, а не на hello world.

Фреймворк есть. Теперь наложим его на реальный рынок.

Блок 3. Карта рынка 2026

Три категории

Рынок разделился на три категории:

Assistants (inline): автокомплит + чат в IDE. Copilot, Supermaven, Codeium.
Agentic IDEs: визуальные агенты, multi-file editing, diff preview. Cursor, Windsurf, Augment.
Terminal Agents: CLI, автономные, git-native. Claude Code, Aider, OpenCode, Cline.

Не «лучше/хуже», а разные задачи. Молоток, отвёртка, пила --- все нужны, но для разного.

GitHub Copilot

15 миллионов пользователей --- самый массовый. Бесплатный tier (2000 completions/мес, 50 chat messages/мес) снимает барьер входа.

Agent mode в VS Code (2025): multi-file edits, terminal commands, автоматизация через GitHub Actions. MCP support с 2026 года. Multi-model: Claude Sonnet 4.5, GPT-5 mini, Gemini.

Козырь --- экосистема GitHub: issues, PR, Actions, всё в одном месте. Биллинг предсказуемый ($10/мес Pro).

Обратная сторона: reasoning послабее, чем у Cursor или Claude Code. За $10/мес frontier-модели на полную мощность не получить. Для рутины хорош, для сложного рефакторинга --- маловат.

Cursor

Миллион+ пользователей, 360 тысяч платящих. Форк VS Code, заточенный под AI.

Composer --- описываете изменение на естественном языке, получаете multi-file diff с визуальным preview. Codebase indexing, Background Agents, поддержка нескольких моделей (GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro).

За что люди платят --- видеть diff до применения, контролировать каждое изменение. Для повседневной работы --- лучший визуальный workflow на рынке.

Проблема --- кредитная система. $20/мес (Pro) может закончиться за день тяжёлого рефакторинга. Кредиты «утекают» незаметно, и это раздражает.

Claude Code

Терминальный агент от Anthropic. 1M токенов контекстного окна. Автономное выполнение: shell, git, tests. Модели Claude Opus 4.6 и Sonnet. Agent Teams для координации нескольких агентов.

Когда другие инструменты не справляются --- переключаешься сюда. $2.5B ARR, больше половины enterprise-выручки Anthropic.

Но $150--200/мес при активном использовании --- реальность. Нет GUI для диффов. И вы заперты в экосистеме Anthropic --- только модели Claude.

Windsurf (OpenAI)

Бывший Codeium, куплен OpenAI в 2025 за $3B. $15/мес --- дешевле Cursor при сопоставимых возможностях.

Cascade --- агентный движок для multi-file changes. Memories --- запоминает ваши паттерны и конвенции между сессиями. Через пару недель агент реально адаптируется под то, как вы пишете код. Arena Mode --- слепое A/B тестирование: один промпт, два агента параллельно, вы голосуете за результат, не зная, какая модель за каким стоит.

Комьюнити пока меньше, чем у Cursor, и переходный период после покупки ещё не закончился.

OpenCode (OSS)

120K+ GitHub stars. Команда SST (Serverless Stack). Терминальный агент с философией BYOM --- bring your own model. 75+ моделей, от frontier до локальных через Ollama.

Чем отличается от Claude Code: любая модель (vendor independence), air-gapped mode (полностью офлайн), thoroughness over speed (полный test suite перед завершением задачи). Контекст экономит через glob-паттерны в opencode.jsonc, а не дампит описания всех MCP-инструментов в промпт.

OpenCode Go --- $10/мес за доступ к дешёвым моделям. Доступен как CLI, десктоп и extension для VS Code/JetBrains.

Гибкий и дешёвый, но настраивать придётся руками. UX менее отполированный, чем у Claude Code --- инструмент для тех, кто не боится конфигов.

OpenClaw --- автономность без границ

247K GitHub stars. Создан Петером Штайнбергером (Австрия). Автономный агент, работающий через мессенджеры: Signal, Telegram, Discord, WhatsApp. Karpathy назвал этот паттерн «Claws» --- слой оркестрации поверх LLM. Куплен OpenAI.

Вот что бывает, когда автономности слишком много. Инцидент MoltMatch (февраль 2026): студент Джек Луо настроил OpenClaw для исследования agent-oriented соцсетей. Агент самостоятельно создал ему дейтинг-профиль на MoltMatch и начал скринить матчи --- без ведома пользователя. AFP нашли, что другой агент использовал фото малайзийской модели для создания профиля без её согласия. В Китае OpenClaw запретили в госорганах.

Автономность без guardrails = риск

Инцидент MoltMatch --- то, что происходит, когда агенту дают широкий доступ без ограничений. Подробнее на Л5 --- безопасность и «тёмная сторона» AI-кодинга.

Aider

Стабильный open-source терминальный агент. Каждый edit --- автоматический git commit с осмысленным сообщением. Недавние релизы Aider на 80%+ написаны самим Aider.

Собственный Polyglot Benchmark: 225 задач на 6 языках. Лучший результат --- o3 с высоким reasoning effort: 81.3%. По эффективности --- 257 секунд и 126K токенов на задачу в среднем. Один из лучших балансов цены и качества среди CLI-агентов.

Если вам нужен CLI-агент, который «думает в git» --- Aider. Менее автономен, чем Claude Code, субагенты --- не его конёк.

Cline

5 миллионов+ установок VS Code. Open-source. Двухрежимная система:

Plan Mode: анализ кодовой базы, стратегия. Deep planning через /deep-planning.
Act Mode: выполнение с diff-first approval --- каждое изменение требует явного одобрения.

Бесплатный (BYOM/BYOK, ноль наценки), прозрачный --- каждое изменение проходит через вас.

Привязан к VS Code. Менее зрелый, чем Cursor. И API costs при использовании frontier-моделей набегают --- «бесплатность» инструмента не означает бесплатность результата.

Сводная карта

Инструмент	Категория	Цена	Контекст	Модели	Ключевое отличие
Copilot	Assistant	$0--10/мес	~8K	Multi-model	Экосистема GitHub
Cursor	Agentic IDE	$20/мес	Indexed	Multi-model	Визуальный Composer
Windsurf	Agentic IDE	$15/мес	Indexed	Multi-model	Memories, Arena Mode
Claude Code	Terminal	$20--200/мес	1M	Claude only	Глубокий reasoning
OpenCode	Terminal	API costs	Varies	75+ моделей	BYOM, privacy
Aider	Terminal	API costs	Varies	Multi-model	Git-native
Cline	VS Code ext	API costs	Varies	BYOM	Plan/Act, diff approval
OpenClaw	Messenger	API costs	Varies	Multi-model	Мессенджер-интерфейс

Ландшафт понятен. Вопрос --- как из всего этого собрать рабочий стек?

Блок 4. Стратегия диверсификации и итоги

Почему не один инструмент?

Vendor lock-in. Windsurf купили OpenAI --- что стало с пользователями Codeium? Завтра то же может случиться с кем угодно.
Разные задачи. Автокомплит и глубокий рефакторинг --- разные инструменты.
Деньги. Рутину --- дешёвому агенту, сложное --- мощному. Гонять Claude Code на типовых задачах --- всё равно что ездить на Ferrari за хлебом.
Доступность. Если Anthropic API лежит, у вас должен быть plan B.

Стратегия «3 слоя»

Слой 1 --- Автокомплит (всегда включён). Copilot Free или Supermaven. Работает в фоне, вы его почти не замечаете.

Слой 2 --- Агентная IDE (основная работа). Cursor или Windsurf. Multi-file edits, визуальный контроль, diff preview. 80% рабочего времени.

Слой 3 --- Терминальный агент (тяжёлая артиллерия). Claude Code, OpenCode или Aider. Достаёте, когда задача сложная и нужен глубокий reasoning: архитектурный рефакторинг, дебаг на уровне системы, миграции.

OSS как страховка

Даже если основной инструмент коммерческий --- держите настроенный OSS-агент как fallback. OpenCode или Aider.

Почему:

Нет vendor lock-in --- код открыт, форкните и продолжайте
Работает с любой моделью
Можно запустить локально (privacy, compliance)
Бесплатно (только API cost)

Promptfoo: свои evals вместо чужих бенчмарков

Не полагайтесь на чужие бенчмарки --- создайте свои. Promptfoo позволяет оценивать coding-агентов на ваших задачах.

Через tracing можно проверить, что агент реально запустил тесты и прочитал файлы, а не просто написал «я это сделал». LLM-as-Judge оценивает качество через другую модель. Можно ставить пороги на стоимость и latency, измерять variance через --repeat 3, интегрировать в CI/CD через GitHub Action (promptfoo/promptfoo-action). Есть red teaming: promptfoo redteam run сканирует агента на prompt injection.

Простой сценарий: берёте одну задачу из своего проекта, прогоняете через 3 инструмента, сравниваете. Это и есть подготовка к С6.

Чеклист выбора инструмента

5 шагов

Определить категорию задачи: автокомплит, multi-file editing или архитектура?
Заполнить карточку инструмента по 6 критериям
Попробовать на реальной задаче из своего проекта (не на hello world)
Сравнить 2--3 варианта на одной задаче
Оценить через неделю: стал ли я реально быстрее? (помнить про METR --- ощущения врут)

Арка курса

Лекция	Вопрос	Ответ
Л1	Зачем?	AI умножает экспертизу, но требует harness engineering
Л2	Почему?	Физика модели: токены, контекст, галлюцинации, reasoning
Л3	Как?	Context engineering, файлы правил, spec-driven development
Л4	Чем?	Фреймворк оценки, карта рынка, стратегия диверсификации
Л5	Риски?	Уязвимости, prompt injection, тёмная сторона AI-кодинга

Главный takeaway

Инструмент --- не религия, а инженерное решение. Бенчмарки ненадёжны. Маркетинг --- тем более. Единственный способ, которому можно доверять --- попробовать на своей задаче, измерить результат, держать plan B.

Что дальше

На семинаре 6 --- 3-минутные питчи инструментов, перекрёстные вопросы, общая карта стека группы. Подготовка: протестировать 1--2 новых инструмента по фреймворку 6 критериев, заполнить карточку.

На лекции 5 --- ограничения, риски и «тёмная сторона» AI-кодинга: уязвимости в AI-сгенерированном коде, prompt injection на агентах, скрытый технический долг. Мы научились выбирать инструменты. Теперь --- как не обжечься.

Дальнейшее чтение

Исследования

METR (2025). Measuring the Impact of Early-2025 AI on Experienced OS Developer Productivity --- RCT, 16 разработчиков, 246 задач, замедление на 19%.
Google (2025). DORA Report 2025 --- AI-adoption vs code review time и bug rates.
GitClear (2024). Code Quality in 2024 --- 150M строк, восьмикратный рост дублирования.
Anthropic (2025). The Impact of AI Assistance on Developer Skill Formation --- comprehension debt, 17% снижение понимания.
BCG/Harvard (2024). Navigating the Jagged Technological Frontier --- 750 консультантов, +40% качество vs -24% точность за фронтиром.
University of Chicago (2025). Cursor agent adoption study --- +39% merged PRs, senior > junior.

Бенчмарки

The SWE-Bench Illusion (arXiv, 2506.12286) --- контаминация, verbatim reproduction, file path identification.
OpenAI (2026). Why SWE-bench Verified no longer measures frontier capabilities --- отказ от SWE-bench.
Terminal-Bench (arXiv, 2601.11868) --- 89 сложных задач.
LiveCodeBench --- деконтаминированный бенчмарк.
SWE-rebench --- автогенерация задач из свежих коммитов.
Aider LLM Leaderboards --- polyglot benchmark на 6 языках.

Инструменты и сравнения

Promptfoo: Evaluate Coding Agents --- фреймворк для собственных evals.
LogRocket (2026). AI dev tool power rankings.
AIMultiple. Agentic CLI Tools Compared.
DataCamp. OpenCode vs Claude Code.

Блок 0. Иллюзия продуктивности​

METR: AI замедляет опытных разработчиков​

Масштаб проблемы: DORA и GitClear​

Comprehension Debt: скрытый долг понимания​

Хорошие новости: где AI действительно помогает​

Формула реальной продуктивности​

Блок 1. Бенчмарки --- почему числам нельзя верить слепо​

Эволюция бенчмарков​

SWE-bench: от золотого стандарта к провалу​

Контаминация: модели помнят ответы, а не рассуждают​

Проблемы качества тестов​

Scaffold, а не модель​

Альтернативные бенчмарки​

Как читать бенчмарки правильно​

Блок 2. Фреймворк 6 критериев​

Почему 6 критериев, а не «какой лучше»​

Критерий 1: Задача (Task Fit)​

Критерий 2: Возможности (Capabilities)​

Критерий 3: Ограничения (Limitations)​

Критерий 4: Интеграция (Integration)​

Критерий 5: Стоимость (Cost)​

Критерий 6: Траектория (Trajectory)​

Шаблон «Карточка инструмента»​

Блок 3. Карта рынка 2026​

Три категории​

GitHub Copilot​

Cursor​

Claude Code​

Windsurf (OpenAI)​

OpenCode (OSS)​

OpenClaw --- автономность без границ​

Aider​

Cline​

Сводная карта​

Блок 4. Стратегия диверсификации и итоги​

Почему не один инструмент?​

Стратегия «3 слоя»​

OSS как страховка​

Promptfoo: свои evals вместо чужих бенчмарков​

Чеклист выбора инструмента​

Арка курса​

Главный takeaway​

Что дальше​

Дальнейшее чтение​

Исследования​

Бенчмарки​

Инструменты и сравнения​