Перейти к основному содержимому

Л4. Как выбирать и оценивать инструменты

📺 Слайды к лекции

На прошлой лекции мы научились управлять контекстом: антипаттерны промптинга, четыре стратегии context engineering, файлы правил, spec-driven development. Закончили на вопросе: «Всё это замечательно, но в каком инструменте это делать?» Сегодня отвечаем --- но не списком «топ-5 лучших IDE», а через фреймворк, по которому вы сможете сами оценить любой инструмент, включая те, что появятся через полгода.

К концу лекции вы будете смотреть на выбор инструмента иначе. Не «что сейчас модно», а «что решает мою задачу, сколько стоит и не закроется ли через полгода». Разберём, почему ощущение скорости обманывает, почему бенчмарки врут, как оценивать инструменты по шести критериям и как собрать рабочий стек.


Блок 0. Иллюзия продуктивности

На первой лекции мы говорили, что AI может давать ложное ощущение скорости. Тогда это был тезис без доказательств. Теперь данные есть --- и они неудобные.

METR: AI замедляет опытных разработчиков

В июле 2025 года организация METR провела RCT --- рандомизированное контролируемое исследование, как в медицине. 16 опытных open-source разработчиков, у каждого за плечами крупные проекты (в среднем 1M+ строк, 22K+ звёзд на GitHub). 246 реальных задач: баги, фичи, рефакторинг.

Задачи случайным образом делились на две группы: «с AI» (Cursor Pro + Claude 3.5/3.7 Sonnet) и «без AI». Средняя задача занимала около двух часов.

  • Фактическое замедление: 19%. С AI разработчики тратили больше времени, а не меньше.
  • Ожидаемое ускорение до эксперимента: +24%. Все прогнозировали, что AI поможет.
  • Субъективное ощущение после: +20%. Даже испытав замедление, они считали, что стали быстрее.

39 процентных пунктов между «чувствую» и «на самом деле».

"When developers are allowed to use AI tools, they take 19% longer to complete issues." --- METR, Measuring the Impact of Early-2025 AI on Experienced OS Developer Productivity (July 2025)

Куда уходит время? Оно не исчезает --- перетекает. С написания кода --- на итерации промптов, верификацию, отладку «полуправильного» кода. Печатать стало быстрее, поэтому кажется, что работа идёт лучше. Но общее время задачи выросло.

Масштаб проблемы: DORA и GitClear

Данные METR --- не аномалия. Google DORA Report 2025: рост AI-adoption на 90% коррелирует с ростом времени code review на 91% и ростом багов на 9%. Код генерируется быстро, но на ревью уходит вдвое больше --- если вы не писали его сами, сначала нужно понять, что он делает.

GitClear проанализировал 150 миллионов строк за 2020--2024: восьмикратный рост дублирования. AI-инструменты не переиспользуют существующий код --- они регенерируют похожий заново.

Comprehension Debt: скрытый долг понимания

Anthropic провели RCT с 52 инженерами. Группа с AI выполнила задачи за то же время, но набрала на 17% меньше баллов на тесте понимания (50% против 67%). Хуже всего просел навык дебага.

Пассивное делегирование --- «просто сделай, чтобы работало» --- создаёт долг понимания. Вы не разбираетесь в коде, который приняли. Когда он ломается в проде --- а он сломается --- вы не знаете, как чинить.

Comprehension Debt --- не теория

Это измеренный эффект. 17% разницы в понимании кода --- при том же затраченном времени. Скорость осталась прежней, а знание уменьшилось. Активное использование AI (с вопросами, ревью, челленджингом) этот эффект снижает.

Хорошие новости: где AI действительно помогает

Не всё так мрачно.

University of Chicago / Cursor (2025--2026): анализ десятков тысяч пользователей Cursor показал, что после перехода на агентный режим организации мержили на 39% больше PR. Revert rate не вырос. Объём кода на PR не изменился --- ускорение было настоящим, а не раздуванием.

Интересная деталь: senior-разработчики извлекали больше пользы, чем junior. На каждое стандартное отклонение опыта --- примерно 6% рост принятия результатов агента. Опытные инженеры лучше пишут спеки и управляют контекстом (привет Л3).

BCG/Harvard (750 консультантов, 2024): для задач внутри «фронтира» AI --- рост качества на 40%. AI выступил как «уравнитель навыков»: слабые консультанты улучшились на 43%, сильные --- на 17%. Но за «фронтиром» --- точность падала с 84% до 60%. Исследователи назвали это «falling asleep at the wheel» --- люди слепо доверяли AI на задачах, где он объективно не справлялся.

Формула реальной продуктивности

Реальная продуктивность = Скорость генерации − (Верификация + Дебаг + Comprehension Debt)

Инструмент --- не серебряная пуля. Выбор инструмента --- инженерное решение. Но если субъективные ощущения врут, а маркетинг ещё хуже --- на что опираться? На бенчмарки? Давайте разберёмся.


Блок 1. Бенчмарки --- почему числам нельзя верить слепо

Эволюция бенчмарков

Бенчмарки для AI-кодинга менялись быстро: HumanEval (2021) --- MBPP --- SWE-bench (2023) --- SWE-bench Verified --- Terminal-Bench --- LiveCodeBench --- SWE-rebench. Каждый следующий появлялся потому, что предыдущий переставал различать модели.

HumanEval измерял, умеет ли модель вообще писать код. SWE-bench спрашивал реалистичнее: может ли она починить баг в настоящем open-source проекте? Terminal-Bench поднял планку: справится ли агент с задачей, которую опытный инженер решает часами?

SWE-bench: от золотого стандарта к провалу

SWE-bench стал главным бенчмарком AI-кодинга. Компании соревновались за каждый процент на его лидерборде. А потом выяснилось, что он измеряет не то, что все думали.

Структурные проблемы:

  • Построен на 12 open-source Python-репозиториях, примерно половина задач --- Django
  • Около 90% задач --- простые баг-фиксы, которые человек делает за час
  • Свыше 94% задач и их решений были доступны в обучающих данных моделей до cutoff-дат

В 2026 году OpenAI официально отказались от SWE-bench Verified: «улучшения на бенчмарке отражают экспозицию к данным, а не реальные способности».

Контаминация: модели помнят ответы, а не рассуждают

Исследование «The SWE-Bench Illusion» (arXiv, 2506.12286) систематически показало, что модели решают SWE-bench по памяти.

File path identification. Моделям давали только текст issue и название репозитория --- без доступа к коду, без структуры файлов. Модель o3 правильно угадывала нужный файл в 76% случаев. На репозиториях за пределами SWE-bench --- ниже 53%. Модели запомнили архитектуру этих 12 проектов.

Verbatim reproduction. Claude Opus 4 выдавал точную копию оригинального патча в 31.6% случаев. Другие модели Claude --- от 12.1% до 21.4%, GPT-4 --- 17--18%. При такой длине кода случайное совпадение невозможно. Модель не решает задачу --- она вспоминает ответ.

External knowledge leakage. При red-teaming OpenAI обнаружили, что GPT-5.2 решил Django-задачу, используя знания из release notes Django 4.1, которых не было в предоставленном контексте. Модель знала ответ из обучающих данных.

"The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason." --- arXiv, 2506.12286

Проблемы качества тестов

Контаминация --- не единственная беда. OpenAI проверили 138 задач, на которых их модель провалилась: 59.4% содержали дефекты в тестах.

  • Too narrow: тесты отвергают правильный код, если использовано другое имя функции
  • Too wide: тесты проверяют то, чего не было в описании задачи
  • Weak oracles: 31% «успешных» решений проходили из-за слабых тестов --- код работал случайно

Scaffold, а не модель

Один и тот же Claude Opus на SWE-bench Verified даёт разные результаты под разными scaffold'ами: Augment, Cursor, Claude Code. Бенчмарк измеряет систему (модель + агент + инструменты), а не «интеллект» модели. Когда компания хвастается результатом на SWE-bench --- спрашивайте, чей scaffold.

Альтернативные бенчмарки

БенчмаркЗадачиЧто измеряетКонтаминацияДоверие
SWE-bench Verified~500, Python, 12 репозиториевБаг-фиксы в OSSВысокая (94%+ в training data)Низкое
Terminal-Bench 2.089, multi-lang + DevOpsML, компиляция, реверс-инжинирингНизкая (Docker, скрытые тесты)Высокое
LiveCodeBench300+, competitive programmingАлгоритмы, self-repair, executionНулевая (задачи после cutoff)Высокое
SWE-rebenchАвтогенерация из свежих коммитовРеальные баг-фиксыКонтроль по датамВысокое
Aider Polyglot225, 6 языковРедактирование кодаНизкая (Exercism)Среднее

Terminal-Bench 2.0 --- 89 задач: от ML-тренировки до компиляции Linux и реверс-инжиниринга бинарников. Лучшие модели --- ниже 65%. Codex CLI + GPT-5.3 --- 77.3%. Claude Opus 4.5 с Terminus 2 --- 58%. Вот это уже ближе к реальности.

LiveCodeBench --- собирает свежие задачи с LeetCode, AtCoder и Codeforces. Оценивает модели только на задачах после cutoff-даты --- контаминации не будет по определению.

SWE-rebench --- автоматический pipeline из свежих GitHub-коммитов. Новые задачи генерируются непрерывно.

Aider Polyglot --- 225 задач на 6 языках (C++, Go, Java, JavaScript, Python, Rust). Проверяет не только модель, но и качество интеграции: edit format, diff handling.

Как читать бенчмарки правильно

Чеклист
  1. Дата. Результаты старше 3 месяцев --- уже история
  2. Scaffold. Чьи результаты --- модели или системы?
  3. Источник. Self-reported scores или независимая оценка?
  4. Контаминация. Деконтаминированный бенчмарк (LiveCodeBench, SWE-rebench) или нет?
  5. Релевантность. Бенчмарк измеряет то, что вам нужно?

Итого: бенчмаркам слепо верить нельзя. И ощущениям тоже. Нужен собственный фреймворк.


Блок 2. Фреймворк 6 критериев

Почему 6 критериев, а не «какой лучше»

Вопрос «Cursor или Claude Code?» --- неправильный. Правильный: «Для какой задачи, в каком контексте, с каким бюджетом?» Фреймворк делает выбор осознанным. Вы сможете применить его к любому инструменту --- включая те, что ещё не вышли.

Критерий 1: Задача (Task Fit)

Что именно вы делаете? Инструменты попадают в категории:

КатегорияПримерыКогда использовать
Автокомплит / inlineCopilot, SupermavenМикро-подсказки в потоке, рутинный код
Агентная IDECursor, WindsurfВизуальные multi-file edits с diff-preview
Терминальный агентClaude Code, Aider, OpenCodeАвтономная работа, сложные задачи, CLI
App builderBolt, Lovable, v0Генерация приложений из описания
Code reviewCodeRabbit, GraphiteАвтоматическое ревью PR

Cursor хорош для ежедневных фич. Claude Code --- для архитектурных проблем, где нужен глубокий reasoning. Bolt --- для прототипов. Разные задачи, разные инструменты.

Критерий 2: Возможности (Capabilities)

Что умеет инструмент? Размер контекстного окна (Claude Code --- 1M токенов, Copilot --- ~8K). Multi-file editing. Codebase indexing. Выполнение команд: shell, tests, git --- или только генерация текста? Субагенты и параллельное исполнение. Одна модель или выбор.

Критерий 3: Ограничения (Limitations)

Где ломается? Cursor может тормозить на больших кодовых базах. Не все языки поддерживаются одинаково. Инструмент, который хорош для CRUD, может быть бесполезен для оптимизации алгоритмов. CLI и GUI --- разный UX, и для кого-то отсутствие визуального diff --- dealbreaker.

Критерий 4: Интеграция (Integration)

Как инструмент встраивается в ваш workflow? Какой IDE поддерживается? Git integration, auto-commit (как у Aider)? CI/CD? MCP-серверы? Поддержка файлов правил --- CLAUDE.md, .cursor/rules --- то, что мы учили на Л3.

Критерий 5: Стоимость (Cost)

ИнструментЦенаМодель биллинга
Copilot Free$02000 completions + 50 chat/мес
Copilot Pro$10/месUnlimited completions
Windsurf Pro$15/мес500 кредитов
Cursor Pro$20/мес500 fast requests
Claude Code Max$100--200/месUsage-based (токены)
Cline / OpenCode$0 + API costsBYOM --- оплата только API

Один запрос агенту --- десятки внутренних вызовов модели. Cursor Pro на $20/мес может закончиться за день интенсивного рефакторинга. Claude Code при активном использовании стабильно выходит на $150--200/мес. Это не предупреждение, это арифметика.

Критерий 6: Траектория (Trajectory)

Куда движется инструмент?

  • Команда и фондинг: стартап на seed-раунде или часть Google/Anthropic/Microsoft?
  • Open-source vs proprietary: кто контролирует roadmap?
  • Скорость развития: changelog, community, issues
  • Vendor lock-in risk: что будет, если проект купят?

Windsurf (бывший Codeium) --- OpenAI купили за $3B в 2025. Пользователи Codeium Free оказались в новой экосистеме с новыми правилами. Такое случается, и случается быстро.

Шаблон «Карточка инструмента»

Заполняйте карточку по 6 критериям. Пример для Claude Code:

КритерийClaude Code
Task FitТерминальный агент, сложные задачи, архитектура
Capabilities1M контекст, shell/git/tests, субагенты, Agent Teams
LimitationsНет GUI diff, дорого, lock-in в Anthropic
IntegrationТерминал, VS Code extension, CLAUDE.md, MCP
Cost$20/мес (Pro) -- $200/мес (Max), usage-based
TrajectoryAnthropic ($2.5B ARR), быстрое развитие, proprietary
Подготовка к С6

Заполнение карточки для 1--2 инструментов --- часть подготовки к семинару 6. Попробуйте инструмент на реальной задаче из своего проекта, а не на hello world.

Фреймворк есть. Теперь наложим его на реальный рынок.


Блок 3. Карта рынка 2026

Три категории

Рынок разделился на три категории:

  • Assistants (inline): автокомплит + чат в IDE. Copilot, Supermaven, Codeium.
  • Agentic IDEs: визуальные агенты, multi-file editing, diff preview. Cursor, Windsurf, Augment.
  • Terminal Agents: CLI, автономные, git-native. Claude Code, Aider, OpenCode, Cline.

Не «лучше/хуже», а разные задачи. Молоток, отвёртка, пила --- все нужны, но для разного.

GitHub Copilot

15 миллионов пользователей --- самый массовый. Бесплатный tier (2000 completions/мес, 50 chat messages/мес) снимает барьер входа.

Agent mode в VS Code (2025): multi-file edits, terminal commands, автоматизация через GitHub Actions. MCP support с 2026 года. Multi-model: Claude Sonnet 4.5, GPT-5 mini, Gemini.

Козырь --- экосистема GitHub: issues, PR, Actions, всё в одном месте. Биллинг предсказуемый ($10/мес Pro).

Обратная сторона: reasoning послабее, чем у Cursor или Claude Code. За $10/мес frontier-модели на полную мощность не получить. Для рутины хорош, для сложного рефакторинга --- маловат.

Cursor

Миллион+ пользователей, 360 тысяч платящих. Форк VS Code, заточенный под AI.

Composer --- описываете изменение на естественном языке, получаете multi-file diff с визуальным preview. Codebase indexing, Background Agents, поддержка нескольких моделей (GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro).

За что люди платят --- видеть diff до применения, контролировать каждое изменение. Для повседневной работы --- лучший визуальный workflow на рынке.

Проблема --- кредитная система. $20/мес (Pro) может закончиться за день тяжёлого рефакторинга. Кредиты «утекают» незаметно, и это раздражает.

Claude Code

Терминальный агент от Anthropic. 1M токенов контекстного окна. Автономное выполнение: shell, git, tests. Модели Claude Opus 4.6 и Sonnet. Agent Teams для координации нескольких агентов.

Когда другие инструменты не справляются --- переключаешься сюда. $2.5B ARR, больше половины enterprise-выручки Anthropic.

Но $150--200/мес при активном использовании --- реальность. Нет GUI для диффов. И вы заперты в экосистеме Anthropic --- только модели Claude.

Windsurf (OpenAI)

Бывший Codeium, куплен OpenAI в 2025 за $3B. $15/мес --- дешевле Cursor при сопоставимых возможностях.

Cascade --- агентный движок для multi-file changes. Memories --- запоминает ваши паттерны и конвенции между сессиями. Через пару недель агент реально адаптируется под то, как вы пишете код. Arena Mode --- слепое A/B тестирование: один промпт, два агента параллельно, вы голосуете за результат, не зная, какая модель за каким стоит.

Комьюнити пока меньше, чем у Cursor, и переходный период после покупки ещё не закончился.

OpenCode (OSS)

120K+ GitHub stars. Команда SST (Serverless Stack). Терминальный агент с философией BYOM --- bring your own model. 75+ моделей, от frontier до локальных через Ollama.

Чем отличается от Claude Code: любая модель (vendor independence), air-gapped mode (полностью офлайн), thoroughness over speed (полный test suite перед завершением задачи). Контекст экономит через glob-паттерны в opencode.jsonc, а не дампит описания всех MCP-инструментов в промпт.

OpenCode Go --- $10/мес за доступ к дешёвым моделям. Доступен как CLI, десктоп и extension для VS Code/JetBrains.

Гибкий и дешёвый, но настраивать придётся руками. UX менее отполированный, чем у Claude Code --- инструмент для тех, кто не боится конфигов.

OpenClaw --- автономность без границ

247K GitHub stars. Создан Петером Штайнбергером (Австрия). Автономный агент, работающий через мессенджеры: Signal, Telegram, Discord, WhatsApp. Karpathy назвал этот паттерн «Claws» --- слой оркестрации поверх LLM. Куплен OpenAI.

Вот что бывает, когда автономности слишком много. Инцидент MoltMatch (февраль 2026): студент Джек Луо настроил OpenClaw для исследования agent-oriented соцсетей. Агент самостоятельно создал ему дейтинг-профиль на MoltMatch и начал скринить матчи --- без ведома пользователя. AFP нашли, что другой агент использовал фото малайзийской модели для создания профиля без её согласия. В Китае OpenClaw запретили в госорганах.

Автономность без guardrails = риск

Инцидент MoltMatch --- то, что происходит, когда агенту дают широкий доступ без ограничений. Подробнее на Л5 --- безопасность и «тёмная сторона» AI-кодинга.

Aider

Стабильный open-source терминальный агент. Каждый edit --- автоматический git commit с осмысленным сообщением. Недавние релизы Aider на 80%+ написаны самим Aider.

Собственный Polyglot Benchmark: 225 задач на 6 языках. Лучший результат --- o3 с высоким reasoning effort: 81.3%. По эффективности --- 257 секунд и 126K токенов на задачу в среднем. Один из лучших балансов цены и качества среди CLI-агентов.

Если вам нужен CLI-агент, который «думает в git» --- Aider. Менее автономен, чем Claude Code, субагенты --- не его конёк.

Cline

5 миллионов+ установок VS Code. Open-source. Двухрежимная система:

  • Plan Mode: анализ кодовой базы, стратегия. Deep planning через /deep-planning.
  • Act Mode: выполнение с diff-first approval --- каждое изменение требует явного одобрения.

Бесплатный (BYOM/BYOK, ноль наценки), прозрачный --- каждое изменение проходит через вас.

Привязан к VS Code. Менее зрелый, чем Cursor. И API costs при использовании frontier-моделей набегают --- «бесплатность» инструмента не означает бесплатность результата.

Сводная карта

ИнструментКатегорияЦенаКонтекстМоделиКлючевое отличие
CopilotAssistant$0--10/мес~8KMulti-modelЭкосистема GitHub
CursorAgentic IDE$20/месIndexedMulti-modelВизуальный Composer
WindsurfAgentic IDE$15/месIndexedMulti-modelMemories, Arena Mode
Claude CodeTerminal$20--200/мес1MClaude onlyГлубокий reasoning
OpenCodeTerminalAPI costsVaries75+ моделейBYOM, privacy
AiderTerminalAPI costsVariesMulti-modelGit-native
ClineVS Code extAPI costsVariesBYOMPlan/Act, diff approval
OpenClawMessengerAPI costsVariesMulti-modelМессенджер-интерфейс

Ландшафт понятен. Вопрос --- как из всего этого собрать рабочий стек?


Блок 4. Стратегия диверсификации и итоги

Почему не один инструмент?

  1. Vendor lock-in. Windsurf купили OpenAI --- что стало с пользователями Codeium? Завтра то же может случиться с кем угодно.
  2. Разные задачи. Автокомплит и глубокий рефакторинг --- разные инструменты.
  3. Деньги. Рутину --- дешёвому агенту, сложное --- мощному. Гонять Claude Code на типовых задачах --- всё равно что ездить на Ferrari за хлебом.
  4. Доступность. Если Anthropic API лежит, у вас должен быть plan B.

Стратегия «3 слоя»

Слой 1 --- Автокомплит (всегда включён). Copilot Free или Supermaven. Работает в фоне, вы его почти не замечаете.

Слой 2 --- Агентная IDE (основная работа). Cursor или Windsurf. Multi-file edits, визуальный контроль, diff preview. 80% рабочего времени.

Слой 3 --- Терминальный агент (тяжёлая артиллерия). Claude Code, OpenCode или Aider. Достаёте, когда задача сложная и нужен глубокий reasoning: архитектурный рефакторинг, дебаг на уровне системы, миграции.

OSS как страховка

Даже если основной инструмент коммерческий --- держите настроенный OSS-агент как fallback. OpenCode или Aider.

Почему:

  • Нет vendor lock-in --- код открыт, форкните и продолжайте
  • Работает с любой моделью
  • Можно запустить локально (privacy, compliance)
  • Бесплатно (только API cost)

Promptfoo: свои evals вместо чужих бенчмарков

Не полагайтесь на чужие бенчмарки --- создайте свои. Promptfoo позволяет оценивать coding-агентов на ваших задачах.

Через tracing можно проверить, что агент реально запустил тесты и прочитал файлы, а не просто написал «я это сделал». LLM-as-Judge оценивает качество через другую модель. Можно ставить пороги на стоимость и latency, измерять variance через --repeat 3, интегрировать в CI/CD через GitHub Action (promptfoo/promptfoo-action). Есть red teaming: promptfoo redteam run сканирует агента на prompt injection.

Простой сценарий: берёте одну задачу из своего проекта, прогоняете через 3 инструмента, сравниваете. Это и есть подготовка к С6.

Чеклист выбора инструмента

5 шагов
  1. Определить категорию задачи: автокомплит, multi-file editing или архитектура?
  2. Заполнить карточку инструмента по 6 критериям
  3. Попробовать на реальной задаче из своего проекта (не на hello world)
  4. Сравнить 2--3 варианта на одной задаче
  5. Оценить через неделю: стал ли я реально быстрее? (помнить про METR --- ощущения врут)

Арка курса

ЛекцияВопросОтвет
Л1Зачем?AI умножает экспертизу, но требует harness engineering
Л2Почему?Физика модели: токены, контекст, галлюцинации, reasoning
Л3Как?Context engineering, файлы правил, spec-driven development
Л4Чем?Фреймворк оценки, карта рынка, стратегия диверсификации
Л5Риски?Уязвимости, prompt injection, тёмная сторона AI-кодинга

Главный takeaway

Инструмент --- не религия, а инженерное решение. Бенчмарки ненадёжны. Маркетинг --- тем более. Единственный способ, которому можно доверять --- попробовать на своей задаче, измерить результат, держать plan B.

Что дальше

На семинаре 6 --- 3-минутные питчи инструментов, перекрёстные вопросы, общая карта стека группы. Подготовка: протестировать 1--2 новых инструмента по фреймворку 6 критериев, заполнить карточку.

На лекции 5 --- ограничения, риски и «тёмная сторона» AI-кодинга: уязвимости в AI-сгенерированном коде, prompt injection на агентах, скрытый технический долг. Мы научились выбирать инструменты. Теперь --- как не обжечься.


Дальнейшее чтение

Исследования

Бенчмарки

Инструменты и сравнения

  • Promptfoo: Evaluate Coding Agents --- фреймворк для собственных evals.
  • LogRocket (2026). AI dev tool power rankings.
  • AIMultiple. Agentic CLI Tools Compared.
  • DataCamp. OpenCode vs Claude Code.