Л2. Как мыслят модели: токены, контекст, галлюцинации и reasoning

На прошлой лекции мы обсуждали парадигмы AI-кодинга на высоком уровне — от vibe-coding до harness engineering. Мы говорили, что AI умножает экспертизу, что контекст — это RAM, а модель — это CPU. Сегодня мы спускаемся «под капот»: разбираемся, как именно LLM обрабатывает текст, почему галлюцинирует и чем chat-модели отличаются от reasoning-моделей.

Зная «физику» модели, вы сможете объяснить, почему она ведёт себя так, а не иначе — и сформировать контекст так, чтобы получить нормальный результат.

Блок 1. Токенизация — почему модель не видит буквы

Токены как атомы LLM

LLM работает не с буквами и не со словами, а с токенами — атомарными единицами, на которые модель разбивает входной текст. Один токен может быть целым словом (hello), частью слова (un + happi + ness), одним символом или последовательностью байтов. В среднем один токен — это примерно 3--4 символа в английском и 1--2 символа в русском.

"Tokens are this fundamental unit, the atom of large language models, if you will. Everything is in units of tokens." — Andrej Karpathy, Let's build the GPT Tokenizer (2024)

BPE: как строится словарь

Byte Pair Encoding (BPE) — доминирующий алгоритм токенизации. Идея элегантна: начинаем с отдельных байтов (256 базовых токенов), затем итеративно находим самую частую пару соседних токенов в корпусе и объединяем её в новый токен. Повторяем, пока словарь не достигнет нужного размера — типично ~50K--200K токенов. По сути, это сжатие обучающих данных: частые слова (the, and) получают отдельные токены, а редкие слова разбиваются на подслова.

Алгоритм был впервые предложен для машинного перевода (Sennrich et al., 2016), а затем стал стандартом де-факто для всех современных LLM — от GPT-2 до Claude и Llama.

Демо: «Сколько букв R в слове strawberry?»

Токенизатор cl100k_base (GPT-4) разбивает strawberry на ["str", "aw", "berry"] — три токена. Модель буквально не видит отдельных букв! Когда мы спрашиваем «сколько букв R в слове strawberry?», chat-модель должна мысленно «развернуть» токены обратно в символы — и делает это ненадёжно.

Reasoning-модели справляются

Reasoning-модели (o3, DeepSeek R1) уже справляются с этой задачей, потому что генерируют chain-of-thought — фактически разбивают слово по буквам в промежуточных токенах рассуждения. Это отличный мостик к блоку 4, где мы разберём разницу между chat и reasoning подходами.

Практические следствия для разработчиков

Language Penalty (налог на неанглийские языки). BPE тренировался в основном на английском интернете, поэтому одна и та же мысль на русском или корейском может потребовать в ~3 раза больше токенов. Это не только дороже в API, но и быстрее переполняет контекстное окно. Хорошая новость: GPT-4o (o200k_base) значительно улучшил мультиязычную токенизацию — экономия ~30--50% токенов для русского по сравнению с GPT-4. Тренд: каждый новый токенизатор всё лучше работает с нелатинскими скриптами.

Математическая некомпетентность. Числа токенизируются хаотично: 127 может быть одним токеном, а 677 разбивается на 6 + 77. Из-за этого модели критически сложно складывать «в столбик» — у чисел нет стабильной позиционной структуры на уровне токенов.

Баги с пробелами (Trailing Whitespace). В токенизаторах GPT пробел «приклеивается» к началу следующего слова (например, токен hello). Если промпт заканчивается висящим пробелом, это выводит модель из привычного распределения и провоцирует неожиданное поведение.

Python и отступы. Ранние модели (GPT-2) были ужасны в написании Python, потому что токенизатор не объединял пробелы отступов — стандартный отступ в 4 пробела превращался в 4 отдельных токена, засоряя контекстное окно. GPT-4 исправил это, научив токенизатор сливать множественные пробелы в один токен.

Токены-призраки: SolidGoldMagikarp

Один из самых пугающих багов токенизации: исследователи обнаружили токены, при упоминании которых модели GPT-2/3 начинали нести бессвязный бред. Разгадка проста: BPE при сборе словаря видел имя SolidGoldMagikarp (никнейм гиперактивного пользователя Reddit) достаточно часто, чтобы выделить отдельный токен, но в финальный датасет для тренировки модели тексты с Reddit не попали. В результате в модели появился токен, чья матрица весов никогда не обновлялась — нетренированная случайная память. При его вызове модель обращалась к этим случайным весам и полностью ломалась.

Один токен = один шаг вычислений

Каждый выходной токен — это один проход через всю нейросеть (forward pass, ~100 слоёв). Модель не может «подумать между токенами». Как объясняет Карпаты:

"There's basically a finite number of layers of computation, roughly 100 layers. There's a finite amount of computation that happens here for every single token and you should think of this as a very small amount of computation." — Andrej Karpathy, Deep Dive into LLMs (2025)

Это объясняет, почему модель не может выдать правильный ответ на сложную задачу «за один токен» — ей нужно распределить вычисления на множество токенов (chain of thought).

"Tokenization is at the heart of much weirdness of LLMs. Do not brush it off." — Andrej Karpathy, Let's build the GPT Tokenizer (2024)

Блок 2. Контекстное окно — RAM для LLM

Аналогия: LLM как компьютер

На прошлой лекции мы упоминали аналогию Карпаты вскользь, теперь разберём её детально. У обычного компьютера есть CPU (процессор), RAM (оперативная память) и диск (долговременное хранилище). У LLM — аналогичная структура:

Веса модели = «жёсткий диск» — долговременная память, обученная на терабайтах данных. Это всё, что модель «знает» из тренировки.
Контекстное окно = «RAM» — рабочая память для текущей задачи. Всё, что модель знает о вашей конкретной задаче, должно поместиться сюда.
Один forward pass = «такт CPU» — фиксированный объём вычислений на каждый токен.

"Think of the context window as RAM... you're trying to pack the relevant information into the context." — Andrej Karpathy, Deep Dive into LLMs like ChatGPT (2025)

Эволюция размеров контекста

Модель	Год	Контекст	Аналогия
GPT-3	2020	2K токенов	~1.5 страницы
GPT-3.5	2023	4K → 16K	~10 страниц
GPT-4	2023	8K → 128K	~300 страниц
Claude 3	2024	200K	~500 страниц
Gemini 1.5 Pro	2024	1M → 2M	целая книга
Gemini 2.5 Pro	2025	1M	целая книга
Llama 4 Scout	2025	10M	~10 книг
Claude Opus 4.6	2026	1M	целая книга

Прогресс впечатляет, но больше != лучше. Почему?

Lost-in-the-Middle: U-образная кривая внимания

Фундаментальное исследование Stanford (Liu et al., 2023) показало: модели надёжно обрабатывают информацию в начале и в конце контекста, но «теряют» данные в середине. При поиске факта в длинном документе точность падала до 50--60% для информации в середине окна (vs 90%+ для начала и конца).

Прогресс, но проблема не решена (2024--2026)

Новые модели значительно улучшили работу с длинным контекстом — Claude 3+ и Gemini 1.5 Pro демонстрируют near-perfect результаты на синтетических бенчмарках (Needle-in-a-Haystack). Однако проблема не устранена полностью: при большом объёме контекста с семантически похожими документами U-образная кривая внимания по-прежнему проявляется. Для разработчика вывод прежний: не полагайтесь на то, что модель «видит всё» — структурируйте контекст осознанно.

Отравление контекста (Context Poisoning)

Если в контекст попала неверная или противоречивая информация, модель может «заразиться». Пример: устаревший код в контексте приводит к генерации устаревших паттернов. Контекст переспоривает обучение — модель доверяет тому, что видит «прямо сейчас», больше, чем тому, что знает из тренировочных данных. Это одновременно и сила (in-context learning), и слабость (jailbreaks, prompt injection).

Практический вывод

Контекст — дефицитный ресурс. Его нужно заполнять осознанно: самое важное — в начало, детали — в конец, мусор — выкидывать. Именно поэтому на прошлой лекции мы говорили о Progressive Disclosure и AGENTS.md как оглавлении — это паттерны экономии контекста.

"[Context engineering is the] delicate art and science of filling the context window with just the right information for the next step." — Andrej Karpathy, цитата из LangChain Blog (июль 2025)

Блок 3. Next-token prediction и галлюцинации

Предсказание следующего токена — единственная задача LLM

LLM обучена на одну задачу: дан текст, предскажи следующий токен. Она моделирует вероятностное распределение:

P(next_token | previous_tokens)

Генерация текста — авторегрессионный процесс: каждый новый токен дописывается к контексту и влияет на следующий. Текст «разворачивается» токен за токеном, как катушка плёнки.

Ещё в 2019 году авторы GPT-2 показали, что даже такая простая задача, как предсказание следующего токена, приводит к неожиданным способностям. Модель, обученная на 40 ГБ текстов из интернета, научилась переводить тексты, отвечать на вопросы и решать задачи — без единого примера обучения на этих задачах (zero-shot):

"Language models [are] unsupervised multitask learners [...] a sufficiently large language model will begin to learn to infer and perform the tasks demonstrated in natural language sequences in order to better predict them." — Radford et al., Language Models are Unsupervised Multitask Learners (GPT-2, 2019)

Год спустя GPT-3 (Brown et al., 2020) формализовал эту идею как in-context learning: модель адаптируется к новой задаче прямо во время вывода (forward pass), без обновления весов, просто увидев несколько примеров в контексте:

"The model develops a broad set of skills and pattern recognition abilities at training time, and then uses those abilities at inference time to rapidly adapt to or recognize the desired task." — Brown et al., Language Models are Few-Shot Learners (GPT-3, 2020)

Lossy Compression — сжатие с потерями

Тренировочные данные — триллионы токенов из интернета. Но модель весит десятки-сотни гигабайтов — несопоставимо меньше объёма данных. Значит, знания сжаты с потерями (как JPEG).

Но есть важное отличие от обычного сжатия: модель не просто «теряет» факты — она интерполирует, достраивая информацию на основе выученных паттернов. Факт может не «пропасть», а «исказиться» — модель выдаёт правдоподобную, но неверную реконструкцию. Как JPEG-сжатие портрета может дать размытые глаза — формально они на месте, но детали искажены. Так LLM может «вспомнить» несуществующую функцию библиотеки, скомбинировав паттерны из реальных API.

"Neural networks are very good at a kind of lossy compression of the internet. They are a dream machine — sometimes those dreams are very accurate, sometimes they're hallucinated." — Andrej Karpathy, Deep Dive into LLMs like ChatGPT (2025)

Почему модель не говорит «не знаю»

В тренировочных данных (интернет) крайне мало текстов, где автор пишет «я не знаю ответ на этот вопрос». Напротив — большинство текстов уверенно отвечают на вопросы. Модель обучилась паттерну «на вопрос следует уверенный ответ». Даже после alignment (RLHF/DPO) эта тенденция лишь ослаблена, но не устранена.

Галлюцинации — не баг, а свойство архитектуры

Способность LLM генерировать новый, творческий текст (писать стихи, выдвигать гипотезы) — это та же самая способность, которая производит галлюцинации. Нельзя «отключить» галлюцинации, не отключив креативность. Можно лишь управлять уровнем: temperature, retrieval-augmented generation (RAG), citations, tool use.

Есть и формальный результат: исследователи математически доказали, что галлюцинации неизбежны — LLM не могут выучить все вычислимые функции из конечного набора данных (Xu et al., 2024; Banerjee et al., 2024).

Sycophancy — подхалимство

Модели обучены быть helpful (полезными), что создаёт перекос: модель склонна соглашаться с пользователем, даже если он неправ. Если пользователь уверенно заявляет «2+2=5», модель может начать «подстраиваться» под это утверждение. Это следствие RLHF: модели получали reward за ответы, которые нравились оценщикам, и научились «угождать» (Anthropic, Towards Understanding Sycophancy, ICLR 2024).

Confidence Calibration

LLM не имеет встроенного механизма оценки достоверности своего ответа. Она может с одинаковой «уверенностью» (fluency) написать правильный факт и полную выдумку. Единственный надёжный способ проверить — внешняя верификация: запуск кода, RAG, tool use.

"Your responsibility as a software developer is to deliver working systems. If you haven't seen it run, it's not a working system." — Simon Willison

Блок 4. От базовой модели к Chat и Reasoning

Три стадии обучения LLM

Как из «сырого движка автодополнения» получить полезного ассистента? Через последовательный pipeline обучения:

Стадия 1: Pre-training (базовая модель). Обучение на триллионах токенов из интернета. Результат — мощный «движок автодополнения», который может продолжить любой текст, но не умеет вести диалог. Если дать ему вопрос, он может выдать ещё 10 похожих вопросов вместо ответа (потому что на форумах FAQ после вопросов часто идут другие вопросы).

При этом масштаб данных критически важен. Исследование Chinchilla (Hoffmann et al., 2022) показало, что данные нужно масштабировать пропорционально размеру модели — многие ранние модели были «недокормлены» данными. Оптимальное соотношение: ~20 токенов на параметр. Это открытие перевернуло индустрию: вместо гонки за размером моделей начали инвестировать в качество и объём данных.

Стадия 2: SFT (Supervised Fine-Tuning). Обучение на парах «вопрос-ответ» от людей-разметчиков. Модель учится формату диалога: получил вопрос — дай ответ. Это «облагораживание» базовой модели.

Стадия 3: RLHF / DPO (Alignment). Финальная полировка, которая делает модель не просто умной, но и полезной и безопасной.

RLHF: обучение через предпочтения людей

Статья InstructGPT (Ouyang et al., 2022) формализовала трёхшаговый процесс alignment:

Собрать демонстрации — люди-разметчики пишут идеальные ответы на вопросы, модель дообучается на них (SFT).
Обучить reward model — для каждого вопроса генерируются несколько ответов, разметчики ранжируют их от лучшего к худшему. На этих сравнениях обучается отдельная модель-оценщик.
Оптимизировать через RL (PPO) — основная модель дообучается методом reinforcement learning, получая reward от модели-оценщика за «хорошие» ответы.

"The language modeling objective — predicting the next token on a webpage from the internet — is different from the objective 'follow the user's instructions helpfully and safely'. Thus, we say that the language modeling objective is misaligned." — Ouyang et al., Training language models to follow instructions with human feedback (InstructGPT, 2022)

DPO: проще и эффективнее RLHF

Direct Preference Optimization (Rafailov et al., 2023) упрощает RLHF: вместо обучения отдельной reward model и запуска RL-цикла, DPO сводит всё к classification loss на парах предпочтений. Проще в реализации, стабильнее в обучении, результаты не хуже (а часто лучше) RLHF.

GRPO: следующий шаг после DPO (2025)

Group Relative Policy Optimization (DeepSeek, 2024--2025) — алгоритм RL, который ещё сильнее упрощает pipeline. Вместо отдельной модели-критика (как в PPO) GRPO генерирует группу ответов на один и тот же промпт и использует их средний reward как базовую линию. Это экономит ~50% памяти и вычислений и стабильнее обучается. Большинство reasoning-моделей 2025 года обучены через GRPO или его вариации.

Ещё одна идея из DeepSeek R1: вместо нейросетевой reward model — верифицируемые награды: регулярные выражения и сравнение строк для проверки правильности финального ответа. Модель не может «обмануть» regex так, как может обмануть нейросетевого оценщика (reward hacking).

Chat-модели vs Reasoning-модели

Chat-модели (Claude Sonnet 4.6, GPT-4o, Gemini 2.5 Flash) — результат pipeline SFT → RLHF/DPO. Быстрые, fluent, хорошо следуют инструкциям. Генерируют ответ «потоком» — один проход мысли. Оптимизированы для helpfulness и harmlessness.

Reasoning-модели (o3/o4-mini, DeepSeek R1, Gemini 2.5 Pro, Claude с extended thinking) — принципиально другой подход. Используют RL для обучения модели «думать перед ответом». Модель генерирует chain-of-thought (цепочку рассуждений) перед финальным ответом. Ключевое отличие: модель может «потратить» больше вычислений на сложную задачу (test-time compute).

Прорыв DeepSeek R1: reasoning из ничего

В январе 2025 года команда DeepSeek сделала неожиданную вещь: применила чистый RL (без SFT-затравки) к базовой модели — и chain-of-thought появился сам. Модель сама научилась разбивать задачу на шаги, перепроверять себя, рассматривать альтернативы.

Самый интересный момент эксперимента — «aha moment»: промежуточная версия модели, решая уравнение, поймала себя на ошибке и сама изменила подход:

"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step..." — внутренний монолог DeepSeek-R1-Zero

Исследователи отметили: использование слова «wait» как рефлексивной стратегии было практически нулевым в начале обучения, но резко возросло после шага 8000.

"This moment is not only an 'aha moment' for the model but also for the researchers observing its behavior. It underscores the power and beauty of reinforcement learning: rather than explicitly teaching the model on how to solve a problem, we simply provide it with the right incentives, and it autonomously develops advanced problem-solving strategies." — DeepSeek Team, DeepSeek-R1 (январь 2025)

Результат: точность на математическом бенчмарке AIME 2024 выросла с 15.6% до 71.0% (86.7% с majority voting), сравнявшись с OpenAI o1.

Дистилляция reasoning-способностей

DeepSeek показал, что reasoning можно «перелить» из большой модели в маленькую. Серия R1-Distill моделей (на базе Qwen и Llama, от 1.5B до 70B параметров) обучалась на chain-of-thought выводах R1 и неплохо справлялась с математическими бенчмарками даже при крошечном размере. Это значит, что reasoning-модели можно запускать локально.

"We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute)." — OpenAI, Learning to Reason with LLMs (сентябрь 2024)

Гонка reasoning-моделей: 2025 и далее

После DeepSeek R1 reasoning-модели посыпались одна за другой:

Модель	Дата	AIME 2024	AIME 2025	Особенности
o1 (OpenAI)	сент. 2024	74.3%	79.2%	Первая коммерческая reasoning-модель
DeepSeek R1	янв. 2025	71.0%	—	Open-source, GRPO, emergent CoT
Gemini 2.5 Pro	март 2025	92.0%	86.7%	Встроенный «thinking mode»
o3 (OpenAI)	апр. 2025	91.6%	88.9%	Скачок над o1
o4-mini (OpenAI)	апр. 2025	—	92.7%	Дешёвый и быстрый reasoning
GPT-5 (OpenAI)	авг. 2025	—	94.6%	Reasoning встроен в основную модель

За год AIME 2025 вырос с 79% (o1) до 95% (GPT-5). Два любопытных момента: o4-mini — маленькая дешёвая модель — обогнала o3 на AIME 2025. А GPT-5 интегрировал reasoning прямо в основную модель, стирая границу между chat и reasoning.

Демо: Chat vs Reasoning на одной задаче

Обязательное демо

Подготовьте Python-сниппет с тонким off-by-one error и покажите его двум моделям:

buggy_code.py
def find_pairs(nums, target):
    """Найти все пары чисел, дающие в сумме target."""
    pairs = []
    for i in range(len(nums)):
        for j in range(i, len(nums)):  # баг: должно быть i+1
            if nums[i] + nums[j] == target:
                pairs.append((nums[i], nums[j]))
    return pairs

Chat-модель (Sonnet): мгновенно выдаёт ответ одним потоком — может угадать, может промахнуться. Ответ уверенный, без колебаний.
Reasoning-модель (Opus с extended thinking / o3): генерирует видимый chain-of-thought — перечисляет переменные, проходит по циклу шаг за шагом, замечает off-by-one, перепроверяет.

Reasoning-модель «распределяет вычисления» на множество токенов (блок 1), а chat-модель пытается уместить всё в один проход.

Когда что использовать

Критерий	Chat-модели	Reasoning-модели
Скорость	Быстро (секунды)	Медленно (десятки секунд)
Стоимость	Дёшево	Дорого (5--10x), но o4-mini ломает тренд
Простые задачи	Отлично	Избыточно
Сложные задачи	Рискованно	Точнее
Примеры	Sonnet 4.6, GPT-4o, Gemini Flash	o3, o4-mini, DeepSeek R1, Gemini 2.5 Pro
Когда использовать	Генерация кода, рефакторинг, перевод	Алгоритмы, математика, отладка, архитектура

Блок 4½. Как делают LLM быстрее и дешевле (2024--2026)

Модели становятся умнее, но если они при этом медленные и дорогие — толку мало. Поэтому параллельно идёт гонка за эффективностью.

Mixture of Experts (MoE): не все параметры нужны одновременно

Традиционная (dense) модель активирует все параметры для каждого токена. Mixture of Experts — архитектура, где каждый токен обрабатывается лишь подмножеством «экспертов» (специализированных подсетей), а маршрутизатор (router) выбирает, какие эксперты задействовать.

Модель	Всего параметров	Активных на токен	Экономия
DeepSeek V3 (дек. 2024)	671B	~37B	18x
Llama 4 Scout (апр. 2025)	109B	17B	6x
Llama 4 Maverick (апр. 2025)	400B	17B	23x

Что это значит на практике: Llama 4 Maverick «знает» столько же, сколько модель на 400 миллиардов параметров, но на каждый токен тратит вычислений как модель на 17 миллиардов. А Llama 4 Scout при этом поддерживает контекст в 10 миллионов токенов — порядка 10 полных книг.

Speculative Decoding: черновик + проверка

Стандартная генерация — авторегрессионная: один токен за один forward pass через огромную модель. Speculative decoding ускоряет процесс: маленькая «черновая» модель быстро генерирует несколько кандидатов-токенов, а большая модель проверяет их все параллельно за один forward pass. Если черновик угадал — получаем несколько токенов за цену одного.

По результатам 2025 года: 2--3.5x ускорение без потери качества (математически lossless). Apple и Google уже используют speculative decoding в продакшне.

Бенчмарки 2025: модели решают реальные задачи

Бенчмарки перешли от синтетических задач к реальным:

SWE-bench Verified — модель получает реальный GitHub issue и должна написать патч. Лидер: Claude Opus 4.5 (80.9%). Для контекста: ещё в начале 2024 года лучшие модели решали ~30% задач.
AIME 2025 — задачи из математической олимпиады. o4-mini: 92.7% — маленькая модель обогнала все большие.
ARC-AGI-2 — задачи на абстрактное мышление. «Сырой» вызов через API: o3 набирает ~3%. Специализированные агенты с большим compute-бюджетом (Poetiq на Gemini 3 Pro) дотянулись до 54%. Средний человек: 60%. Разрыв между «моделью из коробки» и «системой с моделью внутри» — один из главных уроков 2025 года.

Контаминация бенчмарков

OpenAI обнаружил, что все frontier-модели показывают признаки контаминации (утечки тестовых данных в обучающие) на SWE-bench Verified и перешёл на более сложный SWE-bench Pro. Это системная проблема: чем популярнее бенчмарк, тем выше вероятность утечки.

Блок 5. Практические выводы для разработчика

Temperature и sampling

Temperature = 0: детерминированный режим, минимум вариативности. Используйте для генерации кода, SQL, структурированных данных.
Temperature > 0: больше креативности, но и больше риска галлюцинаций. Используйте для brainstorming, рефакторинга, генерации текста.
Structured outputs (JSON mode): ограничение пространства генерации — модель может генерировать только валидный JSON по заданной схеме. Это практический инструмент борьбы с галлюцинациями: модель не может «придумать» поле, которого нет в схеме. В 2025 году structured outputs стали стандартом: OpenAI, Anthropic и Google поддерживают их нативно в API с гарантированно валидным JSON.

Пять правил работы с LLM

Шпаргалка

Контекст — дефицитный ресурс. Важное — в начало, мусор — выкидывать. Структурируйте контекст осознанно.
Всегда запускайте сгенерированный код. "If you haven't seen it run, it's not a working system."
Будьте скептичны, когда модель согласна с вами. Sycophancy — системный порок RLHF-моделей.
Выбирайте модель под задачу. Chat для рутины, reasoning для сложных задач.
Используйте tool use для задач, противоречащих природе модели. Подсчёт символов, арифметика, поиск в базе — делегируйте инструментам.

Связь с Лекцией 1

Теперь паттерны из Л1 получают научное обоснование:

AGENTS.md как оглавление → экономия контекстного окна (блок 2)
Progressive Disclosure → борьба с lost-in-the-middle (блок 2)
Evals и тесты → защита от галлюцинаций (блок 3)
Doom-loop detection → модель застревает, потому что не может «думать» по-другому в рамках одного прохода (блок 1)

Итоги и подводка к Семинару 3

Ключевые takeaways

Токены, а не буквы. Модель видит мир через призму токенов. Это объясняет странности с подсчётом символов, числами и мультиязычностью.
Контекст = RAM. Ограниченный, дорогой, с U-образной кривой внимания. Заполняйте осознанно.
Предсказатель, а не оракул. LLM — lossy-compressed internet, генерирующая наиболее вероятное продолжение. Галлюцинации — не баг, а свойство.
Chat vs Reasoning. Два режима работы с принципиально разным балансом скорость/точность. Выбирайте инструмент под задачу.
Понимание ограничений = суперсила. Зная «физику» модели, вы формируете контекст правильно и получаете качественные результаты.

Что дальше: Семинар 3 — Context Engineering

На семинаре мы перейдём от теории к практике. Теперь вы понимаете, что контекстное окно — дефицитный ресурс, что модель «забывает» середину, что каждый токен стоит денег и вычислений. На семинаре мы будем учиться Context Engineering: как правильно формировать контекст для AI-агентов. Вы попробуете на практике: взять реальную задачу и сравнить результат с «тупым» промптом vs осознанно подготовленным контекстом.

"If someone tells you that coding with LLMs is easy they are (probably unintentionally) misleading you." — Simon Willison, simonwillison.net (март 2025)

Дальнейшее чтение

Видеолекции Карпаты

Karpathy, A. (2025). Deep Dive into LLMs like ChatGPT, 3.5 часа — основной источник для этой лекции.
Karpathy, A. (2024). Let's build the GPT Tokenizer, 2 часа — детально про BPE.
Karpathy, A. (2023). Let's build GPT: from scratch, in code, spelled out — архитектура трансформера.

Ключевые статьи

Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners — GPT-2: zero-shot task generalization.
Brown, T. et al. (2020). Language Models are Few-Shot Learners — GPT-3: in-context learning.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback — InstructGPT: RLHF pipeline.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models — Chinchilla: оптимальное масштабирование данных.
Rafailov, R. et al. (2023). Direct Preference Optimization — DPO: альтернатива RLHF.
Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts — U-образная кривая внимания.
Dong, Q. et al. (2023). A Survey on In-Context Learning — обзор ICL.
DeepSeek (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — emergent chain-of-thought через RL, GRPO.
DeepSeek (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning — первое описание GRPO.
DeepSeek (2024). DeepSeek-V3 Technical Report — MoE-архитектура, 671B параметров.
Meta (2025). The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation — MoE, 10M контекст.
Google DeepMind (2025). Gemini 2.5: Our newest Gemini model with thinking — reasoning в Gemini.
OpenAI (2025). Introducing o3 and o4-mini — новое поколение reasoning-моделей.
OpenAI (2025). Introducing GPT-5 — reasoning встроен в основную модель.
Snell, C. et al. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters — test-time compute scaling laws.
Banerjee, S. et al. (2024). LLMs Will Always Hallucinate, and We Need to Live With This — математическое доказательство неизбежности галлюцинаций.
Xu, Z. et al. (2024). Hallucination is Inevitable: An Innate Limitation of LLMs — формализация ограничений LLM.
Sennrich, R. et al. (2016). Neural Machine Translation of Rare Words with Subword Units — оригинальная статья BPE.

Блог-посты и статьи

OpenAI (2024). Learning to Reason with LLMs — анонс o1 и test-time compute.
Anthropic (2025). Effective context engineering for AI agents — практические рекомендации.
Anthropic (2024). Towards Understanding Sycophancy in Language Models — ICLR 2024.
LangChain (2025). Context Engineering — формализация термина.
Willison, S. (2025). Here's how I use LLMs to help me write code.
Breunig, D. (2025). How Long Contexts Fail — систематический обзор проблем.
Raschka, S. (2025). Implementing BPE Tokenizer From Scratch.
HuggingFace. What is test-time compute and how to scale it?.
Wolfe, C. (2025). Group Relative Policy Optimization (GRPO) — детальный разбор GRPO.
ARC Prize (2025). Analyzing o3 and o4-mini with ARC-AGI — граница abstract reasoning.
Raschka, S. (2025). The State of LLMs 2025 — обзор прогресса.

Инструменты

OpenAI Tokenizer — интерактивный инструмент для визуализации токенов.
Tiktokenizer — open-source визуализатор токенизации.
Needle In A Haystack — бенчмарк для оценки работы с длинным контекстом.

Блок 1. Токенизация — почему модель не видит буквы​

Токены как атомы LLM​

BPE: как строится словарь​

Демо: «Сколько букв R в слове strawberry?»​

Практические следствия для разработчиков​

Токены-призраки: SolidGoldMagikarp​

Блок 2. Контекстное окно — RAM для LLM​

Аналогия: LLM как компьютер​

Эволюция размеров контекста​

Lost-in-the-Middle: U-образная кривая внимания​

Отравление контекста (Context Poisoning)​

Практический вывод​

Блок 3. Next-token prediction и галлюцинации​

Предсказание следующего токена — единственная задача LLM​

Lossy Compression — сжатие с потерями​

Почему модель не говорит «не знаю»​

Галлюцинации — не баг, а свойство архитектуры​

Sycophancy — подхалимство​

Блок 4. От базовой модели к Chat и Reasoning​

Три стадии обучения LLM​

RLHF: обучение через предпочтения людей​

DPO: проще и эффективнее RLHF​

GRPO: следующий шаг после DPO (2025)​

Chat-модели vs Reasoning-модели​

Прорыв DeepSeek R1: reasoning из ничего​

Гонка reasoning-моделей: 2025 и далее​

Демо: Chat vs Reasoning на одной задаче​

Когда что использовать​

Блок 4½. Как делают LLM быстрее и дешевле (2024--2026)​

Mixture of Experts (MoE): не все параметры нужны одновременно​

Speculative Decoding: черновик + проверка​

Бенчмарки 2025: модели решают реальные задачи​

Блок 5. Практические выводы для разработчика​

Temperature и sampling​

Пять правил работы с LLM​

Связь с Лекцией 1​

Итоги и подводка к Семинару 3​

Ключевые takeaways​

Что дальше: Семинар 3 — Context Engineering​

Дальнейшее чтение​

Видеолекции Карпаты​

Ключевые статьи​

Блог-посты и статьи​

Инструменты​