Computer ScienceВидео YouTubeaiагентыllmмашинноеобучение

Agents Week 2026 | Лекция 1.1 Intro to AI Agents LLM

Agents Week 2026, Школа анализа данных, Яндекс

Алёна Зайцева

ШАД

Опубликовано 6 апр. 2026 г.

Автор публикации

Timurez

Интенсив по AI-агентам: Введение и Основы LLM

#AIАгенты #LLM #МашинноеОбучение #РазработкаАгентов #Яндекс

Обзор Интенсива

Цель интенсива: Научить не только прототипировать личного ассистента, но и доводить его до продакшена и масштабировать.
Длительность: 5 дней, завершается контрольным заданием.
Команда спикеров: Руководители и инженеры из Яндекс.Лавки, Алисы, умных устройств, поискового портала и Клауда.
Эволюция индустрии: От простого промптинга LLM до многоагентских систем.

Структура Интенсива по Дням

День 1 (Сегодня):
- Зачем нужны агенты и из каких частей они состоят.
- Погружение в "мозг агента" – LLM.
- Что такое инструменты и MCP (будет в следующем занятии).
День 2:
- Два ключевых слоя: память и guardrails (инструменты для безопасности и предсказуемости агента).
День 3:
- Сборка общего пайплайна из разобранных кусочков.
- Агентский workflow.
- Взаимодействие агентов в мультиагентной системе.
- Мультимодальные системы.
День 4:
- Оценка (эвал) агентов: как понять, что стало лучше, как агент работает, как предотвратить сбои в продакшене из-за данных.
День 5:
- Сборка всего изученного.
- Прототипирование ассистентов и доведение до продакшена.
- Особенности агентов в продакшене: observability, мониторинг качества, масштабирование.

Роль Зайцевой Алены в Яндекс.Лавке

Руководитель службы AI.
Ответственность 1: AI в клиентском продукте (например, ассистент Лавка AI, генеративный контент в карточках товара).
Ответственность 2: AI для оптимизации команд и бизнес-процессов (внутренние агенты для автоматизации рутины, ускорение прототипирования, разработки, тестирования и внедрения проектов).
Ответственность 3: Инфраструктура для разработки всех AI-агентов.

Применение AI-Агентов

Персональные ассистенты и инструменты для работы со знаниями:
- Поиск информации.
- Автоматизация задач.
- Поддержка принятия сложных решений.
Агенты-исполнители:
- Выполнение действий в браузерах (заполнение форм, цепочки действий в интерфейсах).
- Инструменты для написания кода (разработка приложений).
Бизнес-процессы:
- Поддержка клиентов.
- Автоматизация операционных задач.
- Пример: McKinsey рассматривает 25 тысяч AI-ассистентов как полноценных сотрудников.
Интерактивные среды:
- NPC-персонажи в видеоиграх, подстраивающиеся под поведение игрока в реальном времени.

Эволюция Взаимодействия Человека и LLM

Простой промптинг:
- Модель получает текст и выдает ответ.
- Выход модели не влияет на дальнейший ход исполнения программы.
Роутинг:
- LLM участвует в принятии решений (например, выбор одной из заранее заданных ветвей исполнения).
- Поведение ассистента становится частично детерминированным.
Tool Calling:
- LLM может выбрать не только путь, но и конкретную функцию для вызова, включая аргументы.
- Позволяет связывать модель с внешними API, сервисами и инструментами.
Многошаговый агент:
- Агент может планировать свои действия, выполнять их в цепочке, рефлексировать.
Мультиагентные системы:
- Несколько агентных процессов координируются между собой, совещаются, распределяют задачи.

Ключевой вывод: На каждом этапе модель получает все больше контроля над процессом – от генерации текста к принятию решений, планированию и координации. Это ведет к увеличению автономности и формированию современного понятия агента.

Определение AI-Агента

Оговорка: Индустрия новая, единого четкого определения нет. Разные формулировки существуют даже внутри OpenAI.
Определение OpenAI Agents SDK: "AI-приложение, которое состоит из модели, инструкций, инструментов и среды выполнения (рантайма), который управляет жизненным циклом агента."
Определение Лилиан Венг (OpenAI): "Комбинация LLM, памяти, навыков планирования и использования инструментов."
Рабочее определение в рамках курса (наиболее общее):
- Агент — это рантайм-система, внутри которой есть модель, промты, инструменты, память, механизмы защиты и механизмы планирования.
- Все эти компоненты могут быть опциональными; можно начать с простейшего агента (модель + инструменты).

Компоненты AI-Агента (согласно рабочему определению)

AI-модель (Мозг агента):
- Центральный компонент, сама по себе может только генерировать текст и отвечать на вопросы.
- Требует "обвязки" для полноценной работы.
Промты:
- Системный промпт: Глобальные инструкции, задающие роль, цели, ограничения, стиль агента.
- Сообщение пользователя: Текущая задача, которую должен выполнить ассистент.
- Сообщения ассистента: Предыдущие ответы, результаты вызова инструментов.
Инструменты (Tools):
- Внешние функции и API, позволяющие агенту взаимодействовать с внешней средой (поиск информации, работа с календарем и т.д.).
Память (Memory):
- Краткосрочная: Текущий диалог, промежуточные результаты действий.
- Долгосрочная: Информация между сессиями, знания пользователя, исторические задачи, знания предметной области.
- Контекстная: Информация, необходимая агенту в данный момент, собирается из разных источников.
Guardrails (Механизмы защиты):
- Пронизывают каждый компонент системы.
- Инструменты для защиты от prompt injection и других попыток взлома.
- Делают поведение агента более детерминированным.
Инструменты планирования (Planning):
- Позволяют агенту не просто реагировать на запрос, а строить последовательность действий и исполнять их.
Рантайм:
- Управляет жизненным циклом агента (когда вызвать модель, когда вызвать инструменты и т.д.).

Аналогия LLM с Операционной Системой (Андрей Карпатый)

LLM: Ядро операционной системы.
- Оркестрирует инструменты, память, внешние ресурсы и процессы для решения задачи.
Внешняя база знаний: Аналог диска.
- Модель может извлекать информацию через retrieval или browsing.
Контекстное окно модели: Аналог оперативной памяти.
- Ограниченная рабочая область, где модель "думает".
- Модель постоянно решает, какую информацию туда погрузить, а какую выбросить.
Инструменты и специализированные модели: Аналог приложений.
- LLM вызывает их по необходимости.
Экосистема:
- Закрытые проприетарные модели (Windows, macOS).
- Быстрорастущая open-source экосистема (Linux).

LLM: Мозг Агента

Формальное определение LLM: "Нейросетевая модель, обученная на больших корпусах текстовых данных, которая применяется для предсказания следующего токена в контексте предыдущих."
Физический уровень LLM:
- Файл параметров (веса нейросети): Огромный файл (десятки-сотни гигабайт).
- Код выполнения: Относительно небольшой набор программного кода, описывающий архитектуру сети и принцип инференса.
- Принцип работы: Код применяет математические операции к входным данным и весам для предсказания следующего токена.
- Вывод: Физически LLM — это не интеллект или понимание, а огромная таблица с весами и код для их применения.

Веса Модели и Обучение

Веса модели: Сжатое представление всех обучающих данных.
Количество параметров: Чем больше параметров, тем проще "сжать" данные (вплоть до сохранения представления "как есть"), но тем сложнее инференс (хранение весов, время на вычисления).
Задача при обучении: Подобрать архитектуру, обучающие данные и провести обучение так, чтобы закодировать как можно больше знаний о мире в как можно меньшем количестве параметров.

Next Token Prediction

Next Word Prediction (для простоты): Модель получает "cat sat on a" и предсказывает следующее слово (например, "mat" с 97% вероятности).
Задача обучения: Подобрать веса так, чтобы при взаимодействии с входными токенами на выходе получалось наиболее вероятное следующее слово.

Токенизация

Проблема 1: Посимвольное кодирование:
- Последовательность очень длинная (замедляет обучение и инференс).
- Модель видит только отдельные символы, не улавливает структуру слов, теряет смысл на уровне слов/фраз.
Проблема 2: Пословное кодирование:
- Словари языков огромны (сотни тысяч слов), тяжело хранить с весами.
- Новые/редкие слова требуют новых чисел, которые модель не видела.
- Нет связи между однокоренными словами (например, "reading" и "read").
Решение: Токенизация:
- Токен: "Минимальная единица текста, с которой работает языковая модель."
- Может быть фрагментом слова ("read", "ing") или состоять из двух слов ("New York").
- Преимущества: Уменьшает размер словаря, модель лучше обобщает и находит взаимосвязи.

Служебные/Специальные Токены

Определение: Зарезервированные токены, выполняющие заранее заданные функции, не соответствующие обычному тексту, используются для управления поведением модели.
Примеры:
- Токены окончания генерации (EOS токены): Указывают на завершение предложения/ответа.
- Токены ролей: Обозначают роли пользователя, ассистента, системного промпта. Позволяют модели лучше следовать структуре.
- Управляющие токены/модификаторы промпта: "translate", "summarize", "перепиши в формальном стиле". Помогают модели лучше справляться с частыми задачами.

Next Token Prediction (подробно)

Модель предсказывает следующий токен в контексте всех поданных ей на вход.
Авторегрессионная модель: Выход модели с одного этапа является входом для следующего, позволяя завершать генерацию до EOS токена.
Контекстное окно: "Длина, исчисляемая в токенах, того, что модель может в моменте учитывать."
- При достижении лимита старые данные отбрасываются или суммаризируются.

Процесс Генерации Токена

Токенизация: Входной текст преобразуется в токены.
Вычисление представления последовательности: Модель вычисляет представление, содержащее информацию о значении и позиции каждого токена.
Выдача оценок (логитов): Модель выдает логиты, отражающие вероятность каждого токена из словаря быть следующим.
Параметр температуры:
- Низкая температура: Распределение вероятностей более острое, модель чаще выбирает наиболее вероятные токены. Текст более предсказуемый и строгий.
- Высокая температура: Сглаживает распределение, увеличивает шансы выбора менее вероятных токенов. Текст более разнообразный, но менее предсказуемый.
Стратегии выбора следующего токена:
- Максимальная оценка: Выбор токена с максимальным логитом.
- Top-k-sampling: Выбор случайного токена из $k$ наиболее вероятных.
- Beam-search: Рассматривает несколько возможных вариантов продолжения, оценивает вероятность целой последовательности токенов.

Этапы Обучения LLM

Претрейнинг (Pre-training):
- Загрузка больших массивов данных о мире.
- Модель учится предсказывать следующий токен.
Файнтюнинг (Fine-tuning):
- Адаптация готовой LLM к специфическим задачам компании или предметной области.
- Модель учится на примерах "запрос-ответ".
Обучение с подкреплением (Reinforcement Learning):
- Обучение модели на фидбэке от людей или от другой языковой модели (reward model).
- Позволяет модели лучше соответствовать человеческим предпочтениям и формулировкам ответов.

Ключевые Выводы о LLM

Работа с токенами:
- Модели работают только с последовательностями токенов, предсказывая наиболее вероятные. Не "понимают" слова или смысл напрямую.
- Практическое значение:
  - Биллинг и контекстное окно: Длина контекстного окна и стоимость использования измеряются в токенах, а не символах/словах.
  - Структура промпта: Важно соблюдать правильную структуру промпта и передавать контекст так, как модель его ожидала в обучении (например, использование специальных токенов для ролей).
Специфика обучения и галлюцинации:
- Модели обучаются на больших объемах данных, предсказывают следующий токен.
- Галлюцинации: "Уверенная генерация правдоподобной, но неверной или вымышленной информации."
  - Возникают из-за стохастической природы моделей; они не проверяют факты, а предсказывают вероятные последовательности токенов.
- Важный принцип: "Автоматизировать все, что автоматизируется, и иизировать только то, что не автоматизируется."
  - Избегать использования LLM для простых алгоритмических задач, которые можно решить кодом (например, условные операторы).

Сильные Стороны LLM

Задачи с высокой статистической структурой:
- Перефразирование, резюмирование, генерация связного текста или кода.
- Это задачи на предсказание вероятных последовательностей слов, на которых модели обучались.
Обработка и генерация стандартных структур:
- Рассуждения (например, Chain of Thoughts).
- Вызовы инструментов (Tool Calling).
- Обработка стандартных файлов и таблиц (например, JSON).

Слабые Стороны LLM (без дополнительных инструментов)

Точные алгоритмические символьные задачи:
- Подсчет букв/цифр (например, "сколько букв 'А' в слове 'банана'").
- Точная арифметика.
- Модели не "считают", а предсказывают токены.
Актуальные знания:
- Не могут ответить на вопросы о недавних событиях, если их обучение было давно и нет доступа к актуальным данным.
Долгосрочное планирование и память:
- Трудно планировать длинные последовательности действий (30+ шагов) без сохранения состояния и многократного обдумывания.
Цитаты:
- Плохо справляются с точным цитированием без прямого доступа к тексту.

Практика: Использование LLM

Способы инференса LLM:
1. Локальный инференс:
  - Скачивание модели с открытыми весами и инференс на своем ноутбуке (CPU или GPU).
  - Плюсы: Полная приватность данных, полный контроль.
  - Минусы: Дорого по железу, техподдержка.
2. Через внешние API:
  - Доступ к большим моделям, размещенным на вычислительных кластерах.
  - Плюсы: Доступ к мощным моделям без необходимости хостинга.
  - Минусы: Оплата за каждый токен (отправленный и полученный), потеря приватности данных.
Демонстрация важности специальных токенов и формата промпта:
- При передаче "plain prompt" (без явного выделения ролей) модель может "галлюцинировать" продолжение диалога, зацикливаться.
- При передаче промпта в ожидаемом моделью формате (например, messages с явно выделенными ролями system, user, assistant) модель отвечает корректно.
Демонстрация галлюцинаций:
- Модель может уверенно "придумать" несуществующий метод в SDK и написать для него код.
- Борьба с галлюцинациями: В промпте можно явно попросить модель не отвечать, если она не уверена ("Если ты не знаешь, просто скажи, что не надо мне об этом спрашивать, ничего не придумывай").
Демонстрация сильных сторон:
- Суммаризация и перефразирование текста.
- Генерация структурированных данных (например, JSON).
Демонстрация слабых сторон:
- Подсчет символов в строке.
- Точная арифметика.
- Актуальные знания (цена биткоина без доступа к интернету).
- Точное цитирование (без прямого доступа к тексту).

Создание Простейшего Агента

TauBench:
- Назначение: Бенчмарк для оценки AI-агентов, позволяющий масштабируемо оценивать их производительность в агентских сценариях.
- Принцип оценки: Конкретные сценарии описывают действия пользователя, ожидаемое поведение агента, необходимые инструменты и ответы.
- Tau2Bench: Обновление, позволяющее эмулировать не только поведение агента, но и пользователя, для общения между ними.
Задача для агента: Агент бронирования (airline-агент).
- Имеет политику (системный промпт), описывающую его роль, цели, работу с бронированиями, изменениями, отменами, необходимость подтверждений.
- Примеры заданий: отменить бронирование, узнать ограничения по багажу.
Разработка агента с использованием LangChain и LangGraph:
- LangChain: Фреймворк для разработки агентов, инкапсулирует обертки над промптами, цепочками исполнения, инструментами, агентами, памятью.
- LangGraph: Расширение LangChain, позволяющее реализовывать агентов, состояние которых постепенно изменяется, проходя через узлы графа.
  - Преимущество: Упрощает разработку продакшеновых агентов, предоставляя абстрактные объекты и ожидаемые изменения состояния.
Компоненты LangGraph:
- Состояние (State): Определяет, что будет храниться и передаваться между вершинами графа (например, сообщения пользователя и ассистента).
- Узлы (Nodes): Функции, которые получают текущее состояние, выполняют операции и возвращают измененное состояние.
  - Пример: LLM-узел, который берет сообщение пользователя, обращается к LLM и дописывает ответ в состояние.
- Граф: Определяется вершинами (функциями) и ребрами (транзакциями), передающими состояние.
Простейший агент (только LLM):
- Системный промпт: "Ты ассистент, не галлюцинируй, ничего лишнего не дергай, можешь просто отвечать на мои вопросы." (сокращенный, так как нет инструментов/памяти).
- Структура графа: Старт -> LLM-нода -> Конец.
- Результаты:
  - Справляется: Вопросы о политике бронирования (где нужны подтверждения), объяснение ограничений по багажу.
  - Не справляется: Отмена конкретной резервации (нет доступа к базе данных), расчет компенсации (нет доступа к информации о бронировании).
Дальнейшее развитие: В последующих уроках к LLM-ке будут добавляться инструменты, память, guardrails для решения этих ограничений.

Generated by AI-powered TranscribeLecture.com • 4/6/2026

Источник

Интенсив по AI-агентам: Введение и Основы LLM

#AIАгенты #LLM #МашинноеОбучение #РазработкаАгентов #Яндекс

Обзор Интенсива

Цель интенсива: Научить не только прототипировать личного ассистента, но и доводить его до продакшена и масштабировать.
Длительность: 5 дней, завершается контрольным заданием.
Команда спикеров: Руководители и инженеры из Яндекс.Лавки, Алисы, умных устройств, поискового портала и Клауда.
Эволюция индустрии: От простого промптинга LLM до многоагентских систем.

Структура Интенсива по Дням

День 1 (Сегодня):
- Зачем нужны агенты и из каких частей они состоят.
- Погружение в "мозг агента" – LLM.
- Что такое инструменты и MCP (будет в следующем занятии).
День 2:
- Два ключевых слоя: память и guardrails (инструменты для безопасности и предсказуемости агента).
День 3:
- Сборка общего пайплайна из разобранных кусочков.
- Агентский workflow.
- Взаимодействие агентов в мультиагентной системе.
- Мультимодальные системы.
День 4:
- Оценка (эвал) агентов: как понять, что стало лучше, как агент работает, как предотвратить сбои в продакшене из-за данных.
День 5:
- Сборка всего изученного.
- Прототипирование ассистентов и доведение до продакшена.
- Особенности агентов в продакшене: observability, мониторинг качества, масштабирование.

Роль Зайцевой Алены в Яндекс.Лавке

Руководитель службы AI.
Ответственность 1: AI в клиентском продукте (например, ассистент Лавка AI, генеративный контент в карточках товара).
Ответственность 2: AI для оптимизации команд и бизнес-процессов (внутренние агенты для автоматизации рутины, ускорение прототипирования, разработки, тестирования и внедрения проектов).
Ответственность 3: Инфраструктура для разработки всех AI-агентов.

Применение AI-Агентов

Персональные ассистенты и инструменты для работы со знаниями:
- Поиск информации.
- Автоматизация задач.
- Поддержка принятия сложных решений.
Агенты-исполнители:
- Выполнение действий в браузерах (заполнение форм, цепочки действий в интерфейсах).
- Инструменты для написания кода (разработка приложений).
Бизнес-процессы:
- Поддержка клиентов.
- Автоматизация операционных задач.
- Пример: McKinsey рассматривает 25 тысяч AI-ассистентов как полноценных сотрудников.
Интерактивные среды:
- NPC-персонажи в видеоиграх, подстраивающиеся под поведение игрока в реальном времени.

Эволюция Взаимодействия Человека и LLM

Простой промптинг:
- Модель получает текст и выдает ответ.
- Выход модели не влияет на дальнейший ход исполнения программы.
Роутинг:
- LLM участвует в принятии решений (например, выбор одной из заранее заданных ветвей исполнения).
- Поведение ассистента становится частично детерминированным.
Tool Calling:
- LLM может выбрать не только путь, но и конкретную функцию для вызова, включая аргументы.
- Позволяет связывать модель с внешними API, сервисами и инструментами.
Многошаговый агент:
- Агент может планировать свои действия, выполнять их в цепочке, рефлексировать.
Мультиагентные системы:
- Несколько агентных процессов координируются между собой, совещаются, распределяют задачи.

Ключевой вывод: На каждом этапе модель получает все больше контроля над процессом – от генерации текста к принятию решений, планированию и координации. Это ведет к увеличению автономности и формированию современного понятия агента.

Определение AI-Агента

Оговорка: Индустрия новая, единого четкого определения нет. Разные формулировки существуют даже внутри OpenAI.
Определение OpenAI Agents SDK: "AI-приложение, которое состоит из модели, инструкций, инструментов и среды выполнения (рантайма), который управляет жизненным циклом агента."
Определение Лилиан Венг (OpenAI): "Комбинация LLM, памяти, навыков планирования и использования инструментов."
Рабочее определение в рамках курса (наиболее общее):
- Агент — это рантайм-система, внутри которой есть модель, промты, инструменты, память, механизмы защиты и механизмы планирования.
- Все эти компоненты могут быть опциональными; можно начать с простейшего агента (модель + инструменты).

Компоненты AI-Агента (согласно рабочему определению)

AI-модель (Мозг агента):
- Центральный компонент, сама по себе может только генерировать текст и отвечать на вопросы.
- Требует "обвязки" для полноценной работы.
Промты:
- Системный промпт: Глобальные инструкции, задающие роль, цели, ограничения, стиль агента.
- Сообщение пользователя: Текущая задача, которую должен выполнить ассистент.
- Сообщения ассистента: Предыдущие ответы, результаты вызова инструментов.
Инструменты (Tools):
- Внешние функции и API, позволяющие агенту взаимодействовать с внешней средой (поиск информации, работа с календарем и т.д.).
Память (Memory):
- Краткосрочная: Текущий диалог, промежуточные результаты действий.
- Долгосрочная: Информация между сессиями, знания пользователя, исторические задачи, знания предметной области.
- Контекстная: Информация, необходимая агенту в данный момент, собирается из разных источников.
Guardrails (Механизмы защиты):
- Пронизывают каждый компонент системы.
- Инструменты для защиты от prompt injection и других попыток взлома.
- Делают поведение агента более детерминированным.
Инструменты планирования (Planning):
- Позволяют агенту не просто реагировать на запрос, а строить последовательность действий и исполнять их.
Рантайм:
- Управляет жизненным циклом агента (когда вызвать модель, когда вызвать инструменты и т.д.).

Аналогия LLM с Операционной Системой (Андрей Карпатый)

LLM: Ядро операционной системы.
- Оркестрирует инструменты, память, внешние ресурсы и процессы для решения задачи.
Внешняя база знаний: Аналог диска.
- Модель может извлекать информацию через retrieval или browsing.
Контекстное окно модели: Аналог оперативной памяти.
- Ограниченная рабочая область, где модель "думает".
- Модель постоянно решает, какую информацию туда погрузить, а какую выбросить.
Инструменты и специализированные модели: Аналог приложений.
- LLM вызывает их по необходимости.
Экосистема:
- Закрытые проприетарные модели (Windows, macOS).
- Быстрорастущая open-source экосистема (Linux).

LLM: Мозг Агента

Формальное определение LLM: "Нейросетевая модель, обученная на больших корпусах текстовых данных, которая применяется для предсказания следующего токена в контексте предыдущих."
Физический уровень LLM:
- Файл параметров (веса нейросети): Огромный файл (десятки-сотни гигабайт).
- Код выполнения: Относительно небольшой набор программного кода, описывающий архитектуру сети и принцип инференса.
- Принцип работы: Код применяет математические операции к входным данным и весам для предсказания следующего токена.
- Вывод: Физически LLM — это не интеллект или понимание, а огромная таблица с весами и код для их применения.

Веса Модели и Обучение

Веса модели: Сжатое представление всех обучающих данных.
Количество параметров: Чем больше параметров, тем проще "сжать" данные (вплоть до сохранения представления "как есть"), но тем сложнее инференс (хранение весов, время на вычисления).
Задача при обучении: Подобрать архитектуру, обучающие данные и провести обучение так, чтобы закодировать как можно больше знаний о мире в как можно меньшем количестве параметров.

Next Token Prediction

Next Word Prediction (для простоты): Модель получает "cat sat on a" и предсказывает следующее слово (например, "mat" с 97% вероятности).
Задача обучения: Подобрать веса так, чтобы при взаимодействии с входными токенами на выходе получалось наиболее вероятное следующее слово.

Токенизация

Проблема 1: Посимвольное кодирование:
- Последовательность очень длинная (замедляет обучение и инференс).
- Модель видит только отдельные символы, не улавливает структуру слов, теряет смысл на уровне слов/фраз.
Проблема 2: Пословное кодирование:
- Словари языков огромны (сотни тысяч слов), тяжело хранить с весами.
- Новые/редкие слова требуют новых чисел, которые модель не видела.
- Нет связи между однокоренными словами (например, "reading" и "read").
Решение: Токенизация:
- Токен: "Минимальная единица текста, с которой работает языковая модель."
- Может быть фрагментом слова ("read", "ing") или состоять из двух слов ("New York").
- Преимущества: Уменьшает размер словаря, модель лучше обобщает и находит взаимосвязи.

Служебные/Специальные Токены

Определение: Зарезервированные токены, выполняющие заранее заданные функции, не соответствующие обычному тексту, используются для управления поведением модели.
Примеры:
- Токены окончания генерации (EOS токены): Указывают на завершение предложения/ответа.
- Токены ролей: Обозначают роли пользователя, ассистента, системного промпта. Позволяют модели лучше следовать структуре.
- Управляющие токены/модификаторы промпта: "translate", "summarize", "перепиши в формальном стиле". Помогают модели лучше справляться с частыми задачами.

Next Token Prediction (подробно)

Модель предсказывает следующий токен в контексте всех поданных ей на вход.
Авторегрессионная модель: Выход модели с одного этапа является входом для следующего, позволяя завершать генерацию до EOS токена.
Контекстное окно: "Длина, исчисляемая в токенах, того, что модель может в моменте учитывать."
- При достижении лимита старые данные отбрасываются или суммаризируются.

Процесс Генерации Токена

Токенизация: Входной текст преобразуется в токены.
Вычисление представления последовательности: Модель вычисляет представление, содержащее информацию о значении и позиции каждого токена.
Выдача оценок (логитов): Модель выдает логиты, отражающие вероятность каждого токена из словаря быть следующим.
Параметр температуры:
- Низкая температура: Распределение вероятностей более острое, модель чаще выбирает наиболее вероятные токены. Текст более предсказуемый и строгий.
- Высокая температура: Сглаживает распределение, увеличивает шансы выбора менее вероятных токенов. Текст более разнообразный, но менее предсказуемый.
Стратегии выбора следующего токена:
- Максимальная оценка: Выбор токена с максимальным логитом.
- Top-k-sampling: Выбор случайного токена из $k$ наиболее вероятных.
- Beam-search: Рассматривает несколько возможных вариантов продолжения, оценивает вероятность целой последовательности токенов.

Этапы Обучения LLM

Претрейнинг (Pre-training):
- Загрузка больших массивов данных о мире.
- Модель учится предсказывать следующий токен.
Файнтюнинг (Fine-tuning):
- Адаптация готовой LLM к специфическим задачам компании или предметной области.
- Модель учится на примерах "запрос-ответ".
Обучение с подкреплением (Reinforcement Learning):
- Обучение модели на фидбэке от людей или от другой языковой модели (reward model).
- Позволяет модели лучше соответствовать человеческим предпочтениям и формулировкам ответов.

Ключевые Выводы о LLM

Работа с токенами:
- Модели работают только с последовательностями токенов, предсказывая наиболее вероятные. Не "понимают" слова или смысл напрямую.
- Практическое значение:
  - Биллинг и контекстное окно: Длина контекстного окна и стоимость использования измеряются в токенах, а не символах/словах.
  - Структура промпта: Важно соблюдать правильную структуру промпта и передавать контекст так, как модель его ожидала в обучении (например, использование специальных токенов для ролей).
Специфика обучения и галлюцинации:
- Модели обучаются на больших объемах данных, предсказывают следующий токен.
- Галлюцинации: "Уверенная генерация правдоподобной, но неверной или вымышленной информации."
  - Возникают из-за стохастической природы моделей; они не проверяют факты, а предсказывают вероятные последовательности токенов.
- Важный принцип: "Автоматизировать все, что автоматизируется, и иизировать только то, что не автоматизируется."
  - Избегать использования LLM для простых алгоритмических задач, которые можно решить кодом (например, условные операторы).

Сильные Стороны LLM

Задачи с высокой статистической структурой:
- Перефразирование, резюмирование, генерация связного текста или кода.
- Это задачи на предсказание вероятных последовательностей слов, на которых модели обучались.
Обработка и генерация стандартных структур:
- Рассуждения (например, Chain of Thoughts).
- Вызовы инструментов (Tool Calling).
- Обработка стандартных файлов и таблиц (например, JSON).

Слабые Стороны LLM (без дополнительных инструментов)

Точные алгоритмические символьные задачи:
- Подсчет букв/цифр (например, "сколько букв 'А' в слове 'банана'").
- Точная арифметика.
- Модели не "считают", а предсказывают токены.
Актуальные знания:
- Не могут ответить на вопросы о недавних событиях, если их обучение было давно и нет доступа к актуальным данным.
Долгосрочное планирование и память:
- Трудно планировать длинные последовательности действий (30+ шагов) без сохранения состояния и многократного обдумывания.
Цитаты:
- Плохо справляются с точным цитированием без прямого доступа к тексту.

Практика: Использование LLM

Способы инференса LLM:
1. Локальный инференс:
  - Скачивание модели с открытыми весами и инференс на своем ноутбуке (CPU или GPU).
  - Плюсы: Полная приватность данных, полный контроль.
  - Минусы: Дорого по железу, техподдержка.
2. Через внешние API:
  - Доступ к большим моделям, размещенным на вычислительных кластерах.
  - Плюсы: Доступ к мощным моделям без необходимости хостинга.
  - Минусы: Оплата за каждый токен (отправленный и полученный), потеря приватности данных.
Демонстрация важности специальных токенов и формата промпта:
- При передаче "plain prompt" (без явного выделения ролей) модель может "галлюцинировать" продолжение диалога, зацикливаться.
- При передаче промпта в ожидаемом моделью формате (например, messages с явно выделенными ролями system, user, assistant) модель отвечает корректно.
Демонстрация галлюцинаций:
- Модель может уверенно "придумать" несуществующий метод в SDK и написать для него код.
- Борьба с галлюцинациями: В промпте можно явно попросить модель не отвечать, если она не уверена ("Если ты не знаешь, просто скажи, что не надо мне об этом спрашивать, ничего не придумывай").
Демонстрация сильных сторон:
- Суммаризация и перефразирование текста.
- Генерация структурированных данных (например, JSON).
Демонстрация слабых сторон:
- Подсчет символов в строке.
- Точная арифметика.
- Актуальные знания (цена биткоина без доступа к интернету).
- Точное цитирование (без прямого доступа к тексту).

Создание Простейшего Агента

TauBench:
- Назначение: Бенчмарк для оценки AI-агентов, позволяющий масштабируемо оценивать их производительность в агентских сценариях.
- Принцип оценки: Конкретные сценарии описывают действия пользователя, ожидаемое поведение агента, необходимые инструменты и ответы.
- Tau2Bench: Обновление, позволяющее эмулировать не только поведение агента, но и пользователя, для общения между ними.
Задача для агента: Агент бронирования (airline-агент).
- Имеет политику (системный промпт), описывающую его роль, цели, работу с бронированиями, изменениями, отменами, необходимость подтверждений.
- Примеры заданий: отменить бронирование, узнать ограничения по багажу.
Разработка агента с использованием LangChain и LangGraph:
- LangChain: Фреймворк для разработки агентов, инкапсулирует обертки над промптами, цепочками исполнения, инструментами, агентами, памятью.
- LangGraph: Расширение LangChain, позволяющее реализовывать агентов, состояние которых постепенно изменяется, проходя через узлы графа.
  - Преимущество: Упрощает разработку продакшеновых агентов, предоставляя абстрактные объекты и ожидаемые изменения состояния.
Компоненты LangGraph:
- Состояние (State): Определяет, что будет храниться и передаваться между вершинами графа (например, сообщения пользователя и ассистента).
- Узлы (Nodes): Функции, которые получают текущее состояние, выполняют операции и возвращают измененное состояние.
  - Пример: LLM-узел, который берет сообщение пользователя, обращается к LLM и дописывает ответ в состояние.
- Граф: Определяется вершинами (функциями) и ребрами (транзакциями), передающими состояние.
Простейший агент (только LLM):
- Системный промпт: "Ты ассистент, не галлюцинируй, ничего лишнего не дергай, можешь просто отвечать на мои вопросы." (сокращенный, так как нет инструментов/памяти).
- Структура графа: Старт -> LLM-нода -> Конец.
- Результаты:
  - Справляется: Вопросы о политике бронирования (где нужны подтверждения), объяснение ограничений по багажу.
  - Не справляется: Отмена конкретной резервации (нет доступа к базе данных), расчет компенсации (нет доступа к информации о бронировании).
Дальнейшее развитие: В последующих уроках к LLM-ке будут добавляться инструменты, память, guardrails для решения этих ограничений.

Generated by AI-powered TranscribeLecture.com • 4/6/2026

Делитесь своими знаниями!

Transcribe Lecture;TL;

Agents Week 2026 | Лекция 1.1 Intro to AI Agents LLM

Интенсив по AI-агентам: Введение и Основы LLM

Обзор Интенсива

Структура Интенсива по Дням

Роль Зайцевой Алены в Яндекс.Лавке

Применение AI-Агентов

Эволюция Взаимодействия Человека и LLM

Определение AI-Агента

Компоненты AI-Агента (согласно рабочему определению)

Аналогия LLM с Операционной Системой (Андрей Карпатый)

LLM: Мозг Агента

Веса Модели и Обучение

Next Token Prediction

Токенизация

Служебные/Специальные Токены

Next Token Prediction (подробно)

Процесс Генерации Токена

Этапы Обучения LLM

Ключевые Выводы о LLM

Сильные Стороны LLM

Слабые Стороны LLM (без дополнительных инструментов)

Практика: Использование LLM

Создание Простейшего Агента

Интенсив по AI-агентам: Введение и Основы LLM

Обзор Интенсива

Структура Интенсива по Дням

Роль Зайцевой Алены в Яндекс.Лавке

Применение AI-Агентов

Эволюция Взаимодействия Человека и LLM

Определение AI-Агента

Компоненты AI-Агента (согласно рабочему определению)

Аналогия LLM с Операционной Системой (Андрей Карпатый)

LLM: Мозг Агента

Веса Модели и Обучение

Next Token Prediction

Токенизация

Служебные/Специальные Токены

Next Token Prediction (подробно)

Процесс Генерации Токена

Этапы Обучения LLM

Ключевые Выводы о LLM

Сильные Стороны LLM

Слабые Стороны LLM (без дополнительных инструментов)

Практика: Использование LLM

Создание Простейшего Агента