TL;

Назад в Базу
Computer ScienceВидео YouTubeaiагентыllmмашинноеобучение

Agents Week 2026 | Лекция 1.1 Intro to AI Agents LLM

Agents Week 2026, Школа анализа данных, Яндекс
Алёна Зайцева
ШАД
Опубликовано 6 апр. 2026 г.

Автор публикации

Timurez

Источник

Интенсив по AI-агентам: Введение и Основы LLM

#AIАгенты #LLM #МашинноеОбучение #РазработкаАгентов #Яндекс

Обзор Интенсива

  • Цель интенсива: Научить не только прототипировать личного ассистента, но и доводить его до продакшена и масштабировать.
  • Длительность: 5 дней, завершается контрольным заданием.
  • Команда спикеров: Руководители и инженеры из Яндекс.Лавки, Алисы, умных устройств, поискового портала и Клауда.
  • Эволюция индустрии: От простого промптинга LLM до многоагентских систем.

Структура Интенсива по Дням

  • День 1 (Сегодня):
    • Зачем нужны агенты и из каких частей они состоят.
    • Погружение в "мозг агента" – LLM.
    • Что такое инструменты и MCP (будет в следующем занятии).
  • День 2:
    • Два ключевых слоя: память и guardrails (инструменты для безопасности и предсказуемости агента).
  • День 3:
    • Сборка общего пайплайна из разобранных кусочков.
    • Агентский workflow.
    • Взаимодействие агентов в мультиагентной системе.
    • Мультимодальные системы.
  • День 4:
    • Оценка (эвал) агентов: как понять, что стало лучше, как агент работает, как предотвратить сбои в продакшене из-за данных.
  • День 5:
    • Сборка всего изученного.
    • Прототипирование ассистентов и доведение до продакшена.
    • Особенности агентов в продакшене: observability, мониторинг качества, масштабирование.

Роль Зайцевой Алены в Яндекс.Лавке

  • Руководитель службы AI.
  • Ответственность 1: AI в клиентском продукте (например, ассистент Лавка AI, генеративный контент в карточках товара).
  • Ответственность 2: AI для оптимизации команд и бизнес-процессов (внутренние агенты для автоматизации рутины, ускорение прототипирования, разработки, тестирования и внедрения проектов).
  • Ответственность 3: Инфраструктура для разработки всех AI-агентов.

Применение AI-Агентов

  • Персональные ассистенты и инструменты для работы со знаниями:
    • Поиск информации.
    • Автоматизация задач.
    • Поддержка принятия сложных решений.
  • Агенты-исполнители:
    • Выполнение действий в браузерах (заполнение форм, цепочки действий в интерфейсах).
    • Инструменты для написания кода (разработка приложений).
  • Бизнес-процессы:
    • Поддержка клиентов.
    • Автоматизация операционных задач.
    • Пример: McKinsey рассматривает 25 тысяч AI-ассистентов как полноценных сотрудников.
  • Интерактивные среды:
    • NPC-персонажи в видеоиграх, подстраивающиеся под поведение игрока в реальном времени.

Эволюция Взаимодействия Человека и LLM

  1. Простой промптинг:
    • Модель получает текст и выдает ответ.
    • Выход модели не влияет на дальнейший ход исполнения программы.
  2. Роутинг:
    • LLM участвует в принятии решений (например, выбор одной из заранее заданных ветвей исполнения).
    • Поведение ассистента становится частично детерминированным.
  3. Tool Calling:
    • LLM может выбрать не только путь, но и конкретную функцию для вызова, включая аргументы.
    • Позволяет связывать модель с внешними API, сервисами и инструментами.
  4. Многошаговый агент:
    • Агент может планировать свои действия, выполнять их в цепочке, рефлексировать.
  5. Мультиагентные системы:
    • Несколько агентных процессов координируются между собой, совещаются, распределяют задачи.
  • Ключевой вывод: На каждом этапе модель получает все больше контроля над процессом – от генерации текста к принятию решений, планированию и координации. Это ведет к увеличению автономности и формированию современного понятия агента.

Определение AI-Агента

  • Оговорка: Индустрия новая, единого четкого определения нет. Разные формулировки существуют даже внутри OpenAI.
  • Определение OpenAI Agents SDK: "AI-приложение, которое состоит из модели, инструкций, инструментов и среды выполнения (рантайма), который управляет жизненным циклом агента."
  • Определение Лилиан Венг (OpenAI): "Комбинация LLM, памяти, навыков планирования и использования инструментов."
  • Рабочее определение в рамках курса (наиболее общее):
    • Агент — это рантайм-система, внутри которой есть модель, промты, инструменты, память, механизмы защиты и механизмы планирования.
    • Все эти компоненты могут быть опциональными; можно начать с простейшего агента (модель + инструменты).

Компоненты AI-Агента (согласно рабочему определению)

  • AI-модель (Мозг агента):
    • Центральный компонент, сама по себе может только генерировать текст и отвечать на вопросы.
    • Требует "обвязки" для полноценной работы.
  • Промты:
    • Системный промпт: Глобальные инструкции, задающие роль, цели, ограничения, стиль агента.
    • Сообщение пользователя: Текущая задача, которую должен выполнить ассистент.
    • Сообщения ассистента: Предыдущие ответы, результаты вызова инструментов.
  • Инструменты (Tools):
    • Внешние функции и API, позволяющие агенту взаимодействовать с внешней средой (поиск информации, работа с календарем и т.д.).
  • Память (Memory):
    • Краткосрочная: Текущий диалог, промежуточные результаты действий.
    • Долгосрочная: Информация между сессиями, знания пользователя, исторические задачи, знания предметной области.
    • Контекстная: Информация, необходимая агенту в данный момент, собирается из разных источников.
  • Guardrails (Механизмы защиты):
    • Пронизывают каждый компонент системы.
    • Инструменты для защиты от prompt injection и других попыток взлома.
    • Делают поведение агента более детерминированным.
  • Инструменты планирования (Planning):
    • Позволяют агенту не просто реагировать на запрос, а строить последовательность действий и исполнять их.
  • Рантайм:
    • Управляет жизненным циклом агента (когда вызвать модель, когда вызвать инструменты и т.д.).

Аналогия LLM с Операционной Системой (Андрей Карпатый)

  • LLM: Ядро операционной системы.
    • Оркестрирует инструменты, память, внешние ресурсы и процессы для решения задачи.
  • Внешняя база знаний: Аналог диска.
    • Модель может извлекать информацию через retrieval или browsing.
  • Контекстное окно модели: Аналог оперативной памяти.
    • Ограниченная рабочая область, где модель "думает".
    • Модель постоянно решает, какую информацию туда погрузить, а какую выбросить.
  • Инструменты и специализированные модели: Аналог приложений.
    • LLM вызывает их по необходимости.
  • Экосистема:
    • Закрытые проприетарные модели (Windows, macOS).
    • Быстрорастущая open-source экосистема (Linux).

LLM: Мозг Агента

  • Формальное определение LLM: "Нейросетевая модель, обученная на больших корпусах текстовых данных, которая применяется для предсказания следующего токена в контексте предыдущих."
  • Физический уровень LLM:
    • Файл параметров (веса нейросети): Огромный файл (десятки-сотни гигабайт).
    • Код выполнения: Относительно небольшой набор программного кода, описывающий архитектуру сети и принцип инференса.
    • Принцип работы: Код применяет математические операции к входным данным и весам для предсказания следующего токена.
    • Вывод: Физически LLM — это не интеллект или понимание, а огромная таблица с весами и код для их применения.

Веса Модели и Обучение

  • Веса модели: Сжатое представление всех обучающих данных.
  • Количество параметров: Чем больше параметров, тем проще "сжать" данные (вплоть до сохранения представления "как есть"), но тем сложнее инференс (хранение весов, время на вычисления).
  • Задача при обучении: Подобрать архитектуру, обучающие данные и провести обучение так, чтобы закодировать как можно больше знаний о мире в как можно меньшем количестве параметров.

Next Token Prediction

  • Next Word Prediction (для простоты): Модель получает "cat sat on a" и предсказывает следующее слово (например, "mat" с 97% вероятности).
  • Задача обучения: Подобрать веса так, чтобы при взаимодействии с входными токенами на выходе получалось наиболее вероятное следующее слово.

Токенизация

  • Проблема 1: Посимвольное кодирование:
    • Последовательность очень длинная (замедляет обучение и инференс).
    • Модель видит только отдельные символы, не улавливает структуру слов, теряет смысл на уровне слов/фраз.
  • Проблема 2: Пословное кодирование:
    • Словари языков огромны (сотни тысяч слов), тяжело хранить с весами.
    • Новые/редкие слова требуют новых чисел, которые модель не видела.
    • Нет связи между однокоренными словами (например, "reading" и "read").
  • Решение: Токенизация:
    • Токен: "Минимальная единица текста, с которой работает языковая модель."
    • Может быть фрагментом слова ("read", "ing") или состоять из двух слов ("New York").
    • Преимущества: Уменьшает размер словаря, модель лучше обобщает и находит взаимосвязи.

Служебные/Специальные Токены

  • Определение: Зарезервированные токены, выполняющие заранее заданные функции, не соответствующие обычному тексту, используются для управления поведением модели.
  • Примеры:
    • Токены окончания генерации (EOS токены): Указывают на завершение предложения/ответа.
    • Токены ролей: Обозначают роли пользователя, ассистента, системного промпта. Позволяют модели лучше следовать структуре.
    • Управляющие токены/модификаторы промпта: "translate", "summarize", "перепиши в формальном стиле". Помогают модели лучше справляться с частыми задачами.

Next Token Prediction (подробно)

  • Модель предсказывает следующий токен в контексте всех поданных ей на вход.
  • Авторегрессионная модель: Выход модели с одного этапа является входом для следующего, позволяя завершать генерацию до EOS токена.
  • Контекстное окно: "Длина, исчисляемая в токенах, того, что модель может в моменте учитывать."
    • При достижении лимита старые данные отбрасываются или суммаризируются.

Процесс Генерации Токена

  1. Токенизация: Входной текст преобразуется в токены.
  2. Вычисление представления последовательности: Модель вычисляет представление, содержащее информацию о значении и позиции каждого токена.
  3. Выдача оценок (логитов): Модель выдает логиты, отражающие вероятность каждого токена из словаря быть следующим.
  4. Параметр температуры:
    • Низкая температура: Распределение вероятностей более острое, модель чаще выбирает наиболее вероятные токены. Текст более предсказуемый и строгий.
    • Высокая температура: Сглаживает распределение, увеличивает шансы выбора менее вероятных токенов. Текст более разнообразный, но менее предсказуемый.
  5. Стратегии выбора следующего токена:
    • Максимальная оценка: Выбор токена с максимальным логитом.
    • Top-k-sampling: Выбор случайного токена из kk наиболее вероятных.
    • Beam-search: Рассматривает несколько возможных вариантов продолжения, оценивает вероятность целой последовательности токенов.

Этапы Обучения LLM

  1. Претрейнинг (Pre-training):
    • Загрузка больших массивов данных о мире.
    • Модель учится предсказывать следующий токен.
  2. Файнтюнинг (Fine-tuning):
    • Адаптация готовой LLM к специфическим задачам компании или предметной области.
    • Модель учится на примерах "запрос-ответ".
  3. Обучение с подкреплением (Reinforcement Learning):
    • Обучение модели на фидбэке от людей или от другой языковой модели (reward model).
    • Позволяет модели лучше соответствовать человеческим предпочтениям и формулировкам ответов.

Ключевые Выводы о LLM

  1. Работа с токенами:
    • Модели работают только с последовательностями токенов, предсказывая наиболее вероятные. Не "понимают" слова или смысл напрямую.
    • Практическое значение:
      • Биллинг и контекстное окно: Длина контекстного окна и стоимость использования измеряются в токенах, а не символах/словах.
      • Структура промпта: Важно соблюдать правильную структуру промпта и передавать контекст так, как модель его ожидала в обучении (например, использование специальных токенов для ролей).
  2. Специфика обучения и галлюцинации:
    • Модели обучаются на больших объемах данных, предсказывают следующий токен.
    • Галлюцинации: "Уверенная генерация правдоподобной, но неверной или вымышленной информации."
      • Возникают из-за стохастической природы моделей; они не проверяют факты, а предсказывают вероятные последовательности токенов.
    • Важный принцип: "Автоматизировать все, что автоматизируется, и иизировать только то, что не автоматизируется."
      • Избегать использования LLM для простых алгоритмических задач, которые можно решить кодом (например, условные операторы).

Сильные Стороны LLM

  • Задачи с высокой статистической структурой:
    • Перефразирование, резюмирование, генерация связного текста или кода.
    • Это задачи на предсказание вероятных последовательностей слов, на которых модели обучались.
  • Обработка и генерация стандартных структур:
    • Рассуждения (например, Chain of Thoughts).
    • Вызовы инструментов (Tool Calling).
    • Обработка стандартных файлов и таблиц (например, JSON).

Слабые Стороны LLM (без дополнительных инструментов)

  • Точные алгоритмические символьные задачи:
    • Подсчет букв/цифр (например, "сколько букв 'А' в слове 'банана'").
    • Точная арифметика.
    • Модели не "считают", а предсказывают токены.
  • Актуальные знания:
    • Не могут ответить на вопросы о недавних событиях, если их обучение было давно и нет доступа к актуальным данным.
  • Долгосрочное планирование и память:
    • Трудно планировать длинные последовательности действий (30+ шагов) без сохранения состояния и многократного обдумывания.
  • Цитаты:
    • Плохо справляются с точным цитированием без прямого доступа к тексту.

Практика: Использование LLM

  • Способы инференса LLM:
    1. Локальный инференс:
      • Скачивание модели с открытыми весами и инференс на своем ноутбуке (CPU или GPU).
      • Плюсы: Полная приватность данных, полный контроль.
      • Минусы: Дорого по железу, техподдержка.
    2. Через внешние API:
      • Доступ к большим моделям, размещенным на вычислительных кластерах.
      • Плюсы: Доступ к мощным моделям без необходимости хостинга.
      • Минусы: Оплата за каждый токен (отправленный и полученный), потеря приватности данных.
  • Демонстрация важности специальных токенов и формата промпта:
    • При передаче "plain prompt" (без явного выделения ролей) модель может "галлюцинировать" продолжение диалога, зацикливаться.
    • При передаче промпта в ожидаемом моделью формате (например, messages с явно выделенными ролями system, user, assistant) модель отвечает корректно.
  • Демонстрация галлюцинаций:
    • Модель может уверенно "придумать" несуществующий метод в SDK и написать для него код.
    • Борьба с галлюцинациями: В промпте можно явно попросить модель не отвечать, если она не уверена ("Если ты не знаешь, просто скажи, что не надо мне об этом спрашивать, ничего не придумывай").
  • Демонстрация сильных сторон:
    • Суммаризация и перефразирование текста.
    • Генерация структурированных данных (например, JSON).
  • Демонстрация слабых сторон:
    • Подсчет символов в строке.
    • Точная арифметика.
    • Актуальные знания (цена биткоина без доступа к интернету).
    • Точное цитирование (без прямого доступа к тексту).

Создание Простейшего Агента

  • TauBench:
    • Назначение: Бенчмарк для оценки AI-агентов, позволяющий масштабируемо оценивать их производительность в агентских сценариях.
    • Принцип оценки: Конкретные сценарии описывают действия пользователя, ожидаемое поведение агента, необходимые инструменты и ответы.
    • Tau2Bench: Обновление, позволяющее эмулировать не только поведение агента, но и пользователя, для общения между ними.
  • Задача для агента: Агент бронирования (airline-агент).
    • Имеет политику (системный промпт), описывающую его роль, цели, работу с бронированиями, изменениями, отменами, необходимость подтверждений.
    • Примеры заданий: отменить бронирование, узнать ограничения по багажу.
  • Разработка агента с использованием LangChain и LangGraph:
    • LangChain: Фреймворк для разработки агентов, инкапсулирует обертки над промптами, цепочками исполнения, инструментами, агентами, памятью.
    • LangGraph: Расширение LangChain, позволяющее реализовывать агентов, состояние которых постепенно изменяется, проходя через узлы графа.
      • Преимущество: Упрощает разработку продакшеновых агентов, предоставляя абстрактные объекты и ожидаемые изменения состояния.
  • Компоненты LangGraph:
    • Состояние (State): Определяет, что будет храниться и передаваться между вершинами графа (например, сообщения пользователя и ассистента).
    • Узлы (Nodes): Функции, которые получают текущее состояние, выполняют операции и возвращают измененное состояние.
      • Пример: LLM-узел, который берет сообщение пользователя, обращается к LLM и дописывает ответ в состояние.
    • Граф: Определяется вершинами (функциями) и ребрами (транзакциями), передающими состояние.
  • Простейший агент (только LLM):
    • Системный промпт: "Ты ассистент, не галлюцинируй, ничего лишнего не дергай, можешь просто отвечать на мои вопросы." (сокращенный, так как нет инструментов/памяти).
    • Структура графа: Старт -> LLM-нода -> Конец.
    • Результаты:
      • Справляется: Вопросы о политике бронирования (где нужны подтверждения), объяснение ограничений по багажу.
      • Не справляется: Отмена конкретной резервации (нет доступа к базе данных), расчет компенсации (нет доступа к информации о бронировании).
  • Дальнейшее развитие: В последующих уроках к LLM-ке будут добавляться инструменты, память, guardrails для решения этих ограничений.

Generated by AI-powered TranscribeLecture.com • 4/6/2026

Делитесь своими знаниями!