Назад в Базу
Источник
Computer ScienceВидео YouTubeaiагентыllmмашинноеобучение
Agents Week 2026 | Лекция 1.1 Intro to AI Agents LLM
Agents Week 2026, Школа анализа данных, Яндекс
Алёна Зайцева
ШАД
Опубликовано 6 апр. 2026 г.
Автор публикации
Timurez
Интенсив по AI-агентам: Введение и Основы LLM
#AIАгенты #LLM #МашинноеОбучение #РазработкаАгентов #Яндекс
Обзор Интенсива
- Цель интенсива: Научить не только прототипировать личного ассистента, но и доводить его до продакшена и масштабировать.
- Длительность: 5 дней, завершается контрольным заданием.
- Команда спикеров: Руководители и инженеры из Яндекс.Лавки, Алисы, умных устройств, поискового портала и Клауда.
- Эволюция индустрии: От простого промптинга LLM до многоагентских систем.
Структура Интенсива по Дням
- День 1 (Сегодня):
- Зачем нужны агенты и из каких частей они состоят.
- Погружение в "мозг агента" – LLM.
- Что такое инструменты и MCP (будет в следующем занятии).
- День 2:
- Два ключевых слоя: память и guardrails (инструменты для безопасности и предсказуемости агента).
- День 3:
- Сборка общего пайплайна из разобранных кусочков.
- Агентский workflow.
- Взаимодействие агентов в мультиагентной системе.
- Мультимодальные системы.
- День 4:
- Оценка (эвал) агентов: как понять, что стало лучше, как агент работает, как предотвратить сбои в продакшене из-за данных.
- День 5:
- Сборка всего изученного.
- Прототипирование ассистентов и доведение до продакшена.
- Особенности агентов в продакшене: observability, мониторинг качества, масштабирование.
Роль Зайцевой Алены в Яндекс.Лавке
- Руководитель службы AI.
- Ответственность 1: AI в клиентском продукте (например, ассистент Лавка AI, генеративный контент в карточках товара).
- Ответственность 2: AI для оптимизации команд и бизнес-процессов (внутренние агенты для автоматизации рутины, ускорение прототипирования, разработки, тестирования и внедрения проектов).
- Ответственность 3: Инфраструктура для разработки всех AI-агентов.
Применение AI-Агентов
- Персональные ассистенты и инструменты для работы со знаниями:
- Поиск информации.
- Автоматизация задач.
- Поддержка принятия сложных решений.
- Агенты-исполнители:
- Выполнение действий в браузерах (заполнение форм, цепочки действий в интерфейсах).
- Инструменты для написания кода (разработка приложений).
- Бизнес-процессы:
- Поддержка клиентов.
- Автоматизация операционных задач.
- Пример: McKinsey рассматривает 25 тысяч AI-ассистентов как полноценных сотрудников.
- Интерактивные среды:
- NPC-персонажи в видеоиграх, подстраивающиеся под поведение игрока в реальном времени.
Эволюция Взаимодействия Человека и LLM
- Простой промптинг:
- Модель получает текст и выдает ответ.
- Выход модели не влияет на дальнейший ход исполнения программы.
- Роутинг:
- LLM участвует в принятии решений (например, выбор одной из заранее заданных ветвей исполнения).
- Поведение ассистента становится частично детерминированным.
- Tool Calling:
- LLM может выбрать не только путь, но и конкретную функцию для вызова, включая аргументы.
- Позволяет связывать модель с внешними API, сервисами и инструментами.
- Многошаговый агент:
- Агент может планировать свои действия, выполнять их в цепочке, рефлексировать.
- Мультиагентные системы:
- Несколько агентных процессов координируются между собой, совещаются, распределяют задачи.
- Ключевой вывод: На каждом этапе модель получает все больше контроля над процессом – от генерации текста к принятию решений, планированию и координации. Это ведет к увеличению автономности и формированию современного понятия агента.
Определение AI-Агента
- Оговорка: Индустрия новая, единого четкого определения нет. Разные формулировки существуют даже внутри OpenAI.
- Определение OpenAI Agents SDK: "AI-приложение, которое состоит из модели, инструкций, инструментов и среды выполнения (рантайма), который управляет жизненным циклом агента."
- Определение Лилиан Венг (OpenAI): "Комбинация LLM, памяти, навыков планирования и использования инструментов."
- Рабочее определение в рамках курса (наиболее общее):
- Агент — это рантайм-система, внутри которой есть модель, промты, инструменты, память, механизмы защиты и механизмы планирования.
- Все эти компоненты могут быть опциональными; можно начать с простейшего агента (модель + инструменты).
Компоненты AI-Агента (согласно рабочему определению)
- AI-модель (Мозг агента):
- Центральный компонент, сама по себе может только генерировать текст и отвечать на вопросы.
- Требует "обвязки" для полноценной работы.
- Промты:
- Системный промпт: Глобальные инструкции, задающие роль, цели, ограничения, стиль агента.
- Сообщение пользователя: Текущая задача, которую должен выполнить ассистент.
- Сообщения ассистента: Предыдущие ответы, результаты вызова инструментов.
- Инструменты (Tools):
- Внешние функции и API, позволяющие агенту взаимодействовать с внешней средой (поиск информации, работа с календарем и т.д.).
- Память (Memory):
- Краткосрочная: Текущий диалог, промежуточные результаты действий.
- Долгосрочная: Информация между сессиями, знания пользователя, исторические задачи, знания предметной области.
- Контекстная: Информация, необходимая агенту в данный момент, собирается из разных источников.
- Guardrails (Механизмы защиты):
- Пронизывают каждый компонент системы.
- Инструменты для защиты от prompt injection и других попыток взлома.
- Делают поведение агента более детерминированным.
- Инструменты планирования (Planning):
- Позволяют агенту не просто реагировать на запрос, а строить последовательность действий и исполнять их.
- Рантайм:
- Управляет жизненным циклом агента (когда вызвать модель, когда вызвать инструменты и т.д.).
Аналогия LLM с Операционной Системой (Андрей Карпатый)
- LLM: Ядро операционной системы.
- Оркестрирует инструменты, память, внешние ресурсы и процессы для решения задачи.
- Внешняя база знаний: Аналог диска.
- Модель может извлекать информацию через retrieval или browsing.
- Контекстное окно модели: Аналог оперативной памяти.
- Ограниченная рабочая область, где модель "думает".
- Модель постоянно решает, какую информацию туда погрузить, а какую выбросить.
- Инструменты и специализированные модели: Аналог приложений.
- LLM вызывает их по необходимости.
- Экосистема:
- Закрытые проприетарные модели (Windows, macOS).
- Быстрорастущая open-source экосистема (Linux).
LLM: Мозг Агента
- Формальное определение LLM: "Нейросетевая модель, обученная на больших корпусах текстовых данных, которая применяется для предсказания следующего токена в контексте предыдущих."
- Физический уровень LLM:
- Файл параметров (веса нейросети): Огромный файл (десятки-сотни гигабайт).
- Код выполнения: Относительно небольшой набор программного кода, описывающий архитектуру сети и принцип инференса.
- Принцип работы: Код применяет математические операции к входным данным и весам для предсказания следующего токена.
- Вывод: Физически LLM — это не интеллект или понимание, а огромная таблица с весами и код для их применения.
Веса Модели и Обучение
- Веса модели: Сжатое представление всех обучающих данных.
- Количество параметров: Чем больше параметров, тем проще "сжать" данные (вплоть до сохранения представления "как есть"), но тем сложнее инференс (хранение весов, время на вычисления).
- Задача при обучении: Подобрать архитектуру, обучающие данные и провести обучение так, чтобы закодировать как можно больше знаний о мире в как можно меньшем количестве параметров.
Next Token Prediction
- Next Word Prediction (для простоты): Модель получает "cat sat on a" и предсказывает следующее слово (например, "mat" с 97% вероятности).
- Задача обучения: Подобрать веса так, чтобы при взаимодействии с входными токенами на выходе получалось наиболее вероятное следующее слово.
Токенизация
- Проблема 1: Посимвольное кодирование:
- Последовательность очень длинная (замедляет обучение и инференс).
- Модель видит только отдельные символы, не улавливает структуру слов, теряет смысл на уровне слов/фраз.
- Проблема 2: Пословное кодирование:
- Словари языков огромны (сотни тысяч слов), тяжело хранить с весами.
- Новые/редкие слова требуют новых чисел, которые модель не видела.
- Нет связи между однокоренными словами (например, "reading" и "read").
- Решение: Токенизация:
- Токен: "Минимальная единица текста, с которой работает языковая модель."
- Может быть фрагментом слова ("read", "ing") или состоять из двух слов ("New York").
- Преимущества: Уменьшает размер словаря, модель лучше обобщает и находит взаимосвязи.
Служебные/Специальные Токены
- Определение: Зарезервированные токены, выполняющие заранее заданные функции, не соответствующие обычному тексту, используются для управления поведением модели.
- Примеры:
- Токены окончания генерации (EOS токены): Указывают на завершение предложения/ответа.
- Токены ролей: Обозначают роли пользователя, ассистента, системного промпта. Позволяют модели лучше следовать структуре.
- Управляющие токены/модификаторы промпта: "translate", "summarize", "перепиши в формальном стиле". Помогают модели лучше справляться с частыми задачами.
Next Token Prediction (подробно)
- Модель предсказывает следующий токен в контексте всех поданных ей на вход.
- Авторегрессионная модель: Выход модели с одного этапа является входом для следующего, позволяя завершать генерацию до EOS токена.
- Контекстное окно: "Длина, исчисляемая в токенах, того, что модель может в моменте учитывать."
- При достижении лимита старые данные отбрасываются или суммаризируются.
Процесс Генерации Токена
- Токенизация: Входной текст преобразуется в токены.
- Вычисление представления последовательности: Модель вычисляет представление, содержащее информацию о значении и позиции каждого токена.
- Выдача оценок (логитов): Модель выдает логиты, отражающие вероятность каждого токена из словаря быть следующим.
- Параметр температуры:
- Низкая температура: Распределение вероятностей более острое, модель чаще выбирает наиболее вероятные токены. Текст более предсказуемый и строгий.
- Высокая температура: Сглаживает распределение, увеличивает шансы выбора менее вероятных токенов. Текст более разнообразный, но менее предсказуемый.
- Стратегии выбора следующего токена:
- Максимальная оценка: Выбор токена с максимальным логитом.
- Top-k-sampling: Выбор случайного токена из наиболее вероятных.
- Beam-search: Рассматривает несколько возможных вариантов продолжения, оценивает вероятность целой последовательности токенов.
Этапы Обучения LLM
- Претрейнинг (Pre-training):
- Загрузка больших массивов данных о мире.
- Модель учится предсказывать следующий токен.
- Файнтюнинг (Fine-tuning):
- Адаптация готовой LLM к специфическим задачам компании или предметной области.
- Модель учится на примерах "запрос-ответ".
- Обучение с подкреплением (Reinforcement Learning):
- Обучение модели на фидбэке от людей или от другой языковой модели (reward model).
- Позволяет модели лучше соответствовать человеческим предпочтениям и формулировкам ответов.
Ключевые Выводы о LLM
- Работа с токенами:
- Модели работают только с последовательностями токенов, предсказывая наиболее вероятные. Не "понимают" слова или смысл напрямую.
- Практическое значение:
- Биллинг и контекстное окно: Длина контекстного окна и стоимость использования измеряются в токенах, а не символах/словах.
- Структура промпта: Важно соблюдать правильную структуру промпта и передавать контекст так, как модель его ожидала в обучении (например, использование специальных токенов для ролей).
- Специфика обучения и галлюцинации:
- Модели обучаются на больших объемах данных, предсказывают следующий токен.
- Галлюцинации: "Уверенная генерация правдоподобной, но неверной или вымышленной информации."
- Возникают из-за стохастической природы моделей; они не проверяют факты, а предсказывают вероятные последовательности токенов.
- Важный принцип: "Автоматизировать все, что автоматизируется, и иизировать только то, что не автоматизируется."
- Избегать использования LLM для простых алгоритмических задач, которые можно решить кодом (например, условные операторы).
Сильные Стороны LLM
- Задачи с высокой статистической структурой:
- Перефразирование, резюмирование, генерация связного текста или кода.
- Это задачи на предсказание вероятных последовательностей слов, на которых модели обучались.
- Обработка и генерация стандартных структур:
- Рассуждения (например, Chain of Thoughts).
- Вызовы инструментов (Tool Calling).
- Обработка стандартных файлов и таблиц (например, JSON).
Слабые Стороны LLM (без дополнительных инструментов)
- Точные алгоритмические символьные задачи:
- Подсчет букв/цифр (например, "сколько букв 'А' в слове 'банана'").
- Точная арифметика.
- Модели не "считают", а предсказывают токены.
- Актуальные знания:
- Не могут ответить на вопросы о недавних событиях, если их обучение было давно и нет доступа к актуальным данным.
- Долгосрочное планирование и память:
- Трудно планировать длинные последовательности действий (30+ шагов) без сохранения состояния и многократного обдумывания.
- Цитаты:
- Плохо справляются с точным цитированием без прямого доступа к тексту.
Практика: Использование LLM
- Способы инференса LLM:
- Локальный инференс:
- Скачивание модели с открытыми весами и инференс на своем ноутбуке (CPU или GPU).
- Плюсы: Полная приватность данных, полный контроль.
- Минусы: Дорого по железу, техподдержка.
- Через внешние API:
- Доступ к большим моделям, размещенным на вычислительных кластерах.
- Плюсы: Доступ к мощным моделям без необходимости хостинга.
- Минусы: Оплата за каждый токен (отправленный и полученный), потеря приватности данных.
- Локальный инференс:
- Демонстрация важности специальных токенов и формата промпта:
- При передаче "plain prompt" (без явного выделения ролей) модель может "галлюцинировать" продолжение диалога, зацикливаться.
- При передаче промпта в ожидаемом моделью формате (например,
messagesс явно выделенными ролямиsystem,user,assistant) модель отвечает корректно.
- Демонстрация галлюцинаций:
- Модель может уверенно "придумать" несуществующий метод в SDK и написать для него код.
- Борьба с галлюцинациями: В промпте можно явно попросить модель не отвечать, если она не уверена ("Если ты не знаешь, просто скажи, что не надо мне об этом спрашивать, ничего не придумывай").
- Демонстрация сильных сторон:
- Суммаризация и перефразирование текста.
- Генерация структурированных данных (например, JSON).
- Демонстрация слабых сторон:
- Подсчет символов в строке.
- Точная арифметика.
- Актуальные знания (цена биткоина без доступа к интернету).
- Точное цитирование (без прямого доступа к тексту).
Создание Простейшего Агента
- TauBench:
- Назначение: Бенчмарк для оценки AI-агентов, позволяющий масштабируемо оценивать их производительность в агентских сценариях.
- Принцип оценки: Конкретные сценарии описывают действия пользователя, ожидаемое поведение агента, необходимые инструменты и ответы.
- Tau2Bench: Обновление, позволяющее эмулировать не только поведение агента, но и пользователя, для общения между ними.
- Задача для агента: Агент бронирования (airline-агент).
- Имеет политику (системный промпт), описывающую его роль, цели, работу с бронированиями, изменениями, отменами, необходимость подтверждений.
- Примеры заданий: отменить бронирование, узнать ограничения по багажу.
- Разработка агента с использованием LangChain и LangGraph:
- LangChain: Фреймворк для разработки агентов, инкапсулирует обертки над промптами, цепочками исполнения, инструментами, агентами, памятью.
- LangGraph: Расширение LangChain, позволяющее реализовывать агентов, состояние которых постепенно изменяется, проходя через узлы графа.
- Преимущество: Упрощает разработку продакшеновых агентов, предоставляя абстрактные объекты и ожидаемые изменения состояния.
- Компоненты LangGraph:
- Состояние (State): Определяет, что будет храниться и передаваться между вершинами графа (например, сообщения пользователя и ассистента).
- Узлы (Nodes): Функции, которые получают текущее состояние, выполняют операции и возвращают измененное состояние.
- Пример: LLM-узел, который берет сообщение пользователя, обращается к LLM и дописывает ответ в состояние.
- Граф: Определяется вершинами (функциями) и ребрами (транзакциями), передающими состояние.
- Простейший агент (только LLM):
- Системный промпт: "Ты ассистент, не галлюцинируй, ничего лишнего не дергай, можешь просто отвечать на мои вопросы." (сокращенный, так как нет инструментов/памяти).
- Структура графа: Старт -> LLM-нода -> Конец.
- Результаты:
- Справляется: Вопросы о политике бронирования (где нужны подтверждения), объяснение ограничений по багажу.
- Не справляется: Отмена конкретной резервации (нет доступа к базе данных), расчет компенсации (нет доступа к информации о бронировании).
- Дальнейшее развитие: В последующих уроках к LLM-ке будут добавляться инструменты, память, guardrails для решения этих ограничений.
Generated by AI-powered TranscribeLecture.com • 4/6/2026
Интенсив по AI-агентам: Введение и Основы LLM
#AIАгенты #LLM #МашинноеОбучение #РазработкаАгентов #Яндекс
Обзор Интенсива
- Цель интенсива: Научить не только прототипировать личного ассистента, но и доводить его до продакшена и масштабировать.
- Длительность: 5 дней, завершается контрольным заданием.
- Команда спикеров: Руководители и инженеры из Яндекс.Лавки, Алисы, умных устройств, поискового портала и Клауда.
- Эволюция индустрии: От простого промптинга LLM до многоагентских систем.
Структура Интенсива по Дням
- День 1 (Сегодня):
- Зачем нужны агенты и из каких частей они состоят.
- Погружение в "мозг агента" – LLM.
- Что такое инструменты и MCP (будет в следующем занятии).
- День 2:
- Два ключевых слоя: память и guardrails (инструменты для безопасности и предсказуемости агента).
- День 3:
- Сборка общего пайплайна из разобранных кусочков.
- Агентский workflow.
- Взаимодействие агентов в мультиагентной системе.
- Мультимодальные системы.
- День 4:
- Оценка (эвал) агентов: как понять, что стало лучше, как агент работает, как предотвратить сбои в продакшене из-за данных.
- День 5:
- Сборка всего изученного.
- Прототипирование ассистентов и доведение до продакшена.
- Особенности агентов в продакшене: observability, мониторинг качества, масштабирование.
Роль Зайцевой Алены в Яндекс.Лавке
- Руководитель службы AI.
- Ответственность 1: AI в клиентском продукте (например, ассистент Лавка AI, генеративный контент в карточках товара).
- Ответственность 2: AI для оптимизации команд и бизнес-процессов (внутренние агенты для автоматизации рутины, ускорение прототипирования, разработки, тестирования и внедрения проектов).
- Ответственность 3: Инфраструктура для разработки всех AI-агентов.
Применение AI-Агентов
- Персональные ассистенты и инструменты для работы со знаниями:
- Поиск информации.
- Автоматизация задач.
- Поддержка принятия сложных решений.
- Агенты-исполнители:
- Выполнение действий в браузерах (заполнение форм, цепочки действий в интерфейсах).
- Инструменты для написания кода (разработка приложений).
- Бизнес-процессы:
- Поддержка клиентов.
- Автоматизация операционных задач.
- Пример: McKinsey рассматривает 25 тысяч AI-ассистентов как полноценных сотрудников.
- Интерактивные среды:
- NPC-персонажи в видеоиграх, подстраивающиеся под поведение игрока в реальном времени.
Эволюция Взаимодействия Человека и LLM
- Простой промптинг:
- Модель получает текст и выдает ответ.
- Выход модели не влияет на дальнейший ход исполнения программы.
- Роутинг:
- LLM участвует в принятии решений (например, выбор одной из заранее заданных ветвей исполнения).
- Поведение ассистента становится частично детерминированным.
- Tool Calling:
- LLM может выбрать не только путь, но и конкретную функцию для вызова, включая аргументы.
- Позволяет связывать модель с внешними API, сервисами и инструментами.
- Многошаговый агент:
- Агент может планировать свои действия, выполнять их в цепочке, рефлексировать.
- Мультиагентные системы:
- Несколько агентных процессов координируются между собой, совещаются, распределяют задачи.
- Ключевой вывод: На каждом этапе модель получает все больше контроля над процессом – от генерации текста к принятию решений, планированию и координации. Это ведет к увеличению автономности и формированию современного понятия агента.
Определение AI-Агента
- Оговорка: Индустрия новая, единого четкого определения нет. Разные формулировки существуют даже внутри OpenAI.
- Определение OpenAI Agents SDK: "AI-приложение, которое состоит из модели, инструкций, инструментов и среды выполнения (рантайма), который управляет жизненным циклом агента."
- Определение Лилиан Венг (OpenAI): "Комбинация LLM, памяти, навыков планирования и использования инструментов."
- Рабочее определение в рамках курса (наиболее общее):
- Агент — это рантайм-система, внутри которой есть модель, промты, инструменты, память, механизмы защиты и механизмы планирования.
- Все эти компоненты могут быть опциональными; можно начать с простейшего агента (модель + инструменты).
Компоненты AI-Агента (согласно рабочему определению)
- AI-модель (Мозг агента):
- Центральный компонент, сама по себе может только генерировать текст и отвечать на вопросы.
- Требует "обвязки" для полноценной работы.
- Промты:
- Системный промпт: Глобальные инструкции, задающие роль, цели, ограничения, стиль агента.
- Сообщение пользователя: Текущая задача, которую должен выполнить ассистент.
- Сообщения ассистента: Предыдущие ответы, результаты вызова инструментов.
- Инструменты (Tools):
- Внешние функции и API, позволяющие агенту взаимодействовать с внешней средой (поиск информации, работа с календарем и т.д.).
- Память (Memory):
- Краткосрочная: Текущий диалог, промежуточные результаты действий.
- Долгосрочная: Информация между сессиями, знания пользователя, исторические задачи, знания предметной области.
- Контекстная: Информация, необходимая агенту в данный момент, собирается из разных источников.
- Guardrails (Механизмы защиты):
- Пронизывают каждый компонент системы.
- Инструменты для защиты от prompt injection и других попыток взлома.
- Делают поведение агента более детерминированным.
- Инструменты планирования (Planning):
- Позволяют агенту не просто реагировать на запрос, а строить последовательность действий и исполнять их.
- Рантайм:
- Управляет жизненным циклом агента (когда вызвать модель, когда вызвать инструменты и т.д.).
Аналогия LLM с Операционной Системой (Андрей Карпатый)
- LLM: Ядро операционной системы.
- Оркестрирует инструменты, память, внешние ресурсы и процессы для решения задачи.
- Внешняя база знаний: Аналог диска.
- Модель может извлекать информацию через retrieval или browsing.
- Контекстное окно модели: Аналог оперативной памяти.
- Ограниченная рабочая область, где модель "думает".
- Модель постоянно решает, какую информацию туда погрузить, а какую выбросить.
- Инструменты и специализированные модели: Аналог приложений.
- LLM вызывает их по необходимости.
- Экосистема:
- Закрытые проприетарные модели (Windows, macOS).
- Быстрорастущая open-source экосистема (Linux).
LLM: Мозг Агента
- Формальное определение LLM: "Нейросетевая модель, обученная на больших корпусах текстовых данных, которая применяется для предсказания следующего токена в контексте предыдущих."
- Физический уровень LLM:
- Файл параметров (веса нейросети): Огромный файл (десятки-сотни гигабайт).
- Код выполнения: Относительно небольшой набор программного кода, описывающий архитектуру сети и принцип инференса.
- Принцип работы: Код применяет математические операции к входным данным и весам для предсказания следующего токена.
- Вывод: Физически LLM — это не интеллект или понимание, а огромная таблица с весами и код для их применения.
Веса Модели и Обучение
- Веса модели: Сжатое представление всех обучающих данных.
- Количество параметров: Чем больше параметров, тем проще "сжать" данные (вплоть до сохранения представления "как есть"), но тем сложнее инференс (хранение весов, время на вычисления).
- Задача при обучении: Подобрать архитектуру, обучающие данные и провести обучение так, чтобы закодировать как можно больше знаний о мире в как можно меньшем количестве параметров.
Next Token Prediction
- Next Word Prediction (для простоты): Модель получает "cat sat on a" и предсказывает следующее слово (например, "mat" с 97% вероятности).
- Задача обучения: Подобрать веса так, чтобы при взаимодействии с входными токенами на выходе получалось наиболее вероятное следующее слово.
Токенизация
- Проблема 1: Посимвольное кодирование:
- Последовательность очень длинная (замедляет обучение и инференс).
- Модель видит только отдельные символы, не улавливает структуру слов, теряет смысл на уровне слов/фраз.
- Проблема 2: Пословное кодирование:
- Словари языков огромны (сотни тысяч слов), тяжело хранить с весами.
- Новые/редкие слова требуют новых чисел, которые модель не видела.
- Нет связи между однокоренными словами (например, "reading" и "read").
- Решение: Токенизация:
- Токен: "Минимальная единица текста, с которой работает языковая модель."
- Может быть фрагментом слова ("read", "ing") или состоять из двух слов ("New York").
- Преимущества: Уменьшает размер словаря, модель лучше обобщает и находит взаимосвязи.
Служебные/Специальные Токены
- Определение: Зарезервированные токены, выполняющие заранее заданные функции, не соответствующие обычному тексту, используются для управления поведением модели.
- Примеры:
- Токены окончания генерации (EOS токены): Указывают на завершение предложения/ответа.
- Токены ролей: Обозначают роли пользователя, ассистента, системного промпта. Позволяют модели лучше следовать структуре.
- Управляющие токены/модификаторы промпта: "translate", "summarize", "перепиши в формальном стиле". Помогают модели лучше справляться с частыми задачами.
Next Token Prediction (подробно)
- Модель предсказывает следующий токен в контексте всех поданных ей на вход.
- Авторегрессионная модель: Выход модели с одного этапа является входом для следующего, позволяя завершать генерацию до EOS токена.
- Контекстное окно: "Длина, исчисляемая в токенах, того, что модель может в моменте учитывать."
- При достижении лимита старые данные отбрасываются или суммаризируются.
Процесс Генерации Токена
- Токенизация: Входной текст преобразуется в токены.
- Вычисление представления последовательности: Модель вычисляет представление, содержащее информацию о значении и позиции каждого токена.
- Выдача оценок (логитов): Модель выдает логиты, отражающие вероятность каждого токена из словаря быть следующим.
- Параметр температуры:
- Низкая температура: Распределение вероятностей более острое, модель чаще выбирает наиболее вероятные токены. Текст более предсказуемый и строгий.
- Высокая температура: Сглаживает распределение, увеличивает шансы выбора менее вероятных токенов. Текст более разнообразный, но менее предсказуемый.
- Стратегии выбора следующего токена:
- Максимальная оценка: Выбор токена с максимальным логитом.
- Top-k-sampling: Выбор случайного токена из наиболее вероятных.
- Beam-search: Рассматривает несколько возможных вариантов продолжения, оценивает вероятность целой последовательности токенов.
Этапы Обучения LLM
- Претрейнинг (Pre-training):
- Загрузка больших массивов данных о мире.
- Модель учится предсказывать следующий токен.
- Файнтюнинг (Fine-tuning):
- Адаптация готовой LLM к специфическим задачам компании или предметной области.
- Модель учится на примерах "запрос-ответ".
- Обучение с подкреплением (Reinforcement Learning):
- Обучение модели на фидбэке от людей или от другой языковой модели (reward model).
- Позволяет модели лучше соответствовать человеческим предпочтениям и формулировкам ответов.
Ключевые Выводы о LLM
- Работа с токенами:
- Модели работают только с последовательностями токенов, предсказывая наиболее вероятные. Не "понимают" слова или смысл напрямую.
- Практическое значение:
- Биллинг и контекстное окно: Длина контекстного окна и стоимость использования измеряются в токенах, а не символах/словах.
- Структура промпта: Важно соблюдать правильную структуру промпта и передавать контекст так, как модель его ожидала в обучении (например, использование специальных токенов для ролей).
- Специфика обучения и галлюцинации:
- Модели обучаются на больших объемах данных, предсказывают следующий токен.
- Галлюцинации: "Уверенная генерация правдоподобной, но неверной или вымышленной информации."
- Возникают из-за стохастической природы моделей; они не проверяют факты, а предсказывают вероятные последовательности токенов.
- Важный принцип: "Автоматизировать все, что автоматизируется, и иизировать только то, что не автоматизируется."
- Избегать использования LLM для простых алгоритмических задач, которые можно решить кодом (например, условные операторы).
Сильные Стороны LLM
- Задачи с высокой статистической структурой:
- Перефразирование, резюмирование, генерация связного текста или кода.
- Это задачи на предсказание вероятных последовательностей слов, на которых модели обучались.
- Обработка и генерация стандартных структур:
- Рассуждения (например, Chain of Thoughts).
- Вызовы инструментов (Tool Calling).
- Обработка стандартных файлов и таблиц (например, JSON).
Слабые Стороны LLM (без дополнительных инструментов)
- Точные алгоритмические символьные задачи:
- Подсчет букв/цифр (например, "сколько букв 'А' в слове 'банана'").
- Точная арифметика.
- Модели не "считают", а предсказывают токены.
- Актуальные знания:
- Не могут ответить на вопросы о недавних событиях, если их обучение было давно и нет доступа к актуальным данным.
- Долгосрочное планирование и память:
- Трудно планировать длинные последовательности действий (30+ шагов) без сохранения состояния и многократного обдумывания.
- Цитаты:
- Плохо справляются с точным цитированием без прямого доступа к тексту.
Практика: Использование LLM
- Способы инференса LLM:
- Локальный инференс:
- Скачивание модели с открытыми весами и инференс на своем ноутбуке (CPU или GPU).
- Плюсы: Полная приватность данных, полный контроль.
- Минусы: Дорого по железу, техподдержка.
- Через внешние API:
- Доступ к большим моделям, размещенным на вычислительных кластерах.
- Плюсы: Доступ к мощным моделям без необходимости хостинга.
- Минусы: Оплата за каждый токен (отправленный и полученный), потеря приватности данных.
- Локальный инференс:
- Демонстрация важности специальных токенов и формата промпта:
- При передаче "plain prompt" (без явного выделения ролей) модель может "галлюцинировать" продолжение диалога, зацикливаться.
- При передаче промпта в ожидаемом моделью формате (например,
messagesс явно выделенными ролямиsystem,user,assistant) модель отвечает корректно.
- Демонстрация галлюцинаций:
- Модель может уверенно "придумать" несуществующий метод в SDK и написать для него код.
- Борьба с галлюцинациями: В промпте можно явно попросить модель не отвечать, если она не уверена ("Если ты не знаешь, просто скажи, что не надо мне об этом спрашивать, ничего не придумывай").
- Демонстрация сильных сторон:
- Суммаризация и перефразирование текста.
- Генерация структурированных данных (например, JSON).
- Демонстрация слабых сторон:
- Подсчет символов в строке.
- Точная арифметика.
- Актуальные знания (цена биткоина без доступа к интернету).
- Точное цитирование (без прямого доступа к тексту).
Создание Простейшего Агента
- TauBench:
- Назначение: Бенчмарк для оценки AI-агентов, позволяющий масштабируемо оценивать их производительность в агентских сценариях.
- Принцип оценки: Конкретные сценарии описывают действия пользователя, ожидаемое поведение агента, необходимые инструменты и ответы.
- Tau2Bench: Обновление, позволяющее эмулировать не только поведение агента, но и пользователя, для общения между ними.
- Задача для агента: Агент бронирования (airline-агент).
- Имеет политику (системный промпт), описывающую его роль, цели, работу с бронированиями, изменениями, отменами, необходимость подтверждений.
- Примеры заданий: отменить бронирование, узнать ограничения по багажу.
- Разработка агента с использованием LangChain и LangGraph:
- LangChain: Фреймворк для разработки агентов, инкапсулирует обертки над промптами, цепочками исполнения, инструментами, агентами, памятью.
- LangGraph: Расширение LangChain, позволяющее реализовывать агентов, состояние которых постепенно изменяется, проходя через узлы графа.
- Преимущество: Упрощает разработку продакшеновых агентов, предоставляя абстрактные объекты и ожидаемые изменения состояния.
- Компоненты LangGraph:
- Состояние (State): Определяет, что будет храниться и передаваться между вершинами графа (например, сообщения пользователя и ассистента).
- Узлы (Nodes): Функции, которые получают текущее состояние, выполняют операции и возвращают измененное состояние.
- Пример: LLM-узел, который берет сообщение пользователя, обращается к LLM и дописывает ответ в состояние.
- Граф: Определяется вершинами (функциями) и ребрами (транзакциями), передающими состояние.
- Простейший агент (только LLM):
- Системный промпт: "Ты ассистент, не галлюцинируй, ничего лишнего не дергай, можешь просто отвечать на мои вопросы." (сокращенный, так как нет инструментов/памяти).
- Структура графа: Старт -> LLM-нода -> Конец.
- Результаты:
- Справляется: Вопросы о политике бронирования (где нужны подтверждения), объяснение ограничений по багажу.
- Не справляется: Отмена конкретной резервации (нет доступа к базе данных), расчет компенсации (нет доступа к информации о бронировании).
- Дальнейшее развитие: В последующих уроках к LLM-ке будут добавляться инструменты, память, guardrails для решения этих ограничений.
Generated by AI-powered TranscribeLecture.com • 4/6/2026
Делитесь своими знаниями!