Продолжая серию статей, про оценку качества ИИ систем:
Продолжая серию статей, про оценку качества ИИ систем:
https://habr.com/ru/articles/1034358/
https://habr.com/ru/articles/1035300/
Продолжая серию статей, про оценку качества ИИ систем:
https://habr.com/ru/articles/1034358/
https://habr.com/ru/articles/1035300/
1. Упрощение первого практического модуля. Я вижу, что текущий пример вызывает сложности у студентов, хотя он и является опциональным. Для прохождения курса достаточно использовать LM Studio; развертывать Docker, WSL или компилировать llama.cpp с CUDA не обязательно — эти примеры даны для любопытных, но их сложно выполнить новичкам, впервые работающим с Docker. Я переработаю этот раздел, сделав его более подробным и понятным.
2. Интеграция примера по оценке RAG. Я почти завершил серию статей на Хабре по этой теме (осталась четвертая часть). В курс будет добавлен комплексный сценарий по организации итеративного непрерывного тестирования RAG-приложений.
3. Расширение практических кейсов. Я планирую добавить больше реальных примеров.
Первый кейс: создание комплексного ИИ-приложения в форм-факторе ботов для Telegram и Max.
Тема - расклады Таро. В этом проекте LLM будет выступать в роли распознавателя карт по фото и эксперта по трактовке их смыслов.
Почему такой пример? На нем можно рассмотреть работу с изображениями (сжатие, обработка для LLM) и особенности интеграции в мессенджеры и он довольно забавный :)
Второй кейс: будет ориентирован на сценарии использования агентов как помощников для работы с существующими системами. Я буду использовать API банка Тинькофф для брокерских счетов и соберу миниатюрного инвестиционного советника. Этот пример будет дан только в виде кода, без публикации работающего приложения, чтобы не нарушать законы о персональных данных и банковской тайне. Если захотите опубликовать такое приложение где-то самостоятельно, помните об этом: для этого сперва нужно зарегистрироваться в реестре как оператора перс данных по особой категории.
Возможно, у кого-то будут еще идеи, какие примеры агентов были бы полезны в качестве учебных? ;)
Я довольно давно в этом домене, значительно раньше чем он стал хайповым :) За свою карьеру я успел:
1. Поучаствовать в создании двух крупных омниканальных виртуальных ассистентов
2. Создать несколько работающих PaaS-платформ для автоматизации контакт-центров
3. поработать в безумном AI стартапе
4. основательно позаниматься улучшением через AI различных enterprise-решений.
Всё это в основном ныне работающие боевые системы с реальной нагрузкой и бизнес-эффектами.
Занимался всем этим я в самых разных ролях, как на позиции продуктового руководителя, так и технического лидера, в нескольких крайне немаленьких компаниях в РФ :)
Я профессионально программирую на Java, Python и Go. Специализируюсь на NLP/NLU: создаю уникальные модели и архитектуры. Занимаюсь консалтингом по созданию и масштабированию AI-продуктов.
Я не верю в «волшебный промпт» или замену инженера готовыми конструкторами. AI — это инженерия. Архитектура, алгоритмы, данные, тестирование, мониторинг. Без этого любые «инновационные ИИ решения» — просто красивые презентации.
На канале будет:
• Глубокий разбор архитектуры агентских ИИ-систем и NLP/NLU-моделей
• Реальные кейсы внедрения AI в enterprise и стартапы
• Инсайты из консалтинга и разработки PaaS-решений
• Паттерны, алгоритмы и инженерные решения, которые работают
• Материалы и разборы из моего курса «Инженерия и алгоритмы агентских ИИ систем»
Этот канал — для тех, кто не ищет поверхностных ответов, а хочет понимать, как AI работает изнутри. Для архитекторов, разработчиков и тех, кто строит продукты, а не собирает конструкторы. AI не заменит инженера. Он усилит того, кто понимает основы.
Добро пожаловать. Будем разбирать архитектуру, алгоритмы и реальные кейсы. Погнали 🚀
🌐 Мой сайт: https://aicon.space/
📚 Курс: https://stepik.org/a/259791
Хочется поговорить об одной из самых «больных» тем в современной AI-разработке — как проверить, что система работает правильно.
Удивительно, но текущий хайп вокруг LLM привел к довольно значительной деградации инженерной культуры в этой области («в среднем по больнице»). В эпоху первых трансформеров (да и более ранние эпохи) ни у кого не возникало сомнений: нужен «Golden Set», ручная разметка и жесткий контроль метрик. NLP был уделом специалистов по машинному обучению.
С приходом LLM порог входа упал. Теперь любой может написать промпт и получить ответ. Проверка качества превратилась в «vibe-check»: разработчик задает три вопроса, видит, что агент ответил «вроде нормально», и считает задачу решенной.
Но тут есть проблема: LLM вероятностна. Если она ответила правильно 5 раз подряд, это не значит, что на 6-й раз она не улетит в галлюцинации. Без продуманного процесса непрерывной оценки вы строите крайне хрупкую конструкцию.
Опубликовал пост на Habr
https://habr.com/ru/articles/1034050/