Сергей Кобец | AI & Education

Доброго времени суток!

Доброго времени суток!

Хочется поговорить об одной из самых «больных» тем в современной AI-разработке — как проверить, что система работает правильно.

Удивительно, но текущий хайп вокруг LLM привел к довольно значительной деградации инженерной культуры в этой области («в среднем по больнице»). В эпоху первых трансформеров (да и более ранние эпохи) ни у кого не возникало сомнений: нужен «Golden Set», ручная разметка и жесткий контроль метрик. NLP был уделом специалистов по машинному обучению.

С приходом LLM порог входа упал. Теперь любой может написать промпт и получить ответ. Проверка качества превратилась в «vibe-check»: разработчик задает три вопроса, видит, что агент ответил «вроде нормально», и считает задачу решенной.

Но тут есть проблема: LLM вероятностна. Если она ответила правильно 5 раз подряд, это не значит, что на 6-й раз она не улетит в галлюцинации. Без продуманного процесса непрерывной оценки вы строите крайне хрупкую конструкцию.

Опубликовал пост на Habr
https://habr.com/ru/articles/1034050/

Рекомендации

Это первый пост на канале, поэтому хочу представиться и рассказать о том, что здесь будет происходить.

Всем привет! Работаю над масштабным обновлением своего курса. Текущий план доработок: