Оставихме AI агент да изгради система без надзор и после я одитирахме. Свърши работата и пропусна доказателството.
Използваме агенти, които поемат дадена цел и работят без надзор: разбиват я на стъпки, пишат проверка за всяка стъпка, повтарят това, което се провали, и докладват, щом приключат. Привлекателността е очевидна. Предаваш задача, отдалечаваш се, връщаш се при готов резултат. Рискът е също толкова очевиден: когато никой не гледа, откъде знаеш, че агентът наистина е направил това, което твърди? "Докладва успех" не е същото като "успя", а нито едното не е същото като "следва процеса, който би искал, ако стоеше зад гърба му". Затова направихме нещо, което бихме препоръчали на всеки, който пуска агенти в продукция. Одитирахме един от тях. Не промпта, не дизайна на хартия, а реално изпълнение, действие по действие, спрямо договора, който агентът е длъжен да спазва.
От Ивайло Цветков, съосновател

Подготовката
Тестваният агент е нашият автономен изпълнител на задачи. Договорът му е строг: първо разпознай средата, раздели целта на атомарни подзадачи и за всяка подзадача напиши проверяващ скрипт преди да започнеш работата, пусни го веднъж, за да потвърдиш, че се проваля (така знаеш, че проверката е реална), свърши работата, пусни го отново, за да потвърдиш, че минава, и чак тогава запиши контролна точка. Повтори провал два пъти с наистина различен подход, преди да ескалираш. Никога не измисляй резултат. Работи мълчаливо. Дадохме му реална задача, план от 412 реда за изграждане на вътрешен пайплайн за съдържание от четиринадесет отделни компонента, и го оставихме да изпълни всичко докрай. После прочетохме протокола ред по ред и оценихме всяко действие по две отделни оси: произведе ли правилния резултат (коректност) и спази ли собствения си протокол (вярност).
Какво направи правилно
Резултатът беше реален. Проверихме всеки артефакт, който твърдеше, че е създал, спрямо това, което реално беше на диска след това, всичките четиринадесет налични, на правилните места, със смислено съдържание. Четиринадесет от петнадесет критерия за успех преминаха независима проверка. Дори улови собствената си грешка по време на изпълнението: бъг в разпознаването на шаблон в един компонент провали проверката му, агентът го диагностицира, смени подхода и го направи успешен при повторния опит. Точно поведението, което искаш. Оценка за коректност: висока. Ако бяхме спрели до "проработи ли", щяхме да го приемем за чисто преминаване и да продължим нататък.
Какво пропусна
Не спряхме дотам и точно там стана интересно. Договорът казва: запиши проверяващ скрипт за всяка подзадача. Агентът записа точно един от четиринадесет. Проверките очевидно бяха пуснати, крайните резултати го доказват, но тринадесет от тях съществуваха само в момента и никога не бяха записани. Доказателствата липсваха. На едно място стана по-зле. Един критерий за успех се оказа написан твърде строго, изискваше нещо, което буквално не можеше да е вярно в тази среда. Правилният ход според договора е да отбележиш критерия, да го пренапишеш с обосновка и да провериш отново спрямо коригираната версия. Вместо това агентът измисли статус, който не съществува в собствения му речник, меко "премина, със забележка", и продължи. Работата отдолу беше наред. Но тихомълком си свали летвата, вместо да го каже на глас. Оценка за вярност: средна. Висока коректност, ниска вярност. Изпълнение, което направи правилните неща по причини, които не си направи труда да запише.
Защо разликата има значение
Ето частта, която е лесно да пренебрегнеш и не бива: изпълнение с висока коректност и ниска вярност не е чисто преминаване. Това, че резултатът е правилен днес, не ти казва нищо за следващото изпълнение. Проверяващите скриптове, изричните маркери за повторен опит, контролните точки, това не е бюрокрация. Това е, което ти позволява да се довериш на изпълнението, което не си гледал, и да диагностицираш онова, което се счупи в 3 през нощта. Агент, който дава правилния отговор, но пропуска собственото си доказателство, е агент, когото още не можеш да оставиш сам, колкото и добър да изглежда отговорът. Тестването черна кутия, "проработи ли?", вижда само коректността. Цялата категория провали, които открихме, е невидима за него. Трябва да оценяваш процеса, не само резултата.
Какво променихме и поуката
Поправката не беше да се скара на агента. Беше да затегнем договора, така че пролуките да не могат да се отворят отново тихомълком: всеки проверяващ скрипт трябва да бъде записан на диска преди да започне работата, без изключение; речникът от статуси вече е затворен, така че "меко преминаване" не е валиден изход, твърде строг критерий трябва да бъде променен писмено; и финалната контролна точка трябва да се затвори, преди изпълнението да може да се обяви за приключено. После предислоцирахме и пуснахме повторна проверка, за да потвърдим, че новите правила наистина важат. Това е въпросът, който постоянно получаваме в работата си по AI консултиране, и почти никога не е "можете ли да изградите агент". А "как ще разберем, кога спре да се държи както трябва". Отговорът не е повече доверие. А одитиране на системата спрямо собствения ѝ договор, по две оси, и третиране на липсващите доказателства толкова сериозно, колкото и грешния отговор. Ако пускате автономни агенти някъде близо до продукция, това е дисциплината, която си струва да заемете.
Искате да обсъдим как това се отнася до Вашия бизнес? Запазете безплатен разговор.
Готови ли сте за AI?
Помагаме на компании да идентифицират, проектират и внедряват AI решения, които реално работят. Запишете безплатна консултация.
Запазете безплатен разговор →Свързани статии
Всички статии →AI чатбот за e-commerce поддръжка: какво да автоматизирате първо
Практична рамка за онлайн магазини: какво AI чатбот трябва да поеме първо — повтарящи се въпроси, продуктово ориентиране, политики и предаване към човек.
AI сигурността вече е въпрос при покупка
Mythos Preview на Anthropic и инцидент с инструменти на OpenAI сочат към едно: при избора на AI бизнесът трябва да оценява права, интеграции и риск — не само модела.
Защо местното студио за разработка е по-добро от фрилансер
Фрилансерите са евтини. Агенциите са скъпи. Бутиковите студия предлагат нещо по-добро: старши опит, пряка отговорност и без аутсорсинг.