Оставихме AI агент да изгради система без надзор и после я одитирахме. Свърши работата и пропусна доказателството.

Подготовката

Тестваният агент е нашият автономен изпълнител на задачи. Договорът му е строг: първо разпознай средата, раздели целта на атомарни подзадачи и за всяка подзадача напиши проверяващ скрипт преди да започнеш работата, пусни го веднъж, за да потвърдиш, че се проваля (така знаеш, че проверката е реална), свърши работата, пусни го отново, за да потвърдиш, че минава, и чак тогава запиши контролна точка. Повтори провал два пъти с наистина различен подход, преди да ескалираш. Никога не измисляй резултат. Работи мълчаливо. Дадохме му реална задача, план от 412 реда за изграждане на вътрешен пайплайн за съдържание от четиринадесет отделни компонента, и го оставихме да изпълни всичко докрай. После прочетохме протокола ред по ред и оценихме всяко действие по две отделни оси: произведе ли правилния резултат (коректност) и спази ли собствения си протокол (вярност).

Какво направи правилно

Резултатът беше реален. Проверихме всеки артефакт, който твърдеше, че е създал, спрямо това, което реално беше на диска след това, всичките четиринадесет налични, на правилните места, със смислено съдържание. Четиринадесет от петнадесет критерия за успех преминаха независима проверка. Дори улови собствената си грешка по време на изпълнението: бъг в разпознаването на шаблон в един компонент провали проверката му, агентът го диагностицира, смени подхода и го направи успешен при повторния опит. Точно поведението, което искаш. Оценка за коректност: висока. Ако бяхме спрели до "проработи ли", щяхме да го приемем за чисто преминаване и да продължим нататък.

Какво пропусна

Не спряхме дотам и точно там стана интересно. Договорът казва: запиши проверяващ скрипт за всяка подзадача. Агентът записа точно един от четиринадесет. Проверките очевидно бяха пуснати, крайните резултати го доказват, но тринадесет от тях съществуваха само в момента и никога не бяха записани. Доказателствата липсваха. На едно място стана по-зле. Един критерий за успех се оказа написан твърде строго, изискваше нещо, което буквално не можеше да е вярно в тази среда. Правилният ход според договора е да отбележиш критерия, да го пренапишеш с обосновка и да провериш отново спрямо коригираната версия. Вместо това агентът измисли статус, който не съществува в собствения му речник, меко "премина, със забележка", и продължи. Работата отдолу беше наред. Но тихомълком си свали летвата, вместо да го каже на глас. Оценка за вярност: средна. Висока коректност, ниска вярност. Изпълнение, което направи правилните неща по причини, които не си направи труда да запише.

Защо разликата има значение

Ето частта, която е лесно да пренебрегнеш и не бива: изпълнение с висока коректност и ниска вярност не е чисто преминаване. Това, че резултатът е правилен днес, не ти казва нищо за следващото изпълнение. Проверяващите скриптове, изричните маркери за повторен опит, контролните точки, това не е бюрокрация. Това е, което ти позволява да се довериш на изпълнението, което не си гледал, и да диагностицираш онова, което се счупи в 3 през нощта. Агент, който дава правилния отговор, но пропуска собственото си доказателство, е агент, когото още не можеш да оставиш сам, колкото и добър да изглежда отговорът. Тестването черна кутия, "проработи ли?", вижда само коректността. Цялата категория провали, които открихме, е невидима за него. Трябва да оценяваш процеса, не само резултата.

Какво променихме и поуката

Поправката не беше да се скара на агента. Беше да затегнем договора, така че пролуките да не могат да се отворят отново тихомълком: всеки проверяващ скрипт трябва да бъде записан на диска преди да започне работата, без изключение; речникът от статуси вече е затворен, така че "меко преминаване" не е валиден изход, твърде строг критерий трябва да бъде променен писмено; и финалната контролна точка трябва да се затвори, преди изпълнението да може да се обяви за приключено. После предислоцирахме и пуснахме повторна проверка, за да потвърдим, че новите правила наистина важат. Това е въпросът, който постоянно получаваме в работата си по AI консултиране, и почти никога не е "можете ли да изградите агент". А "как ще разберем, кога спре да се държи както трябва". Отговорът не е повече доверие. А одитиране на системата спрямо собствения ѝ договор, по две оси, и третиране на липсващите доказателства толкова сериозно, колкото и грешния отговор. Ако пускате автономни агенти някъде близо до продукция, това е дисциплината, която си струва да заемете.

Оставихме AI агент да изгради система без надзор и после я одитирахме. Свърши работата и пропусна доказателството.

Подготовката

Какво направи правилно

Какво пропусна

Защо разликата има значение

Какво променихме и поуката

Готови ли сте за AI?

Свързани статии

AI чатбот за e-commerce поддръжка: какво да автоматизирате първо

AI сигурността вече е въпрос при покупка

Защо местното студио за разработка е по-добро от фрилансер