Co opowiedziałam w Testing Station: human-in-the-loop, golden set i numer telefonu zaufania

Byłam gościnią otwierającą trzeci sezon podcastu Testing Station prowadzonego przez Arkadiusza Jelonka. Rozmawialiśmy o testowaniu asystenta AI w aplikacji InPost i o tym, jak naprawdę wygląda jakość w produktach opartych na LLM-ach.

Jeśli wolisz słuchać niż czytać — cały odcinek znajdziesz na dole.

LLM → LLM → człowiek

Najczęstszy obrazek z prezentacji o LLM-as-a-judge (model oceniający odpowiedź innego modelu): wygląda jak pełna automatyzacja. Nie jest.

W praktyce robi się z tego trójkąt: LLM produkuje, drugi LLM ocenia (fidelity, accuracy, scoring rubrics), a człowiek bierze na warsztat to, co wyszło najgorzej. Z dwóch tysięcy ocen wpada do mnie Excel z dwustu rekordami o najniższych wskaźnikach. Siadam i sprawdzam.

W odcinku padł taki przykład. Użytkownik prosi asystenta o iPhone’a 18 Pro w sklepie. Asystent odpowiada uprzejmie i szczegółowo. Tyle że w maju 2026 taki iPhone jeszcze nie istnieje. To halucynacja — ale żeby ją wyłapać, musiałam otworzyć przeglądarkę i sprawdzić ręcznie. Stąd „human in the loop”: nie hasło ze slajdu, tylko ja, Excel i Google.

Więcej o tym, co znaczy ocenianie odpowiedzi modelu, piszę w Evals: co właściwie oceniamy?.

Guardrails to nie tylko bomba

Guardrails (po polsku: barierki ochronne) najłatwiej pokazać na klasycznym przykładzie: jak zrobić bombę z rzeczy z marketu budowlanego. Asystent bez barierek pomoże. To wiemy.

W odcinku poszliśmy krok dalej. Co, jeśli ktoś napisze do asystenta zakupowego: źle się czuję, to wszystko nie ma sensu? LLM nie ma kręgosłupa moralnego. Bez świadomej decyzji projektowej będzie pomocny dokładnie tam, gdzie nie powinien być.

Zdecydowaliśmy, że w takich sytuacjach asystent ma podać numer telefonu zaufania — w Polsce to 116 123 (kryzys emocjonalny dorosłych) albo 116 111 (telefon zaufania dla dzieci i młodzieży). Taka odpowiedź nie sprzedaje się na demo. Po prostu musi tam być, zanim wpuścisz LLM do produktu używanego przez miliony ludzi.

Mówiliśmy też o czymś, co wygląda na przesądzone: agenci, którzy w razie wykrycia poważnego zagrożenia eskalują sprawę do służb. Dla QA to nowy obszar testów — nie tylko czy model odpowiada poprawnie, ale czy uruchamia właściwą ścieżkę alarmową.

Pełny rozbiór tematu: Guardrails i Safety: kto wyznacza granice moralne Twojemu LLM-owi?.

Golden Set: oceniamy jak, nie co

Już nie oceniamy co LLM odpowie, tylko jak odpowie.

Klasyczny test automatyczny pyta: czy odpowiedź jest taka, jakiej oczekujemy? Dla LLM to za mało. Model za każdym razem może odpowiedzieć inaczej i wciąż mieć rację.

Stąd Golden Set — zestaw wzorcowych par prompt–odpowiedź plus rubryki, według których oceniamy każdą nową odpowiedź modelu. Trzyma ton. Trzyma tematy, w które model nie wchodzi. Trzyma fakty, których nie wolno przekręcić.

To inne podejście niż klasyczne asercje i wymaga innego warsztatu.

O konstrukcji Golden Setu i o tym, jak go utrzymać, piszę w Golden Set: fundament wiarygodnych testów LLM.

Czy AI zastąpi QA?

Najczęstsze pytanie i moja najkrótsza odpowiedź: nie, jeszcze nie.

Eksploracyjne podejście testera – to, które szuka tego, czego nikt nie zapisał w wymaganiach – wciąż wygrywa z modelem. Model robi to, co już widział. Tester robi to, czego jeszcze nikt nie zrobił.

Ale za rok, dwa? Zobaczymy. Osoby, które używają tych narzędzi i się ich nie boją, nie muszą bać się o swoją pracę. Reszta ma realny problem.

Cały odcinek

Wolisz audio? Spotify · Apple Podcasts.

Co warto zabrać

Human-in-the-loop to Excel z dwustu rekordami, nie hasło ze slajdu.
Guardrails to decyzje produktowe — 116 123 to pierwszy krok, nie ostatni.
Oceniaj jak, nie co.
Eksploracyjny tester wciąż wygrywa z modelem, bo szuka tego, czego nikt nie zapisał w wymaganiach.

Miej oko na nowości z LLM i QA! 🚀

Praktycznie o testowaniu, procesach QA i nowoczesnej strategii jakości. Bez lania wody – dla testerów i liderów, którzy chcą „umieć w jakość”.

Dołączając, zgadzasz się na otrzymywanie newsów ode mnie. Możesz się wypisać w każdej chwili.