Co opowiedziałam w Testing Station: human-in-the-loop, golden set i numer telefonu zaufania
Byłam gościnią otwierającą trzeci sezon podcastu Testing Station prowadzonego przez Arkadiusza Jelonka. Rozmawialiśmy o testowaniu asystenta AI w aplikacji InPost i o tym, jak naprawdę wygląda jakość w produktach opartych na LLM-ach.
Jeśli wolisz słuchać niż czytać — cały odcinek znajdziesz na dole.
LLM → LLM → człowiek
Najczęstszy obrazek z prezentacji o LLM-as-a-judge (model oceniający odpowiedź innego modelu): wygląda jak pełna automatyzacja. Nie jest.
W praktyce robi się z tego trójkąt: LLM produkuje, drugi LLM ocenia (fidelity, accuracy, scoring rubrics), a człowiek bierze na warsztat to, co wyszło najgorzej. Z dwóch tysięcy ocen wpada do mnie Excel z dwustu rekordami o najniższych wskaźnikach. Siadam i sprawdzam.
W odcinku padł taki przykład. Użytkownik prosi asystenta o iPhone’a 18 Pro w sklepie. Asystent odpowiada uprzejmie i szczegółowo. Tyle że w maju 2026 taki iPhone jeszcze nie istnieje. To halucynacja — ale żeby ją wyłapać, musiałam otworzyć przeglądarkę i sprawdzić ręcznie. Stąd „human in the loop”: nie hasło ze slajdu, tylko ja, Excel i Google.
Więcej o tym, co znaczy ocenianie odpowiedzi modelu, piszę w Evals: co właściwie oceniamy?.
Guardrails to nie tylko bomba
Guardrails (po polsku: barierki ochronne) najłatwiej pokazać na klasycznym przykładzie: jak zrobić bombę z rzeczy z marketu budowlanego. Asystent bez barierek pomoże. To wiemy.
W odcinku poszliśmy krok dalej. Co, jeśli ktoś napisze do asystenta zakupowego: źle się czuję, to wszystko nie ma sensu? LLM nie ma kręgosłupa moralnego. Bez świadomej decyzji projektowej będzie pomocny dokładnie tam, gdzie nie powinien być.
Zdecydowaliśmy, że w takich sytuacjach asystent ma podać numer telefonu zaufania — w Polsce to 116 123 (kryzys emocjonalny dorosłych) albo 116 111 (telefon zaufania dla dzieci i młodzieży). Taka odpowiedź nie sprzedaje się na demo. Po prostu musi tam być, zanim wpuścisz LLM do produktu używanego przez miliony ludzi.
Mówiliśmy też o czymś, co wygląda na przesądzone: agenci, którzy w razie wykrycia poważnego zagrożenia eskalują sprawę do służb. Dla QA to nowy obszar testów — nie tylko czy model odpowiada poprawnie, ale czy uruchamia właściwą ścieżkę alarmową.
Pełny rozbiór tematu: Guardrails i Safety: kto wyznacza granice moralne Twojemu LLM-owi?.
Golden Set: oceniamy jak, nie co
Już nie oceniamy co LLM odpowie, tylko jak odpowie.
Klasyczny test automatyczny pyta: czy odpowiedź jest taka, jakiej oczekujemy? Dla LLM to za mało. Model za każdym razem może odpowiedzieć inaczej i wciąż mieć rację.
Stąd Golden Set — zestaw wzorcowych par prompt–odpowiedź plus rubryki, według których oceniamy każdą nową odpowiedź modelu. Trzyma ton. Trzyma tematy, w które model nie wchodzi. Trzyma fakty, których nie wolno przekręcić.
To inne podejście niż klasyczne asercje i wymaga innego warsztatu.
O konstrukcji Golden Setu i o tym, jak go utrzymać, piszę w Golden Set: fundament wiarygodnych testów LLM.
Czy AI zastąpi QA?
Najczęstsze pytanie i moja najkrótsza odpowiedź: nie, jeszcze nie.
Eksploracyjne podejście testera – to, które szuka tego, czego nikt nie zapisał w wymaganiach – wciąż wygrywa z modelem. Model robi to, co już widział. Tester robi to, czego jeszcze nikt nie zrobił.
Ale za rok, dwa? Zobaczymy. Osoby, które używają tych narzędzi i się ich nie boją, nie muszą bać się o swoją pracę. Reszta ma realny problem.
Cały odcinek
Wolisz audio? Spotify · Apple Podcasts.
Co warto zabrać
- Human-in-the-loop to Excel z dwustu rekordami, nie hasło ze slajdu.
- Guardrails to decyzje produktowe — 116 123 to pierwszy krok, nie ostatni.
- Oceniaj jak, nie co.
- Eksploracyjny tester wciąż wygrywa z modelem, bo szuka tego, czego nikt nie zapisał w wymaganiach.
Miej oko na nowości z LLM i QA! 🚀
Praktycznie o testowaniu, procesach QA i nowoczesnej strategii jakości. Bez lania wody – dla testerów i liderów, którzy chcą „umieć w jakość”.
Dołączając, zgadzasz się na otrzymywanie newsów ode mnie. Możesz się wypisać w każdej chwili.