ISO/IEC 42119-2:2025 – Testowanie systemów AI
ISO/IEC 42119-2:2025 to międzynarodowy standard testowania systemów sztucznej inteligencji. Poznaj praktyczne podejścia do weryfikacji AI i dowiedz się, jak zapewnić jakość systemów AI w Twojej organizacji.
Wprowadzenie do testowania systemów AI
ISO/IEC TS 42119-2:2025 to specyfikacja techniczna określająca wymagania i wytyczne dotyczące testowania systemów AI. Norma została opublikowana w listopadzie 2025 roku jako część szerszej rodziny standardów ISO/IEC 42119, w odpowiedzi na rosnące zapotrzebowanie na ustandaryzowane metody weryfikacji i walidacji sztucznej inteligencji.
Dokument ten wyjaśnia, jak stosować sprawdzone standardy testowania oprogramowania z serii ISO/IEC/IEEE 29119 w kontekście specyficznych wyzwań systemów AI. Skierowany jest do menedżerów projektów AI, testerów, audytorów oraz zespołów odpowiedzialnych za zapewnienie jakości systemów wykorzystujących uczenie maszynowe, sieci neuronowe i inne technologie AI.
Jeśli Twoja organizacja wdraża lub planuje certyfikację systemów AI, zobacz również naszą usługę:
Kluczowe elementy standardu testowania AI
Podejście oparte na ryzyku
ISO/IEC 42119-2:2025 przyjmuje podejście oparte na ryzyku (Risk-Based Testing), które stanowi fundament całej metodologii testowania systemów AI. Standard wymaga identyfikacji potencjalnych ryzyk związanych z systemem AI na różnych poziomach: dane treningowe, model AI, procesy rozwojowe, dane wejściowe i wyjściowe oraz decyzje wspierane przez system.
Ryzyko w kontekście systemów AI obejmuje zarówno prawdopodobieństwo wystąpienia negatywnego zdarzenia, jak i jego potencjalną dotkliwość. Identyfikacja ryzyk może odbywać się poprzez analizę funkcjonalności systemu, elementów ekosystemu AI oraz list kontrolnych opartych na charakterystykach jakości zdefiniowanych w ISO/IEC 25010 i ISO/IEC 25059.
Cykl życia systemu AI i procesy testowe
Standard definiuje, jak procesy testowe integrują się z cyklem życia systemu AI. Testowanie występuje na wszystkich etapach: od planowania i projektowania, przez rozwój i wdrożenie, aż po eksploatację i monitoring. Norma wyróżnia trzy poziomy procesów testowych zgodnie z ISO/IEC/IEEE 29119-2:
Procesy na poziomie organizacyjnym definiują polityki i praktyki testowe stosowane w całej organizacji. Procesy na poziomie zarządzania testami obejmują planowanie strategii testowej, zarządzanie zasobami testowymi i raportowanie postępów. Procesy na poziomie testowania dynamicznego dotyczą projektowania, implementacji i wykonywania testów.
Poziomy testowania specyficzne dla AI
Norma wprowadza dwa dodatkowe poziomy testowania specyficzne dla systemów AI, które występują między testowaniem jednostkowym a testowaniem integracyjnym:
Testowanie jakości danych koncentruje się na danych używanych do treningu modelu, wykorzystując zakres typów testów jakości danych opisanych w normie. Ten poziom testowania redukuje ryzyko wytworzenia słabej jakości modelu wynikającego z niedoskonałych danych treningowych.
Testowanie modelu skupia się bezpośrednio na modelu AI jako przedmiocie testów, używając specjalistycznych typów testów modeli AI do weryfikacji, czy model działa akceptowalnie w zamierzonym kontekście użycia. Ten poziom testowania typowo adresuje ryzyka związane z poprawnością funkcjonalną modelu, bias oraz innymi charakterystykami jakości specyficznymi dla AI.
Dokumentacja testowa
Standard wymaga, aby dokumentacja testowania systemów AI była tworzona zgodnie z ISO/IEC/IEEE 29119-3. Dokumentacja testowa powstaje jako rezultat wykonywania procesów testowych i może być kierowana do różnych interesariuszy lub innych procesów. Norma zachowuje pełną elastyczność – nie wymaga określonej nomenklatury czy konkretnych dokumentów, a informacje mogą być przechowywane w formie elektronicznej, w narzędziach testowych, arkuszach kalkulacyjnych czy innych formach.
Typy testów dla systemów AI
Typy testów jakości danych
Standard definiuje szereg specjalistycznych typów testów jakości danych, które są kluczowe dla systemów AI. Testowanie governance danych koncentruje się na politykach zarządzania danymi i może wykorzystywać techniki statyczne (przeglądy) do określenia, czy organizacyjne lub projektowe polityki, standardy, zasady lub regulacje zostały naruszone. Szczególną uwagę należy zwrócić na prywatność danych, ochronę danych osobowych, tajemnice handlowe i prawa własności intelektualnej.
Testowanie pochodzenia danych (data provenance testing) określa, czy źródła dostarczające dane do zbiorów danych są godne zaufania, dobrze zarządzane i czy kanały komunikacji danych są bezpieczne. Ten typ testowania obejmuje identyfikację problemów ze zbiorem danych wynikających z zatrucia danych oraz wycieku danych treningowych do danych testowych.
Testowanie reprezentatywności danych dotyczy określenia, czy zbiory danych używane do treningu, walidacji i testowania są uczciwymi reprezentacjami danych, które operacyjny model AI będzie napotykać. Można to realizować poprzez porównywanie charakterystyk statystycznych zbiorów treningowych i testowych z danymi produkcyjnymi, wykorzystanie ekspertów domenowych do przeglądu zbiorów danych, czy testowanie procedur zbierania danych pod kątem potencjalnych odchyleń.
Testowanie wystarczalności danych koncentruje się na określeniu, czy wystarczająca ilość danych jest używana do treningu, walidacji i testowania. Obejmuje to przegląd zbioru danych pod kątem zbalansowania klas docelowych oraz wykorzystanie eksploracyjnej analizy danych z ekspertami do identyfikacji regionów przestrzeni wejściowej, które nie są pokryte przez żadne próbki.
Specjalistyczne typy testów modeli AI
Testowanie wydajności modelu służy do pomiaru wydajności modelu AI (np. dokładności) względem określonych kryteriów akceptacji. Dla modeli klasyfikacyjnych kryteria akceptacji są typowo definiowane przy użyciu miar wydajności modelu, takich jak dokładność, recall, precision czy F2 score. Norma ISO/IEC TS 4213 dostarcza szczegółów dotyczących metryk, które mogą stanowić podstawę testowania wydajności modelu.
Testowanie przeciwdziałające (adversarial testing) typowo koncentruje się na modelach uczenia maszynowego i polega na perturbacji danych wejściowych do modelu w celu identyfikacji przykładów przeciwdziałających – specyficznych danych wejściowych, które nie są obsługiwane zgodnie z oczekiwaniami przez model. Identyfikowane przykłady przeciwdziałające reprezentują podatności w modelu, które następnie mogą być zabezpieczone, poprawiając tym samym odporność lub bezpieczeństwo modelu.
Testowanie dryfu (drift testing) jest formą testowania regresyjnego skupioną na pomiarze metryk wydajności modelu operacyjnego w celu identyfikacji, czy dryf koncepcyjny przekroczył wartość progową. Ma to zastosowanie, gdy istnieje możliwość, że model operacyjny dryfował w czasie ze względu na zmieniające się środowisko operacyjne lub gdy wdrożona jest zaktualizowana wersja modelu.
Testowanie wyjaśnialności modelu AI ma na celu potwierdzenie, czy czynniki wpływające na wynik modelu AI mogą być wyrażone w sposób, który ludzie mogą interpretować i który jest zgodny z ludzkimi procesami podejmowania decyzji. Większe, bardziej złożone modele są typowo bardziej wymagające do interpretacji. Różne podejścia mogą być używane w testowaniu wyjaśnialności, w tym obserwacja wpływu perturbacji wartości cech modelu, wizualizacja aktywacji neuronów czy ekstrakcja reguł poprzez tłumaczenie złożonych zachowań modelu na prostsze formy symboliczne.
Testowanie niechcianych odchyleń (bias)
Testowanie niechcianych odchyleń dotyczy sprawdzenia, czy zbiory danych nie zawierają niepożądanego bias. Testowanie statyczne w formie przeglądów może być wykonywane na zbiorze danych treningowych, najlepiej przez ekspertów domenowych. Przeglądy te mogą sprawdzać zbiór danych w celu identyfikacji cech mogących prowadzić do bias oraz pomóc zapewnić, że chronione cechy są używane poprawnie, że chronione cechy mają równą reprezentację i że historycznie niesprawiedliwe zbiory danych nie są używane bez zmian.
Testowanie sprawiedliwości kontrfaktycznej (counterfactual fairness testing) jest podejściem używanym do określenia obecności niechcianego bias poprzez przeprowadzanie testowania dynamicznego modelu dla zidentyfikowanych podzbiorów użytkowników zagrożonych (np. sprawdzanie wyniku gdy zmienia się rasa osoby). Wyniki dla każdej z tych grup są następnie porównywane w celu określenia, czy którakolwiek z grup zagrożonych jest traktowana inaczej przez model.
Techniki projektowania testów i miary pokrycia
Klasyczne techniki projektowania testów
Standard odwołuje się do standardowych technik projektowania testów zdefiniowanych szczegółowo w ISO/IEC/IEEE 29119-4, które są w pełni aplikowalne do testowania systemów AI. Techniki oparte na specyfikacji obejmują partycjonowanie równoważności, analizę wartości brzegowych, testowanie kombinatoryczne, testowanie tablic decyzyjnych, testowanie przejść stanów czy testowanie losowe. Techniki oparte na strukturze obejmują testowanie instrukcji, testowanie gałęzi, testowanie przepływu danych czy pokrycie zmodyfikowanych warunków/decyzji (MCDC).
W kontekście systemów AI szczególne znaczenie ma testowanie losowe, gdzie model testowy jest oparty na modelu rozkładu danych wejściowych (np. rozkład normalny, równomierny lub oparty na wybranym profilu operacyjnym), a przypadki testowe są losowo wybierane z tej dziedziny wejściowej zgodnie z wybranym rozkładem wejściowym.
Specjalistyczne miary pokrycia dla sieci neuronowych
Norma definiuje specjalistyczne miary pokrycia testów dla sieci neuronowych, które w niektórych przypadkach mogą być użyteczne w kontekście ustalania kryteriów zakończenia testów. Pokrycie neuronów dla zestawu testów jest definiowane jako proporcja aktywowanych neuronów podzielona przez całkowitą liczbę neuronów w sieci neuronowej. Neuron jest uważany za aktywowany, jeśli jego wartość aktywacji przekracza zero.
Pokrycie progowe dla zestawu testów jest definiowane jako proporcja neuronów przekraczających progową wartość aktywacji podzielona przez całkowitą liczbę neuronów w sieci neuronowej. Pokrycie zmiany znaku dla zestawu testów jest definiowane jako proporcja neuronów aktywowanych zarówno z pozytywnymi jak i negatywnymi wartościami aktywacji podzielona przez całkowitą liczbę neuronów w sieci neuronowej.
Szczególnie interesującym podejściem jest pokrycie znak-znak (sign-sign coverage), które jest osiągane, jeśli każdy neuron poprzez zmianę znaku może być wykazany jako indywidualnie powodujący zmianę znaku jednego neuronu w następnej warstwie, podczas gdy wszystkie inne neurony w następnej warstwie pozostają takie same. W koncepcji, ten poziom pokrycia neuronów jest podobny do pokrycia zmodyfikowanych warunków/decyzji (MCDC).
Korzyści ze stosowania ISO/IEC 42119-2:2025
Systematyczne zarządzanie ryzykiem w projektach AI
Wdrożenie standardu ISO/IEC 42119-2:2025 wprowadza systematyczne podejście do zarządzania ryzykiem w projektach AI, co bezpośrednio przekłada się na wyższą jakość dostarczanych systemów. Organizacje zyskują ustrukturyzowaną metodologię identyfikacji i traktowania ryzyk specyficznych dla AI – od ryzyk związanych z jakością danych treningowych, przez poprawność funkcjonalną modelu, po kwestie bias i drift modelu w środowisku produkcyjnym.
Podejście oparte na ryzyku pozwala na efektywną alokację zasobów testowych do obszarów o najwyższym ryzyku, co zwiększa efektywność kosztową projektów testowych. Zamiast równomiernego rozkładu wysiłku testowego, zespoły koncentrują się na krytycznych aspektach systemu AI, które mają największy potencjalny wpływ na organizację i użytkowników końcowych.
Zwiększenie zaufania interesariuszy
Stosowanie międzynarodowego standardu testowania AI buduje zaufanie zarówno wewnętrznych jak i zewnętrznych interesariuszy. Klienci, użytkownicy końcowi i regulatory otrzymują obiektywne dowody, że system AI został poddany rygorystycznemu testowaniu zgodnie z uznanymi międzynarodowo praktykami. To szczególnie istotne w kontekście rosnących wymagań regulacyjnych dotyczących AI, takich jak AI Act w Unii Europejskiej.
Standard dostarcza wspólnego języka i ram referencyjnych dla komunikacji między różnymi zespołami zaangażowanymi w rozwój systemu AI – od data scientists, przez testerów, po menedżerów projektu i stakeholderów biznesowych. Ta spójna terminologia i metodologia redukuje ryzyko nieporozumień i poprawia współpracę międzyfunkcyjną.
Zgodność z szerszym ekosystemem norm ISO dla AI
ISO/IEC 42119-2:2025 jest częścią szerszej rodziny standardów ISO dla sztucznej inteligencji, co ułatwia organizacjom budowanie kompleksowego systemu zarządzania AI. Standard harmonizuje z ISO/IEC 22989 (terminologia AI), ISO/IEC 23894 (zarządzanie ryzykiem AI), ISO/IEC 25059 (model jakości AI), ISO/IEC 42001 (system zarządzania AI) oraz innymi kluczowymi normami.
Ta integracja pozwala organizacjom wdrażającym ISO/IEC 42001 na sprawne włączenie wymagań testowych do szerszego systemu zarządzania AI. Dla organizacji już posiadających certyfikację systemów zarządzania jakością (ISO 9001) czy bezpieczeństwem informacji (ISO 27001), standard dostarcza naturalnego rozszerzenia istniejących procesów testowych o specyfikę systemów AI.
Proces wdrożenia standardu testowania AI
Analiza wstępna i identyfikacja ryzyk
Proces wdrożenia ISO/IEC 42119-2:2025 rozpoczyna się od szczegółowej analizy wstępnej, która obejmuje identyfikację wszystkich systemów AI w organizacji oraz ich klasyfikację według poziomu ryzyka. Zespół wdrożeniowy, typowo składający się z przedstawicieli zespołów AI, QA, zarządzania ryzykiem oraz compliance, przeprowadza mapowanie istniejących procesów testowych względem wymagań standardu.
Kluczowym elementem tej fazy jest przeprowadzenie kompleksowej identyfikacji ryzyk dla każdego systemu AI. Wykorzystując funkcjonalny widok systemu AI i warstwową architekturę ekosystemu AI zdefiniowane w normie, zespół identyfikuje potencjalne ryzyka na poziomie danych, modelu, procesów rozwojowych, danych wejściowych i wyjściowych. Dla każdego zidentyfikowanego ryzyka określane jest prawdopodobieństwo wystąpienia i potencjalna dotkliwość, co pozwala na ustalenie poziomu ekspozycji na ryzyko.
Projektowanie strategii testowej
Na podstawie zidentyfikowanych ryzyk projektowana jest strategia testowa zgodna z procesami TP3-TP6 zdefiniowanymi w ISO/IEC/IEEE 29119-2. Strategia testowa określa, które podejścia testowe będą stosowane jako traktowanie poszczególnych ryzyk. Dla każdego ryzyka decydowane jest, czy będzie traktowane poprzez testowanie statyczne (przeglądy, analiza statyczna), testowanie dynamiczne, czy kombinację obu podejść.
Strategia testowa definiuje również, które specjalistyczne typy testów AI będą stosowane: testowanie jakości danych, testowanie wydajności modelu, testowanie przeciwdziałające, testowanie bias, testowanie dryfu czy testowanie wyjaśnialności. Dla każdego typu testu określane są odpowiednie techniki projektowania testów i miary pokrycia, które będą służyć jako kryteria wyjścia z testowania.
Implementacja procesów i dokumentacji testowej
Faza implementacji obejmuje dostosowanie lub utworzenie procesów testowych na trzech poziomach zdefiniowanych w normie: organizacyjnym, zarządzania testami i testowania dynamicznego. Na poziomie organizacyjnym definiowane są polityki testowe i praktyki testowe stosowane w całej organizacji dla projektów AI. Obejmuje to określenie ról i odpowiedzialności, standardów dokumentacji testowej oraz narzędzi i środowisk testowych.
Implementowana jest dokumentacja testowa zgodna z ISO/IEC/IEEE 29119-3, dostosowana do specyfiki testowania systemów AI. Standard jest bardzo elastyczny w zakresie formy dokumentacji – organizacja może wykorzystywać elektroniczne repozytorium testów, narzędzia zarządzania testami, czy inne formy przechowywania informacji testowych, o ile spełniają one wymagania informacyjne standardu.
Szkolenie zespołów i audyt wewnętrzny
Kluczowym elementem wdrożenia jest przeszkolenie zespołów testowych w zakresie specjalistycznych technik testowania AI. Szkolenia obejmują zarówno teoretyczne podstawy testowania systemów AI, jak i praktyczne warsztaty z projektowania testów jakości danych, testowania wydajności modeli, testowania bias czy stosowania miar pokrycia dla sieci neuronowych.
Po wdrożeniu procesów i przeprowadzeniu pierwszych cykli testowych zgodnie z nowym standardem, przeprowadzany jest audyt wewnętrzny weryfikujący zgodność z wymaganiami ISO/IEC 42119-2:2025. Audyt identyfikuje obszary wymagające dopracowania i dostarcza rekomendacji do doskonalenia procesów testowych. Typowy czas pełnego wdrożenia standardu testowania AI wynosi 6-12 miesięcy, w zależności od wielkości organizacji, liczby systemów AI i dojrzałości istniejących procesów testowych.
Podsumowanie
ISO/IEC TS 42119-2:2025 stanowi przełomowe narzędzie dla organizacji rozwijających i wdrażających systemy sztucznej inteligencji, dostarczając ustandaryzowaną metodologię testowania opartą na sprawdzonych praktykach inżynierii oprogramowania, dostosowaną do specyficznych wyzwań AI. Standard wprowadza systematyczne podejście oparte na ryzyku, które pozwala na efektywne zarządzanie jakością systemów AI od fazy projektowania po eksploatację produkcyjną.
Wdrożenie tego standardu nie tylko zwiększa jakość techniczną systemów AI, ale również buduje zaufanie interesariuszy i wspiera zgodność z rosnącymi wymaganiami regulacyjnymi w obszarze sztucznej inteligencji.
FAQ: Testowanie systemówe Ai
Q1: Czym jest ISO/IEC 42119-2:2025?
ISO/IEC TS 42119-2:2025 to międzynarodowa specyfikacja techniczna definiująca wymagania i wytyczne dotyczące testowania systemów sztucznej inteligencji. Norma wyjaśnia, jak stosować sprawdzone standardy testowania oprogramowania z serii ISO/IEC/IEEE 29119 w kontekście specyficznych wyzwań systemów AI, takich jak testowanie jakości danych, wydajności modeli, bias czy dryfu modelu.
Q2: Kto powinien stosować ISO/IEC 42119-2:2025?
Standard jest przeznaczony dla organizacji rozwijających, wdrażających lub eksploatujących systemy AI, szczególnie zespołów testowych, menedżerów jakości, data scientists, audytorów oraz zespołów odpowiedzialnych za zarządzanie ryzykiem AI. Jest szczególnie istotny dla organizacji w sektorach regulowanych lub tych wdrażających systemy AI wysokiego ryzyka.
Q3: Jakie są główne typy testów specyficzne dla AI według standardu?
Standard definiuje dwie główne kategorie specjalistycznych testów AI. Po pierwsze, testy jakości danych obejmujące testowanie governance danych, pochodzenia danych, reprezentatywności, wystarczalności, poprawności etykiet i niechcianych odchyleń (bias). Po drugie, testy modeli AI obejmujące testowanie wydajności modelu, testowanie przeciwdziałające (adversarial testing), testowanie dryfu, przegląd dokumentacji modelu oraz testowanie wyjaśnialności modelu.
Q4: Jak długo trwa wdrożenie ISO/IEC 42119-2:2025?
Typowy czas wdrożenia standardu testowania AI wynosi 6-12 miesięcy i zależy od wielkości organizacji, liczby systemów AI w portfolio, dojrzałości istniejących procesów testowych oraz dostępności zasobów. Mniejsze organizacje z ograniczoną liczbą systemów AI mogą wdrożyć standard w 4-6 miesięcy, podczas gdy duże organizacje z kompleksowymi systemami AI mogą potrzebować 12-18 miesięcy.
Q5: Jaka jest relacja między ISO/IEC 42119-2:2025 a ISO/IEC 42001?
A: ISO/IEC 42119-2:2025 dostarcza szczegółowych wytycznych technicznych dotyczących testowania systemów AI, które wspierają wdrożenie wymagań systemu zarządzania AI zdefiniowanych w ISO/IEC 42001. Organizacje wdrażające ISO/IEC 42001 mogą wykorzystać ISO/IEC 42119-2 jako praktyczny przewodnik do spełnienia wymagań dotyczących weryfikacji i walidacji systemów AI. Oba standardy są komplementarne i wzajemnie się wspierają.
Q6: Czy ISO/IEC 42119-2:2025 jest obowiązkowa?
ISO/IEC 42119-2:2025 jest dobrowolną specyfikacją techniczną. Jednak w kontekście rosnących wymagań regulacyjnych, takich jak AI Act w Unii Europejskiej, stosowanie uznanych międzynarodowych standardów testowania AI staje się de facto wymogiem dla wykazania due diligence i zgodności z obowiązkami prawnymi. Niektóre sektory regulowane mogą wymagać stosowania tego standardu jako część procesu certyfikacji lub licencjonowania.
Q7: Jakie miary pokrycia testów są specyficzne dla sieci neuronowych?
Standard definiuje kilka specjalistycznych miar pokrycia dla sieci neuronowych. Pokrycie neuronów mierzy proporcję aktywowanych neuronów. Pokrycie progowe uwzględnia neurony przekraczające określoną wartość aktywacji. Pokrycie zmiany znaku sprawdza aktywację neuronów zarówno z wartościami pozytywnymi jak i negatywnymi. Pokrycie znak-znak, podobne do MCDC, weryfikuje, czy zmiana znaku pojedynczego neuronu powoduje zmianę znaku dokładnie jednego neuronu w następnej warstwie.
Bibliografia:
Oficjalne dokumenty:
- ISO/IEC TS 42119-2:2025 Artificial intelligence — Testing of AI — Part 2: Overview of testing AI systems, ISO.org, 2025, https://www.iso.org/standard/44920.html
- ISO/IEC/IEEE 29119-1:2022 Software and systems engineering — Software testing — Part 1: General concepts, ISO.org, 2022, https://www.iso.org/standard/81291.html
- ISO/IEC/IEEE 29119-2:2021 Software and systems engineering — Software testing — Part 2: Test processes, ISO.org, 2021, https://www.iso.org/standard/72118.html
- ISO/IEC 22989:2022 Information technology — Artificial intelligence — Artificial intelligence concepts and terminology, ISO.org, 2022, https://www.iso.org/standard/74296.html
- ISO/IEC 25059:2023 Software engineering — Systems and software Quality Requirements and Evaluation (SQuaRE) — Quality model for AI systems, ISO.org, 2023, https://www.iso.org/standard/80655.html
Publikacje eksperckie:
- ISO/IEC 23894:2023 Information technology — Artificial intelligence — Guidance on risk management, ISO.org, 2023, https://www.iso.org/standard/77304.html
- ISO/IEC TS 4213 Information technology — Artificial intelligence — Assessment of machine learning classification performance, ISO.org, https://www.iso.org/standard/79799.html
- ISO/IEC TR 24027:2021 Information technology — Artificial intelligence — Bias in AI systems and AI aided decision making, ISO.org, 2021, https://www.iso.org/standard/77607.html
Dodatkowe materiały:
- ISO Survey of Management System Standard Certifications, ISO.org, 2024, https://www.iso.org/iso-survey.html
- European Commission, Assessment List for Trustworthy Artificial Intelligence (ALTAI), 2020, https://digital-strategy.ec.europa.eu/en/library/assessment-list-trustworthy-artificial-intelligence-altai-self-assessment
