Data Quality – rodzina norm
Na początku lipca br. ISO.org zaczęło wodować normy z zakresu AI dotyczące „Data Quality” wydawane w ramach rodzony ISO/IEC 5259. Obecnie wydano 3 pozycje, a do końca roku kolejne 2 z 3 planowanych. Dlaczego ten temat jest ważny?
Standardowy wymóg dotyczący jakości danych jest szczegółowo opisany w sekcji A.7.4 normy ISO/IEC 42001:2023. Sekcja ta nakazuje organizacji zdefiniowanie i udokumentowanie wymagań dotyczących jakości danych oraz zapewnienie, że dane używane do opracowywania i eksploatacji systemu AI spełniają te wymagania.
Obejmuje to:
- Definiowanie Wymagań Jakości Danych: Ustanowienie kryteriów, co stanowi wysokiej jakości dane w oparciu o specyficzny kontekst i zastosowanie systemu AI.
- Dokumentacja: Prowadzenie szczegółowej dokumentacji wymagań dotyczących jakości danych oraz procesów stosowanych do osiągnięcia i weryfikacji tych standardów.
- Zapewnienie Zgodności: Wdrożenie środków, które zapewnią, że wszystkie dane wykorzystywane w systemach AI spełniają zdefiniowane standardy jakości, w tym regularne monitorowanie i procesy walidacji.
Przegląd, Terminologia i Przykłady
Norma ISO/IEC 5259-1:2024 zatytułowana ” Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 1: Overview, terminology, and examples ” służy jako dokument podstawowy do zrozumienia jakości danych w kontekście analiz i uczenia maszynowego. Zapewnia ona kompleksowe ramy oceny i poprawy jakości danych używanych w projektach AI i ML. Kluczowe komponenty obejmują:
- Zakres i Terminologia: Definiuje zakres normy i ustanawia terminologię związaną z jakością danych w AI i ML.
- Normatywne Odniesienia: Zawiera wykaz dokumentów niezbędnych do stosowania niniejszej normy.
- Koncepcje Jakości Danych: Wprowadza podstawowe koncepcje jakości danych, podkreślając znaczenie jakości danych w osiąganiu niezawodnych wyników modeli ML.
- Zarządzanie Jakością Danych: Opisuje procesy zarządzania jakością danych, w tym zarządzanie jakością danych, pochodzenie danych oraz środki poprawy jakości danych.
- Cykl Życia Danych: Opisuje etapy cyklu życia danych dla analiz i ML, od wymagań dotyczących danych i ich pozyskiwania, po przygotowanie, udostępnianie i wycofywanie danych.
- Przykłady i Scenariusze: Przedstawia praktyczne przykłady i scenariusze ilustrujące zastosowanie zasad jakości danych w rzeczywistych kontekstach.
Norma ma na celu dostarczenie narzędzi i metod do poprawy jakości danych dla analiz i ML, zapewniając, że dane spełniają niezbędne wymagania dla różnych zastosowań i kontekstów.
Wymagania i wytyczne dotyczące zarządzania jakością danych
Norma ISO/IEC 5259-3:2024, zatytułowana ” Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 3: Data quality management requirements and guidelines,” zawiera kompleksowe wymagania i wytyczne dotyczące zarządzania jakością danych w kontekście analityki i uczenia maszynowego. Celem normy jest ustanowienie, wdrożenie, utrzymanie i ciągłe doskonalenie jakości danych wykorzystywanych w tych obszarach.
Kluczowe sekcje normy obejmują:
- Ogólne Zarządzanie Jakością Danych: Definiuje cele, ogólne wymagania oraz szczegółowe zalecenia dotyczące zarządzania jakością danych, podkreślając znaczenie kultury jakości danych, zarządzania kompetencjami, zarządzania zasobami oraz integracji z istniejącymi systemami zarządzania. Obejmuje również dokumentację, audyt, ocenę oraz przeglądy potwierdzające.
- Zarządzanie Jakością Danych w Cyklu Życia: Skupia się na zarządzaniu jakością danych w różnych etapach cyklu życia danych, takich jak motywacja i konceptualizacja danych, specyfikacja danych, planowanie danych, pozyskiwanie danych, wstępne przetwarzanie danych, augmentacja danych, udostępnianie danych i wycofywanie danych. Każdy etap zawiera specyficzne wymagania i wytyczne mające na celu zapewnienie jakości danych.
- Procesy Horyzontalne: Obejmuje procesy, które obejmują wszystkie etapy cyklu zarządzania jakością danych, w tym weryfikację i walidację, zarządzanie konfiguracją, zarządzanie zmianami oraz zarządzanie ryzykiem. Te procesy zapewniają spójne zarządzanie jakością w całym cyklu życia danych.
- Zarządzanie Jakością Danych w Łańcuchach Dostaw: Zapewnia wymagania i wytyczne dotyczące zapewnienia, że dane dostarczane przez dostawców spełniają wymagania jakościowe organizacji. Obejmuje wybór dostawców, umowy dotyczące interfejsów rozwojowych oraz raporty z ocen jakości.
- Zarządzanie Narzędziami do Przetwarzania Danych: Zapewnia, że narzędzia do przetwarzania danych wykorzystywane w cyklu życia danych spełniają wymagania jakościowe organizacji. Obejmuje to narzędzia do pozyskiwania danych, wstępnego przetwarzania, oceny jakości, etykietowania, przechowywania, transmisji oraz ochrony danych.
- Zarządzanie Zależnościami Jakości Danych: Identyfikuje i zarządza zależnościami, zarówno wewnętrznymi, jak i zewnętrznymi, które mogą wpłynąć na jakość danych, zapewniając, że nie naruszają one wymagań organizacji dotyczących jakości danych.
- Zarządzanie Jakością Danych Specyficznych dla Projektu: Zapewnia, że specyficzne projekty spełniają niezbędne wymagania dotyczące jakości danych, w tym kontekst i zamierzone zastosowanie, specyfikację i zarządzanie wymaganiami jakości danych, role i odpowiedzialności oraz planowanie i koordynację działań związanych z jakością danych.
Norma zapewnia ramy do efektywnego zarządzania jakością danych, zapewniając przejrzystość, audytowalność i zadowolenie interesariuszy w aplikacjach analityki i ML. Oferuje ogólne wymagania, które mogą być dostosowane do specyficznych potrzeb różnych organizacji i projektów, promując spójność i niezawodność w praktykach zarządzania jakością danych.
Struktura procesu jakości danych
Ostatnia z wydanych norm ISO/IEC 5259-4 Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 4: Data quality process framework, ustanawia ogólne wspólne podejścia organizacyjne, niezależnie od rodzaju, wielkości lub charakteru organizacji stosującej, w celu zapewnienia jakości danych do szkolenia i oceny w analityce i uczeniu maszynowym (ML). Obejmuje on wytyczne dotyczące procesu jakości danych dla:
- nadzorowanego uczenia maszynowego w odniesieniu do etykietowania danych wykorzystywanych do szkolenia systemów uczenia maszynowego, w tym wspólnych podejść organizacyjnych do etykietowania danych szkoleniowych;
- nienadzorowanego uczenia maszynowego;
- półnadzorowanego uczenia maszynowego;
- uczenia ze wzmocnieniem; – analityki.
Norma ma zastosowanie do danych szkoleniowych i ewaluacyjnych pochodzących z różnych źródeł, w tym pozyskiwania danych i kompozycji danych, przygotowywania danych, etykietowania danych, oceny i wykorzystania danych. Nie definiuje ona także konkretnych usług, platform ani narzędzi.
Dla wszystkich tych, którzy będą zobligowani do wdrożenia ISO/IEC 42001, skorzystanie z tych norm będzie wielce użyteczne, gdyż w samej treści normy zasadniczej jest wiele referencji do wspomnianych norm, chociaż były one jeszcze w fazie projektu.
Zapraszamy do współpracy
Zespół Centre of Excellence & QSCert
Bibliografia:
- ISO/IEC 5259-4:2024 – Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 4: Data quality process framework – https://www.iso.org/standard/81093.html?browse=tc
- ISO/IEC 5259-3:2024 – Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 3: Data quality management requirements and guidelines – https://www.iso.org/standard/81092.html?browse=tc
- ISO/IEC 5259-1:2024 – Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 1: Overview, terminology, and examples – https://www.iso.org/standard/81088.html?browse=tc