Od jakiegoś czasu pojawiają się kolejne, coraz bardziej odkrywcze, opisy możliwych zastosowań ChatGPT. Na pierwszy rzut oka obszar danych referencyjnych nie jest zbyt atrakcyjny dla ekscytujących zstosowań. Z pomocą naszej głównej bohaterki, sztucznej inteligencji, postanowiłem spróbować.
„ChatGPT może wspomóc zarządzanie danymi referencyjnymi poprzez automatyzację procesów związanych z ich przetwarzaniem i udostępnianiem. Może to obejmować:
- Generowanie dokumentacji i metadanych dla danych referencyjnych.
- Tworzenie indeksów danych referencyjnych, ułatwiających wyszukiwanie i łatwiejszy dostęp do danych.
- Generowanie raportów i analiz z danych referencyjnych.
- Udostępnianie danych referencyjnych poprzez interfejsy API.
- Automatyzację procesów kuratorskich, takich jak walidacja i aktualizacja danych.”
Korzystanie z możliwości ChatGPT jest dostępne po przesłaniu danych referencyjnych (np. w formacie CSV) do modelu. To oczywiście jest związane z tym jakim poziomem naszego zaufania cieszy się „inteligencja”. Każdy musi zmierzyć się z nim sam ;-). Na podstawie przesłanych danych ChatGPT może wygenerować metadane, dokumentację, indeksy, raporty itp. obiekty w ogólnie przyjętych formatach. Szablon odpowiednich skryptów można wygenerować w kilku popularnych językach programowania w taki sam sposób. Według mojej oceny odpowiedzi nie są idelane, ale stanowią bardzo dobry punkt wyjściowy. Osoby zarządzające danymi referencyjnymi mogą skupić się na istotnych elementach, oddając resztę w ręce sztucznej inteligencji.
„Douczenie” modelu z wykorzystaniem własnych danych źródłowych otwiera kolejne możliwości. Odpowiedzi modelu bądą uwzględniały przesłane informacje. Może to być podstawa do stoworzenia własnego API wspierającego korzystanie z danych referencyjnych. Jeszcze ciekawsze możliwości daje walidacja i aktualizacja danych z użyciem tak przygotowanego modelu.
Tak jak wspominałem podstawowy problem to poziom zaufania do zewnętrznego modelu. Na moje pytanie wprost, sztuczna inteligencja dłuższy wywód zakończyła w następujący sposób:
„Dobrą praktyką jest również przesyłanie do modelu tylko danych, które są konieczne do realizacji zadania, a także upewnienie się, że przesyłane dane nie zawierają poufnych informacji, które nie powinny być udostępnione”. Nic dodać nic ująć.
Dodatkowo należy uwzględnić koszt użycia modelu. Cennik jest wyrażony w tokenach przesłanych do modelu. Czałkowity koszt można dokładniej oszacować chyba tylko poprzez przeprowadzenie testów konkrenego projektu.
Kilka godzin prób pokazało, że korzystanie z modelu udostępnianego przez ChatGPT może uwolnić expertów od nudnych czynności i mogą poświęcić czas na naprawdę ważne zagadnienia. Należy jednak uwzględnić poufność danych, które przekazujemy do modelu oraz potencjalne koszty związane z przesyłaniem do niego danych/zapytań. Biorąc pod uwagę gwałtowny rozwój rozwiązań „chmurowych” nie wydaje się, że będą to duże przeszkody.