Data Mining - odkrywanie wiedzy

Sebastian Firlit Informacja Zarządcza 11/2018 nr 11/2018 z dnia 2018-01-01
info_11_05.jpg

Data Mining – można również spotkać się z określeniem „zgłębianie danych” – to analityczny proces, który zajmuje się badaniem dużych zbiorów danych w poszukiwaniu wzorców, współzależności między danymi, a później ich oceną. Celem Data Mining jest przeważnie predykcja m.in. wielkości sprzedaży, działań klientów, współczynników przedłużalności czy też skali utraty klienta.

Odkrywanie wiedzy w dużych zbiorach danych polega na szukaniu wyraźnych schematów, które wcześniej nie były nam znane, a mogą być potencjalnie użyteczne do wspomagania decyzji w biznesie. Głównym problemem może być przetwarzanie bardzo dużych wolumenów danych.

W tym przypadku mamy do czynienia z predykcyjnym Data Mining, który daje bezpośrednie biznesowe korzyści. Proces taki składa się z następujących etapów:

Wstępna eksploracja danych

Cały etap zaczyna się od przygotowania danych, czyli czyszczenie, przekształcanie, wybór zbiorów rekordów (wariantów), a w przypadku danych mających wiele zmiennych (kolumn) – wstępny wybór zmiennych. Ma to na celu obniżenie ilości analizowanych zmiennych i przystosowanie danych pod kątem konkretnego problemu, który chcemy przeanalizować. Na tym etapie możemy często spotkać się z bezsensownymi danymi gromadzonymi w ogromnych bazach danych, tworzonych przez dużą liczbę osób i najczęściej generowanymi automatycznie przez system, którego celem niekoniecznie jest zbieranie danych na potrzeby analityczne.

Budowa i ocena modelu

Realizacja założonych celów przy budowie modelu wymaga wysiłku przede wszystkim ekspertów, osób odpowiedzialnych za biznes i różnych działów w organizacji. Kolejno rozważane są zaproponowane modele, z których wybierany jest najlepszy. Stosuje się tutaj techniki opierające się na porównawczej ocenie modeli, które polegają na wypróbowaniu różnych metod dla takich samych zbiorów danych, a kolejno wybraniu najlepszej z nich. Jakość predykcji jest głównym kryterium oceny, czyli poprawność wartości modelowanej zmiennej i stabilność wyników dla różnych prób. Ocenić model może również osoba, która zarządza biznesem.

Wdrożenie i stosowanie modeli

Dochodzimy do końcowego etapu, w którym wdrażamy nowy model dla nowych danych, uznany za najlepszy w poprzednim etapie. Celem modelu jest pozyskanie przewidywanych wartości. Musimy pamiętać, że wdrożony model wymaga ciągłego monitoringu, aby uniknąć zakłamań, które mogą występować przy wprowadzaniu nowych danych.

Rysunek 1.

Co może być celem projektu Data Mining ?

Uzyskanie modelu, dzięki któremu możemy przewidywać wartości pewnych cech, jest definicją, która spełnia nasz cel.

Przykładem może być wykrycie transakcji wykonanych kartą płatniczą, które mogą mieć prawdopodobieństwo nadużycia. Kolejnym przykładem może być wyselekcjonowanie segmentu klientów, którzy mogą być zagrożeni najwyższym odejściem z puli badanych klientów. Innym celem może być również redukcja danych, czyli przekształcenie dużego zbioru w zbiór nadający się do percepcji.

Data Mining a wydobycie wiedzy z baz danych

Zadawanie zapytań w języku SQL jest podstawowym sposobem wydobycia wiedzy z baz danych, następnie takie dane mogą być przedstawione w formie raportu wraz z opisem. W ten sposób możemy wyszukać np. wiek wszystkich naszych klientów, którzy kupili razem produkt X i Y choć jeden raz. Aby wyszukać takie zapytanie, musimy mieć wiedzę bądź przypuszczenia o istniejącym związku między produktem X i Y. Techniki Data Mining dają natomiast możliwość odkrycia takich związków, których nie musimy dokładnie definiować w momencie przeprowadzenia analiz. Wystarczy założyć tylko ogólne rodzaje zależności i nie ograniczać się do konkretnych produktów.

Zostając przy naszym przykładzie: wiek klienta znaleziony w bazie klientów mógłby posłużyć jako grupa docelowa dla kampanii reklamowej produktu X i Y. Zapewne spowodowałoby to większy wzrost sprzedaży w tej grupie wiekowej klientów niż kampania skierowana do przypadkowych osób. Jednak przy tym podejściu nie da się przewidzieć procentu ewentualnego wzrostu sprzedaży. Techniki Data Mining oparte na bazie danych pozwalają na ocenę stopnia efektywności podjętych decyzji.

Systemy wspomagania decyzji a Data Mining

Systemy wspomagania decyzji (z ang. Decision Support Systems, DSS) to narzędzia zapewniające wsparcie osobom odpowiedzialnym za biznes w trakcie podejmowania decyzji. Najprościej rzecz ujmując, dysponowanie odpowiednimi informacjami ułatwi nam podjęcie decyzji o jak najlepszych rezultatach. Czasami można wspomagać się również danymi historycznymi, o ile je oczywiście mamy.

Dostęp możliwy dla zalogowanych użytkowników serwisu. Jeśli posiadasz aktywny abonament przejdź do LOGOWANIA. Aby dobrać najkorzystniejszy plan abonamentowy przejdź do ZAMÓWIENIA ABONAMENTU.

Zaloguj Zamów abonament

    Źródło: Informacja Zarządcza 11/2018

Drukuj

Zobacz również

Filtruj artykuły wg.