Data Mining - odkrywanie wiedzy

Data Mining – można również spotkać się z określeniem „zgłębianie danych” – to analityczny proces, który zajmuje się badaniem dużych zbiorów danych w poszukiwaniu wzorców, współzależności między danymi, a później ich oceną. Celem Data Mining jest przeważnie predykcja m.in. wielkości sprzedaży, działań klientów, współczynników przedłużalności czy też skali utraty klienta.

info_11_05.jpg

Odkrywanie wiedzy w dużych zbiorach danych polega na szukaniu wyraźnych schematów, które wcześniej nie były nam znane, a mogą być potencjalnie użyteczne do wspomagania decyzji w biznesie. Głównym problemem może być przetwarzanie bardzo dużych wolumenów danych.

W tym przypadku mamy do czynienia z predykcyjnym Data Mining, który daje bezpośrednie biznesowe korzyści. Proces taki składa się z następujących etapów:

Wstępna eksploracja danych

Cały etap zaczyna się od przygotowania danych, czyli czyszczenie, przekształcanie, wybór zbiorów rekordów (wariantów), a w przypadku danych mających wiele zmiennych (kolumn) – wstępny wybór zmiennych. Ma to na celu obniżenie ilości analizowanych zmiennych i przystosowanie danych pod kątem konkretnego problemu, który chcemy przeanalizować. Na tym etapie możemy często spotkać się z bezsensownymi danymi gromadzonymi w ogromnych bazach danych, tworzonych przez dużą liczbę osób i najczęściej generowanymi automatycznie przez system, którego celem niekoniecznie jest zbieranie danych na potrzeby analityczne.

Budowa i ocena modelu

Realizacja założonych celów przy budowie modelu wymaga wysiłku przede wszystkim ekspertów, osób odpowiedzialnych za biznes i różnych działów w organizacji. Kolejno rozważane są zaproponowane modele, z których wybierany jest najlepszy. Stosuje się tutaj techniki opierające się na porównawczej ocenie modeli, które polegają na wypróbowaniu różnych metod dla takich samych zbiorów danych, a kolejno wybraniu najlepszej z nich. Jakość predykcji jest głównym kryterium oceny, czyli poprawność wartości modelowanej zmiennej i stabilność wyników dla różnych prób. Ocenić model może również osoba, która zarządza biznesem.

Wdrożenie i stosowanie modeli

Dochodzimy do końcowego etapu, w którym wdrażamy nowy model dla nowych danych, uznany za najlepszy w poprzednim etapie. Celem modelu jest pozyskanie przewidywanych wartości. Musimy pamiętać, że wdrożony model wymaga ciągłego monitoringu, aby uniknąć zakłamań, które mogą występować przy wprowadzaniu nowych danych.

Rysunek 1.

Co może być celem projektu Data Mining ?

Uzyskanie modelu, dzięki któremu możemy przewidywać wartości pewnych cech, jest definicją, która spełnia nasz cel.

Przykładem może być wykrycie transakcji wykonanych kartą płatniczą, które mogą mieć prawdopodobieństwo nadużycia. Kolejnym przykładem może być wyselekcjonowanie segmentu klientów, którzy mogą być zagrożeni najwyższym odejściem z puli badanych klientów. Innym celem może być również redukcja danych, czyli przekształcenie dużego zbioru w zbiór nadający się do percepcji.

Data Mining a wydobycie wiedzy z baz danych

Zadawanie zapytań w języku SQL jest podstawowym sposobem wydobycia wiedzy z baz danych, następnie takie dane mogą być przedstawione w formie raportu wraz z opisem. W ten sposób możemy wyszukać np. wiek wszystkich naszych klientów, którzy kupili razem produkt X i Y choć jeden raz. Aby wyszukać takie zapytanie, musimy mieć wiedzę bądź przypuszczenia o istniejącym związku między produktem X i Y. Techniki Data Mining dają natomiast możliwość odkrycia takich związków, których nie musimy dokładnie definiować w momencie przeprowadzenia analiz. Wystarczy założyć tylko ogólne rodzaje zależności i nie ograniczać się do konkretnych produktów.

Zostając przy naszym przykładzie: wiek klienta znaleziony w bazie klientów mógłby posłużyć jako grupa docelowa dla kampanii reklamowej produktu X i Y. Zapewne spowodowałoby to większy wzrost sprzedaży w tej grupie wiekowej klientów niż kampania skierowana do przypadkowych osób. Jednak przy tym podejściu nie da się przewidzieć procentu ewentualnego wzrostu sprzedaży. Techniki Data Mining oparte na bazie danych pozwalają na ocenę stopnia efektywności podjętych decyzji.

Systemy wspomagania decyzji a Data Mining

Systemy wspomagania decyzji (z ang. Decision Support Systems, DSS) to narzędzia zapewniające wsparcie osobom odpowiedzialnym za biznes w trakcie podejmowania decyzji. Najprościej rzecz ujmując, dysponowanie odpowiednimi informacjami ułatwi nam podjęcie decyzji o jak najlepszych rezultatach. Czasami można wspomagać się również danymi historycznymi, o ile je oczywiście mamy.

Wykorzystałeś swój limit bezpłatnych treści

Pozostałe 51% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.

Kilka wariantów prenumeraty Pokaż opcje
Dwutygodniowy dostęp bez zobowiązań Wybieram

Abonament już od 100 zł miesięcznie

Dwutygodniowy dostęp bez zobowiązań

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

WYBIERAM

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.