Analiza danych kluczem do sukcesu

Działalność danego przedsiębiorstwa codziennie dostarcza masę danych pochodzących m.in. ze zwykłych zadań firmy, prowadzonych projektów i kampanii. Właściwa analiza tych danych może w znacznym stopniu przyczynić się do podejmowania trafnych decyzji dotyczących rozwoju firmy.

  (więcej…)

Model relacyjny = Matka hurtowni danych

Mowa będzie o modelu organizacji danyc, opierającym sie na matematycznej teorii mnogości, w szczególności zaś na pojęciu relacji. Na modelu relacyjnym oparta została relacyjna baza danych (w j.ang. Relational Database Management Systems, RDBMS) – tj. baza danych, w której dane są przedstawione pod postaci relacji…

Najprościej rzecz ujmując, mamy do czynienia z danymi, grupowanymi w relacje, reprezentowane przez tablice. Relacje są pewnym zbiorem rekordów o identycznej strukturze wewnętrznie, powiązanych za pomocą związków, zachodzących pomiędzy danymi. Relacje zgrupowane są w tzw. schematy bazy danych.

Relacją może być np. tabela zawierająca dane teleadresowe pracowników, zaś schemat może ujmować wszystkie dane dotyczące firmy. Czyli prowadzone przez nią zarządzanie zasobami ludzkimi, zarządzanie licencjami, listę udziałowców, informacje o dochodach, przychodach itd. W zebranych wiadomściach łatwo wprowadzać zmiany, modyfikować ustalenia. Jest to jednak dość żmudny proces i obecnie pracuje się nad jego uwspółcześnieniem.

Niemniej, twórcą teorii relacyjnych baz danych jest nieżyjący już Edgar Frank Codd. Postulaty te zostały opublikowane po raz pierwszy w 1970 roku, w pracy A Relational Model of Data for Large Shared Data Banks. Dzieło opisywało podstawowe zależności, jakie mogą występować pomiędzy danymi trwałymi oraz wprowadzało główne założenia, dotyczące modelu relacyjnego dla danych – wraz z propozycją formalnych operatorów przeszukiwania danych. W 1972 roku, w pracy pt. Relational Completeness of Data Base Sublanguages Codd uszczegółowił opis modelu oraz przedstawił dwa modele formalne odpytywania (przeszukiwania) danych. Tu właśnie po raz pierwszy pojawiły się terminy algebra relacji oraz rachunek relacyjny. E. Codd udowodnił, iż oba modele są równoważne.

Jednym z kluczowych problemów rozwijającego się modelu relacyjnego było podejście do brakującej informacji (np. do kewstii, jak znaleźć nieznany numer telefonu, jak zapisać brak numeru mieszkania itp.). Początkowo, współpracownicy Codda proponowali kilka specjalnych wartości, które użytkownik mógłby wykorzystać do zaznaczenia takich informacji. Jednak w ostateczności, w 1979 roku, Codd wprowadził do modelu pojedynczą specjalną wartość NULL. Wprowadzenie tej wartości wiązało się – m.in. – z rozszerzeniem logiki dwu-wartościowej operatorów porównania do logiki trój-wartościowej (a więc na każde pytanie o równość można odpowiedzieć „Tak”, „Nie”, „Nie znam”)

Dziś funkcjonuje wiele spojrzeń na model relacyjny. Dwa główne podejścia to podejście formalne – opis modelu poprzez reguły matematyczne można prezentować na wiele różnych sposobów – oraz podejście intuicyjne – czyli spojrzenie na model od strony czysto użytkowej.

Hurtownie danych – platformy

Jeśli by spytać specjalistę od hurtowni danych, która platforma jest najlepsza, to zwykle jest tak, że uzyskamy błyskawiczną odpowiedź. Charakterystyczne jest też to, że każda z nich będzie inna, gdyż dany system hurtowni danych dopasowuje się nie gdzie indziej, jak w określone środowisko, w którym ma funkcjonować. Właśnie przy wyborze platformy należy kierować się głównie jej funkcjonalnością, dopiero potem ceną i trudnością wdrożenia. Poniżej chciałabym przedstawić cztery platformy, które zajmują zagadnienie hurtowni danych.

Microsoft

Firma proponuje SQL Server, który jest dość dobrze powiązany z innymi systemami i programami, działającymi w firmie, ze szczególnym uwzględnieniem pakietu rodzimych programów. Dzięki temu prezentacja danych jest o wiele bardziej atrakcyjna i funkcjonalna. Oprócz tego Microsoft proponuje Performance Point Server, stanowiący platformę Business Inteligence. Platforma promuje się jako rozwiązanie dla małych i średnich przedsiębiorstw – od 5TB do 50TB danych.

Oracle

To lider wśród dostawców systemów baz danych – i chce tę pozycje utrzymać, dlatego oprócz oprogramowania – Oracle Database, proponuje również rozwiązania sprzętowe – HP Oracle Database Machine. Dodatkowo producent proponuje takie aplikacje, jak Oracle Real Apllication Cluster oraz Automatic Storage Management, które mają za zadanie wspomagać działanie hurtowni danych. Ta platforma ma jedną wadę – jest droga, zarówno jeśli chodzi o utrzymanie systemu, jak i o koszty osobowe.

Teradata

Teradata, obok Oracle jest kolejnym liderem na rynku dostawców hurtowni danych – posiada ponad 30 letnie doświadczenie w tej branży. Rozwiązania tego producenta chętnie są wykorzystywane przy analizach, szczególnie w firmach i korporacjach, których dane przekraczają 100 terabajtów danych. Warto dodać, że producent nie koncentruje się na przetwarzaniu transakcyjnym, a działa we wcześniej wspomnianym obszarze analitycznym.

SYBASE

Tę platformę charakteryzuje kolumnowe składowanie danych, dzięki Sybase IQ Server, co odróżnia ją od konkurencji. Dzięki temu możliwe jest przetwarzanie w szybki sposób nawet bardzo skomplikowanych zapytań. Warto wspomnieć, że SYBASE jest też dostawcą aplikacji dla deweloperów.

Hurtownie danych – etapy budowy

Dziś chciałabym się skupić na zagadnieniu związanym z samym tworzeniem hurtowni danych. Zanim taka powstanie, należy sobie zadać jedno, ważne pytanie – czy hurtownia jest w ogóle potrzebna w moim przedsiębiorstwie? Zwykle jest, więc można by rzec, że połowa sukcesu za nami. Podstawowym krokiem jest określenie zakresu tematycznego hurtowni oraz grupy użytkowników tego rozwiązania – nie ma mowy o utworzeniu systemu, który nie będzie funkcjonalny, bo czynnik ludzki go nie przyjmie. Ważne jest też określenie celu naszej hurtowni, modelu danych i przede wszystkim źródła jej zasilania. Potem pozostanie już tylko plan wdrażania, samo wdrażanie i testowanie produktu.

Jak w przypadku każdego systemu, tak również przy wdrażaniu hurtowni danych, niebywałe znaczenie mają ludzie i ich zaangażowanie i mam na myśli tutaj zarówno pracowników, jak i, a może przede wszystkim kadrę zarządzającą. To właśnie ludzie powinni zdecydować, które obszary powinna objąć hurtownia danych na samym początku – nie da się wdrożyć hurtowni we wszystkich obszarach tematycznych od razu.

Sama budowa hurtowni powinna być przeprowadzona metodą „małych kroczków”, gdyż tylko takie działanie gwarantuje sukces całego przedsięwzięcia. Należy też pamiętać, że hurtownia danych, to wiele warstw, w tym warstwa danych źródłowych, ekstrakcji i konwersji, hurtowni danych i prezentacji i w każdej z nich stosowane są różne narzędzia. Przy budowie hurtowni danych niezbędny jest także projekt jej modelu, przy którego konstruowaniu wyróżnia się tworzenie modelu biznesowego systemu – tutaj pod uwagę bierze się sugestie przyszłych użytkowników, tworzenie modelu logicznego, który jest powiązany z tym pierwszym i pozwala na efektywne wykorzystywanie oraz tworzenie schematu fizycznego hurtowni w bazie danych i jego implementacji.

Udane wdrożenie hurtowni danych powinno przynosić zauważalne zmiany i korzyści już od początku jej funkcjonowania, dzięki czemu wzrosną jej obroty.

Data mining

Ostatnio pisałam o budowie i zasadach działania data martów, dziś chciałabym skupić się na dziedzinie, zwanej data mining. Jest to nic innego, jak eksploracja, czy też wydobywanie danych. W tym celu wykorzystuje się przystosowane do tego celu narzędzia, dzięki czemu wykrywane są zależności między jedną informacją, a drugą, co oczywiście sprzyja podejmowaniu decyzji. Data mining dąży do odkrywania powtarzalnych zachowań informacji w dużych ich zbiorach, właśnie poprzez wcześniej wspomniane drążenie. Teraz pozostaje tylko pytanie: po co to wszystko i w których obszarach takie narzędzia mogą się przydać? Przede wszystkim w przy wsparciu procesu podejmowania decyzji, przy prognozowaniu, analizie finansowej, ryzyka, czy przy optymalizacji.

Dość już jednak teorii, gdzie w rzeczywistości mogą przydać się te narzędzia? Po pierwsze w systemie CRM, który ma za zadanie wsparcie procesu obsługi klientów, dyskretne przypominanie o terminach płatności i dbanie o jak najlepsze relacje z klientami. Po drugie, przy analizie ruchu na stronach www, wtedy możliwe jest odpowiednie dopasowanie treści strony do danej grupy odbiorców, co z kolei przełoży się na częstotliwość jej odwiedzania. Przy wszelkiego rodzaju badaniach medycznych, gdzie niezbędne jest badanie zależności między danymi w bazach o ogromnych rozmiarach. W organizacjach z sektora publicznego, przy wykrywaniu oszustw podatkowych, a nawet w walce z terroryzmem.

Wśród technik analizy danych, możemy wyróżnić między innymi manipulowanie informacją, a więc konstruowanie danych w oparciu o istniejące już zbiory danych, testowanie hipotez, czy przeglądanie, obserwacja, a nawet wizualizację informacji – pozwala to na wykrycie podejrzanych relacji, czy wyeliminowanie nieścisłości, które mogą powstać w momencie budowania baz danych.

Do najczęściej wykorzystywanych narzędzi data mining należą SPSS Clementine, STATISTICA Data Miner, czy Isoft Alice.

Data mart

Dziś chciałabym napisać o tematycznych hurtowniach danych, które pozwalają na szybsze podejmowanie decyzji w konkretnych obszarach biznesowych. Tematyczna hurtownia danych – data mart, używana jest w jednym konkretnych wydziale, obejmuje jedno zagadnienie, można więc powiedzieć, że na hurtownię danych składają się data marty, które ją tworzą. Czasem zdarza się jednak tak, że trzeba stworzyć data mart niezależnie od hurtowni danych – niesie to jednak ryzyko niespójności danych, dlatego ważne jest ustalenie jej architektury „z góry” w obszarze aktualizacji, definicji, czy zarządzania.

Data marty – tematyczne hurtownie danych zarządzane są przez systemy ETL i utrzymywane w tym samym środowisku co główna, duża hurtownia danych, więc w Oracle, MS SQL Server, a ich udostępnianie następuje przy użyciu tych samych narzędzi do sporządzania raportów.

Dane w tematycznych hurtowniach danych przechowuje się na dwa sposoby:

  • Datamarty bazodanowe – są to jednowymiarowe zbiory danych, najczęściej w plikach tekstowych, za raportowanie danych odpowiedzialne są więc programy przystosowane do sporządzania raportów.
  • Wielowymiarowe tematyczne hurtownie danych (MDDB) – dane ułożone są w sposób sumaryczny w strukturze wielowymiarowej.

W przedsiębiorstwach istnieje zwykle od kilku do kilkudziesięciu data martów, które są odpowiedzialne za finanse, działania marketingowe, kadry, czy logistykę.

« Previous Entries Next Entries »