Mowa będzie o modelu organizacji danyc, opierającym sie na matematycznej teorii mnogości, w szczególności zaś na pojęciu relacji. Na modelu relacyjnym oparta została relacyjna baza danych (w j.ang. Relational Database Management Systems, RDBMS) – tj. baza danych, w której dane są przedstawione pod postaci relacji…

Najprościej rzecz ujmując, mamy do czynienia z danymi, grupowanymi w relacje, reprezentowane przez tablice. Relacje są pewnym zbiorem rekordów o identycznej strukturze wewnętrznie, powiązanych za pomocą związków, zachodzących pomiędzy danymi. Relacje zgrupowane są w tzw. schematy bazy danych.

Relacją może być np. tabela zawierająca dane teleadresowe pracowników, zaś schemat może ujmować wszystkie dane dotyczące firmy. Czyli prowadzone przez nią zarządzanie zasobami ludzkimi, zarządzanie licencjami, listę udziałowców, informacje o dochodach, przychodach itd. W zebranych wiadomściach łatwo wprowadzać zmiany, modyfikować ustalenia. Jest to jednak dość żmudny proces i obecnie pracuje się nad jego uwspółcześnieniem.

Niemniej, twórcą teorii relacyjnych baz danych jest nieżyjący już Edgar Frank Codd. Postulaty te zostały opublikowane po raz pierwszy w 1970 roku, w pracy A Relational Model of Data for Large Shared Data Banks. Dzieło opisywało podstawowe zależności, jakie mogą występować pomiędzy danymi trwałymi oraz wprowadzało główne założenia, dotyczące modelu relacyjnego dla danych – wraz z propozycją formalnych operatorów przeszukiwania danych. W 1972 roku, w pracy pt. Relational Completeness of Data Base Sublanguages Codd uszczegółowił opis modelu oraz przedstawił dwa modele formalne odpytywania (przeszukiwania) danych. Tu właśnie po raz pierwszy pojawiły się terminy algebra relacji oraz rachunek relacyjny. E. Codd udowodnił, iż oba modele są równoważne.

Jednym z kluczowych problemów rozwijającego się modelu relacyjnego było podejście do brakującej informacji (np. do kewstii, jak znaleźć nieznany numer telefonu, jak zapisać brak numeru mieszkania itp.). Początkowo, współpracownicy Codda proponowali kilka specjalnych wartości, które użytkownik mógłby wykorzystać do zaznaczenia takich informacji. Jednak w ostateczności, w 1979 roku, Codd wprowadził do modelu pojedynczą specjalną wartość NULL. Wprowadzenie tej wartości wiązało się – m.in. – z rozszerzeniem logiki dwu-wartościowej operatorów porównania do logiki trój-wartościowej (a więc na każde pytanie o równość można odpowiedzieć „Tak”, „Nie”, „Nie znam”)

Dziś funkcjonuje wiele spojrzeń na model relacyjny. Dwa główne podejścia to podejście formalne – opis modelu poprzez reguły matematyczne można prezentować na wiele różnych sposobów – oraz podejście intuicyjne – czyli spojrzenie na model od strony czysto użytkowej.

Jeśli by spytać specjalistę od hurtowni danych, która platforma jest najlepsza, to zwykle jest tak, że uzyskamy błyskawiczną odpowiedź. Charakterystyczne jest też to, że każda z nich będzie inna, gdyż dany system hurtowni danych dopasowuje się nie gdzie indziej, jak w określone środowisko, w którym ma funkcjonować. Właśnie przy wyborze platformy należy kierować się głównie jej funkcjonalnością, dopiero potem ceną i trudnością wdrożenia. Poniżej chciałabym przedstawić cztery platformy, które zajmują zagadnienie hurtowni danych.

Microsoft

Firma proponuje SQL Server, który jest dość dobrze powiązany z innymi systemami i programami, działającymi w firmie, ze szczególnym uwzględnieniem pakietu rodzimych programów. Dzięki temu prezentacja danych jest o wiele bardziej atrakcyjna i funkcjonalna. Oprócz tego Microsoft proponuje Performance Point Server, stanowiący platformę Business Inteligence. Platforma promuje się jako rozwiązanie dla małych i średnich przedsiębiorstw – od 5TB do 50TB danych.

Oracle

To lider wśród dostawców systemów baz danych – i chce tę pozycje utrzymać, dlatego oprócz oprogramowania – Oracle Database, proponuje również rozwiązania sprzętowe – HP Oracle Database Machine. Dodatkowo producent proponuje takie aplikacje, jak Oracle Real Apllication Cluster oraz Automatic Storage Management, które mają za zadanie wspomagać działanie hurtowni danych. Ta platforma ma jedną wadę – jest droga, zarówno jeśli chodzi o utrzymanie systemu, jak i o koszty osobowe.

Teradata

Teradata, obok Oracle jest kolejnym liderem na rynku dostawców hurtowni danych – posiada ponad 30 letnie doświadczenie w tej branży. Rozwiązania tego producenta chętnie są wykorzystywane przy analizach, szczególnie w firmach i korporacjach, których dane przekraczają 100 terabajtów danych. Warto dodać, że producent nie koncentruje się na przetwarzaniu transakcyjnym, a działa we wcześniej wspomnianym obszarze analitycznym.

SYBASE

Tę platformę charakteryzuje kolumnowe składowanie danych, dzięki Sybase IQ Server, co odróżnia ją od konkurencji. Dzięki temu możliwe jest przetwarzanie w szybki sposób nawet bardzo skomplikowanych zapytań. Warto wspomnieć, że SYBASE jest też dostawcą aplikacji dla deweloperów.

Dziś chciałabym się skupić na zagadnieniu związanym z samym tworzeniem hurtowni danych. Zanim taka powstanie, należy sobie zadać jedno, ważne pytanie – czy hurtownia jest w ogóle potrzebna w moim przedsiębiorstwie? Zwykle jest, więc można by rzec, że połowa sukcesu za nami. Podstawowym krokiem jest określenie zakresu tematycznego hurtowni oraz grupy użytkowników tego rozwiązania – nie ma mowy o utworzeniu systemu, który nie będzie funkcjonalny, bo czynnik ludzki go nie przyjmie. Ważne jest też określenie celu naszej hurtowni, modelu danych i przede wszystkim źródła jej zasilania. Potem pozostanie już tylko plan wdrażania, samo wdrażanie i testowanie produktu.

Jak w przypadku każdego systemu, tak również przy wdrażaniu hurtowni danych, niebywałe znaczenie mają ludzie i ich zaangażowanie i mam na myśli tutaj zarówno pracowników, jak i, a może przede wszystkim kadrę zarządzającą. To właśnie ludzie powinni zdecydować, które obszary powinna objąć hurtownia danych na samym początku – nie da się wdrożyć hurtowni we wszystkich obszarach tematycznych od razu.

Sama budowa hurtowni powinna być przeprowadzona metodą „małych kroczków”, gdyż tylko takie działanie gwarantuje sukces całego przedsięwzięcia. Należy też pamiętać, że hurtownia danych, to wiele warstw, w tym warstwa danych źródłowych, ekstrakcji i konwersji, hurtowni danych i prezentacji i w każdej z nich stosowane są różne narzędzia. Przy budowie hurtowni danych niezbędny jest także projekt jej modelu, przy którego konstruowaniu wyróżnia się tworzenie modelu biznesowego systemu – tutaj pod uwagę bierze się sugestie przyszłych użytkowników, tworzenie modelu logicznego, który jest powiązany z tym pierwszym i pozwala na efektywne wykorzystywanie oraz tworzenie schematu fizycznego hurtowni w bazie danych i jego implementacji.

Udane wdrożenie hurtowni danych powinno przynosić zauważalne zmiany i korzyści już od początku jej funkcjonowania, dzięki czemu wzrosną jej obroty.

Ostatnio pisałam o budowie i zasadach działania data martów, dziś chciałabym skupić się na dziedzinie, zwanej data mining. Jest to nic innego, jak eksploracja, czy też wydobywanie danych. W tym celu wykorzystuje się przystosowane do tego celu narzędzia, dzięki czemu wykrywane są zależności między jedną informacją, a drugą, co oczywiście sprzyja podejmowaniu decyzji. Data mining dąży do odkrywania powtarzalnych zachowań informacji w dużych ich zbiorach, właśnie poprzez wcześniej wspomniane drążenie. Teraz pozostaje tylko pytanie: po co to wszystko i w których obszarach takie narzędzia mogą się przydać? Przede wszystkim w przy wsparciu procesu podejmowania decyzji, przy prognozowaniu, analizie finansowej, ryzyka, czy przy optymalizacji.

Dość już jednak teorii, gdzie w rzeczywistości mogą przydać się te narzędzia? Po pierwsze w systemie CRM, który ma za zadanie wsparcie procesu obsługi klientów, dyskretne przypominanie o terminach płatności i dbanie o jak najlepsze relacje z klientami. Po drugie, przy analizie ruchu na stronach www, wtedy możliwe jest odpowiednie dopasowanie treści strony do danej grupy odbiorców, co z kolei przełoży się na częstotliwość jej odwiedzania. Przy wszelkiego rodzaju badaniach medycznych, gdzie niezbędne jest badanie zależności między danymi w bazach o ogromnych rozmiarach. W organizacjach z sektora publicznego, przy wykrywaniu oszustw podatkowych, a nawet w walce z terroryzmem.

Wśród technik analizy danych, możemy wyróżnić między innymi manipulowanie informacją, a więc konstruowanie danych w oparciu o istniejące już zbiory danych, testowanie hipotez, czy przeglądanie, obserwacja, a nawet wizualizację informacji – pozwala to na wykrycie podejrzanych relacji, czy wyeliminowanie nieścisłości, które mogą powstać w momencie budowania baz danych.

Do najczęściej wykorzystywanych narzędzi data mining należą SPSS Clementine, STATISTICA Data Miner, czy Isoft Alice.

Dziś chciałabym napisać o tematycznych hurtowniach danych, które pozwalają na szybsze podejmowanie decyzji w konkretnych obszarach biznesowych. Tematyczna hurtownia danych – data mart, używana jest w jednym konkretnych wydziale, obejmuje jedno zagadnienie, można więc powiedzieć, że na hurtownię danych składają się data marty, które ją tworzą. Czasem zdarza się jednak tak, że trzeba stworzyć data mart niezależnie od hurtowni danych – niesie to jednak ryzyko niespójności danych, dlatego ważne jest ustalenie jej architektury „z góry” w obszarze aktualizacji, definicji, czy zarządzania.

Data marty – tematyczne hurtownie danych zarządzane są przez systemy ETL i utrzymywane w tym samym środowisku co główna, duża hurtownia danych, więc w Oracle, MS SQL Server, a ich udostępnianie następuje przy użyciu tych samych narzędzi do sporządzania raportów.

Dane w tematycznych hurtowniach danych przechowuje się na dwa sposoby:

  • Datamarty bazodanowe – są to jednowymiarowe zbiory danych, najczęściej w plikach tekstowych, za raportowanie danych odpowiedzialne są więc programy przystosowane do sporządzania raportów.
  • Wielowymiarowe tematyczne hurtownie danych (MDDB) – dane ułożone są w sposób sumaryczny w strukturze wielowymiarowej.

W przedsiębiorstwach istnieje zwykle od kilku do kilkudziesięciu data martów, które są odpowiedzialne za finanse, działania marketingowe, kadry, czy logistykę.

Hurtownia danych – jest to odrębna baza danych, która zawiera dane obejmujące wiele sektorów, a dostępne z poziomu jednego, ujednoliconego interfejsu. Znajduje zastosowanie zarówno w dużych przedsiębiorstwach, jak i zupełnie małych firmach, a jej zadaniem jest poprawienie efektywności pracy i pomoc przy podejmowaniu kluczowych dla firmy decyzji.

Business Inteligence – te systemy wykrywają zależności między danymi, poddając je szczegółowej analizie z różnych punktów widzenia, czerpiąc dane z hurtowni.

Decision Support System (DSS) (Systemy Wspierania Decyzji) – to systemy, które pozwalają na zadawanie pytań bez potrzeby znajomości języka SQL

Executive Information System (EIS) (Systemy Informacji Zarządczej) – podobnie jak DSS pozwalają na zadawanie dynamicznych pytań bez znajomości SQL z tą tylko różnicą, że są one sztywno i z góry określone

On Line Analytical Processing (OLAP) – pozwala na przetwarzanie, przechowywanie i udostępnianie danych w sposób zoptymalizowany, znajduje zastosowanie w analizach

On Line Transaction Processing (OLTP) – podobnie jak OLAP umożliwia przetwarzanie, przechowywanie i udostępnianie danych w zoptymalizowany sposób, ma zastosowanie w transakcjach

wielowymiarowe struktury danych – zbiory danych, które pozwalają odzwierciedlić logicznie wielowymiarową przestrzeń

relacyjne struktury danych – struktury, które pozwalają odzwierciedlić, zapisać logicznie powiązania między obiektami. Ich podzbiorem są wielowymiarowe struktury danych, zbudowane przez odpowiednio powiązane relacje

wielowymiarowe bazy danych – te bazy danych obejmują pojęcia wymiaru, miary i hierarchii, w odstępstwie od technicznego zapisu

relacyjne bazy danych – obejmują powiązania/ relacje między tabelami

miara (measure) – obiekt w każdej hurtowni danych, który ma za zadanie rejestrowanie i przechowywanie wartości (najczęściej numerycznych) – ilość sprzedanego towaru, stan w magazynie, ale często też tekstowe – tu komentarze

wymiar (dimension) – to również obiekt w hurtowni danych, który ma za zadanie organizować dane zapisane w miarach w taki sposób, aby możliwa była analiza pod jakimś kątem, np. pod kątem czasu, geografii, produktu

Na blogu poruszono już temat zalet hurtowni danych, wielowymiarowej analizy danych i procesu wdrażania hurtowni danych, dzisiaj chciałabym trochę uwagi poświęcić kosztom. Więc zaczynamy! Trudno jest na początku określić jaką sumę trzeba przeznaczyć na budowę hurtowni, gdyż wdrożenie jest wieloetapowe i trwa dosyć długo, ale jest kilka elementów niezbędnych przy budowie.

Na początku trzeba będzie zakupić osobny komputer, który będzie pełnił rolę serwera – nie ma sensu wykorzystywać do tego celu sprzętu, na którym ktoś pracuje, gdyż wtedy istnieje większe prawdopodobieństwo, że serwer „padnie”.

Ważne są też wszelkiego rodzaju komponenty softwarowe, w tym serwer bazodanowy i specjalna nakładka aplikacyjna, a koszt tego „elementu” zależy od liczby użytkowników bazy, da się więc go określić „z góry”.

Kosztują także i zwykle niemało usługi firmy wdrażającej system, koszty uzależnione są od tego, jaki ma ona wkład w budowę hurtowni.

Wydawać by się mogło niedorzeczne to, że w koszty wliczone jest też zaangażowanie firmy, w której system jest wdrażany. Jednak prawda jest taka, że im sprawniej będzie przebiegała współpraca, tym hurtownia lepiej i szybciej się „przyjmie”.

Warto również zadbać o odpowiednią opiekę serwisową, która powinna trwać cały czas, w przeciwnym razie może okazać się, że całe przedsięwzięcie pójdzie na marne, a dane zawarte w hurtowni są słabej jakości.

Źródła podają, że koszt wdrożenia wynosi około 25-30 tysięcy złotych, należy zaznaczyć jednak, że obejmuje tylko niezbędne minimum. Aby system działał niezawodnie i jego efektywność była duża należy zainwestować znacznie więcej. Jedno jest jednak pewne – koszty inwestycji na pewno się zwrócą, choć musi to potrwać.

Ostatnio pisałam czym w ogóle są hurtownie danych i w jaki sposób przebiega analiza zgromadzonych w nich informacji, dziś trochę uwagi chciałabym poświęcić na etap wdrożenia hurtowni do przedsiębiorstwa. Wbrew pozorom nie jest to sprawa łatwa i szybka, z tego miejsca od razu chciałabym obalić mity, które głoszą, że hurtownia może powstać w ciągu 90 dni.

Czas wdrożenia hurtowni jest uzależniony od wielu czynników. Na samym początku należy się zapoznać z informacyjnymi potrzebami potencjalnych i realnych użytkowników. Trzeba mieć jednak na uwadze, że potrzeby, które udało nam się określić na samym początku mogą ewoluować i zmieniać się wraz z rozwojem hurtowni, w myśl zasady „daliśmy palec, a chcą całej ręki”. Kolejnym ważnym elementem budowy hurtowni danych jest określenie jej struktury, mając na uwadze fakt, o którym wspomniałam wcześniej – nie ma możliwości stworzenia hurtowni ze skomplikowanymi algorytmami w kwartał. Pamiętać trzeba także i kwestiach ilościowych – ilu użytkowników będzie korzystało z hurtowni, jakie są źródła importu danych i jaką dane mają wielkość.

Żeby wszystko przebiegało w miarę sprawnie i relatywnie szybko ważna jest organizacja pracy, w tym powołanie zespołu, który zajmie się wdrożeniem. Jak wynika z doświadczeń osób, które już zajmowały się wdrożeniem idealne wręcz okazuje się powołanie nie jednego, a trzech zespołów, gdzie każdy będzie odpowiedzialny za coś innego. Warto więc stworzyć zespół konsultingowy, który pomoże w wyborze odpowiedniego oprogramowania i zbada potrzeby, zespół od oprogramowania, który nie tylko je dostarczy, ale także zapewni odpowiednie wdrożenie i odpowiednie ustawienie parametrów wedle potrzeb oraz zespół własny, więc firmy, która zleca wdrożenie, co pozwoli na sprawną komunikację i uniknięcie wykonania wdrożenia niezgodnie z zaleceniami.

Efektywne wdrożenie jest możliwe tylko za sprawą dobrej współpracy między zespołem wdrożeniowym i kierownictwem. Sukces zostanie osiągnięty wtedy, kiedy użytkownicy systemu nie będą się mogli bez niego obejść.

Informacje, które są zawarte w hurtowniach danych są wykorzystywane przez menadżerów w celu podejmowania kluczowych decyzji dla rozwoju firmy lub zwiększenia jej efektywności. Jak wiadomo informacje trzeba przeanalizować, żeby otrzymać odpowiedź na nurtujące pytania. Wśród typów analiz można wyróżnić między innymi analizę wielowymiarową, która jest podstawą przetwarzania analitycznego – OLAP – on-line analytical processing.

W strukturze wielowymiarowej przedstawione są fakty w funkcji różnych czynników, które z kolei są zwane wymiarami. Opisuje się je za pomocą wartości dyskretnych, tak, że mogą tworzyć różne hierarchie. Wśród wymiarów możemy wyróżnić między innymi czas, podawany w dniach, tygodniach, miesiącach, czy latach, produkty z podziałem na typ i rodzaj, jednostki organizacyjne albo terytorialne, tu gminna, wojewódzka, krajowa itd. Z kolei fakty są opisane za pomocą atrybutów liczbowych, zwanych miarami, najlepszym przykładem faktu jest sprzedaż, bo jej miary to ilość sprzedanego towaru i jego wartość. Analiza wielowymiarowa powoduje, że dane poddawane są:

  • selekcji, w celu znalezienia najlepszych wymiarów,
  • projekcji,
  • wycinaniu, co jest połączeniem i selekcji i projekcji,
  • rankingowi,
  • zwijaniu i rozwijaniu.

Dzięki tym operacjom można w bardzo prosty sposób uzyskać informację, której się aktualnie potrzebuje, a wszystko w zdecydowanie krótszym czasie, niż gdyby hurtownia danych nie została wdrożona.

Struktury danych mogą mieć różne kształty, w tym formę gwiaździstą, w momencie, kiedy wymiary tworzą nieskomplikowane proste hierarchie lub formę płatka śniegu, gdy hierarchie przypominają swoją postacią drzewa.

Przy tworzeniu centralnych hurtowni danych można wyróżnić dwa rozwiązania. Pierwszy, ROLAP – Relational OLAP, gdyż systemy relacyjne mogą przechowywać duże rozmiary danych, ale są słabsze w momencie, kiedy trzeba je przeanalizować i drugi, MOLAP – Multidimensional OLAP – serwery wielowymiarowe przechowują mniejsze rozmiary danych, ale lepiej radzą sobie z analizą. Warto więc się zastanowić na samym początku, czego tak naprawdę potrzebujemy.

Witam na blogu, poświęconym zagadnieniom związanym z hurtownią danych. Chciałabym w tym miejscu przedstawić podstawowe pojęcia związane z samym rozwiązaniem problemu rozproszenia danych, jak i z ich analizą.

Czy hurtownie danych są w ogóle potrzebne? Wyobraźmy sobie następującą sytuację. Mamy za zadanie przeprowadzić kompleksową analizę wszelkich danych, które pozwolą na podniesienie efektywności danej firmy. Dane, którymi dysponujemy są rozproszone, co sprawia, że tworzymy wielostronnicowe raporty każdej z nich, a następnie z kilkusetnego raportu staramy się wydobyć sedno tak, aby do naszego szefa trafiły tylko te informacje, które pozwolą na podjęcie kluczowych decyzji. Oprócz tego, że dane są rozproszone bardzo często umieszczone są w różnych systemach bazodanowych, co z kolei wydłuża czas, jaki musimy przeznaczyć na zapoznanie się z każdym z nich. Jakby tego było mało informacji jest tak dużo, że ciężko je segregować, czy przetwarzać w taki sposób, którego akurat potrzebujemy. Te główne czynniki, a także kilka mniejszych składają się na to, że nasza praca wydłuża się kilkakrotnie, a w ostateczności szef i tak nie jest zadowolony i każe wprowadzić poprawki, albo co gorsza wykonać raport raz jeszcze.

Właśnie dlatego powstają hurtownie danych (data warehouse), które są wydzielonymi centralnymi bazami danych służącymi właśnie do zarządzania organizacją, w której występuje nadmiar informacji. Ich struktura i narzędzia sprzyjają sporządzaniu analiz (gromadzi dane w sposób tematyczny), a dane w nich zawarte są kopiami tych, które znajdują się w poszczególnych bazach operacyjnych. Ich dodatkową zaletą jest przechowywanie tzw. zmaterializowanych agregatów, czyli wyliczonych wartości obliczeń, w tym sum i średnich, pozwalające na uzyskanie informacji za pośrednictwem paru kliknięć. Kolejną zaletą hurtowni jest fakt, iż w momencie dostarczania nowych danych zestawienia i wyliczenia automatycznie się aktualizują. Dodatkowo liczba danych w hurtowni stale rośnie, gdyż nic nie jest usuwane.

Właśnie ze względu na te cechy hurtownie danych zdają się mieć rację bytu, nawet w mniejszych organizacjach, gdyż czas przeznaczony na podejmowanie kluczowych decyzji znacznie się skraca.

Reklama