Hurtownie danych – słowniczek pojęć

Hurtownia danych – jest to odrębna baza danych, która zawiera dane obejmujące wiele sektorów, a dostępne z poziomu jednego, ujednoliconego interfejsu. Znajduje zastosowanie zarówno w dużych przedsiębiorstwach, jak i zupełnie małych firmach, a jej zadaniem jest poprawienie efektywności pracy i pomoc przy podejmowaniu kluczowych dla firmy decyzji.

Business Inteligence – te systemy wykrywają zależności między danymi, poddając je szczegółowej analizie z różnych punktów widzenia, czerpiąc dane z hurtowni.

Decision Support System (DSS) (Systemy Wspierania Decyzji) – to systemy, które pozwalają na zadawanie pytań bez potrzeby znajomości języka SQL

Executive Information System (EIS) (Systemy Informacji Zarządczej) – podobnie jak DSS pozwalają na zadawanie dynamicznych pytań bez znajomości SQL z tą tylko różnicą, że są one sztywno i z góry określone

On Line Analytical Processing (OLAP) – pozwala na przetwarzanie, przechowywanie i udostępnianie danych w sposób zoptymalizowany, znajduje zastosowanie w analizach

On Line Transaction Processing (OLTP) – podobnie jak OLAP umożliwia przetwarzanie, przechowywanie i udostępnianie danych w zoptymalizowany sposób, ma zastosowanie w transakcjach

wielowymiarowe struktury danych – zbiory danych, które pozwalają odzwierciedlić logicznie wielowymiarową przestrzeń

relacyjne struktury danych – struktury, które pozwalają odzwierciedlić, zapisać logicznie powiązania między obiektami. Ich podzbiorem są wielowymiarowe struktury danych, zbudowane przez odpowiednio powiązane relacje

wielowymiarowe bazy danych – te bazy danych obejmują pojęcia wymiaru, miary i hierarchii, w odstępstwie od technicznego zapisu

relacyjne bazy danych – obejmują powiązania/ relacje między tabelami

miara (measure) – obiekt w każdej hurtowni danych, który ma za zadanie rejestrowanie i przechowywanie wartości (najczęściej numerycznych) – ilość sprzedanego towaru, stan w magazynie, ale często też tekstowe – tu komentarze

wymiar (dimension) – to również obiekt w hurtowni danych, który ma za zadanie organizować dane zapisane w miarach w taki sposób, aby możliwa była analiza pod jakimś kątem, np. pod kątem czasu, geografii, produktu

Koszty wdrażania hurtowni danych

Na blogu poruszono już temat zalet hurtowni danych, wielowymiarowej analizy danych i procesu wdrażania hurtowni danych, dzisiaj chciałabym trochę uwagi poświęcić kosztom. Więc zaczynamy! Trudno jest na początku określić jaką sumę trzeba przeznaczyć na budowę hurtowni, gdyż wdrożenie jest wieloetapowe i trwa dosyć długo, ale jest kilka elementów niezbędnych przy budowie.

Na początku trzeba będzie zakupić osobny komputer, który będzie pełnił rolę serwera – nie ma sensu wykorzystywać do tego celu sprzętu, na którym ktoś pracuje, gdyż wtedy istnieje większe prawdopodobieństwo, że serwer „padnie”.

Ważne są też wszelkiego rodzaju komponenty softwarowe, w tym serwer bazodanowy i specjalna nakładka aplikacyjna, a koszt tego „elementu” zależy od liczby użytkowników bazy, da się więc go określić „z góry”.

Kosztują także i zwykle niemało usługi firmy wdrażającej system, koszty uzależnione są od tego, jaki ma ona wkład w budowę hurtowni.

Wydawać by się mogło niedorzeczne to, że w koszty wliczone jest też zaangażowanie firmy, w której system jest wdrażany. Jednak prawda jest taka, że im sprawniej będzie przebiegała współpraca, tym hurtownia lepiej i szybciej się „przyjmie”.

Warto również zadbać o odpowiednią opiekę serwisową, która powinna trwać cały czas, w przeciwnym razie może okazać się, że całe przedsięwzięcie pójdzie na marne, a dane zawarte w hurtowni są słabej jakości.

Źródła podają, że koszt wdrożenia wynosi około 25-30 tysięcy złotych, należy zaznaczyć jednak, że obejmuje tylko niezbędne minimum. Aby system działał niezawodnie i jego efektywność była duża należy zainwestować znacznie więcej. Jedno jest jednak pewne – koszty inwestycji na pewno się zwrócą, choć musi to potrwać.

Hurtownia danych – wdrażanie

Ostatnio pisałam czym w ogóle są hurtownie danych i w jaki sposób przebiega analiza zgromadzonych w nich informacji, dziś trochę uwagi chciałabym poświęcić na etap wdrożenia hurtowni do przedsiębiorstwa. Wbrew pozorom nie jest to sprawa łatwa i szybka, z tego miejsca od razu chciałabym obalić mity, które głoszą, że hurtownia może powstać w ciągu 90 dni.

Czas wdrożenia hurtowni jest uzależniony od wielu czynników. Na samym początku należy się zapoznać z informacyjnymi potrzebami potencjalnych i realnych użytkowników. Trzeba mieć jednak na uwadze, że potrzeby, które udało nam się określić na samym początku mogą ewoluować i zmieniać się wraz z rozwojem hurtowni, w myśl zasady „daliśmy palec, a chcą całej ręki”. Kolejnym ważnym elementem budowy hurtowni danych jest określenie jej struktury, mając na uwadze fakt, o którym wspomniałam wcześniej – nie ma możliwości stworzenia hurtowni ze skomplikowanymi algorytmami w kwartał. Pamiętać trzeba także i kwestiach ilościowych – ilu użytkowników będzie korzystało z hurtowni, jakie są źródła importu danych i jaką dane mają wielkość.

Żeby wszystko przebiegało w miarę sprawnie i relatywnie szybko ważna jest organizacja pracy, w tym powołanie zespołu, który zajmie się wdrożeniem. Jak wynika z doświadczeń osób, które już zajmowały się wdrożeniem idealne wręcz okazuje się powołanie nie jednego, a trzech zespołów, gdzie każdy będzie odpowiedzialny za coś innego. Warto więc stworzyć zespół konsultingowy, który pomoże w wyborze odpowiedniego oprogramowania i zbada potrzeby, zespół od oprogramowania, który nie tylko je dostarczy, ale także zapewni odpowiednie wdrożenie i odpowiednie ustawienie parametrów wedle potrzeb oraz zespół własny, więc firmy, która zleca wdrożenie, co pozwoli na sprawną komunikację i uniknięcie wykonania wdrożenia niezgodnie z zaleceniami.

Efektywne wdrożenie jest możliwe tylko za sprawą dobrej współpracy między zespołem wdrożeniowym i kierownictwem. Sukces zostanie osiągnięty wtedy, kiedy użytkownicy systemu nie będą się mogli bez niego obejść.

Proces analizy danych

Informacje, które są zawarte w hurtowniach danych są wykorzystywane przez menadżerów w celu podejmowania kluczowych decyzji dla rozwoju firmy lub zwiększenia jej efektywności. Jak wiadomo informacje trzeba przeanalizować, żeby otrzymać odpowiedź na nurtujące pytania. Wśród typów analiz można wyróżnić między innymi analizę wielowymiarową, która jest podstawą przetwarzania analitycznego – OLAP – on-line analytical processing.

W strukturze wielowymiarowej przedstawione są fakty w funkcji różnych czynników, które z kolei są zwane wymiarami. Opisuje się je za pomocą wartości dyskretnych, tak, że mogą tworzyć różne hierarchie. Wśród wymiarów możemy wyróżnić między innymi czas, podawany w dniach, tygodniach, miesiącach, czy latach, produkty z podziałem na typ i rodzaj, jednostki organizacyjne albo terytorialne, tu gminna, wojewódzka, krajowa itd. Z kolei fakty są opisane za pomocą atrybutów liczbowych, zwanych miarami, najlepszym przykładem faktu jest sprzedaż, bo jej miary to ilość sprzedanego towaru i jego wartość. Analiza wielowymiarowa powoduje, że dane poddawane są:

  • selekcji, w celu znalezienia najlepszych wymiarów,
  • projekcji,
  • wycinaniu, co jest połączeniem i selekcji i projekcji,
  • rankingowi,
  • zwijaniu i rozwijaniu.

Dzięki tym operacjom można w bardzo prosty sposób uzyskać informację, której się aktualnie potrzebuje, a wszystko w zdecydowanie krótszym czasie, niż gdyby hurtownia danych nie została wdrożona.

Struktury danych mogą mieć różne kształty, w tym formę gwiaździstą, w momencie, kiedy wymiary tworzą nieskomplikowane proste hierarchie lub formę płatka śniegu, gdy hierarchie przypominają swoją postacią drzewa.

Przy tworzeniu centralnych hurtowni danych można wyróżnić dwa rozwiązania. Pierwszy, ROLAP – Relational OLAP, gdyż systemy relacyjne mogą przechowywać duże rozmiary danych, ale są słabsze w momencie, kiedy trzeba je przeanalizować i drugi, MOLAP – Multidimensional OLAP – serwery wielowymiarowe przechowują mniejsze rozmiary danych, ale lepiej radzą sobie z analizą. Warto więc się zastanowić na samym początku, czego tak naprawdę potrzebujemy.

Hurtownie danych – wprowadzenie

Witam na blogu, poświęconym zagadnieniom związanym z hurtownią danych. Chciałabym w tym miejscu przedstawić podstawowe pojęcia związane z samym rozwiązaniem problemu rozproszenia danych, jak i z ich analizą.

Czy hurtownie danych są w ogóle potrzebne? Wyobraźmy sobie następującą sytuację. Mamy za zadanie przeprowadzić kompleksową analizę wszelkich danych, które pozwolą na podniesienie efektywności danej firmy. Dane, którymi dysponujemy są rozproszone, co sprawia, że tworzymy wielostronnicowe raporty każdej z nich, a następnie z kilkusetnego raportu staramy się wydobyć sedno tak, aby do naszego szefa trafiły tylko te informacje, które pozwolą na podjęcie kluczowych decyzji. Oprócz tego, że dane są rozproszone bardzo często umieszczone są w różnych systemach bazodanowych, co z kolei wydłuża czas, jaki musimy przeznaczyć na zapoznanie się z każdym z nich. Jakby tego było mało informacji jest tak dużo, że ciężko je segregować, czy przetwarzać w taki sposób, którego akurat potrzebujemy. Te główne czynniki, a także kilka mniejszych składają się na to, że nasza praca wydłuża się kilkakrotnie, a w ostateczności szef i tak nie jest zadowolony i każe wprowadzić poprawki, albo co gorsza wykonać raport raz jeszcze.

Właśnie dlatego powstają hurtownie danych (data warehouse), które są wydzielonymi centralnymi bazami danych służącymi właśnie do zarządzania organizacją, w której występuje nadmiar informacji. Ich struktura i narzędzia sprzyjają sporządzaniu analiz (gromadzi dane w sposób tematyczny), a dane w nich zawarte są kopiami tych, które znajdują się w poszczególnych bazach operacyjnych. Ich dodatkową zaletą jest przechowywanie tzw. zmaterializowanych agregatów, czyli wyliczonych wartości obliczeń, w tym sum i średnich, pozwalające na uzyskanie informacji za pośrednictwem paru kliknięć. Kolejną zaletą hurtowni jest fakt, iż w momencie dostarczania nowych danych zestawienia i wyliczenia automatycznie się aktualizują. Dodatkowo liczba danych w hurtowni stale rośnie, gdyż nic nie jest usuwane.

Właśnie ze względu na te cechy hurtownie danych zdają się mieć rację bytu, nawet w mniejszych organizacjach, gdyż czas przeznaczony na podejmowanie kluczowych decyzji znacznie się skraca.

Next Entries »