Data Science - co to jest i jak zacząć?
Nauka o danych, danologia, danetyka to dziedzina polegająca na budowaniu wiedzy na podstawie danych wykorzystując przy tym szeroki wachlarz metod naukowych. Obszar Data Science charakteryzuje się interdyscyplinarnym podejściem, co pozwala na adresowanie problemów biznesowych w sposób w jaki zazwyczaj pracuje się nad problemem badawczym i pozyskanie praktycznych rozwiązań.
Terabajty danych do zbadania
Ilość generowanych danych gwałtownie rośnie – przekazujemy je wysyłając maile czy wiadomości w mediach społecznościowych, korzystając z inteligentnych urządzeń, które podłączone są do Internetu, robiąc zakupy czy korzystając z usług bankowości. Z każdą aktywnością w sieci generujemy nowe informacje, które odpowiednio przetworzone dostarczają określone wzorce. Według szacunków Statista z 2020 roku, w 2023 roku każdego dnia tworzonych miało być 328,77 milionów terabajtów danych. Jak najlepiej zobrazować takie liczby? Przyjmijmy, że maksymalna wielkość wiadomości e-mail to 25 megabajtów. Terabajt to milion megabajtów. Ile to maili dziennie? Na pewno na tyle dużo, by specjaliści Data Science od kilku lat należeli do najbardziej poszukiwanych na rynku pracy.
Czym zajmuje się badacz danych?
Rola data scientist i jego codzienne zadania różnią się w zależności od wielkości i wymagań organizacji. Warto tutaj rozróżnić pojęcia analityka danych (data analyst) – praca takiego specjalisty polega głównie na wykorzystaniu danych do zrozumienia konkretnego problemu i może być pierwszym krokiem na ścieżce kariery w obszarze Data Science. Mistrz danych (data scientists) odpowiedzialny jest za cały proces analityczny w szerszym kontekście.
Badacz danych zbiera, analizuje i interpretuje dane by w oparciu o wynikające z nich wzorce czy przewidywania móc tworzyć scenariusze umożliwiające podejmowanie decyzji. W zależności od branży w jakich realizowane są projekty z obszaru Data Science codzienna praca może polegać np. na zadaniach związanych z opracowywaniem nowych produktów lub ulepszaniem istniejących, zarządzaniem łańcuchem dostaw czy poszukiwaniem bardziej sprawnych metod zarządzaniem zasobami w oparciu o dane. Odpowiednio wykorzystane zbiory danych mogą też przyczynić się do lepszego zarządzania miastem. Badacze danych mogą wspierać samorządy i przyszłych Ekspertów Miast Przyszłości.
W większych zespołach osoba taka może współpracować z innymi analitykami, inżynierami danych, ekspertami ds. uczenia maszynowego i statystykami, aby zapewnić kompleksowe przestrzeganie procesu data science i osiągnięcie celów biznesowych. Jednak w mniejszych zespołach badacz danych może zajmować się większą ilością zagadnień. W oparciu o doświadczenie, umiejętności i wykształcenie mogą pełnić wiele ról lub nakładać się na siebie. W takim przypadku ich codzienne obowiązki mogą obejmować inżynierię danych, analizę i uczenie maszynowe wraz z podstawowymi metodami nauki o danych.
Jakie umiejętności są potrzebne?
Podstawowe umiejętności analizy danych na małych zbiorach jak np. w arkuszach kalkulacyjnych to dobry punkt wyjścia. Jednak w świecie Data Science konieczne jest ich ciągłe pogłębianie. Efektywna analityka danych i praca na dużych zbiorach powszechnie określanych jako Big Data wymaga zarówno umiejętności technicznych, jak i tych bardziej miękkich. Do najważniejszych kompetencji w obszarze Data Science należą:
- zdolności analityczne – szereg umiejętności analitycznego myślenia pozwala na kreatywne spojrzenie na postawiony problem, zastanawianie się dlaczego w danym zbiorze występują pewne prawidłowości lub odstępstwa od nich, pomagają też w doszukiwaniu się błędów i skrupulatnym procesowaniu dostępnych zasobów;
- znajomość zagadnień matematycznych oraz statystyki – są kluczowe w formułowaniu i testowaniu hipotez, badaniu prawidłowości (lub odstępstw od nich) w zbiorach danych oraz zrozumienia podstaw matematycznych w wykorzystywanych modelach analitycznych;
- podstawy programowania - podczas eksploracji danych najczęściej wykorzystywany jest język Python, zastosowanie znajdują również R czy SAS. Język zapytań SQL również należy do narzędzi niezbędnych dla badaczy danych, by formułować zapytania bezpośredni do baz danych;
- uczenie maszynowe i deep learning – w erze sztucznej inteligencji włączenie modeli i technik algorytmicznych do swojej pracy jako analityka danych oznacza szybsze i bardziej wydajne przetwarzanie danych. Modele pozwalające na trenowanie danych udostępniane są w otwartych bibliotekach takich jak np. NumPy, Scikit-learn, TensorFlow czy PyTorch czy Keras co pozwala na stosowanie zautomatyzowanego uczenia maszynowego zamiast tworzenia ich od podstaw;
- wizualizacja danych – dla ułatwienia odbioru wyników analiz konieczne jest tworzenie wykresów i grafik. Narzędzie takie jak Tableau, PowerBI czy Excel pomogą przełożyć liczby na obrazy. Tu również warto korzystać z otwartych bibliotek do wizualizacji danych dostępnych dla różnych języków programowania;
- storytelling – zebrane obserwacje muszą zostać umiejętnie przekazane i wyjaśnienie odbiorcom, którzy na co dzień nie pracują z danymi, lecz wykorzystują je do podejmowania kluczowych decyzji.
Chcesz dowiedzieć się, jakie umiejętności będą najbardziej poszukiwane w 2024 roku? Przeczytaj nasz artykuł top 8 kompetencji w 2024 roku.
Jak badać dane by uzyskać z nich wiedzę i praktyczne wnioski?
Proces analityki danych zazwyczaj inicjowany jest przez konkretny problem biznesowy. jest iteracyjny, czyli powtarzalny. Wyróżnić można w nim poszczególne etapy:
- Zdefiniowanie problemu – pierwszym etapem jest zrozumienia na ile i jakie narzędzia Data Science będą najbardziej przydatne dla danego zagadnienia. Konieczne jest tutaj uwzględnienie perspektywy biznesowej czy też innego odbiorcy końcowego analizy wskaźników, które powinny zostać przedstawione.
- Zbieranie danych - po sformułowaniu dowolnego problemu głównym zadaniem jest zebranie danych, które wykorzystywane będą w dalszych krokach procesu.
- Czyszczenie i przetwarzanie danych – często to najbardziej żmudny i wymagający proces, jednak nieodpowiednio przygotowane dane nawet jeśli dostępne są ich ogromne ilości mogą okazać się nieprzydane do dalszej analizy. Większość rzeczywistych danych nie jest ustrukturyzowana i wymaga czyszczenia i konwersji na dane ustrukturyzowane, zanim będzie można je wykorzystać do jakiejkolwiek analizy lub modelowania.
- Eksploracja danych i modelowanie – w tym kroku odnajdywane są ukryte w danych wzorce. Zbiory badane są poprzez formułowanie różnych funkcji statystycznych oraz identyfikację zmiennych. Dokładna analiza danych ujawnia, które dane lub cechy są ważne i jaki jest ich rozkład. Dla lepszego zrozumienia wyników wykorzystywane są wykresy dla wizualizacji danych. Następnie wykorzystywane są modele matematyczne i algorytmy, które pozwalają na tworzenie prognoz i uzyskanie wyników. Proces trenowania, testowania i ewaluacji danego algorytmu powtarzany może być wielokrotnie nim model będzie gotowy do włączenia jako usługa.
- Interpretacja i prezentacja wyników analizy - ostatni etap procesu Data Science jest tym, w którym najbardziej przydatne są umiejętności miękkie. Po zaprezentowaniu wyników interesariuszom podejmowane mogą być decyzje biznesowe, a wypracowane narzędzie może być wykorzystywane ponownie do dalszych analiz lub zintegrowane z innymi rozwiązaniami.
Jak zostać badaczem danych?
Wiele ścieżek pozwala na dołączenie do grona data scientists. Niektórzy stawiają na uzyskanie stopnia naukowego w obszarze nauki o danych, inni rozwijają swoje kompetencje w ramach kursów online czy szkoleń. Warto również poszukiwać możliwości sprawdzenia swoich umiejętności dołączając do społeczności Data Science i biorąc udział w wyzwaniach np. poprzez platformę kaggle.com lub tematycznych hackathonach, by rozszerzać swoje portfolio projektów na praktycznych przykładach.
Zwiększ swoje kompetencje w obszarze analizy danych korzystając z materiałów dostępnych w Strefie Wiedzy PFR:
- Bezpłatny kurs - Chmura w biznesie
- Warsztat - Sprzedaż na podstawie danych - poznaj narzędzie Power BI