Na čem v oblasti datové analytiky skutečně záleží?

My, kdo jsme intenzivně zapojeni do světa BI, víme (a často se usilovně snažíme správně vysvětlit), že jde o porozumění výsledkům, tedy o to, co data říkají („data storytelling“) – odkud pocházejí, jak byla zpracována a jaké informace nám sdělují. Této úrovně lze dosáhnout pouze pokud víme, který tok dat je nepřínosnější.

Tok dat

Vezměte si například náš výpočet čistého výnosu (viz video s fiktivními daty) – je k tomu potřeba šest kroků a dílčí výsledky každého z nich se mohou radikálně lišit. Konsolidujeme vnitropodnikové, sdružené náklady, čistíme a kategorizujeme zdrojová data, která musí být aktuální a musí k nim být přístup z účtu s dostatečnými právy. Pokud je každý, kdo se o tyto hodnoty zajímá, s tímto tokem seznámen, vytváří to důvěru v data, a ta pak zase podporuje jejich využívání.

Další výhodou je, že jde o nejbezpečnější způsob, jak minimalizovat spory ohledně dat. Mám na mysli ty situace, jež všichni známe. Kdy se lidé na poradě dohadují, čí údaje jsou správné – což je plýtvání časem všech zúčastněných. Transparentnost dat tedy také napomáhá tomu, aby byli vedoucí pracovníci na stejné vlně.

Pokud chápu, jakým způsobem tok dat probíhá, znamená to, že jsem schopen zlepšovat procesy, protože dnešní podnikové procesy, to jsou data. Pokud například obchodní zástupce zadá do CRM chybnou kategorii, dostanu chybný výsledek. Díky zpětné analýze výsledků až ke zdroji mohu navrhnout bezpečnostní opatření a automatizaci, což celý proces pro všechny zlepší – zvýší kvalitu našich interakcí s kolegy, zákazníky, dodavateli či partnery.

Možnost vyhodnocovat celý datový tok od začátku do konce představuje další potenciál v rámci BI, který by se dal ve větší míře inovovat. Data budou díky tomu přínosnější (nebudou sloužit jen k prezentaci výsledků) a ve větší míře je bude možné přeměnit na aktiva.

Asociativita dat

Každý GB dat, který vyprodukujeme a uložíme, něco stojí, a v ideálním případě by z něj plynoucí přínos neměl mít jen jednorázovou podobu, ale měla by se z něj stát aktiva. Protože dat, která produkujeme, je stále víc, tlak na inovace v oblasti BI je velmi vysoký.

Od mého prvního projektu v oblasti analýzy dat před 16 lety se hodně změnilo, především co se týká výkonu a uživatelského prostředí. Když přemýšlím o trendech a inovacích, chtěl bych se oprostit od přehnaně populárních témat a zaměřit se spíše na principy.

Prvním principem či výzvou, jež mě v rámci inovací v oblasti BI napadne, je lepší asociativita dat. Myslím tím možnost sdružovat (neboli spojovat či slučovat…) dva nebo více souborů dat bez ohledu na formát (čísla, datumy, řetězce…) nebo rozsah (stovky či miliardy řádků). Zní to jednoduše, ale řešení nekonzistentností může u jediného souboru dat zdržet projekt o dny či týdny, a takových souborů dat musíte řešit desítky nebo stovky.

Každý soubor dat se výrazně zhodnotí, když je možné ho sdružit s jiným. Jedním z mega generátorů dat bude například internet věcí (IoT). Jediný senzor odesílající data každou minutu nám dá přibližně milion záznamů ročně. A teď si představte třeba tisíc senzorů odesílajících data každou sekundu. Pokud známe referenční hodnotu (hladinu nebo orientační bod), potřebujeme už jen aktuální hodnotu, například poslední den trendu. Což znamená více než 99 % takových dat ignorovat jako irelevantní. To se dramaticky změní, když je sdružíme např. se servisními daty, a tím nemyslím zredukování. Skutečné sdružování uchová hodnoty v rámci obou datových souborů a odhalí stávající i dosud neexistující vazby. A tato šedá zóna je často nejzajímavější.

Pokud chceme vůbec uvažovat o pokročilých analýzách, predikcích, vytěžování dat nebo jejich sdílení s obchodními partnery, hraje zásadní roli asociativita dat. Pokud nám BI pomůže lépe sdružovat soubory dat, budeme schopni rychleji předvídat obchodní vývoj a zmírňovat rizika.

Co skrývá budoucnost.

Narazil jsem na statistiku objemu dat, která se měří v zettabajtech. To je miliarda terabajtů neboli bilion gigabajtů. Celkové číslo je samozřejmě pro většinu z nás stěží představitelné, ale pozorovaný trend velmi dobře odráží realitu a predikuje, že do roku 2025 se objem dat zdvojnásobí.

Co za tímto nárůstem stojí? Z toho, co jsem četl nebo slyšel:

lidé = chceme data o všem; zaznamenal jsem jakési obecné povědomí, že s daty je spojená větší informovanost a přináší nám pohodlí;
firmy chtějí (semi)automatizovat většinu svých procesů, na základě čehož vznikají nejen transakční data, ale také spousta protokolů o používání, stavech systému a událostech;
zákazníci, dodavatelé a další obchodní partneři očekávají, že s nimi budeme sdílet relevantní data za účelem zefektivnění procesů (a to nejen v okamžiku, kdy jim posíláme fakturu);
široce se zavádějí technologie, které generují data v masovém měřítku > IoT, 5G, IPV6, Web3 i ten nechvalně proslulý blockchain;
objemnější a rychlejší data znamenají větší zranitelnost, což zvyšuje potřebu vytvářet více metadat (neboli dat o datech).

Před jakou výzvou tedy stojíme? Domnívám se, že vygenerování každého GB něco stojí a v ideálním případě by z nich plynoucí přínos neměl mít jen jednorázovou podobu, ale měla by se z něj stát aktiva. Většina produkovaných dat se však neuchovává nebo se na ně prostě zapomene a jen menší část těch zbylých se použije k analýze. To zvyšuje tlak na inovace v oblasti BI, protože bez nich se hodnotová propast u dat bude stále rozšiřovat.