Czterech znajomych spotyka się w willi na przedmieściach i korzysta z uciech życia do granic możliwości. Jeden umiera z przemarznięcia, za to trzech pozostałych objada się na śmierć - tak w dużym skrócie wygląda akcja filmu w reżyserii Marco Ferreriego w wyśmienitej, jak na początek lat siedemdziesiątych, obsadzie: Marcello Mastroianni, Philippe Noiret, Michel Piccoli. Film, który wywołał olbrzymi skandal obyczajowy, był odczytywany na różne sposoby - także jako krytyka kultury nastawionej na konsumpcję, która niejednokrotnie przechodzi w rozpasany hedonizm. Dziś zajadanie się na śmierć smakołykami wywołałoby co najwyżej wzruszenie ramion. Dziś nowym fetyszem staje się obżarstwo informacyjne.
Zalew informacji jest zjawiskiem wszechogarniającym, a zasoby informacji przechowywanych w systemach informatycznych na całym świecie podwajają się co kilkanaście miesięcy. Specjaliści od analiz danych i rozwoju narzędzi informatycznych ukuli nawet termin „Big Data“, którego popularność nie ustępuje w niczym innemu informatycznemu szlagierowi ostatnich lat czyli chmurze obliczeniowej („cloud computing“). Dlaczego akurat teraz ?
Kiedy w połowie lat dziewięćdziesiątych zaczynałem pracę dla jednego z międzynarodowych koncernów informatycznych, jednym z podstawowych obowiązków każdego z pracowników było ścisłe przestrzeganie przyznanych mu limitów pojemności skrzynki pocztowej. Po ich przekroczeniu poczta była blokowana bez względu na funkcję i tytuły. Tak był kiedyś. Dzisiaj koszt dysku pamięci o wielkości 1TB to mniej niż 50 dolarów, a ilość wszystkich danych przechowywanych na świecie określa się w jednostkach których nazwa brzmi jak wyjęta ze ścieżki dialogowej Gwiezdnych Wojen – w zettabajtach (czyli 10 do potęgi 21).
Skąd biorą się te wszystkie dane ? Na początek przykład ze świata nauki. Wielki Zderzacz Hadronów – największy na świecie akcelerator cząstek znajdujący się w ośrodku CERN koło Genewy, posiada 150 milionów czujników, które dostarczają dane 40 milionów razy na sekundę. Nawet jeśli analizie poddaje się niewielką część tych danych, to w dalszym ciągu ich łączna wielkość obliczana jest w petabajtach (10 do potęgi piętnastej). To oczywiście skrajny przykład, bo poszukiwania bozonu Higgsa (do czego między innymi wykorzystywany jest WZH), aczkolwiek fascynujące, interesują dość wąskie grono naukowców.
Zakupy to temat dużo bliższy naszej codzienności. Dla niektórych odwiedzanie galerii handlowych to przyjemność, dla innych męczarnie, a dla analityków - to strumień danych, które nie tylko pomagają w zarządzaniu siecią sprzedaży, ale także przydają się w lepszym rozpoznaniu obecnych oraz przyszłych potrzeb klientów. Systemy informatyczne sieci Walmart – największej sieci sprzedaży detalicznej na świecie - przetwarzają każdej godziny ponad milion informacji dotyczących transakcji dokonywanych przez klientów tej sieci. Dane te są następnie gromadzone w bazie danych, której wielkość oceniana jest na 2.5 petabajtów. Dla porównania - to mniej więcej 167 razy więcej od łącznej ilości danych przechowywanych w Bibliotece Kongresu Stanów Zjednoczonych.
I w końcu Facebook. Firma, która ostatnimi laty odniosła oszałamiający sukces, tworząc modelowy portal społecznościowy. Każdego dnia na stronach tego portalu jego użytkownicy dokonują 2.5 miliarda zmian, dodając informacje, zdjęcia, filmiki video. Codziennie baza zdjęć tego portalu powiększa się o 300 milionów nowych fotografii. Setki milionów użytkowników zapełniają dzień po dniu kolejne terabajty przestrzeni dyskowej. Terabajty, które służą wymianie informacjami pomiędzy użytkownikami ale które poddane właściwej analizie, mogą służyć także innym celom - jak choćby precyzyjne określanie grup docelowych dla reklamy określonych produktów, czy też e-handlu.
Dramatyczny spadek cen nośników, nie tłumaczy jednak nowej mody związanej z Big Data. Dla jednych to tylko kolejny buzzword, który ma pobudzać wyobraźnię i otwierać budżety informatyczne firm. Dla innych - to nowa jakość w procesie analizy danych. Chris Andersson stwierdził nawet swego czasu, że przy odpowiedniej ilości danych, cyfry mówić będą same za siebie. Dla osób wychowanych na lekturze "Bajek robotów" Stanisława Lema, podnoszona przez Anderssona teza o "końcu teorii", będzie się zapewne kojarzyć z cyfrową wyrocznią karmioną petabajtami i dającą odpowiedzi na każde zadane pytanie. Nie sposób jednak lekceważyć wyników badań instytucji takich jak Massauchusetts Institute of Technology, wedle którego przedsiębiorstwa stosujące rozwinięte narzędzia analityczne potrafią zwiększyć swoją produktywność o 5-6 proc.
Inną kwestią nierozerwalnie związaną z lawinowym przyrostem danych jest ochrona prywatności. Przeciętny londyńczyk, pojawia się w zasięgu kamer miejskich ponad 150 razy dziennie. Urządzenia GPS w naszych samochodach, czy też telekomunikacyjne stacje nadawcze, potrafią odtworzyć bez najmniejszych problemów naszą całodzienną marszrutę. Informacje zawarte w rejestrach publicznych (przykładowo w rejestrze ksiąg wieczystych), umieszczane przez nas lub przez naszych znajomych w internecie to tylko kilka dodatkowych źródeł informacji, z których można czerpać pełnymi garściami. Czy też można byłoby, gdyby nie rozwiązania prawne mające na celu ochronę prywatności.
Niewykluczone, że moda na określenie Big Data przeminie, tak jak przeminęło już tyle innych mód związanych z przemysłem informatycznym. Ilość gromadzonych danych będzie jednak nieustannie wzrastać, podobnie jak doskonalone będą narzędzia analityczne. Nawiązując do filmu Ferreriego, można by powiedzieć, że informacyjne obżarstwo trwa w najlepsze. Oby w tym przypadku historia skończyła się wyłącznie na lekkiej niestrawności.
Kiedy w połowie lat dziewięćdziesiątych zaczynałem pracę dla jednego z międzynarodowych koncernów informatycznych, jednym z podstawowych obowiązków każdego z pracowników było ścisłe przestrzeganie przyznanych mu limitów pojemności skrzynki pocztowej. Po ich przekroczeniu poczta była blokowana bez względu na funkcję i tytuły. Tak był kiedyś. Dzisiaj koszt dysku pamięci o wielkości 1TB to mniej niż 50 dolarów, a ilość wszystkich danych przechowywanych na świecie określa się w jednostkach których nazwa brzmi jak wyjęta ze ścieżki dialogowej Gwiezdnych Wojen – w zettabajtach (czyli 10 do potęgi 21).
Skąd biorą się te wszystkie dane ? Na początek przykład ze świata nauki. Wielki Zderzacz Hadronów – największy na świecie akcelerator cząstek znajdujący się w ośrodku CERN koło Genewy, posiada 150 milionów czujników, które dostarczają dane 40 milionów razy na sekundę. Nawet jeśli analizie poddaje się niewielką część tych danych, to w dalszym ciągu ich łączna wielkość obliczana jest w petabajtach (10 do potęgi piętnastej). To oczywiście skrajny przykład, bo poszukiwania bozonu Higgsa (do czego między innymi wykorzystywany jest WZH), aczkolwiek fascynujące, interesują dość wąskie grono naukowców.
Zakupy to temat dużo bliższy naszej codzienności. Dla niektórych odwiedzanie galerii handlowych to przyjemność, dla innych męczarnie, a dla analityków - to strumień danych, które nie tylko pomagają w zarządzaniu siecią sprzedaży, ale także przydają się w lepszym rozpoznaniu obecnych oraz przyszłych potrzeb klientów. Systemy informatyczne sieci Walmart – największej sieci sprzedaży detalicznej na świecie - przetwarzają każdej godziny ponad milion informacji dotyczących transakcji dokonywanych przez klientów tej sieci. Dane te są następnie gromadzone w bazie danych, której wielkość oceniana jest na 2.5 petabajtów. Dla porównania - to mniej więcej 167 razy więcej od łącznej ilości danych przechowywanych w Bibliotece Kongresu Stanów Zjednoczonych.
I w końcu Facebook. Firma, która ostatnimi laty odniosła oszałamiający sukces, tworząc modelowy portal społecznościowy. Każdego dnia na stronach tego portalu jego użytkownicy dokonują 2.5 miliarda zmian, dodając informacje, zdjęcia, filmiki video. Codziennie baza zdjęć tego portalu powiększa się o 300 milionów nowych fotografii. Setki milionów użytkowników zapełniają dzień po dniu kolejne terabajty przestrzeni dyskowej. Terabajty, które służą wymianie informacjami pomiędzy użytkownikami ale które poddane właściwej analizie, mogą służyć także innym celom - jak choćby precyzyjne określanie grup docelowych dla reklamy określonych produktów, czy też e-handlu.
Dramatyczny spadek cen nośników, nie tłumaczy jednak nowej mody związanej z Big Data. Dla jednych to tylko kolejny buzzword, który ma pobudzać wyobraźnię i otwierać budżety informatyczne firm. Dla innych - to nowa jakość w procesie analizy danych. Chris Andersson stwierdził nawet swego czasu, że przy odpowiedniej ilości danych, cyfry mówić będą same za siebie. Dla osób wychowanych na lekturze "Bajek robotów" Stanisława Lema, podnoszona przez Anderssona teza o "końcu teorii", będzie się zapewne kojarzyć z cyfrową wyrocznią karmioną petabajtami i dającą odpowiedzi na każde zadane pytanie. Nie sposób jednak lekceważyć wyników badań instytucji takich jak Massauchusetts Institute of Technology, wedle którego przedsiębiorstwa stosujące rozwinięte narzędzia analityczne potrafią zwiększyć swoją produktywność o 5-6 proc.
Inną kwestią nierozerwalnie związaną z lawinowym przyrostem danych jest ochrona prywatności. Przeciętny londyńczyk, pojawia się w zasięgu kamer miejskich ponad 150 razy dziennie. Urządzenia GPS w naszych samochodach, czy też telekomunikacyjne stacje nadawcze, potrafią odtworzyć bez najmniejszych problemów naszą całodzienną marszrutę. Informacje zawarte w rejestrach publicznych (przykładowo w rejestrze ksiąg wieczystych), umieszczane przez nas lub przez naszych znajomych w internecie to tylko kilka dodatkowych źródeł informacji, z których można czerpać pełnymi garściami. Czy też można byłoby, gdyby nie rozwiązania prawne mające na celu ochronę prywatności.
Niewykluczone, że moda na określenie Big Data przeminie, tak jak przeminęło już tyle innych mód związanych z przemysłem informatycznym. Ilość gromadzonych danych będzie jednak nieustannie wzrastać, podobnie jak doskonalone będą narzędzia analityczne. Nawiązując do filmu Ferreriego, można by powiedzieć, że informacyjne obżarstwo trwa w najlepsze. Oby w tym przypadku historia skończyła się wyłącznie na lekkiej niestrawności.