logo
Wrong email address or username
Wrong email address or username
Incorrect verification code
back to top
Search tags: polski-internet
Load new posts () and activity
Like Reblog Comment
review 2013-04-16 16:27
Big Data, czyli “Raport całości"
Big Data: A Revolution That Will Transform How We Live, Work and Think. Viktor Mayer-Schnberger and Kenneth Cukier - Viktor Mayer-Schönberger

Chcieliby Państwo mieć koło telewizora  medal noblowski z medycyny? Brak lekarskiego wykształcenia właśnie przestał być problemem. Wystarczy udowodnić, że sok z pomarańczy połączony z pewnym typem insuliny wywołuje u cukrzyków odporność na grypę. Jeśli zrobią to państwo na próbie 7 miliardów osób – nikt nie podważy odkrycia, nawet jeśli autor nie będzie miał pojęcia skąd ta odporność.

 

“Big Data: A Revolution That Will Transform How We Live, Work, and Think”, Viktor Mayer-Schonberger, Kenneth Cukier

 

Suma danych i strachów

Wielka zmiana już tu jest. Nadeszła razem z Wielką Daną – Big Data – czyli sumą wszystkich cyfrowych danych. I wszystkich cyfrowych strachów. Takich jak te, które rozpaliły polski Internet w styczniowe piątkowe popołudnie, gdy kilka tygodni po giełdowym debiucie Alior Banku jego wiceprezes pochwalił się w TVN CNBC inwestorom, że bank pracuje nad włączeniem Big Data do swojego modelu biznesowego. Klienci banków powinni być wiceprezesowi Aliora wdzięczni – Big Data to najgorętszy temat wielkiego biznesu od co najmniej kilkunastu miesięcy. I zapewne pracują nad nim wszystkie liczące się banki w Polsce. Ale na razie w Polsce z Big Data jest jak z seksem – wszyscy go mają, każdy chciałby wiele razy, jednak publicznie ani mru mru.

Prof. zarządzania Viktor Mayer-Schonenberg i Kenneth Cukier, dziennikarz Th Economist, z Polską nic wspólnego nie mają, więc o Big Data mówić się nie wstydzą. Ich książka jest jedną z pierwszych napisanych nie dla informatyków i specjalistów od metod ilościowych – czyli dla demiurgów Big Data. Ale dla nas, substratu tego mieszania w wielkim kotle z niezliczoną liczbą danych.

 

Działa. Nieważne dlaczego.

Pierwsza przykra niespodzianka, którą mają dla czytelników Schonenberg i Cukier to zapowiedź końca dyktatu przyczynowości. To na przyczynowości opiera się nasza oświeceniowa duma i nasze przekonanie, że żyjemy w wiekach rozumnych. Wieki ciemne widziały, że pajęczyna zmieszana ze spleśniałym chlebem ułatwia gojenie ran. Wieki jasne wiedzą, że na pajęczynie, zwłaszcza oplatającej chleb, łatwo rozwija się grzyb produkujący penicylinę, niegdyś jeden z najskuteczniejszych antybiotyków.  Big Data sprawia, że znów to korelacja, a nie ciąg przyczynowo-skutkowy, będzie wyznaczała granice naszej wiedzy. Różnica między Big Data a ludową medycyną polega jednak na próbie badawczej. N=all –to podstawowa formuła Big Data. Próbą badawczą są wszyscy. Prof. Piotr Płoszajski z SGH, jedna z nielicznych osób, które w Polsce zajmują się naukowo Big Data, mówi, że istotą Wielkiej Danej jest przetwarzanie danych niejednorodnych. Ale autorzy książki – Schonenberg i Cukier- godzą się na dane jednorodne, byle były całościowe. I podają przykład Farecastera – internetowej usługi, która pozwala przewidzieć, czy lot na który chcą Państwo kupić bilet będzie jutro tańszy, czy droższy. Usługę wymyślił blisko 10 lat temu amerykański matematyk który w samolocie odkrył, że jego sąsiad kupił bilet taniej, mimo że kilka dni później. Matematyk ów stworzył system zbierający minuta po minucie dane o cenach oferowanych przez przewoźników lotniczych w USA na poszczególnych trasach. I odkrył, że zasada „im wcześniej tym taniej” wcale się nie sprawdza. Dzięki stworzonej przez niego bazie (sprzedanej Microsoftowi w 2008 roku za 110 mln dolarów) system przewiduje, czy na tej konkretnej tracie i na pożądany dzień bilet będzie taniał, czy drożał. Odpowiedź na pytanie – dlaczego tanieje, albo drożeje – znają tylko sprzedający, czyli linie lotnicze. Ale skoro Farecaster daje prawidłową odpowiedź w co najmniej 75% przypadków – to można mu wybaczyć, że nie wie dlaczego jest tak mądry.

Droga do nieomylności przed Farecasterem jeszcze pewnie długa – i wiedzie przez tę ulubioną przez prof. Płoszajskiego niejednorodność danych. Jeśli autorom Farecastu uda się połączyć bazę cen z bazą zapytań z wyszukiwarki internetowej o dane połączenie – pewnie uda się skuteczniej przewidzieć liczbę chętnych by kupić bilet następnego dnia. Nigdy nie wiesz jakie jeszcze dane da się wykorzystać w analizie. „Prawdziwa wartość danych jest jak pływająca góra lodowa – na pierwszy rzut oka widzimy tylko jej skrawki, prawdziwa siła ukryta jest pod powierzchnią”. Te same dane okazują się kapitalnie przydatne do prognozowania zupełnie różnych zachowań. I w dodatku tworzą niezniszczalną historię która jest kluczem odkrywania kolejnych korelacji. To  – zdaniem autorów książki – najbardziej fascynująca właściwość Big Data.

 

Koniec historii prywatności

Zagrożenia są trzy i niestety wszystkie poważne.  Po pierwsze utrata prywatności. Po drugie zgon  domniemania niewinności, czyli kary za same prawdopodobieństwo popełnienia przestępstwa. Po trzecie dyktat liczb.

Prywatność w epoce Big Data staje się pojęciem niemal tak anachronicznym, jak kaligrafia po Gutenbergu. Po pierwsze cyfrowy świat powoduje, że sami chętnie dzielimy się wiedzą o sobie – od wieku, nazwiska partnera, przez liczbę dzieci po miejsce w które lubimy jeździć na wakacje. A to tylko drobna wiązka danych zostawianych przez większość użytkowników Facebooka. W epoce Big Data – danych napływających zewsząd – nie działa już maskowanie tożsamości. W 2006 roku AOL udostępniła pozbawione teoretycznie cech identyfikujących dane o milionach wyszukiwań ich klientów. Potrwało tylko kilka dni zanim na okładkach gazet pojawiła się 62-letnia wdowa Thelma Arnold z Lilburn z Georgii, którą przyłapano m.in. na wyszukiwaniu „60 single men”. Re-identyfikacja w świecie w którym Internet o niemal każdej osobie wie bardzo wiele jest nie do uniknięcia – twierdza autorzy książki.

 

Domniemanie prawdopodobieństwa

Kara za skłonności zamiast za czyny to świat znany z filmu „Raport mniejszości” z Tomem Cruisem w roli głównej. W „Raporcie…” przewidywaniem przestępstwa zajmowało się troje zatopionych w kleistej mazi niby-ludzi. W sądach w co najmniej połowie stanów USA zajmują się tym komputery. Prof. Richard Berk, z Uniwersytetu Pennsylwanii, twierdzi, że jego oprogramowanie przewiduje z co najmniej 75% skutecznością, czy osoba zwalniana z aresztu stanie się sprawcą/ofiarą zabójstwa. Oprogramowanie korzysta z Big Data. Niezwykłe jest to, ze program nie rozdziela sprawców od ofiar. Nie rozumie korelacji, które ma w bazie, ale potrafi błyskawicznie wyliczyć prawdopodobieństwo. Wizja komputera decydującego o areszcie (wizja, która w USA jest już rzeczywistością) może wywoływać dreszcze, ale czy orzekający o takim środku zapobiegawczym ludzie nie próbują zrobić tego samego co komputer? Przewidzieć prawdopodobieństwa ucieczki, albo popełnienia kolejnego przestępstwa przez podejrzanego? Próbują, tyle że na podstawie mniejszej liczby danych i w sposób bardziej podatny na chwilowe nawet zachwiania poziomu cukru we krwi (dane statystyczne wskazują, że głodni sędziowie znacznie częściej odrzucają wnioski o zwolnienie z aresztu, niż sędziowie po śniadaniu).

 

Liczbokratura

I w końcu dyktat liczb. Chociaż stosowanie algorytmów decyzyjnych jest zwykle skuteczniejsze, niż opieranie się na niejasnych wrażeniach (tak twierdzą, na podstawie swoich badań, m.in. Daniel Simons i Christopher Chabris, autorzy książki „Niewidzialny goryl”) – prostota decyzji za którymi stoją liczby może odbierać ich właściwy sens. Pewnie każdy z Państwa spotkał się z menedżerem, który nie podejmował żadnej decyzji bez gruntownych badań. Większość decyzji podejmował błędnych, bo nie posiadał żadnej wizji, a mimo to trwał na stanowisku bo za każdym razem miał dla swojego szefa wytłumaczenie – badania tak wskazywały. Rober McNamara, były amerykański sekretarz obrony, amerykański whiz kid, pierwszą sławę zdobył jako specjalista od metod ilościowych w Pentagonie w czasie II wojny światowej. Pomógł armii USA skutecznie i nowocześnie zarządzać dostawami. Niestety zastosowanie tej samej miary – metod ilościowych – w czasie gdy jako cywil nadzorował wojnę w Wietnamie spowodowało utożsamienie postępów w wojnie z liczbą zabitych wrogów. Amerykanie okazali się w tym całkiem skuteczni. Fakt, że wojnę przegrali, w żaden sposób ich nie rozgrzesza ze stosowania tak nieludzkiej metody prowadzenia wojny. Ale nie o potępienie tutaj chodzi, tylko o rozumienie mechanizmu – czyli syndromu młotka. Jeśli masz go w dłoni wszystkie problemy wyglądają jak gwoździe. Będziemy się musieli nauczyć nowych sposobów etycznej oceny decyzji – przewidują Schonberger i Cukier. Te stosowane do ludzi już się dezaktualizują.

 

Będziemy się musieli nauczyć patrzenia na świat po nowemu. Wygląda na to, że wielkie przyspieszenie dopiero się zaczyna. To dobra wiadomość dla ekonomistów behawioralnych. To oni są dziś w szpicy wykorzystywania korelacji do przewidywania co przyniesie przyszłość. To także świetna wiadomość dla ekspertów od metod ilościowych – w Polsce zdecydowanie mniej popularnych, niż w USA (za co pewnie przyjdzie nam płacić kupowaniem w przyszłości amerykańskich technologii). Ale Big Data jest najlepszą wiadomością dla tzw. netokracji. Dziś ludzie tacy jak Zuckerberg, Brin, Page, Ellison czy Bezos nazywani są tak przez pryzmat pieniędzy, które zarabiają dzięki sieci. Pytanie, czy Big Data nie jest zapowiedzią netokracji par excellence.

More posts
Your Dashboard view:
Need help?