Krzysztof Leski Krzysztof Leski
108
BLOG

Sondaże z kosmosu

Krzysztof Leski Krzysztof Leski Polityka Obserwuj notkę 18

Pisałem niedawno o zabawnej koincydencji dwóch sondaży wyborczych. Moja Matka, poruszona sprawą i niezborną jej zdaniem dyskusją pod postem, postanowiła coś napisać. Dziś przysłała tekst, który prawie zrozumiałem, a jeśli nawet nie - to przecież i tak potrafię go wkleić :) Pogrubiłem to, co zrozumiałem na pewno.

Jakieś 30 lat temu napisaliśmy książkę, po polsku, a potem także po angielsku, co jest nie tak z klasycznymi metodami statystycznymi. Potem spróbowaliśmy myśleć pozytywnie, wyławiając to, co nieklasyczne a zdroworozsądkowe, a co przewijało się w literaturze statystycznej przez cały wiek XX, poczynając od krzywej nierówności Lorenza i wskaźnika nierówności Gini'ego w pierwszym już 10-leciu tego wieku. Podłączyliśmy się do tego nurtu, znaleźliśmy swoje poletko, i właśnie kończymy je opisywać.

W kluczowym rozdziale przedstawiamy ogólnie etapy eksploracji danych, zaczynając od tego, jakimi danymi się rozporządza i jaki problem chce się na ich podstawie rozwiązać. Ten pierwszy etap to działka Zleceniodawcy. Potem zlecenie bierze do ręki Zleceniobiorca czyli fachowiec od Eksploracji Danych, który w trzech kolejnych etapach dobiera sobie model rozpatrywanego zjawiska, opisuje stosownie do niego dane i postawiony problem, przedstawia dopuszczalne metody rozwiązania problemu, po czym wybiera jedną z nich, za pomocą której owo rozwiązanie dla aktualnych danych znajduje. Oczywiście w języku stosownym dla obranego modelu.

Wtedy nadchodzi etap ostatni, w którym problem postawiony przez Zleceniodawcę zostaje skonfrontowany z rozwiązaniem dostarczonym przez Zleceniobiorcę. Jest to Konfrontacja języka Zleceniodawcy z językiem Zleceniobiorcy. Zwycięża zwykle bardziej zdeterminowany, z większą siłą przebicia, chociaż niekoniecznie większą racją. Jeśli wygrywa Zleceniobiorca, eksploracja danych zostaje zakończona, a Zleceniodawca uznaje problem za rozwiązany. Jeśli jest odwrotnie, Zleceniodawca zarządza zmianę modelu lub metod bądź uzupełnienie albo poprawienie danych, i następuje nowy cykl eksploracji - i tak do skutku. Chyba, że strony zrezygnują ze współpracy... To co wykonuje Eksplorator danych, bywa nieraz nieskazitelne logicznie lub matematycznie, ale przy założonym modelu - a gdy ten jest źle dobrany, maestria Eksploatora na nic się nie zdaje...

Szukaliśmy przykładu, który łatwo opisałby te zmagania. Wybraliśmy książkę Dana Browna "Deception Point". Zleceniodawcą jest NASA, która zaprasza zespół naukowców na lodowiec na Biegunie Północnym, w którym paręset lat temu utkwił meteoryt zawierający skamieliny zwierzęcia nienapotkanego nigdzie na ziemi. Pytanie brzmi: czy oznacza to , że NASA zdobyła dowód istnienia życia we wszechświecie? Naukowcy badają, czy skała jest faktycznie meteorytem, a zawarte w niej skamieliny są "unknown on Earth". W pierwszym cyklu potwierdzają hipotezę NASA. Odbywa się wielka konferencja, ale zespół opiniodawców powiększa się i - krok po kroku - wychodzi na jaw ordynarne oszustwo...

A na blogu Krzysztofa Leskiego opisano problemy badania i interpretowania zmian w popularności partii politycznych, który dwóch różnych Zleceniodawców (dwie gazety) zleciło dwóm różnym Zleceniobiorcom (dwóm sondażowniom). W tym samym czasie mniej więcej. Każda sondażownia zabrała się do rzeczy wg swojego modelu i swoich danych w każdym z wybranych momentów czasu. Założenia o danych - różne. Sposób ich zbierania (czyli postawione pytania) - różny. Liczebności owych (dalece niereprezentatywnych) "próbek" - żenująco niskie. Informacje o liczbie odmów udzielenia odpowiedzi - nieobecne. Dodatkowe informacje o respondentach, które możnaby konfrontować z ich rozkładami w populacji - pominięte. Na domiar złego w drugiej chwili czasowej indagowano inne osoby niż w pierwszej, co znacząco zaciemniało poszukiwaną informację. W tej sytuacji nic dziwnego, że wszystko mogło się zdarzyć w zakresie zaobserwowanych trendów, a ich ideologiczna interpretacja jest - jak słusznie pisze Leski - zwyczajnym nadużyciem. Taki ordynarny deception point. A ideologiczna interpretacja sprzeczności w trendach głownych partii zakrawa już na chorobę umysłową interpretatora.

W naszej pierwszej książce, tej sprzed lat 30-tu, podkreślaliśmy, że różne nadużycia interpretacyjne bywają najczęściej dokonywane właśnie przez manipulowanie wielkością prob. Czasem wygodnie jest dobrać niezwykle dużą próbę żeby stwierdzić "istotne statystycznie" odstępstwo od założonego modelu, czasem na odwrót - dobrać próby tak małe, żeby na pewno nie znaleźć podstaw do odrzucenia niewygodnej hipotezy. Sondażownie manipulują właśnie tą wielkością prób, nawiązując do zlepków wiadomości wykładanych na studiach, które odbiorcy wyników sondaży mają w "rozumie". Kursy statystyki i pakiety statystyczne to przecież biznes, sondażownie to firmy nastawione na zysk.

Eksploracja danych, do której nawiązujemy, odrzuca aparat pojęciowy klasycznej statystyki. Bywa on przydatny tylko w specjalnych programach.

Elżbieta Pleszczyńska

Salonowa lista prezentów Bawcie się dobrze ChęP: -3/6   ChęK: -3/6   ChęS: -3/6 . Półbojkotuję "lubczasopisma" Baby od chłopa nie odróżniacie! Protestuję przeciwko brakowi Freemana

Nowości od blogera

Komentarze

Inne tematy w dziale Polityka