Analiza i wizualizacja danych

Politechnika Świętokrzyska

Wydział Elektroniki Automatyki

i Informatyki

Analiza i wizualizacja danych

Projekt

Plan pracy

1. Wstęp

2. Podstawy matematyczne

2.1. Statystyka opisowa

2.1.1. Podstawowe miary

2.2. Wnioskowanie statystyczne

2.2.1. Typy analiz statystycznych

2.3. Szacowanie parametrów modeli liniowych metodą najmniejszych kwadratów

2.3.1. Szacowanie parametrów modelu z jedną zmienną objaśniającą

2.3.2. Szacowanie parametrów modelu z wieloma zmiennymi objaśniającymi

2.4. Metody wizualizacji danych

2.4.1. Wykresy jednej zmiennej

2.4.2. Rzuty na dwie współrzędne

2.4.3. Metody używające koloru oraz odcieni

2.4.4. Metody korzystające z osi gwiazdowych

2.4.5. Metody wykorzystujące osie współrzędnych

2.4.6. Metody wykorzystujące predyspozycje człowieka

5. Obliczenia własne

6. Wizualizacja

7. Wnioski

1. Wstęp

Statystyka jest dyscypliną naukową, zajmującą się konstrukcją metod liczbowego opisu i wnioskowania o zjawiskach masowych.

Słowo „statystyka” pochodzi od łac. „status”, które oznacza stan rzeczy, państwo. W łacinie średniowiecznej słowa „status” używano dla wyrażenia politycznego stanu rzeczy.

Statystyka jako sztuka uprawiana była już w starożytności przez dobrze zorganizowane państwa. Pierwsze badania statystyczne datowane są na 2000 lat p.n.e. Przeprowadzane zostały wówczas spisy ludności i zasobów państwa w Egipcie

Początkowo opisy miały charakter słowny, z czasem nabierały bardziej sformalizowanej formy. Badania statystyczne służyły przede wszystkim monarchom i władzom ówczesnych państw, stając się narzędziem doskonalenia rządów państwem.

Za datę narodzin statystyki jako dyscypliny naukowej przyjmowana jest data ukazania się książki (1662), opartej na londyńskich biuletynach śmiertelności, J. Graunta „Naturalne i polityczne obserwacje poczynione nad biuletynami śmiertelności". J. Graunt był pierwszym, który wykrył, że wnikliwa analiza liczb prowadzi do ukazania prawidłowości rządzącymi zjawiskami, przy założeniu, że jest rozpatrywana w dużej masie.

Statystyka jest jedną z dziedzin nauki, która zajmuje się systematyzacją metod pozyskiwania, prezentacji, a nade wszystko analizą danych opisujących, wyjaśniających oraz przewidujących zjawiska masowe. Systematyka dobiera, systematyzuje oraz tworzy narzędzia badawcze, by analizować duże zbiory liczbowe. Metoda statystyczna jest jedną z metod badań naukowych, to sposób badania liczbowego określonych zbiorowości, za pomocą odpowiednich narzędzi i procedur.

Losowość zjawisk jest niejako wpisana w definicję metod statystycznych. Dlatego właśnie statystykę łączy bardzo ścisły związek z teorią prawdopodobieństwa. Metody statystyczne wykorzystuje się przy badaniu problemów ekonomicznych, socjologicznych czy demograficznych. Zestawienia danych do opisu zjawisk masowych dostarczają między innymi urzędy statystyczne przez spisy powszechne. Zestawienia te mają postać tabel, z których można dowiedzieć się, w jakim procencie dane zjawisko występuje. Dzięki owym danym można ustalić zmienność zjawisk masowych, tendencji ich przekształceń w czasie.

2. Podstawy matematyczne

Ze wzglądu na cele, funkcje oraz stosowane narzędzia i metody można wyróżnić dwie kategorie statystyki.

2.1 Statystyka opisowa

Zajmuje się gromadzeniem, opracowaniem i prezentacją danych o obserwowanej zbiorowości. Opisuje zbiorowość przy wykorzystaniu narzędzi statystycznych.

Opracowuje dane o zbiorowości lub próbie bez posługiwania się rachunkiem prawdopodobieństwa. Umożliwia uporządkowanie danych w klarowny sposób. Pozyskane dane przedstawia w postaci ułatwiającej ich ocenę i analizę oraz identyfikuje prawidłowości zachodzących między nimi. Intepretując metody statystyki opisowej należy odnosić się jedynie do czasu, w którym dane w określonej populacji zostały zmierzone.

Najczęściej spotykanymi narzędziami stosowanymi w opisie statystycznym są tzw. podstawowe miary parametryczne i nieparametryczne.

2.1.1 Podstawowe miary

Do podstawowych miar parametrycznych i nieparametrycznych należą:

· Liczebność - wynik zliczania określonych zdarzeń spełniających dany warunek.

· Suma - wynik dodawania wszystkich elementów zbioru, określa całkowitą uzyskaną (lub potencjalną) ilość,

· Odsetek, proporcja (%) - jest to iloraz sumy uzyskanej oraz sumy potencjalnej lub całkowitej. Określa natężenie lub zasięg, czy stopień wykorzystania. Odsetek zależy zarówno od tego, jak określić sumę uzyskaną (licznik), jak i od określenia sumy potencjalnej/całkowitej (mianownik).

· Średnia - najczęściej rozumiana, jako średnia arytmetyczna, czyli wielkość mierzonej cechy przypadająca na jedną obserwację. Średnia mówi o przeciętnym poziomie danej cechy w próbie. Średnia należy do miar parametrycznych, co oznacza, że jej stosowanie jest uprawnione jedynie dla zbiorowości o normalnym rozkładzie cechy w próbie.

· Wariancja i Odchylenie standardowe - miary określające zróżnicowanie (wariancja) oraz przedział typowy (odchylenie standardowe) poziomu zmiennej w badanej populacji. Wariancja to średnie odchylenie poziomu zmiennej od poziomu średniego, natomiast odchylenie jest pierwiastkiem kwadratowym wariancji. Ważną cechą różniącą wariancję od odchylenia jest addytywność. Na wariancjach można dokonywać działań arytmetycznych, natomiast nie jest to uprawnione działanie w odniesieniu do odchyleń standardowych.

· Minimum i Maximum oraz Rozstęp - to wartości określające najmniejsze i największe natężenie cechy oraz ich różnicę. O ile wskaźniki te nie są konieczne, o tyle bardzo często przydatne we właściwej interpretacji danych i budowaniu innych bardziej skomplikowanych wskaźników.

· Pozycja (ranga) - określa pozycję danej obserwacji w rankingu, hierarchii ważności lub kolejności w próbie. Pozycja ma charakter nieparametryczny, co znaczy, że jest mierzona na poziomie porządkowej skali szacunkowej.

2.2 Wnioskowanie statystyczne

Wnioskowanie statystyczne - czyli statystyka pozwalająca na weryfikację hipotez w oparciu o dane empiryczne. O ile statystyka opisowa pozwala jedynie na spełnienie funkcji deskryptywnej, o tyle wnioskowanie statystyczne pozwala na wyjaśnianie i przewidywanie (przynajmniej w pewnym stopniu), przez co w wielu dziedzinach wiedzy jest znacznie wyżej cenione. Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia.

2.2.1 Typy analiz statystycznych

Wnioskowanie statystyczne opiera się na procedurze weryfikacji hipotez i prowadzi do wyjaśniania lub przewidywania poziomu zjawisk. Wnioskowanie statystyczne opiera się na dwóch głównych typach analiz statystycznych:

· Analizy eksploracyjne - polegające na weryfikacji założenia o fałszywości tzw. hipotezy zerowej, czyli założenia o istotnej przewadze zmienności losowej nad zmiennością wyjaśnianą/oczekiwaną.

· Analizy konfirmacyjne - polegające na oszacowaniu dopasowania modelu teoretycznego zbudowanego przez badacza do danych empirycznych przez niego zebranych w rzeczywistej próbie.

Niektórzy autorzy mówią o dwóch typach wnioskowania statystycznego - dedukcyjnym, gdzie eksplorujemy dane i dedukujemy na podstawie analiz pewną teorię oraz indukcyjnym, gdzie szacujemy adekwatność założeń do danych empirycznych.

· Innym kryterium podziału metod wnioskowania statystycznego jest podział według kryterium funkcji:

· Testy jednorodności–polegające na szacowaniu wzajemnego dopasowania dwóch lub więcej rozkładów zmiennych, celem jest oszacowanie prawdopodobieństwa, że rozkłady badanych zmiennych różnią się pod względem istotnych parametrów.

· Testy dla porównania prób–polegające na porównaniu dwóch lub więcej prób pod względem natężenia lub rozproszenia jednej lub kilku cech, czyli inaczej mówiąc są to testy porównujące poziom określonej zmiennej lub zbioru zmiennych w dwóch lub więcej grupach.

· Testy związku i zależności -określające stopień liniowego lub nieliniowego związku między poszczególnymi zmiennymi, cechami w określonej próbie lub populacji.

2.3. Szacowanie parametrów modeli liniowych metodą najmniejszych kwadratów

Szacowanie parametrów modelu ekonometrycznego sprowadza się do przypisywania nieokreślonym liczbowo parametrom konkretnych wartości liczbowych. Szacowanie to powinno być przeprowadzone w taki sposób, aby zapewniło najlepsze dopasowanie modelu do danych empirycznych. Powszechnie wykorzystywaną metodą szacowania parametrów liniowych modeli ekonometrycznych o postaci (2.3.1):

(2.3.1)

Jest to klasyczna metoda najmniejszych kwadratów. Idea metody sprowadza się do takiego wyznaczenia wartości ocen a₀, a₁,..., a_k parametrów strukturalnych α₀, α₁,..., α_k, aby suma kwadratów odchyleń zaobserwowanych wartości zmiennej objaśnianej od jej wartości teoretycznych obliczonych z modelu była najmniejsza. Warunek ten zapisuje się następująco (2.3.2):

(2.3.2)

gdzie e_t (t=1, 2, ..., n) – odchylenie empirycznych wartości zmiennej objaśnianej od jej wartości teoretycznych, nazywane resztami modelu (2.3.3):

, (t=1, 2, …, n) (2.3.3)

przy czym:

Zastosowanie metody najmniejszych kwadratów wymaga przyjęcia następujących założeń:

· Szacowany model jest modelem liniowym;

· Składnik losowy ma wartość oczekiwaną równą zeru i stałą skończoną wariancję;

· Zmienne objaśniające są wielkościami nielosowymi o elementach ustalonych;

· Nie występuje zjawisko współliniowości zmiennych objaśniających;

· Nie występuje zjawisko autokorelacji składnika losowego, czyli zależność składnika losowego w różnych jednostkach czasu.

2.3.1. Szacowanie parametrów modelu z jedną zmienną objaśniającą

Liniowy model ekonometryczny z jedną zmienną ma ogólną postać (2.3.1.1):

(2.3.1.1)

Wartość ocen a oraz b parametrów strukturalnych α oraz β otrzymuje się w tym wypadku z warunku (2.3.1.2):

(2.3.1.2)

Po wyznaczeniu pochodnych cząstkowych funkcji S względem a oraz b i przyrównaniu ich do zera otrzymujemy tzw. układ równań normalnych (2.3.1.3):

(2.3.1.3)

W wyniku rozwiązania układu równań normalnych otrzymujemy następujące wzory na oceny a oraz b (2.3.1.4):

(2.3.1.4)

Gdzie oraz oznaczają średnie arytmetyczne Y oraz X. Równoważny wzór na ocenę a ma postać (2.3.1.5):

(2.3.1.5)

Wartość oceny a parametru α informuje, o ile jednostek zmieni się zmienna objaśniana Y, jeśli zmienna objaśniająca X zmieni się o jednostkę.

Specyficznym modelem liniowym z jedną zmienną objaśniającą jest liniowy model tendencji rozwojowej (trend liniowy) o postaci (2.3.1.6):

(2.3.1.6)

gdzie t oznacza zmienną czasową.

Wzory na oceny parametrów strukturalnych trendu liniowego są podobne do poprzednich z tym, że zamiast zmiennej X występuje zmienna czasowa t. W wypadku oceny a można także skorzystać z prostszego wzoru o postaci (2.3.1.7):

(2.3.1.7)

Ocenę wariancji reszt modelu liniowego z jedną zmienną objaśniającą otrzymujemy ze wzoru (2.3.1.8):

(2.3.1.8)

Wielkość S_e jest odchyleniem standardowym reszt modelu, które informuje, o ile zaobserwowane wartości zmiennej objaśnianej przeciętnie różnią się od teoretycznych wartości tej zmiennej wyznaczonych z modelu.

Standardowe błędy S(a) i S(b) szacunku parametrów strukturalnych α i β wyznacza się ze wzorów (2.3.1.9):

, lub

(2.3.1.9)

, lub

2.3.2. Szacowanie parametrów modelu z wieloma zmiennymi objaśniającymi

W celu przedstawienia klasycznej metody najmniejszych kwadratów w zastosowaniu do szacowania parametrów modelu z wieloma zmiennymi objaśniającymi (2.3.2.1):

(2.3.2.1)

Pierwszym współczynnikiem do obliczenia jest współczynnik korelacji liniowej Pearsona. Można powiedzieć, że korelacja to związek pomiędzy zmiennymi. Nie powinno interpretować się korelacji jako zależności przyczynowo skutkowej, ponieważ oznacza ona współwystępowanie. O korelacji możemy mówić, jeśli wykluczono alternatywne wyjaśnienia lub zachodzi odpowiedni porządek. Korelacja jest określana na podstawie współczynnika korelacji. Konkretny współczynnik korelacji zależny jest od skali pomiarowej, na której mierzona jest zmienna. Korelacja Pearsona to miara związku liniowego między dwoma zmiennymi. Współczynnik ten może przyjmować wartości od -1 do 1:

· Korelacja dodatnia – przedział od 0 do 1 – oznacza, że podczas wzrastania wartości jednej zmiennej rosną także wartości drugiej, natomiast przy maleniu jednej maleje druga.

· Korelacja równa 0 – oznacza, że punkty są porozrzucane po całym układzie współrzędnych

· Korelacja ujemna – przedział od 0 do -1 – oznacza, że gdy rośnie wartość jednej zmiennej maleje wartość drugie i na odwrót

W tabeli przedstawiono dokładne wartości korelacji ich objaśnienia (tabela 1):

Wartość współczynnika r	Znaczenie
0,7 – 1,0	Silna korelacja dodatnia
0,3 – 0,7	Słaba korelacja dodatnia
-0,3 – 0,3	Brak korelacji
-0,7 – -0,3	Słaba korelacja ujemna
-0,7 – -1,0	Silna korelacja ujemna

Tabela 1: Wartości korelacji

Przy stosowaniu współczynnika Pearsona występują ograniczenia:

Zmienne powinny być w nieliniowej relacji, pomimo ich powiązania,
Współczynnik jest podatny na zakłócenia wywołane przez wartości skrajne dla zmiennych,
Badane zmienne powinny być niejednorodne.

Wzór na obliczenie korelacji jest następujący (2.3.2.2):

(2.3.2.2)

Wprowadzamy symbolikę macierzową (2.3.2.3):

- wektor obserwacji zmiennej objaśnianej;

- macierz obserwacji zmiennych objaśniających;

- wektor ocen parametrów strukturalnych;

- wektor reszt modelu. (2.3.2.3)

Kryterium najmniejszych kwadratów w tym wypadku można zapisać następująco (2.3.2.4):

(2.3.2.4)

,gdzie:

Wzór na wektor a ocen parametrów strukturalnych modelu jest następujący (2.3.2.5):

(2.3.2.5)

Wariancję reszt wykorzystujemy do obliczania średnich błędów w szacunku parametrów strukturalnych. Liczone są jako pierwiastki kwadratowe elementów które znajdują się na głównej przekątnej macierzy wariancji i kowariancji parametrów strukturalnych. Wariancja reszt jest zawsze nieujemna. Szacuje się ją na podstawie wzoru (2.3.2.6):

(2.3.2.6)

Kolejny współczynnik to odchylenie standardowe reszt (2.3.2.7). Używa się także dodatniego pierwiastka kwadratowego z wariancji reszt, ponieważ miarą wariancji resztowej są kwadraty jednostek, w których mierzona jest badana cecha. Jedną ze statystycznych miar prognozy jest właśnie to odchylenie. Wartość odchylenia standardowego reszt mówi jakie są przeciętne odchylenia wartości rzeczywistych zmiennej prognozowanej od teoretycznych. Im mniejsza jest wartość miernika, tym lepsza jakość modelu.

(2.3.2.7)

Współczynnik zbieżności określa, która część zmienności zmiennej objaśnianej nie została wyjaśniona przez model. Współczynnik zbieżności przedstawia tę część zmienności zmiennej objaśnianej, która wynika z jej zależności od innych czynników niż uwzględnione w modelu. Są to wartości od 0 do 1. Wartości te najczęściej są wyrażone w procentach. Dopasowanie modelu jest tym lepsze, im wartość jest bliższa 0. Wielkość tą opisuje wzór (2.3.2.8):

(2.3.2.8)

Współczynnik determinacji mówi o tym jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model. Jest także miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Współczynnik ten przedstawia tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Są to wartości od 0 do 1.

Wyraża się wzorami (2.3.2.9):

(2.3.2.9)

Współczynnik zmienności resztowej (2.3.1.10) informuje o tym jaką część wartości średniej zmiennej objaśnianej stanowi odchylenie standardowe składnika resztowego, czyli w jakim stopniu na zmienną objaśnianą mają wpływ czynniki losowe.

(2.3.2.10)

Macierz wariancji i kowariancji ocen parametrów strukturalnych szacuje się na podstawie wzoru (2.3.2.11):

(2.3.2.11)

W macierzy tej elementy na głównej przekątnej są wariancjami V(a_i) (i=0, 1, ..., k) ocen parametrów strukturalnych. Wielkości (2.3.2.12):

(2.3.2.12)

są standardowymi błędami szacunku parametrów strukturalnych.

2.4. Metody wizualizacji danych

W dzisiejszych czasach zastosowanie metod analiz danych i ich wizualizacji jest obecne w każdej dziedzinie życia. Wykresy mogą służyć do celów prezentacyjnych, a ponadto mogą być pomocne w analizowaniu danych i sprawdzaniu hipotez. Umiejętne wykorzystywanie narzędzi do eksploracji wykresów oraz specjalistycznych technik graficznych może stanowić potężne narzędzie analityczne.

Celem wizualizacji danych jest pokazanie posiadanych informacji w sposób pozwalający na ich dokładne i efektywne zrozumienie oraz analizę. Dzieje się tak dlatego ponieważ ludzie dobrze rozpoznają i zapamiętują przedstawione im obrazy (kształt, długość, budowa itp.). Dzięki wizualizacji można łączyć wielkie zbiory danych i pokazać wszystkie informacje jednocześnie, co znacznie ułatwia analizę. Można również stosować porównania wizualne, dzięki którym dużo łatwiej stwierdzić wiele faktów. Kolejną zaletą jest możliwość analizy danych na kilku poziomach szczegółowości. Z wizualizacją łatwo jest się zetknąć praktycznie na każdym kroku życia. Reprezentacja graficzna jest używana w telewizji, w prasie i w każdym innym źródle informacji, gdy tylko mamy do czynienia z danymi numerycznymi.

Wizualizacja jest niezbędna, gdy chcemy: pokazać kurs pewnej waluty na przełomie określonego czasu (wykres liniowy), wyniki wyborów (histogramy) lub chociażby prognozę pogody. Jednak nie są to jedyne przykłady reprezentacji graficznej danych. Może ona służyć nie tylko ułatwieniu dostrzeżenia pewnych własności, lecz wręcz ich odkryciu. Dotyczy to przede wszystkim wielkich zbiorów danych, które są kompletowane przez wiele lat na rzecz późniejszych badań. Technik wizualizacyjnych jest wiele.

2.4.1 Wykresy jednej zmiennej

Są to metody, pozwalające na wizualizację jednej cechy. Dzięki nim można obejrzeć rozkładcechy, wartości średnie, odchylenie standardowe itp.. Zalicza się do nich m.in. wykresy pudełkowe oraz histogramy.

Histogramy (rys. 1) są narzędziem, dzięki któremu można graficznie odtworzyć rozkład danej cechy. Poza tym pozwalają one również dostrzec rozpiętość, skośność oraz szum danych.

Rys. 1. Przykład histogramu

W celu pokazania statystyk takich jak wartość średnia, maksymalna, minimalna, bądź odchylenie standardowe warto zastosować wykresy pudełkowe (rys.2). Według definicji lewy bok pudełka powinien wyznaczać wielkość pierwszego kwartyla(wielkość cechy, do której znajduje się 25% wszystkich obserwacji – w tym przypadku), prawy - wielkość trzeciego kwartyla (75% obserwacji) oraz dodatkowo powinna być zaznaczona mediana (50% obserwacji).

Rys. 2. Wykres pudełkowy

2.4.2. Rzuty na dwie współrzędne

Do tej grupy zalicza się metody pozwalające pokazać jednocześnie dwiewspółrzędne. Techniki te umożliwiają odkrycie związków między cechami (np. korelacja). Wykresy rozproszone (ang. scatterplot) (rys.3) są podstawowym narzędziem, które rzutuje dane na dwie współrzędne. Ich analiza powinna odbywać się pod kątem odkrycia korelacji między poszczególnymi cechami oraz klasteryzacji danych. Wykresy rozproszone są tworzone poprzez zaznaczanie kolejnych punktów danych w przestrzeni dwuwymiarowej.

Rys. 3. Wykres rozproszony

2.4.3. Metody używające koloru oraz odcieni

To kolejny sposób wizualizacji danych, wykorzystujący naturalne ludzkie zdolności rozróżniania kolorów (dotyczy ludzi nie cierpiących na choroby takie jak daltonizm). Do metod tych należą prostokąty Fortsona (rys.4). Pozwalają one na wizualizację wielu cech jednocześnie. Wielkość zmiennych jest wyrażona odcieniem szarości kolejnych prostokątów. Rys. 4 Prostokąty Fortsona

Istnieją też specjalne histogramy (rys.5) używane w bioinformatyce. W odróżnieniu odwcześniej opisanych, wysokości poszczególnych słupków zastąpione są odpowiednim kolorem.

Rys. 5 Histogram

2.4.4. Metody korzystające z osi gwiazdowych

Ta grupa składa się tylko z jednej metody, czyli wykresów gwiazdowych (ang. star plot, radar plot) (rys.6). Jest to technika pozwalająca zaprezentować dane wielowymiarowe z dowolną ilością zmiennych. Każdy przypadek jest reprezentowany przez wykres, przypominający gwiazdę, w którym każdy promień przedstawia jedną zmienną. Analizowanie pojedynczych „gwiazd” może okazać się mało efektywne, dlatego należy zestawić kilka wykresów. Łatwiej jest zauważyć schemat w danych, kiedy wektory są przedstawione w nie arbitralnym porządku, a cechy są przyporządkowane do promieni w logicznej kolejności. Metoda ta jest szczególnie przydatna, gdy wszystkie zmienne mają taki sam wymiar. Niestety w przypadku bardzo dużych zbiorów danych staje się bezużyteczna.

Rys. 6 Wykres gwiazdkowy

2.4.5. Metody wykorzystujące osie współrzędnych

Bierze się pod uwagę tylko jedną metodę, czyli współrzędne równoległe. Polega ona na zaznaczeniu kolejnych wartości zmiennych na odpowiadających im, równoległych do siebie osiach. Współrzędne równoległe (rys.7) są bardzo istotnym narzędziem. Pozwalają one na wizualizację całego zbioru danych, co z kolei pozwala na odkrycie zależności pomiędzy przypadkami (wektorami) jak i cechami (zmiennymi). Nie jest to jednak takie proste ze względu na nakładanie się linii.

Rys. 7 Współrzędne równoległe

2.4.6. Metody wykorzystujące predyspozycje człowieka

Twarze Chernoffa (rys.8) jest to metoda zaproponowana w 1973 roku przez Hermana Chernoffa. W tym wypadku wartości różnych wymiarów prezentowane są przez wielkość, kształt bądź rozmieszczenie poszczególnych elementów twarzy (nos, oczy, brwi itd.). Większość ludzi przez całe życie musi rozpoznawać spoglądając na twarze: rodzinę, znajomych lub osoby publiczne. Powoduje to, iż w mózgu tworzą się struktury odpowiedzialna za rozpoznawanie twarzy. Oczywiście istnieje wiele takich struktur (zdolności manualne, umiejętność prowadzenia samochodu, ogólnie pojęte poczucie estetyki itd.), jednak czynność odróżniania od siebie twarzy wydaje się być jedną z najbardziej powszechnych umiejętności. Dzięki czemu osoba analizująca z łatwością dostrzeże różnice pomiędzy wykresami (twarzami). Jednak podobnie jak w przypadku wykresów gwiazdowych analiza jednocześnie kilkuset przypadków może okazać się niemożliwa.

Rys .8 Twarze Chernoffa

5. Obliczenia własne

Celem niniejszego projektu jest analiza i wizualizacja zmiennych zaobserwowanych i umieszczonych w tabeli 2.

i	y_i	x_1i	x_2i
1	40	0,7	2,7
2	39	0,6	2,6
3	38	0,7	2,7
4	40	0,9	2,5
5	42	0,8	2,4
6	41	0,8	2,4
7	44	1	2,3
8	45	1,1	2
9	46	1,2	2
10	43	1,3	2,2
11	44	0,9	1,9
12	46	1,1	1,8
Suma	508	11,1	27,5

Tabela 2. Zaobserwowane zmienne.

Analiza będzie polegała na obliczeniu serii wskaźników, wśród których możemy wyróżnić m. in. korelację Pearsona, wariancję resztkową, odchylenie standardowe, współczynnik zbieżności.

Przy przeprowadzaniu analizy należy pamiętać, że relacja pomiędzy zmiennymi ma charakter liniowy, a jej rozkład ma kształt zbliżony do rozkładu normalnego. W celu skonstruowania modelu należy pamiętać, że musi być spełnione warunki. Dotyczą one zarówno zmiennej objaśnianej i objaśniającej. Oto najważniejsze z tych warunków:

· Zmienne objaśniające nie powinny być współzależne, oznacz to, że jej wskaźniki korelacji muszą być mniejsze niż wskaźniki korelacji dla zmiennej objaśnianej,

· Zmienne objaśniające powinny wskazywać związek ze zmienną, która będą objaśniały,

· Zmienne objaśniające powinny cechować się odpowiednim wskaźnikiem własnej zmienności.

, ,

zatem model oszacowany dla przedstawionych danych ma postać:

Na podstawie tego równania można wyznaczyć wartości teoretyczne zmiennej objaśnianej, a także reszty modelu:

54,4590	a0
3,1439	a1
-6,5602	a2

y_i	x_1i	x_2i
40	0,7	2,7	38,9472	1,0528
39	0,6	2,6	39,2888	-0,2888
38	0,7	2,7	38,9472	-0,9472
40	0,9	2,5	40,8880	-0,8880
42	0,8	2,4	41,2297	0,7703
41	0,8	2,4	41,2297	-0,2297
44	1	2,3	42,5145	1,4855
45	1,1	2	44,7969	0,2031
46	1,2	2	45,1113	0,8887
43	1,3	2,2	44,1137	-1,1137
44	0,9	1,9	44,8241	-0,8241
46	1,1	1,8	46,1089	-0,1089
508	11,1	27,5	508,0000	0,0000

Współczynniki korelacji wielorakiej:

Weryfikacja modelu – wariancja resztowa

Odchylenie standardowe reszt

Współczynnik zbieżności

Współczynnik determinacji

Współczynnik zależności liniowej

Wartość współczynnika jest mniejsza niż 10% więc model jest dobry.

Wszystkie obliczenia wykonywaliśmy w programach MS Excel i MathCAD, a także przy użyciu przy kalkulatora systemowego. Poniżej przedstawiamy zrzuty z ekranu programów liczących.

Obliczenie wartości średnich.

Obliczenie wartości potrzebnych do wyliczenia korelacji.

Obliczenie wartości potrzebnych to wyznaczenia korelacji

Obliczenie korelacji 1

Obliczenie korelacji 2

Obliczenie macierzy niezbędnych do wyznaczenia modelu liniowego

6. Wizualizacja

Po przeprowadzeniu wszystkich obliczeń otrzymaliśmy następujące wyniki:

Współczynniki korelacji liniowej

Współczynniki korelacji wielorakiej

Wariancja resztowa

Odchylenie standardowe reszt

Współczynnik zbieżności

Współczynnik determinancji

Współczynnik zmienności liniowej

Wykres obrazujący dane ze zmiennych x₁ i x₂.

7. Wnioski

Cel pracy został osiągnięty. Wyprowadziliśmy model spełniający wszystkie warunki, postać modelu:

W pracy zostały wyliczone wszystkie niezbędne wskaźniki, pomagające sprawdzić czy dany model spełnia wszystkie wymagane warunki. Policzona została korelacja liniowa Pearsona, a także współczynniki korelacji wielorakiej, wariancja restowa, współczynnik zbieżności – określa ile procent zmiennej objaśnianej jest zależna od zmiennych objaśnianych, współczynnik determinancji – określaprocentowo ile zmienne objaśniane jest wyjaśniona przez układ, a także współczynnik zmienności liniowej.

Z załączonego obrazka prezentujące różne korelacje, a także obserwując nasz wykres prezentujący rozkład zmiennych i badając wyniki jakie otrzymaliśmy wnioskujemy, że nasze zmienne reprezentują dane odpowiadające korelacji dodatniej i ujemnej. Wartości korelacji są dość bliskie granicznym wartościom co oznacza, że korelacja jest dość silna, czyli wartości są zbliżone ku sobie.