Vysoká škola technická a ekonomická v Českých Budějovicích Katedra informatiky a přírodních věd Studijní materiály Základy popisné statistiky – sbírka příkladů Ing. Martin Telecký, Ph.D. 2021 1 Učební materiály poskytují základní vymezené praktické příklady, včetně řešení v rámci problematiky popisné statistiky. Učební materiály slouží pro studenty technických a ekonomických oborů. Za odbornou a jazykovou stránku odpovídá autor práce. Zpracováno na základě interní grantové soutěže: IGS 8210 - Podpora online vzdělávání v základních kurzech – fyzika, informatika, matematika a statistika. 2 Kapitola 1: Problematika třídění dat v rámci absolutních a relativních četností Kapitola se zabývá funkcí: • třídění primárních či sekundárních dat do tzv. absolutních a relativních četností, • vymezení správného počtu disjunktních intervalů, • vymezení vhodné šířky/délky jednoho disjunktního intervalu, • tvorby grafického vyjádření absolutních a relativních četností prostřednictvím histogramu a polygonu. Příklad 1 U 6 studentů na Vysoké škole technické a ekonomické, oboru Technologie dopravy a přepravy, jsme zjistili jejich počet chyb za hodinu během zkouškového testu. Statistický soubor obsahuje údaje o počtu chyb v testu za hodinu. Zjistěte počet a délku disjunktních intervalů. Zjistěte absolutní a relativní četnosti, kumulované absolutní a relativní četnosti. Dále vytvořte histogram a polygon u absolutních četností. Graficky znázorněte relativní četnosti tohoto příkladu. Student počet chyb v testu za hodinu 1 25 2 29 3 10 4 27 5 14 6 8 Zdroj: autor Výsledek • Sturgesovo pravidlo = 1 + 3,3 * log(n) = 1 + 3,3 * log(6) = cca 4 disjunktní intervaly • Šíře/délka intervalu = cca po 6 3 Výsledná tabulka absolutních a relativních četností: intervaly absolutní četnosti relativní četnosti 0- 6 0 0% 7- 13 2 33% 14- 20 1 17% 20+ 3 50% Celkem 6 100% Výsledná tabulka kumulovaných absolutních a relativních četností: intervaly kumulované absolutní četnosti kumulované relativní četnosti 0- 6 0 0% 7- 13 2 33% 14- 20 3 50% 20+ 6 100% 0 0,5 1 1,5 2 2,5 3 3,5 0-6 7-13 14-20 20+ Histogram - absolutní četnosti 4 0 0,5 1 1,5 2 2,5 3 3,5 0-6 7-13 14-20 20+ Polygon 0% 33% 17% 50% Grafické znázornění relativních četností 0-6 7-13 14-20 20+ 5 Kapitola 2: Základní charakteristiky úrovně a variability Kapitola vymezuje základní charakteristiky úrovně či polohy a dále variability. Cílem kapitoly je efektivně aplikovat vhodný statistický ukazatel jako je například: • prostý aritmetický průměr, • medián, • modus, • vážený aritmetický průměr, • geometrický průměr, • harmonický průměr, • populační rozptyl, • výběrový rozptyl, • populační směrodatná odchylka, • výběrová směrodatná odchylka, • variační koeficient. Příklad 1 Čtyři společnosti vyrábějí identický výrobek. První společnosti trvá vyrobení výrobku 5 minut, druhé společnosti 4 minuty, třetí společnosti 6 minut a čtvrté společnosti 4 minuty. Stanovte průměrnou dobu zhotovení jednoho výrobku jednou společností? Kolik výrobků vyrobí společnosti celkově za jednu hodinu? Výsledek • 4,61538 min Příklad 2 K dispozici máme hodnoty 2, 3, 5, 8, 6. Stanovte prostý aritmetický průměr, geometrický průměr a harmonický průměr. Výsledek • Prostý aritmetický průměr = 4,8 • Geometrický průměr = 4,2823 6 • Harmonický průměr = 3,7736 Příklad 3 Byla stanovena průměrná mzda 26355 Kč. Určete průměrnou mzdu, pokud a) každý pracovník dostane přidáno 600 Kč, b) každý pracovník dostane 2násobek platu, c) každý pracovník dostane přidáno 15 % ze stávajícího platu. Výsledek a) 26355 + 600 = 26955 Kč b) 26355 * 2 = 52710 Kč c) 26355 * 1,15 = 30308,25 Kč Příklad 4 Stanovte medián z následujících dat: 18, 21, 22, 17, 15, 23, 12, 14. Výsledek • 17,5 Příklad 5 Stanovte modus z následujících dat: 18, 21, 22, 17, 15, 23, 12, 14. Výsledek • nelze stanovit Příklad 6 Byla stanovena průměrná mzda 26355 Kč a rozptyl mezd 810000. Určete směrodatnou odchylku mezd, pokud a) každý pracovník dostane přidáno 600 Kč, b) každý pracovník dostane 2násobek platu, c) každý pracovník dostane přidáno 15 % ze stávajícího platu. 7 Výsledek a) směrodatná odchylka se nezmění b) 1800 c) 1035 Příklad 7 K dispozici máme dva projekty s různými variantami příjmů. U projektu A: optimistický odhad 1.000.000 Kč s pravděpodobností 0,6 pesimistický odhad 700.000 Kč s pravděpodobností 0,3 neutrální odhad 850.000 Kč s pravděpodobností 0,1 U projektu B očekáváme: optimistický odhad 1.200.000 Kč s pravděpodobností 0,4 pesimistický odhad 800.000 Kč s pravděpodobností 0,5 neutrální odhad 900.000 Kč s pravděpodobností 0,1 Jaký projekt je pro Vás výhodnější z hlediska očekávaných příjmů? Jaký projekt je pro Vás výhodnější z hlediska zahrnutí faktoru rizika? Stanovte variační koeficient a rozhodněte, který projekt vyberete. Výsledek Nezapomeňte, že součet pravděpodobností u jednotlivých projektů musí dát součet 1. Pravděpodobnosti se stanoví na základě subjektivního či objektivního principu stanovení pravděpodobnosti, například metodou kvantilů. Projekt A: • očekávaný příjem: 895000 Kč • očekávané riziko: 135000 • variační koeficient:0,150838 (15,0838 %) Projekt B: • očekávaný příjem: 970000Kč • očekávané riziko: 190000 • variační koeficient: 0,19588 (19,588 %) 8 Projekt B je výhodnější z hlediska očekávaného příjmu. Projekt A je výhodnější z hlediska zohlednění faktoru rizika a zároveň výhodnější z hlediska variačního koeficientu. Popisná statistika dokáže zohlednit v určitých mezích hodnocení efektivnosti investic. Avšak ve spojení s finančním řízením projektů a statistiky dokážeme získat velmi cenné informace a efektivně tak rozhodnout o budoucím vývoji investice v krátkodobém, střednědobém a dlouhodobém horizontu. V rámci finančního řízení je vhodné aplikovat: • čistou současnou hodnotu, • metodu doby návratnosti, • ekonomickou přidanou hodnotu (EVA), • tržní přidanou hodnotu, • metodu průměrných nákladů celkového kapitálu. V rámci aplikované matematiky jsou vhodné metody analýzy obalu dat (metoda DEA). Tedy: • model CCR, • model BCC – v rámci lineárního programování. 9 Kapitola 3: Základy klasické a statistické pravděpodobnosti Klasická a statistická pravděpodobnost jsou základními stavebními prvky pro pochopení detailnější statistické analýzy v podobě dalších pravděpodobnostních rozdělení, jejich parametrů a vypovídací schopnosti. Příklady znázorňují aplikaci: • klasické pravděpodobnosti, • statistické pravděpodobnosti, • úplné pravděpodobnosti, • podmíněné pravděpodobnosti, • průniku a sjednocení dvou jevů, • Bayesovy pravděpodobnosti – apriorní a aposteriorní pravděpodobnost. Příklad 1 Jaká je pravděpodobnost, že na hrací kostce padne číslo 6? Výsledek • 1/6 Příklad 2 Jaká je pravděpodobnost, že na dvou hracích kostkách padne číslo 6? Výsledek • 1/36 Příklad 3 Jaká je pravděpodobnost, že na dvou hracích kostkách padne stejné číslo? Výsledek • 6/36 = 1/6 Příklad 4 Jaká je pravděpodobnost, že na dvou hracích kostkách padne součet 7? 10 Výsledek • 6/36 = 1/6 Příklad 5 Jaká je pravděpodobnost, že na dvou hracích kostkách padne součet 14? Výsledek • Na dvou hracích kostkách lze maximálně dosáhnout součtu 12 Příklad 6 Ve váčku je celkově 50 kuliček různých barev. Bílých kuliček je 15, modrých je 10, černých je 20 a 5 žlutých kuliček. Náhodně vybereme tři kuličky (bez vracení). Jaká je pravděpodobnost, že obdržíme kuličky v následujícím barevném pořadí: a) P (bílá, bílá, žlutá), b) P (černá, bílá, žlutá)? Výsledek a) 0,00898571429 (0,898571429 %) b) 0,01275510204 (1,275510204 %) Příklad 7 V botníku je 13 párů bot. Polovina párů má černou barvu a druhá polovina párů má bílou barvu. Náhodně vytáhneme dvě boty. Jaká je pravděpodobnost, že vybereme boty stejné barvy? Výsledek • 0,24 (24 %) Příklad 8 V garáži v krabici máme 150 šroubů. Víme při kontrole, že mezi 150 šrouby je 10 šroubů špatných. Náhodně vybereme 20 šroubů. Jaká je pravděpodobnost, že výběr nebude obsahovat žádný špatný šroub? 11 Výsledek • 0,22778 (22,778 %) Příklad 9 V rámci logistiky dodávky zboží máme k dispozici dva dodavatele. První dodavatel dodává 30 % zboží a z toho je 60 % první jakosti. Druhý dodavatel dodává 70 % zboží a z toho je 75 % první jakosti. Jaká je pravděpodobnost, že náhodně nakoupený výrobek je druhé jakosti od druhého dodavatele? Výsledek • 0,593220339 (59,3220339 %) 12 Kapitola 4: Pravděpodobnostní rozdělení diskrétní náhodné veličiny Kapitola se zabývá problematikou pravděpodobnostního rozdělení diskrétní náhodné veličiny. Věnována je pozornost: • binomickému rozdělení, • Poissonovo rozdělení, • hypergeometrickému rozdělení, včetně jejich základních parametrů, • grafickému znázornění pravděpodobnostní a distribuční funkce dané diskrétní náhodné veličiny, • Zákonu velkých čísel, včetně výběrového prostoru pravděpodobnosti, • základním vlastnostem pravděpodobnostní a distribuční funkce diskrétní náhodné veličiny. Příklad 1 Jaká je pravděpodobnost, že při 5 hodech hrací kostkou padne: a) žádná šestka, b) jedenkrát šestka, c) dvakrát šestka, d) třikrát šestka, e) čtyřikrát šestka, f) pětkrát šestka, g) maximálně třikrát šestka, h) maximálně čtyřikrát šestka? Graficky znázorněte pravděpodobnostní a distribuční funkci této náhodné veličiny. Výsledek a) 0,401878 b) 0,401878 c) 0,160751 d) 0,03215 e) 0,003215 f) 0,000129 g) 0,996656379 13 h) 0,999871399 Následující tabulka představuje výběrový prostor náhodné veličiny pro potřeby grafického znázornění pravděpodobnostní a distribuční funkce. Pravděpodobnostní funkce: Distribuční funkce: 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0 1 2 3 4 5 6 Pravděpodobnostní funkce 0,401877572 0,803755144 0,964506173 0,996656379 0,999871399 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 1 2 3 4 5 6 Distribuční funkce xi 0 1 2 3 4 5 P(x) 0,401878 0,401878 0,160751 0,03215 0,003215 0,000129 14 Příklad 2 V domácnosti dochází v průběhu času k výpadkům elektřiny. Z minulosti je známo, že v dané domácnosti dochází v průměru ke 3 výpadkům elektřiny za 8 měsíců. Určete, jaká je pravděpodobnost, že za 2 roky dojde v domácnosti maximálně k 6 výpadkům elektřiny. Výsledek • 0,20678084 (20,678084 %) Příklad 3 Obchodník odebírá od dodavatele židle v pravidelných dodávkách po 150 kusech. Po převzetí každé dodávky vybere obchodník 20 židlí ke kontrole kvality. Obchodník předpokládá, že v jedné dodávce židlí se nachází 7 vadných židlí. Určete, jaká je pravděpodobnost, že v dodávce budou maximálně 3 vadné výrobky? Výsledek • 0,044028 (4,4028 %) 15 Kapitola 5: Pravděpodobnostní rozdělení spojité náhodné veličiny Věnována je pozornost spojité náhodné veličině, která je zakládána na tzv. hustotě pravděpodobnosti vybraných pravděpodobnostních rozdělení, včetně jejich základních parametrů. Právě tato pravděpodobnostní rozdělení tvoří základ většiny statistických testů. Příklady se zaměřují na problematiku: • normálního rozdělení, • normovaného normálního rozdělení, • Studentova rozdělení, • stanovení distribuční funkce normálního a normovaného normálního rozdělení, • určení příslušných kvantilů normálního rozdělení, normovaného normálního rozdělení a Studentova rozdělení. Výše uvedené faktory slouží jako důležité části odhadu populačního průměru v rámci problematiky teorie odhadu neboli intervalů spolehlivosti. Pro požadované výpočty musíme mít k dispozici statistické tabulky (viz příloha). Příklad 1 Zjistěte pravděpodobnost náhodné veličiny U, která má normované normální rozdělení. P (U < 2) P (U < -2) P (U = 1) F (1) F (-1) P (1< U < 2) P (-1 < U < 2) 16 Výsledek • P (U < 2) = F (2) = 0,97725 • P (U < -2) = 1 – F (2) = 1 - 0,97725 = 0,02275 • P (U = 1) = 0 • F (1) = 0,84134 • F (-1) = 1 – F (1) = 1 – 0,84134 = 0,15866 • P (1< U < 2) = F (2) – F (1) = 0,97725 – 0,84134 = 0,13591 • P (-1 < U < 2) = F (2) – F (-1) = F (2) – (1 – F (1)) = 0,97725 – (1 – 0,84134) = 0,81859 Příklad 2 Zjistěte kvantil příslušného normovaného normálního rozdělení. u0,95 u0,75 u0,15 u0,35 Výsledek • u0,95 = 1,65 • u0,75 = 0,68 • u0,15 = -1,036 • u0,35 = -0,385 17 Příklad 3 Zjistěte pravděpodobnost náhodné veličiny X, která má normální rozdělení se střední hodnotou 9 a rozptylem 25? P (X < 10) P (X < -1) P (10 < X < 19) P (-1 < X < -0,5) Výsledek • P (X < 10) = 𝑃 "𝑈 < !"#$ % & = 𝑃 (𝑈 < 0,2) = 𝟎, 𝟓𝟕𝟗𝟐𝟔 • P (X < -1) = 𝑃 "𝑈 < #!#$ % & = 𝑃 (𝑈 < −2) = 1 − 0,97725 = 𝟎, 𝟎𝟐𝟐𝟕𝟓 • P (10 < X < 19) = 𝑃 " !"#$ % < 𝑈 < !$#$ % & = 𝑃 (0,2 < 𝑈 < 2) = 𝐹 (2) − 𝐹 (0,2) = 0,97725 − 0,57926 = 𝟎, 𝟑𝟗𝟕𝟗𝟗 • P (-1 < X < -0,5) = 𝑃 " #!#$ % < 𝑈 < #",%#$ % & = 𝑃(−2 < 𝑈 < −1,9) = 𝐹 (−1,9) − 𝐹 (−2) = 1 − 𝐹 (1,9) − ;1 − 𝐹 (2)< = 0,02872 − 0,02275 = 𝟎, 𝟎𝟎𝟓𝟗𝟕 Příklad 4 Zjistěte kvantil příslušného normálního rozdělení. x0,95 x0,75 x0,15 x0,35 18 Výsledek • x0,95 = 17,25 • x0,75 = 12,4 • x0,15 = 3,82 • x0,35 = 7,075 Příklad 5 Zjistěte kvantil příslušného studentova rozdělení. t0,9 [10] t0,95 [10] t0,975 [10] t0,95 [14] t0,975 [21] Výsledek • t0,9 [10] = 1,372 • t0,95 [10] = 1,812 • t0,975 [10] = 2,228 • t0,95 [14] = 1,761 • t0,975 [21] = 2,080 19 Kapitola 6: Základy teorie odhadu (intervaly spolehlivosti) Populační průměr, podíl či rozptyl lze stanovit na základě předem zvoleného výběrového souboru. Platí, že vlastnosti a charakteristiky jak výběrového, tak i populačního průměru by měly být přibližně identické. Teorie odhadu slouží jako další fáze v rámci analýzy a aplikací statistických testů – především jednovýběrových a dvouvýběrových parametrických a neparametrických testů. Tato kapitola shrnuje veškeré statistické ukazatele popisné statistiky a slouží jako podklad pro budoucí detailnější analýzy. Příklad 1 K dispozici máte výběrový soubor 10 automobilů v rámci jejich spotřeby pohonných hmot v litrech na 100 kilometrů: 5,5; 5,6; 6,3; 7,2; 5,7; 4,9; 5,1; 6,9; 5,8; 7,1.Uvažujte hladinu významnosti 5 %. Směrodatnou odchylku populačního souboru neznáme. Stanovte odhad populačního průměru. Výsledek • průměr výběrového souboru = 6,01 • směrodatná odchylka výběrového souboru = 0,82388 • 5,420672699 < µ < 6,599327301 Příklad 2 K dispozici máte výběrový soubor obsahující 35 studentů. Statistický znak vyjadřuje počet bodů, který studenti obdrželi z testu. Průměr výběrového souboru je 40. Rozptyl populačního souboru je 324. Uvažujte hladinu významnosti 1 %. Stanovte pravostranný odhad populačního průměru. Výsledek • µ < 47,07698367 20 Příklad 3 K dispozici máte výběrový soubor obsahující 20 studentů. Statistický znak vyjadřuje počet bodů, který studenti obdrželi z testu. Body jsou uvedeny v tabulce. Rozptyl populačního souboru neznáme. Uvažujete hladinu významnosti 10 %. Stanovte odhad populačního průměru podle následující tabulky. 48 63 22 39 70 21 53 12 34 15 22 70 30 33 19 32 55 12 34 41 Dále: • určete, jakou hodnotu nepřekročí průměr populačního souboru s pravděpodobností 99 %, • stanovte levostranný odhad populačního průměru s hladinou významnosti 1 %. Výsledek • průměr výběrového souboru = 36,25 • směrodatná odchylka výběrového souboru = 18,40445 • 29,13454234 < µ < 43,36545766 • 24,47595464µ < 48,02404533 • 25,80110063 < µ 21 Přílohy 22 Číselné charakteristiky polohy (úrovně) a variability Aritmetický průměr V aplikaci Excel funkce: PRŮMĚR. Modus Hodnota, která se ve statistickém souboru vyskytuje nejčastěji. (Hodnota s největší absolutní četností.) Kvantily Medián zn. x0,5 je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. V aplikaci excel funkce MEDIAN(množina dat). Kvartily První kvartil zn. x0,25 je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě části tak, že čtvrtina dat se nachází před a tři čtvrtiny za touto hodnotou. V aplikaci excel funkce QUARTIL(množina dat; 1) 3.2.2. Druhý kvartil = medián Třetí kvartil zn. x0,75 je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě části tak, že tři čtvrtiny dat se nachází před a jedna čtvrtina za touto hodnotou. V aplikaci excel funkce QUARTIL(množina dat; 3). 23 Percentily Percentil dělí statistický soubor na setiny. V aplikaci excel příkaz PERCENTIL(množina dat; číslo percentilu). Variační rozpětí Je to rozdíl mezi největší a nejmenší hodnotou kvantitativního znaku neboli R = xmax − xmin. Kvartilové rozpětí Je rozdíl třetího a prvního kvartilu. Rq = x0,75 - x0,25 . Rozptyl (Též střední kvadratická odchylka, střední kvadratická fluktuace, variance nebo také disperze). Rozptyl je definován jako střední hodnota kvadrátů odchylek od střední hodnoty. Zn D(X), var(x), σ2 . V aplikaci excel funkce VAR.VÝBĚR(množina dat). Směrodatná odchylka Zn. σ, je odchylka od střední hodnoty, která má rozměr stejný jako daná veličina. V aplikaci excel funkce SMODCH.VÝBĚR(množina dat). Variační koeficient Je definován jako podíl směrodatné odchylky a aritmetického průměru. Je-li absolutní hodnota variačního koeficientu menší než 0,5, hovoříme o homogenních datech, pokud je roven 0,5 nebo větší, hovoříme o nehomogenních datech. 24 Vybrané statistické funkce v Excelu Základní statistické charakteristiky průměr průměr výběrová směrodatná odchylka smodch.výběr výběrový rozptyl var.výběr medián median kvartil quartil maximum max minimum min populační rozptyl var populační směrodatná odchylka smodch modus mode max large min small četnosti četnosti Základní pravděpodobnostní modely binomické rozdělení binom.dist Poissonovo rozdělení poisson.dist normální rozdělení norm.dist hypergeometrické rozdělení hypgeom.dist Kvantilové funkce kvantil standardního normálního rozdělení norm.inv určení kvantilu studentova rozdělení t.inv určení kvantilu chí kvadrát rozdělení chisq.inv 25 26 Vybraná pravděpodobnostní rozdělení Statistické tabulky 27 28 29 Kvantily normovaného normálního rozdělení 30 Kvantily Studentova rozdělení 31 Základní vzorce popisné statistiky a pravděpodobnosti Sturgesovo pravidlo 1 + 3,3 * log (n) populační aritmetický průměr 𝑚í = 1 𝑁 D 𝑥' ( ')! výběrový aritmetický průměr 𝑥̅ = 1 𝑛 D 𝑥' * ')! vážený průměr pro absolutní četnosti 𝑥̅ = 1 𝑛 D 𝑥' 𝑛' + ')! vážený průměr pro relativní četnosti 𝑥̅ = D 𝑥' 𝑝' + ')! obecně 32 harmonický průměr dle povahy zadaných hodnot geometrický průměr medián lichý počet dat 𝑥, *-! . / sudý počet dat 𝑥, * . / 2 + 𝑥, *-. . / 2 rozptyl pro výběrový soubor 𝑠. = 1 𝑛 − 1 D(𝑥̅ − 𝑥'). * ')! 33 rozptyl pro populační soubor 𝑠. = 1 𝑁 D(𝑥̅ − 𝑥'). ( ')! směrodatná odchylka pro výběrový soubor 𝑠 = K 1 𝑛 − 1 D(𝑥̅ − 𝑥'). * ')! směrodatná odchylka pro populační soubor 𝑠 = K 1 𝑁 D(𝑥̅ − 𝑥'). ( ')! variační koeficient 𝑣 = 𝑠 𝑥̅ klasická pravděpodobnost P(X) = m/n statistická pravděpodobnost P(X) ≈ m/n podmíněná pravděpodobnost P(AÇB) = P(A) * P(B|A) = P(B) * P(A|B) 34 Úplná pravděpodobnost P(A) = P(B) × P(A∣B) + P(B) × P(A∣B) 𝑃(𝐴) = D 𝑃(𝐵𝑖)× 𝑃(𝐴 ∣ 𝐵𝑖) * ')! Bayesův vzorec 𝑃( 𝐵 ∣ 𝐴 ) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴) = 𝑃(𝐵)× 𝑃(𝐴 ∣ 𝐵) 𝑃(𝐴) 𝑃( 𝐵' ∣∣ 𝐴 ) = 𝑃(𝐵')× 𝑃(𝐴 ∣ 𝐵') ∑ 𝑃;𝐵0<× 𝑃(𝐴 ∣ 𝐵0)* 0)! Binomické rozdělení P(X = k) = ;* + < ∗ 𝑝𝑘 ∗ (1 − 𝑝)𝑛 − 𝑘 Poissonovo rozdělení P(X = x) = (2∗λ)+ +! ∗ 𝑒#2∗λ Hypergeometrické rozdělení P(x) = 6! " 7∗6#$! %$" 7 6# %7 Rovnoměrné rozdělení F(X) = 8#9 :#9