1 Statistika Studijní opora Jaroslav Stuchlý 2017 České Budějovice 2 2. vydání ISBN 978-80-7468-021-2 © Vysoká škola technická a ekonomická v Českých Budějovicích, 2017 Vydala: Vysoká škola technická a ekonomická v Českých Budějovicích, Okružní 10, 370 01 České Budějovice Za obsahovou a jazykovou správnost odpovídá autor. 3 Cíl předmětu Cílem předmětu je seznámit studenty se základními postupy z oblasti statistické indukce, metodami analýzy kvalitativních i kvantitativních znaků a s elementy analýzy časových řad. Výstupy z učení Student po absolvování předmětu umí definovat základní postupy z oblasti statistické indukce, umí charakterizovat a aplikovat metody analýzy kvalitativních i kvantitativních znaků a elementy analýzy časových řad. Absolvent umí shromažďovat, třídit, zpracovávat a prezentovat statistická data. Základní okruhy studia 1. Metody popisné statistiky; 2. Základní statistické charakteristiky; 3. Pravděpodobnost a rozdělení pravděpodobností a jejich číselné charakteristiky; 4. Základní pravděpodobnostní modely; 5. Výběrová šetření, rozdělení výběrových charakteristik a základy statistické indukce; 6. Testování statistických hypotéz; 7. Dvouvýběrové testy; 8. Další testy a analýza rozptylu; 9. Jednoduchá lineární regrese a korelace; 10. Statistická indukce v regresním modelu; 11. Vícerozměrná regrese a prognostická aplikace regrese; 12. Úvod do analýzy časových řad. 13. Analýza časových řad. Povinná literatura MAREK, Luboš. Statistika v příkladech. Druhé vydání. Praha: Kamil Mařík - Professional Publishing, 2015, 425 stran. ISBN 978-80-7431-153-6. 4 STUCHLÝ, Jaroslav. Statistika: studijní opora pro kombinované studium. 1. vyd. České Budějovice: Vysoká škola technická a ekonomická v Českých Budějovicích, 2012. 197 s. ISBN 978- 80-7468-021-2. Studijní průvodce - Klíčové pojmy - Cíle kapitoly - Čas potřebný ke studiu kapitoly - Výklad - Úkoly k zamyšlení a diskuzi - Klíč k řešení otázek - Studijní materiály 5 Kapitola 1: Metody popisné statistiky Klíčové pojmy: popisná statistika, statistické jednotky, znaky, proměnné, základní a výběrový soubor, rozsah souboru, klasifikace proměnných, statistická šetření, rozdělení četností, histogram, sloupkový a výsečový diagram, polygon, skupinové rozdělení četností, vícerozměrné rozdělení četností, modus, medián, koeficient mutability, nominální a ordinální va- riance Cíle kapitoly: - pochopení základních pojmů z popisné statistiky; - seznámení s etapami statistického zkoumání; - znalost pojmů tabulka rozdělení četností, intervalové rozdělení četností, dvourozměrné tabulky rozdělení četností a příslušné statistické grafy; - popisování rozdělení nominální a ordinální proměnné číselnými charakteristikami. Čas potřebný ke studiu kapitoly: 11 hodin 6 Výklad: Nastínění obsahu kapitoly Vznik a význam statistiky Základní statistické pojmy Etapy statistických prací Elementární zpracování dat (tabulky a grafy) o kvalitativní (nominální) proměnné; o pořadové (ordinální) proměnné; o kvantitativní (numerické) proměnné s malým a velkým počtem obměn; o vícerozměrné proměnné. Statistická analýza nominální a ordinální proměnné. Život nedal nic lidem, co by nezaplatili velkou námahou Horatius Vznik a význam statistiky Poznání stále pronikavěji zasahuje do všech stránek našeho života. Každých 10-15 let se množství znalostí zdvojnásobuje. Orientace v oborech lidské činnosti a jejích výsledcích je stále náročnější. Vzrůstá rozsah informací (údaje o hromadných jevech), ale i jejich cena (informace jsou zbožím). Jejich zkoumání a vyhodnocování se stalo důležitou náplní praktické i teoretické statistiky. - První použití statistických operací – Čína, Řím před naším letopočtem: sčítání obyvatel, zařazení do daňových skupin. - První statistické analýzy – 17. století: Anglie - J. Graunt, W: Petty (zpracování údajů z matriky). - Termín „statistika“ vznikl v 18. století (G.Achenwall): 7 - Latinsky status = stav  status rei publicae = stav věci veřejné  italské státo = stát  státistico = statistický, statistik  státistica = statistika. - Statistikové byli vzdělaní muži, kteří byli velmi ceněni. - Další rozvoj statistiky 19. a 20. století: Bernoullli, Laplace, Gauss, Pearson, Fisher, Janko, Hájek. Moderní statistika 20. století vznikla z úředních zjišťování, univerzitní státovědy, politické aritmetiky a teorie pravděpodobnosti. Lze ji chápat nejméně ve 3 pojetích: Jako - číselné údaje o hromadných jevech; - praktickou činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů; - teoretickou disciplínu, zabývající se metodami zkoumání hromadných jevů. Nachází široké uplatnění ve všech oblastech lidské činnosti: - biologie, medicína, fyzika, technické disciplíny, - ekonometrie, marketing, sociálně-ekonomické vědy, - významná podpora pro manažerské rozhodování. Základní statistické pojmy Hromadné jevy (opak individuálních jevů): - masově se vyskytují a mohou se libovolně opakovat; - měříme je u prvků, které nazýváme statistické jednotky; - to co měříme, nazýváme statistické znaky či proměnné. Statistický soubor: 8 - určitá věcně, prostorově a časově vymezená množina všech zkoumaných statistických jednotek, u kterých zjišťujeme hodnoty sledovaných statistických znaků; - jednorozměrný, dvourozměrný, vícerozměrný; - základní soubor (populace) a výběrový soubor (vzorek) – obsahuje všechny nebo jen vybrané jednotky. Rozsah souboru – počet jeho statistických jednotek: - Základní: N; - Výběrový: n. Rozdělení statistických znaků Zdroj: vlastní Klasifikace podle stupnice, na které jsou znaky měřeny: - Nominální (kvalitativní, slovní), - ordinální (pořadové), - kardinální znaky (kvantitativní, číselné). Základní klasifikace: nespojité (diskrétní) spojité měřitelné pořadové kvantitativní (číselné) alternativní množné kvalitativní (slovní, kategoriální) Statistické znaky (proměnné) 9 Etapy statistických prací Statistická šetření (zjišťování): - použití sekundárních dat (publikovaná – ČSÚ, ČNB apod.), - primární data – získaná od zpravodajských jednotek nebo respondentů (přímé pozorování, dotazník, anketa; z výkazů). - Rozhodná doba u intervalových proměnných, rozhodný okamžik u okamžikových proměnných. - Šetření úplné = vyčerpávající (cenzus) a neúplné = dílčí (výběr, zatíženo výběrovou chybou); expediční, korespondenční (telefonické nebo přes internet). - Výběr pravděpodobnostní = náhodný (reprezentativní) a nenáhodný (záměrný = úsudkový, kvótní aj.). - Statistické zpracování (na počítači): - kontrola dat, tabulka, třídění a shrnování dat, číselné charakteristiky. - Statistické vyhodnocování (rozbor) a prezentace dat: - slovní text, prezentační tabulka nebo graf, v prezentačním programu na počítači. Elementární zpracování dat O nominální a ordinální proměnné: - tabulka variant a jejich četností (frekvencí) - absolutních ni - počet výskytů i-té varianty, - relativních pi = ni/n - poměr výskytů i-té varianty; - graf rozdělení četností: 10 - sloupcový diagram (histogram);  vertikální = svislý nebo horizontální = vodorovný,  jednoduchý nebo skupinový; - polygon rozdělení četností (lomená čára); - výsečový, koláčový diagram; - plošný graf. - Tvary rozdělení: jednovrcholové, vícevrcholové, symetrické, různě šikmé a špičaté. O pořadové nebo kvantitativní proměnné: - Jednostupňové třídění do tabulky rozdělení četností. - U diskrétní proměnné s malým počtem obměn vyjadřujeme: - hodnoty obměn xi (třídní znak), - absolutní četnosti (frekvence) ni, - relativní četnosti pi = ni/n, - kumulované absolutní četnosti Ni = n1+n2+…+ni, - kumulované relativní četnosti Mi = p1+p2+…+pi:  představují tzv. empirickou distribuční funkci,  násobené stem udávají, jaké % rozsahu souboru má menší nebo rovnou hodnotu proměnné než je xi,  kumulované absolutní (relativní) četnosti udávají počty (podíly) statistických jednotek, pro které je uvažovaná proměnná rovna nejvýše xi (tj. X ≤ xi). 11 - Rozdělení znázorňujeme obvykle sloupkovým diagramem (histogramem) nebo polygonem. Příklad – viz Stuchlý (1999a), s. 32-33. U diskrétní kvantitativní proměnné s velkým počtem obměn nebo u spojité kvantitamivní proměnné vyjadřujeme třídění do tabulky třídního (intervalového) rozdělení četností. - Počet tříd nejčastěji určuje Sturgesův vzorec: k = 1+3,322 log10(n) (zaokrouhlíme na celé číslo). - Obvyklý počet tříd k 5 – 20 (při menším – přílišná redukce dat a při větším – nepřehlednost výsledků). - Délka třídního intervalu h =R/k (zaokrouhlíme), variační rozpětí R = xmax-xmin. Příklad – viz Stuchlý (1999a), s. 33-34. Elementární zpracování dat o vícerozměrné proměnné: - více kontigenčních tabulek – podle dvojic znaků (v R); - kontingenční tabulka s hierarchickou strukturou (větvení v řádcích, resp. v sloupcích, viz Excel); Grafy: dvourozměrné histogramy, skupinový diagram, bodový (rozptylový) diagram. Speciální tabulky: - asociační tabulky – podle 2 kvalitativních znaků; - korelační tabulky – podle 2 kvantitativních znaků. Příklad – viz Stuchlý (1999a), s. 34-35. 12 Statistická analýza nominální proměnné - Kategorie seřazujeme obvykle podle velikosti četností nebo podle abecedy. - Pokud se u určitých otázek objevuje více odpovědí, nedostaneme tabulku rozdělení četností, ale jen tabulku počtu voleb (vyhodnocení procenty z počtu obměn nebo z rozsahu výběru). - Poloha – modus (hodnota s nejvyšší četností). - Variabilita: - Koeficient mutability  Je 0  M  1, přitom M = 0 znamená 1 obměnu a M = 1 je n obměn. - Nominální variance: nomvar =  Interpretace je obdobná jako u M. Příklad – viz Stuchlý (2011), s. 40. Statistická analýza ordinální proměnné - Poloha – medián (prostřední hodnota) a modus. - Variabilita - diskrétní ordinální variance kde Mi, resp. Fi jsou kumulativní relativní četnosti. Příklad – viz Řezanková-Löster (2009), s. 22. Podrobnější popis metod popisné statistiky najdeme zejména v učebnici Cyhelský (2001), s. 13-55. 1)-n(n 2 i 2   nn M          k 1i 2 i1 1 p k k ),1( 1 4 dorvar 1     k i ii MM k 13 Tabulky rozdělení četností a jejich grafy lze získat v Excelu pro kvalitativní proměnnou pomocí prostředku Kontingenční tabulka a pro numerickou proměnnou pomocí nástroje Histogram v Analýze dat - viz Řezanková-Löster (2009), s. 39-42. Výpočty je také možné provést v interaktivní nabídce R-Commanderu (viz řešení následujících úkolů). Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 11-29. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE Praha 1999. S. 30-36. ISBN 80-7079-754-1. Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 7-26. ISBN 80- 245-0178-3. BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 13- 55. ISBN 80-7261-003-1. GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. s. 35-46. ISBN 978-80-251-2465-9. HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 11-17. ISBN 80-7261-013-9. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 11-20, 37-44. ISBN 978-80-86446-40-5. MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita, 1995. S. 9-58. ISBN 80-7157-166-0. 14 ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 7-22, 39- 44, ISBN 978-80-245-1514-4 SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 9-29. ISBN 80-7187-058-7. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/) WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 51-85. ISBN 80-7169-089-9. Otázky a úkoly 1) Pracujte se souborem byty.xls. Úkoly: a) Načíst data do Excelu a charakterizovat typ jednotlivých proměnných; b) vytvořit tabulku rozdělení absolutních a relativních četností podle proměnné čtvrť a znázornit je graficky histogramem, resp. sloupcovým diagramem nebo výsečovým diagramem (použít kontingenční tabulky a grafy); c) vytvořit tabulku rozdělení všech četností podle proměnné počet obyvatel a znázornit je graficky sloupkovým diagramem nebo histogramem (použít z analýzy dat histo- gram); d) vytvořit tabulku rozdělení všech četností podle proměnné obytná plocha a znázornit je graficky sloupkovým diagramem (použít z Analýzy dat Histogram v Excelu); e) vytvořit kontingenční tabulku pro proměnné čtvrť, obytná plocha a vybavení telefo- nem 2) Pro proměnnou a) čtvrť b) kategorie ze souboru byty.xls určete charakteristiky úrovně a variability a interpretujte výsledky. 3) Načtěte do programu R data ze souboru studenti.dat a určete v tomto programu a) tabulku rozdělení četností a její graf pro proměnnou „doprava“, b) tabulku rozdělení absolutních a relativních četností a histogram pro proměnnou „výška“. c) dvojrozměrnou tabulku rozdělení četnosti pro proměnné „pohlaví“ a „výška“ a znázorněte je graficky. 15 Úkoly k zamyšlení a diskuzi 1) Jaká kritéria budete považovat za důležitá při sestavování reprezentativního výběru osob pro a) předvolební průzkum, b) marketingový průzkum prodeje aut, c) průzkum ohrožení populace cévními chorobami? Vyberte z těchto navrhovaných: věk, krevní tlak, pohlaví, barva očí, národnost, velikost obce bydliště, členství v politické straně, tělesná výška, náboženské vyznání. Která z nich jsou nejdůležitější v bodě a), b), c)? Zkuste navrhnout další kritéria! 2) Sestavte statistický soubor ze svých přátel a známých a roztřiďte je současně podle pohlaví a podle toho, zda jsou kuřáci či nekuřáci. Sestavte asociační tabulku a znázorněte ji graficky. 16 Klíč k řešení otázek: 1) a) Klasifikace statistických znaků a popisné statistiky v Excelu: Nominální množná: Čtvrť, nominální alternativní: Telefon, ordinální: Kategorie, numerická diskrétní: Počet obyvatel, numerická spojitá: Obytná plocha a Nájemné. b) Sloupcový diaagram a koláčový diagram čtvrti, tabulka rozdělení četností a histogram počtu obyvatel: c) poč.ob. četnost 1 3 2 6 3 7 4 8 5 4 6 2 Součet 30 3 6 7 8 4 2 0 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 Další Četnost poč.ob. Histogram Četnost 17 d) Variační rozpětí je R = 116,0 - 34,8 = 34,8. Podle Sturgesova vzorce je počet tříd k = 1 + 3,322 log 30 = 5,907. Délka třídního intervalu je h = 81,2/5,907 = 13,746. Pro lepší přehlednost zaokrouhlíme h = 10. Třidní rozdělení četností a sloupcový diagram: Obytná plocha (v m2 ) xi ni pi Ni Mi 31 - 40 35 1 0,033 1 0,033 41- 50 45 2 0,067 3 0,1 51 - 60 55 5 0,167 8 0,267 61 - 70 65 8 0,267 16 0,534 71 - 80 75 6 0,2 22 0,734 81 - 90 85 4 0,133 26 0.867 91 - 100 95 2 0,067 28 0,934 101 - 110 105 1 0,033 29 0,967 111 - 120 115 1 0,033 30 1 Součet  30 1   e) Kontingenční tabulka s hierarchickou strukturou a její dvourozměrný histogram: Počet z Ctvrť Ob.plocha Ctvrť Telefon 30-55 55-80 80-105 105-130 Celkový součet 'Nove_Mesto' 'ano' 1 4 2 7 'ne' 1 1 1 3 Celkem z 'Nove_Mesto' 2 5 3 10 'Nusle' 'ano' 2 2 'ne' 2 2 4 Celkem z 'Nusle' 2 2 2 6 'Vinohrady' 'ano' 6 2 8 'ne' 3 1 4 Celkem z 'Vinohrady' 9 2 1 12 0 1 2 5 8 6 4 2 1 1 0 0 2 4 6 8 10 Četnost ob.plocha Sloupcový diagram Četnost 18 'Vysehrad' 'ne' 1 1 2 Celkem z 'Vysehrad' 1 1 2 Celkový součet 5 17 7 1 30 2) a) Jde o nominální proměnnou. Pro výpočet použijeme tabulku Čtvrt ni pi ni 2 pi 2 'Nove_Město' 10 0,333 100 0,111 'Vinohrady' 12 0,400 144 0,160 'Nusle' 6 0,200 36 0,040 'Vyšehrad' 2 0,067 4 0,004 Součet 30 1 284 0,316 Úroveň popisuje modus = „Vinohrady“, variabilitu popisuje koeficient mutability nebo nominální variance Hodnoty blízké 1 ukazují na velkou variabilitu (měnlivost) hodnot nominální proměnné „čtvrť“. 30-55 55-80 80-105 105-130 0 1 2 3 4 5 6 'ano' 'Nove_Mesto' 'ne' 'ano' 'Nusle' 'ne' 'ano' 'Vinohrady' 'ne' 'ne' 'Vysehrad' 30-55 55-80 80-105 105-130 ,708,0 )130(30 28430 1)-n(n 22 i 2       nn M .913,0)316,01( 14 4 1 1 nomvar k 1i 2 i             p k k 19 b) Jde o ordinální proměnnou. Úroveň charakterizuje modus nebo medián, variabilitu ordinální variance. Dále postupujeme obdobně. 3) R je pro potřeby výuky volně šiřitelný program. Instalce je možná z Internetu nebo jen zkopírováním na učebně. Program R otevřeme pomocí příslušné ikonky „R“ (otevře se R Konzola). V R Konzole napíšeme příkaz library(Rcmdr) a odešleme ho Enterem. Tím se otevře nadstavba R Commander. Obsahuje vstupní okno (Script Window) na vkládání příkazů, výstupní okno (Output Window), kde dostáváme výsledky výpočtů a úplně dole dialogové okno (Messages), v kterém se budou zobrazovat chybová hlášení či jiné informace. Základní poznatky o práci s systémem R jsou v Bína a kol. (2006) nebo můžeme použít Help v R Commanderu: Introduction to Rcmdr. Datový soubor studenti.dat načteme z nabídky Data pomocí Import data from text file. (v dialogovém okně vypíšeme do okna Enter name for data set: studenti a po stlačení OK zadáme cestu k umístnění datového souboru). Tabulku načteného datového souboru si můžeme prohlédnout stlačením tlačítka u Data set (v našem případě se toto tlačítko označilo „studenti“). Tlačítko Edit data set otvírá editor dat (po provedení editace ho zavíráme křížkem X v pravém horním rohu). Program rozlišuje velká a malá písmena a používá desetinné tečky. Většinu výpočtů je možno provádět v R interaktivně (s využitím nabídky R Commanderu), avšak některé musíme provádět příkazově (vypsáním a odesláním příslušného příkazu ve vstupním okně). Přehled příkazů najdeme v Stuchlý (2011). Modifikátory k těmto příkazům lze vyhledat v nápovědě. a) Popisná statistika v R:Určení tabulky rozdělení absolutních a relativních četností a jejích grafů pro proměnou doprava použijeme v nabídce Statistics položku Summaries Frequency distribution (označíme proměnnou „doprava“) a z nabídky Graphs položku Bar graph, resp. Pie Chart. Na výstupu se objeví tabulky rozdělení četností a grafy (grafy se automaticky kreslí do R Konzoly): > .Table # counts for doprava A B M T V 2 19 9 7 25 > 100*.Table/sum(.Table) # percentages for doprava A B M T V 3.225806 30.645161 14.516129 11.290323 40.322581 20 b) Protože R-ko kreslí histogram jen pro kvantitativní proměnné a tabulku rozdělení počítá jen pro kategoriální proměnné, nakreslíme nejdříve histogram pomoci nabídky Graphs a položky Histogram a proměnou „výška“: Z grafu vidíme, že optimální třídní rozdělení četností (založené na Sturgesově vzorci) je do 8 tříd délky 5 na intervalu od 150 do 200 cm. Budeme proto kategorizovat výšky do těchto tříd v Data - Manage variables in active data set - Compute new variable (vyplníme New variable name: vyska_k, Expression to compute: cut(studenti$vyska, breaks=seq(150,200,by=5)), v editoru se objeví nová kategoriální proměnná vyska_k, 21 zavřeme editor a použijeme pro ni Statistics Summaries Frequency distribution a dostane rozdělení absolutních relativních četností: > .Table # counts for vyska_k (150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185] (185,190] 1 2 9 6 10 12 11 7 (190,195] (195,200] 4 0 > 100*.Table/sum(.Table) # percentages for vyska_k (150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185] (185,190] 1.612903 3.225806 14.516129 9.677419 16.129032 19.354839 17.741935 11.290323 (190,195] (195,200] 6.451613 0.000000 Kumulované četnosti se počítají pomocí příkazu cumsum (table(studenti$vyska_k)) a kumulované relativní četnosti (v %) pomocí příkazu cumsum(100*table(studenti$vyska_k))/sum(table(studenti$vyska_k)) c) Použijeme Statistics Contigency tables - Two-way table, zaškrtneme pohlavi a vyska_k a No percentages (pro absolutní četnosti) nebo Percentages of total (pro relativní četnosti v %) a Chi-square test of independence zatím odškrtneme. vyska_k pohlavi (150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185] M 0 0 0 1 2 10 11 Z 1 2 9 5 8 2 0 vyska_k pohlavi (185,190] (190,195] (195,200] M 6 4 0 Z 1 0 0 Graf dostaneme vypsáním programu: par(mfrow=c(1,2)) 22 Hist(studenti$vyska[studenti$pohlavi=="M"], scale="frequency", main="muzi", col="darkgray") Hist(studenti$vyska[studenti$pohlavi=="Z"], scale="frequency", main="zeny", col="darkgray") do vstupního okna a jeho odesláním pomocí Submit: 23 Kapitola 2: Základní statistické charakteristiky Klíčové pojmy: číselné charakteristiky (míry) statistického znaku (proměnné), prostý a vážený aritmetický průměr, vlastnosti průměru, modus, medián, kvantily, kvartily, odlehlá hodnota, variační a kvartilové rozpětí, prostý a vážený rozptyl, populační a výběrový rozptyl, vlastnosti rozptylu, meziskupinový a vnitroskupinový rozptyl, směrodatná odchylka, variační koeficient, absolutní a relativní kvartilová odchylka, koeficient asymetrie (šikmosti) a špičatosti, kovariance, korelační koeficient, kovarianční a korelační matice, krabicový dia- gram Cíle kapitoly: - pochopení významu jednotlivých číselných charakteristik statistického znaku; - porozumění vlastnostem aritmetického průměru a rozptylu; - znalost výpočtu a věcné interpretace jednotlivých číselných charakteristik pomocí vhodného software (Excel, R). Čas potřebný ke studiu kapitoly: 11 hodin 24 Výklad: Nastínění obsahu kapitoly. Charakteristiky numerické proměnné - Charakteristiky polohy - Charakteristiky variability - Charakteristiky tvaru rozdělení Kvantilové charakteristiky Grafické znázornění číselných charakteristik Charakteristiky vícerozměrné veličiny Struktura výkladu Charakteristiky numerické proměnné Charakteristiky polohy (úrovně) - Popisují obecnou úroveň znaku - Udávají střed rozdělení četností (střední hodnoty) - Známe již modus a medián Průměry: Motto: Statistika je předmět, který nás učí, že když stojíme jednou nohou na rozpálené plotně a druhou máme v mrazáku, jsme na tom v průměru dobře. Prostý aritmetický průměr - populační   N i ix N 1 1  25 - výběrový - Interpretace aritmetického průměru – jaká část z celkového úhrnu připadne na jednu jednotku;  fyzikálně: těžiště. - Z dat agregovaných v tabulce rozdělení četností dostaneme vážený průměr:  váhy – absolutní četnosti ni:  váhy - relativní četnosti pi : Vlastnosti aritmetického průměru: a) Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. b) Aritmetický průměr konstanty je opět roven konstantě. c) Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou násoben i průměr. d) Součet jednotlivých odchylek od průměru je nulový. e) Součet čtverců odchylek hodnot znaku od jeho aritmetického průměru je mini- mální. f) Je-li statistický soubor rozdělen na k dílčích podsouborů, v nichž známe jednotlivé dílčí průměryxi a počty pozorování (absolutní četnosti) ni, i = 1,…,k, potom celkový aritmetický průměr se rovná váženému aritmetickému průměru dílčích průměrů s vahami rovnými absolutním četnostem. - Uvedené vlastnosti je možno zapsat pomocí následujících vzorců:   n i ix n x 1 1   k i ii nx n x 1 1   k i ii pxx 1              k 1i iik 1i i n 1i n 1i 22 n 1i 1 f);)()(e) ;0)(d);..c) c;cb)a) nx n xaxxx xxxcxc cxcx ii i 26 - Kromě aritmetického průměru používáme v některých situacích harmonický, geometrický nebo kvadratický průměr – viz Hindls (2007), s. 32-34. Příklad: - Doba pobytu pacientů v nemocnici je 5 9 6 6 9 8 9 6 38 5 9. - Aritmetický průměr je - Je aritmetický průměr za 1. týden dostatečně spolehlivou (typickou) střední hodnotou, když deset z jedenácti pacientů strávilo v nemocnici kratší dobu než 10 dní? (Vliv extrémní hodnoty 38 dní.) - Spolehlivější je zde medián (prostřední hodnota): 5 5 6 6 6 8 9 9 9 9 38, medián = 8. Charakteristiky variability: - Popisují měnlivost (rozptýlenost=variabilitu) hodnot znaku (vyrovnanost, homogenita hodnot znaku). - Malá variabilita znamená malou vzájemnou různost hodnot znaku, v tomto případě je průměr dobrou mírou. - Vysoká variabilita značí velkou vzájemnou odlišnost hodnot znaku, pak průměr není dobrá míra. - Známe již míru variační rozpětí R = xmax – xmin. Absolutní míry variability: - Rozptyl prostý (variance) - populační: - výběrový: - Charakterizuje rozptýlenost hodnot znaku kolem aritmetického průměru. - Platí .10 11 110 )953869896695( 11 11 1   n i ix n x ,)( 1 N 1i 22   xx N i .)( 1 1 'nebo)( 1 1 2 1 22 2      n i ix n i ix xx n sxx n s . 1 'a' 1 2222 s n n ss n n s     27 - Pro ruční výpočet je vhodnější používat následující výpočetní vzorce místo předcházejících definičních: - Pro data shrnutá do tabulky rozdělení četností používáme: - Výběrový rozptyl vážený   k i ii nxx n s 1 22 )( 1 , resp. . 1 2 1 22 xnx n s k i ii   - Rozptyl měříme ve čtvercích měrných jednotek hodnot znaku. Proto je vhodnější místo rozptylu používat jeho odmocninu. Dostaneme míru: - Směrodatná odchylka - populační ; - výběrová s (resp. s’). - Absolutní odchylka - Vlastnosti rozptylu: 1. Rozptyl konstanty je roven nule, tj. sc 2 = 0 2. Rozptyl je vždy nezáporný tj. sx 2  0. 3. Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění, tj. sx+c 2 = sx 2 . 4. Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem této konstanty, tj. scx 2 = c2 sx 2 . 5. Předpokládejme, že statistický soubor o rozsahu n je rozdělen do k dílčích podsouborů kde známe dílčí rozptyly si 2 , dílčí průměryxi a dílčí četnosti ni. Potom rozptyl celého souboru je dán součtem rozptylu skupinových průměrů (meziskupinový rozptyl) a váženému průměru ze skupinových rozptylů (vnitroskupinový rozptyl), tj. . 1 1 'resp., 1 s 2 n 1i 2 i 22 n 1i 2 i 2            xnx n sxx n .|| 1 n 1i i  xx n d kde,222 sss x  ,)( 1 2 1 2 i k i ix nxx n s        k i i k i ii n n s 1 1 2 2 s 28 Meziskupinový rozptyl měří variabilitu mezi skupinami a vnitroskupinový rozptyl variabilitu vnitroskupinovou. Na principu tohoto rozkladu je založena analýza rozptylu. Relativní míry variability: - Jedná se o variabilitu vztaženou na jednotku znaku. - Variační koeficient - Udává, kolik procent průměru činí směrodatná odchylka. Je-li V > 50%, je soubor silně nesourodý a není vhodné používatx. - Platí: - V řešeném příkladu je V = 8,99.100/10 = 89,8% (silně nehomogenní data). Charakteristiky tvaru rozdělení četností: - Koeficient asymetrie (šikmosti) a špičatosti rozdělení četností - Charakteristiky jsou založeny na srovnání stupně koncentrace malých a velkých hodnot pozorovaného znaku. - Je-li stejný počet podprůměrných a nadprůměrných hodnot je rozdělení symetrické – levý obrázek (průměr = mediánu). - Převažují-li velké hodnoty, jde o rozdělení s kladnou šikmostí – prostřední obrázek (průměr > medián). - Převažují malé hodnoty, jde o rozdělení se zápornou šikmostí – pravý obrázek (průměr < medián). Grafy symetrických a asymetrických rozdělení: %.100)(,%100  x s xVV x   ;)( cx s cxV   ).( . . )( xV x s xc sc xcV  29 Symetrické rozdělení Kladná šikmost Záporná šikmost Číselné charakteristiky tvaru rozdělení: - Koeficient šikmosti (asymetrie) - Rozdělení symetrické: ax = 0, zleva zešikmené ax > 0, zprava zešikmené ax < 0. - Koeficient špičatosti - Špičatost jako u standardního normálního rozdělení: bx = 0, špičatější bx > 0, méně špičaté bx < 0. Kvantilové charakteristiky Úroveň popisujeme kvantily. Z nich nejvíce používaný je medián. - p kvantil xp – bod, který dělí hodnoty seřazené podle velikosti přibližně v poměru p:(1- p). - Přesnější zápis: - (relativní četnost jednotek xi, pro něž je xi ≤ xp) ≥ p; - (relativní četnost jednotek xi, pro něž je xi > xp) ≤ 1 – p. - Výpočet lze provádět z tabulky kumulovaných relativních četností. - Medián x0,5 je prostřední hodnota v posloupnosti dat srovnaných podle velikosti při lichém počtu měření a průměr z prostředních dvou měření při sudém počtu měření. - Jinak řečeno: (aspoň polovina hodnot je  x0,5 a nejvýše polovina je > x0,5) . )( 3 1 3 x n i i x ns xx a    .3 )( 4 1 4     x n i i x ns xx b 30 - Jiná označení x50, x~ . - Kvartily x0,25, x0,50, x0,75. - Decily x0,1, x0,2,…,x0,9. - Percentily x0,01, x0,02, …, x0,99. Absolutní variabilitu popisuje: Kvartilové rozpětí Rq = x0.75 – x0,25 a kvartilová odchylka Q = (x0,75 – x0,25)/2. Odlehlé hodnoty jsou hodnoty nižší než x0,25 – 1,5 Rq nebo vyšší než x0,75 + 1,5 Rq. Relativní variabilitu popisuje relativní kvartilová odchylka Qrel = (x0,75 – x0,25)/ (x0,75 + x0,25) Příklad: Budeme charakterizovat data z řešeného příkladu o pobytu pacientů v nemocnici rozptylem a směrodatnou odchylkou. Výpočet provedeme v tabulce: - Počítáme populační rozptyl - Směrodatná odchylka je s = 8,99 dní – velmi vysoká variabilita způsobená jednou extrémní hodnotou. Grafické znázornění číselných charakteristik Hodnoty kvantilových charakteristik znázorňujeme krabicovým diagramem v R. Krabicový diagram – obdélník, 2 vousy a body. Dolní a horní hrana obdélníku představují dolní a horní data xi průměr x odchylka xi - x čtv.odchylky (xi - x )2 čtv.dat xi 2 5 10 -5 25 25 5 10 -5 25 25 6 10 -4 16 36 6 10 -4 16 36 6 10 -4 16 36 8 10 -2 4 64 9 10 -1 1 81 9 10 -1 1 81 9 10 -1 1 81 9 10 -1 1 81 38 10 28 784 1444 Součet 0 890 1990 .dní9091,80890 11 1 )( 1 s 2 1 22   n i i xx n 31 kvartil, dělicí čára uvnitř představuje medián. Dolní vous představuje menší z hodnot xmin a x0,25 – 1,5 Rq a horní vous představuje vyšší z hodnot xmax a x0,75 + 1,5 Rq. Body představují odlehlé (extrémní) hodnoty. Celé rozdělení znázorňujeme histogramem nebo polygonem v Excelu nebo R. Z těchto grafů je také možné odhadnout přibližnou hodnotu číselných charakteristik. Výpočet číselných charakteristik v Excelu (viz Řezanková-Löster 2009, s. 39-42): - pomocí statistických funkcí; - pomocí popisné statistiky z Analýzy dat. Výpočet číselných charakteristik v R Commanderu: - interaktivně: Statistics-Summaries-Active data set, Statistics-Summaries-Numerical summaries…, Statistics-Summaries-Table of statistics… (počítá charakteristiky podmíněné hodnotami nominální proměnné), Statistics-Summaries-Correlation matrix…, Graphs-Histogram, Graphs-Boxplot nebo pomocí příkazů (viz Stuchlý 2011). Příklady: Viz Stuchlý (1999a), s. 41 (prosté číselné charakteristiky), s. 42 (vážené číselné charakteristiky)), s. 45 (rozklad rozptylu), s. 46 (charakteristiky tvaru rozdělení), s. 47-48 (grafy). Charakteristiky vícerozměrných proměnných Podmíněné průměry a rozptyly (počítané v závislosti na hodnotách kategoriální proměnné). - Výpočet v Excelu – vyfiltrováním dat podle kategoriální proměnné a přímo v R. Kovariance - Obecně platí sx±y 2 = sx 2 ± sxy + sy 2 , - Jsou-li znaky x, y nezávislé, je sx±y 2 = sx 2 + sy 2 . Korelační koeficient - Měří těsnost lineární závislosti. Platí:    n i ii n i iixy yxyx n yyxx n YXs 11 1 ))(( 1 ),cov( .),(cor yx xy xy ss s YXr  32 ryx = rxy , -1  rxy  1, rxy= 1  mezi proměnnými je přímá funkční lineární závislost, rxy=-1mezi proměnnými je nepřímá funkční lineární závislost, rxy = 0  proměnné jsou nekorelované. Jsou-li proměnné x, y lineárně nezávislé, je sxy = rxy = 0. Pro více proměnných počítáme kovarianční matici (na diagonále rozptyly, mimo kovariance) a korelační matici (na diagonále 1 mimo korelační koeficienty). Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 29-47. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE Praha, 1999. S. 37-50. ISBN 80-7079-754-1. Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Skripta VŠE, Praha 2003, s. 27-53, ISBN 80-245-0178-3 BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 56- 81. ISBN 80-7261-003-1. GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. S. 46-5. ISBN 978-80-251-2465-9. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada Publishing, 1999. S. 12-40. ISBN 80-7169-255-7. 33 MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 21-37. ISBN 978-80-86446-40-5. MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita, 1995. S. 61-93. ISBN 80-7157-166-0. ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 22-45, ISBN 978-80-245-1514-4. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 33-51. ISBN 80-7187-058-7. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 87-130. ISBN 80-7169-089-9. WONNACOT, T.H. a R.J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 33-48. ISBN 80-85605-09-0. Otázky a úkoly 1) Pracujte se souborem byty.xls. Řešte v Excelu: a) Několika vhodnými způsoby charakterizujte polohu proměnných obytná plocha a počet obyvatel. Použijte vhodné funkce Excelu. b) Několika vhodnými způsoby charakterizujte absolutní a relativní variabilitu proměnných obytná plocha a počet obyvatel. Použijte vhodné funkce Excelu. Interpretujte výsledky. c) Řešte úkoly a), b) pomocí popisné statistiky v Analýze dat. d) Určete koeficient asymetrie a špičatosti a ověřte, zda jsou získané výsledky v souladu s grafem rozdělení obou proměnných. e) Určete meze pro odlehlé hodnoty pro proměnnou obytná plocha. f) Určete decily pro proměnnou obytná plocha 34 g) Pomocí filtru rozdělte data proměnné obytná plocha podle kategoriální proměnné vybavení telefonem a určete příslušné podmíněné průměry a výběrové směrodatné odchylky. h) Určete kovarianční a korelační matici pro proměnné obytná plocha, počet obyvatel a nájemné a interpretujte výsledky. 2) Načtete do R data ze souboru studenti.dat. Úkoly: a) Pro proměnnou výška vypočítat průměr, standardní odchylku a kvartily a znázornit výsledek krabicovým diagramem. b) Pro proměnnou výška vypočítat podmíněný průměr, standardní odchylku a kvartily podle pohlaví a znázornit výsledek krabicovým diagramem. c) Určete kovarianční a korelační matici pro proměnné vyska, vaha, test a interpretujte výsledky. 3) Byla vypočtena průměrná mzda 21037 Kč a rozptyl mezd 360000. Určete průměrnou mzdu a směrodatnou odchylku mezd, pokud a) každý pracovník dostane přidáno 500 Kč, b) každý pracovník dostane 1,5 násobek platu, c) každý pracovník dostane přidáno 5% ze stávajícího platu. 35 Úkoly k zamyšlení a diskuzi 1) Představte si, že nějaký test píše velký počet lidí a že každý jednotlivý žák dosáhne přesně polovinu správných odpovědí. V tomto případě bude směrodatná odchylka (vyberte a zdůvodněte správnou odpověď): a) rovna průměru, b) rovna mediánu, c) rovna nule, d) směrodatnou odchylku nebude možné určit bez více odpovědí. 2) Zamyslete se nad tím, jak dokážeme platnost výpočetního vzorce pro rozptyl. Klíč k řešení otázek: 1) Číselné charakteristiky v Excelu: Vložíme data do sloupců v Excelu. a) Aplikujeme na příslušné sloupce v Excelu statistické funkce průměr a medián a dostaneme pro obytnou plochu: průměr = 70,46, medián = 69,35 a pro počet obyvatel: průměr = 3,33, medián = 3. b) Pro absolutní variabilitu použijeme SMODCH.VÝBĚR a kvartilovou odchylku Q (pro její výpočet použijeme Q = (QUARTIL(D2:D31;3) - QUARTIL(D2:D31;1))/2 dostáváme pro obytnou plochu s = 17,63, Q = 10,5 a pro počet obyvatel s = 1,40, Q = 1. Relativní variabilitu budeme charakterizovat variačním koeficientem V (V = SMODCH.VÝBĚR/ PRŮMĚR) a relativní kvartilovou odchylku Qrel (Qrel = (QUARTIL(D2:D31;3) – QUARTIL (D2:D31;1))/ (QUARTIL(D2:D31;3) + QUARTIL(D2:D31;1)). Dostáváme pro obytnou plochu V = 0,25, Qrel = 0,15 a pro počet obyvatel V = 0,41, Qrel = 0,33. Obě proměnné jsou homogenní, homogennější je obytná plocha. c) Na kartě Data stlačíme tlačítko Analýza dat (instalace viz Řezanková-Löster 2009, s. 41) a vybereme položku Popisná statistika. Ve vstupním okně vyplníme 36 Vstupní data (sloupce obou proměnných), zaškrtneme popisky v 1. řádku a Celkový přehled. Dostaneme následující tabulku výsledků, kde ještě dopočteme V. Kvartilové odchylky je lepší počítat pomocí statistických funkcí. Ob.plocha Počet obyvatel Stř. hodnota 70,457 Stř. hodnota 3,333 Chyba stř. hodnoty 3,2191 Chyba stř. hodnoty 0,255 Medián 69,35 Medián 3 Modus 93 Modus 4 Směr. odchylka 17,632 Směr. odchylka 1,398 Rozptyl výběru 310,89 Rozptyl výběru 1,954 Špičatost 0,5753 Špičatost -0,654 Šikmost 0,4713 Šikmost 0,084 Variační rozpětí 81,2 Variační rozpětí 5 Minimum 34,8 Minimum 1 Maximum 116 Maximum 6 Součet 2113,7 Součet 100 Počet 30 Počet 30 Variační koeficient 0,2503 Variační koeficient 0,419 d) Výsledky jsou v předchozí tabulce. Polygony získáme z vkládání grafů v Excelu a krabicové diagramy v R: 37 e) Odlehlé hodnoty: Dolní odlehlá mez = x0,25-1,5.Rq = 59,78-1,5.21 = 28,28, horní odlehlá mez = x0,75+1,5.Rq = 80,78+1,5.21 = 112,28 (dílčí hodnoty počítáme pomocí statistických funkcí). f) Pro p = 0,1 použijeme funkci =PERCENTIL($A$2:$A$31;B2) a potahovánín za pravý dolní růžek výsledkového okna dostaneme další decily. Výpočet je v následující tabulce: Ob.plocha p xp 82,6 0,1 52,18 57,3 0,2 56,84 70,4 0,3 62,13 65 0,4 65,54 48,4 0,5 69,35 103,8 0,6 71,68 73,6 0,7 77,8 43,5 0,8 82,92 66,1 0,9 93 93 1 116 g) Vyfiltrujeme proměnnou Obytná plocha podle kategoriální proměnné Telefon a překopírujeme ji do dvou sloupců na nový list. Výsledky získáme pomocí funkcí PRŮMĚR a SMODCH.VÝBĚR. Pro byty s telefonem je průměrná obytná plocha 71,19 a sm.odchylka = 13,19 a byty bez telefonu 69,5 a 22,75. Byty bez telefonu mají v průměru menší obytnou plochu ale vyšší variabilitu. 38 h) Použijeme z Analýzy dat nástroj Kovariance a Korelace a dostaneme kovarianční matice a korelační matice: Ob.plocha Počet obyv. Nájemné Ob.plocha 300,523789 Počet obyv. 12,9744444 1,88888889 Nájemné 6950,89233 49,1666667 588580,82 Ob.plocha Počet obyv. Nájemné Ob.plocha 1 Počet obyv. 0,5445605 1 Nájemné 0,5226345 0,0466299 1 Mezi Počtem obyvatel a Obytnou plochou a Nájemným a Obytnou plochou je středně silná lineární přímá závislost, mezi Nájemným a Počtem obyvatel je velmi slabá lineární závislost. 2) Načteme soubor studenti.dat do R Commanderu. a) Číselné charakteristiky v R: Užijeme z nabídky Statistics-Summaries-Numerical summaries. Ve vstupním okně označíme proměnnou výška. Krabicový diagram dostaneme z Graphs-Boxplot. Výsledky: mean sd 0% 25% 50% 75% 100% n 176.2903 9.48923 155 168.25 176 183 195 62 39 b) Použijeme Statistics-Summaries-Table of statistics. Ve vstupním okně označíme proměnnou výška a pohlaví. Graf dostaneme opět z Graphs-Boxplot jen ve vstupním okně po označení výška stiskneme tlačítko Plot by Groups… a označíme pohlaví. Podmíněné průměry a rozptyly: mean sd 0% 25% 50% 75% 100% n M 182.7059 6.032887 170 178.25 182.0 186.75 195 34 Z 168.5000 6.647194 155 164.75 167.5 174.25 186 28 c) Pro korelační matici užijeme Statistics–Summaries–Correlation matrix a pro kovarianční matici příkazu cov(studenti[,c("test","vaha","vyska")]). Výsledky: >cor(studenti[,c("test","vaha","vyska")],use="complete.obs") 40 test vaha vyska test 1.00000000 0.1833762 0.06266131 vaha 0.18337621 1.0000000 0.88564944 vyska 0.06266131 0.8856494 1.00000000 > var(studenti[,c("test","vaha","vyska")], use="complete.obs") test vaha vyska test 265.769236 41.57787 9.693548 vaha 41.577869 193.43443 116.885246 vyska 9.693548 116.88525 90.045479 Silná lineární přímá závislost je jen mezi váhou a výškou. 3) Příklad vychází z vlastností aritmetického průměru a z vlastností rozptylu. Přidání 5% vyjádříme jako vynásobení konstantou 1,05. a) x = 21037 + 500 = 21537; sx = √(360000) = 600. b) x = 21037.1,5 = 31555,5; sx = √(1,52 .360000) = 1,5.600 = 900, c) x = 21037.1,05 = 22088,85; sx = √(1,052 .360000) = 1,05.600 = 630. 41 Kapitola 3: Pravděpodobnost a náhodná veličina Klíčové pojmy: význam pravděpodobnosti a její historický vývoj, náhodný pokus, náhodný jev, operace s jevy, elementární jev, základní jevový prostor, úplný systém jevů, klasická definice pravděpodobnosti, kombinatorika, variace, permutace, kombinace, vlastnosti pravděpodobnosti, podmíněná pravděpodobnost, složená, úhrnná a úplná pravděpodobnost, náhodná veličina a její rozdělení pravděpodobností, diskrétní a spojitá náhodná veličina, distribuční a pravděpodobnostní funkce, hustota pravděpodobnosti, střední hodnota, rozptyl a kvantil náhodné veličiny, vícerozměrná náhodná veličina a její rozdělení, kovarianční a korelační matice Cíle kapitoly: - pochopení základních pojmů z počtu pravděpodobnosti; - porozumění pojmu náhodná veličina X a její rozdělení pravděpodobnosti; - znalost výpočtu a vlastností číselných charakteristik náhodné veličiny. Čas potřebný ke studiu kapitoly: 11 hodin 42 Výklad: Nastínění obsahu kapitoly. - Náhodný pokus a náhodný jev - Operace s náhodnými jevy - Pravděpodobnost náhodného jevu - Opakování kombinatoriky - Pravidla pro počítání s pravděpodobnostmi - Úplná pravděpodobnost - Náhodná veličina - Systém náhodných veličin a jejich rozdělení pravděpodobnosti - Číselné charakteristiky náhodných veličin - Kvantily - Číselné charakteristiky dvourozměrné náhodné veličiny Struktura výkladu Motto: Kdyby bylo vše jasné, tak by vám všechno přišlo úplně marné. Nuda by zaplavila svět bez stínů jakýmsi necitelným životem tvořeným nekvašenými dušemi. Naděje, která září na temný práh, nevychází ze světa nadměrné jistoty Marcel Proust, spisovatel Náhodný pokus a náhodný jev Úvod: - Teorie pravděpodobnosti studuje jevy a procesy, ve kterých se uplatňují prvky náhody. Představuje statistickou možnost kvantifikovat neurčitost, s kterou se setkávají firmy, podnikatelé i manažeři. - Pravděpodobnost je jazykem neurčitosti. 43 - Neurčitost působí manažerům při rozhodování nemalé problémy. Kdyby manažer dokázal identifikovat přesně důsledky svých rozhodnutí, jistě by volil vždy tu nejlepší alternativu. Přesto musí manažer odhadnout důsledky alternativních možností a učinit jednoznačné rozhodnutí. K tomu musí umět situace popsat pomocí pravděpodobností. - Pravděpodobnost hraje důležitou roli v marketingovém výzkumu. Princip technik marketingového výzkumu spočívá v tom, že shromáždí data jen o výběrovém souboru (např. zákazníků) a pomocí metod pravděpodobnosti přenáší závěry na celou populaci (statistická indukce - inference). Teorie pravděpodobnosti tvoří takto most mezi popisnou statistikou a statistickou indukcí. - Historické začátky pravděpodobnostních zkoumání spadají do 17. století v souvislosti s řešením úloh z oblasti hazardních her. - Další rozvoj následoval v 19. století a byl podmíněn prudkým rozvojem přírodních věd. Teoretické základy pravděpodobnosti jako vědy vybudovali matematici Bernoulli, Laplace, Gauss, Poisson, Čebyšev aj. Ve 30. letech našeho století vypracoval A. N. Kolmogorov matematickou teorii výstavby pravděpodobnosti. - Pravděpodobnost má velký význam v přírodních a technických vědách a ve statistice. Buduje modely, které lze aplikovat ve všech oborech ekonomické teorie a praxe. - Teorie pravděpodobnosti se nejdříve zabývá studiem náhodných jevů. Při zavádění tohoto pojmu vycházíme z tzv. náhodného pokusu. Pokusy, jejichž výsledky se mění, i když zachováváme stejné experimentální podmínky, nazýváme náhodné pokusy. - Např. hod kostkou, hod mincí, výběr kuliček z osudí, přesné měření tloušťky destičky ap. - Náhodné jevy – jednotlivé výsledky náhodného pokusu nebo množiny těchto výsledků. - Označení A, B, resp. A1, A2,…,An,… - Jistý jev E, nemožný jev . - S jevy je možno pracovat jako s množinami, tj. můžeme zavést pojmy AB, AB, A=B i složené jevy. - Operace s náhodnými jevy: - JevA nazýváme opačný jev nebo komplementární k jevu A. Složené jevy AB, AB, A-B aj. znázorňujeme pomocí Vennových diagramů. - Pro tyto operace platí pravidla, která známe z teorie množin, např. de Morganova pra- vidla .BA=BA,BA=BA  44 - Jevy A, B budeme nazývat disjunktní (neslučitelné jevy), když AB = . - Elementární jev e - nedá se dále rozložit na sjednocení podjevů. - Základní jevový prostor E je množina všech možných jevů. - Jevy A1,...,An tvoří úplný systém jevů, když platí: - a) Ai  Aj = , i, j=1,...,n, ij, - b) A1  A2 ... An = E. Příklad l. Za náhodný pokus vezmeme hod kostkou. Potom: - a) Elementární jev je např. e6={6}. - b) Základní jevový prostor E = {1,2,3,4,5,6}. - c) Náhodnými jevy jsou např. , E, A={2,4,6} - padne sudé číslo, A ={1,3,5} - padne liché číslo, B={5,6} - padne číslo větší než 4. Platí - Při opakovaných náhodných pokusech provádíme pokus několikrát za sebou a při každém pokusu sledujeme uskutečnění jevu A. - Podle techniky provedení pokusů dělíme pokusy na - Nezávislé pokusy: v těchto pokusech není v daném opakování pokusu uskutečnění jevu A závislé na výsledcích předchozích pokusů. Nezávislými pokusy jsou např. ty pokusy, při nichž postupně vybíráme ze souboru určité prvky a ty před dalším výběrem (opakováním) vracíme zpět do souboru – tzv. výběr s vracením; - Závislé pokusy: v těchto pokusech je v daném opakování uskutečnění jevu A závislé na výsledcích předchozích pokusů; závislými pokusy jsou např. pokusy, při nichž postupně vybíráme ze souboru určité prvky a ty před dalším výběrem (opakováním) již nevrátíme zpět do souboru – tzv. výběr bez vracení. Pravděpodobnost náhodného jevu - Pravděpodobnost náhodného jevu A je číslo P(A), které můžeme interpretovat jako míru možnosti nastoupení (realizace) náhodného jevu. .ee=B,eee=A,e=E 65   642 6 1i i 45 - Existuje několik definic pravděpodobnosti. Historicky se způsob zavádění pravděpodobnosti vyvíjel od statistické pravděpodobnosti, přes klasickou pravděpodobnost (založenou na kombinatorických úvahách), geometrickou pravděpodobnost až po axiomatickou pravděpodobnost, která všechny předcházející způsoby zahrnuje a zobecňuje. Klasická definice pravděpodobnosti: - Nechť základní jevový prostor E je konečná n prvková množina, přičemž všechny elementární jevy jsou stejně možné. Nechť náhodný jev A má právě m příznivých případů. Potom pravděpodobnost jevu A definujeme vztahem - Jiná terminologie: P(A) je poměr počtu případů příznivých jevů A ku celkovému počtu všech možných výsledku náhodného pokusu. - V příkladu 1 je - Při výpočtu P(A) v případě závislých i nezávislých pokusů využijeme kombinatoriku. Proto si ji zopakujeme. Kombinatorika: - Je nauka o skupinách (množinách) prvků. Nejjednodušší skupiny vzniknou, vyberemeli z množiny n prvků podmnožiny k prvků (k-tici); k ≤ n. Podle způsobu výběru rozli- šujeme: - Variace k-té třídy z n prvků; vznikají v případě, že při výběru záleží na pořadí vybraných prvků. Variace dělíme na: - variace bez opakování: žádný již vybraný prvek se v k-tici nesmí opakovat; počet variací k-té třídy bez opakování z n prvků Vk(n) je dán vzorcem );1()1( )!( ! )(    knnn kn n nVk  - variace s opakováním: vybrané prvky se v k-tici mohou opakovat. Platí Vk(n) = nk ; - permutace je variace n té třídy z n prvků, P(n) = n! = n.(n-1)…2.1 (tzv. faktoriál); - Kombinace k-té třídy z n prvků; vznikají v případě, že při výběru nezáleží na pořadí vybraných prvků. Variace dělíme na: . n m =P(A) . 3 1 = 6 2 =P(B), 2 1 =)AP(, 2 1 =P(A) 46 - kombinace bez opakování: žádný již vybraný prvek se v k-tici nesmí opakovat; počet kombinací k-té třídy bez opakování z n prvků (kombinační číslo) Ck(n) je dán vzorcem ; 1.2)1( )1()1( )!(! ! )(              kk knnn knk n k n nCk - kombinace s opakováním: vybrané prvky se v k-tici mohou opakovat; počet kombinací k-té třídy s opakováním vybírané z n prvků C’k(n) je dán vzorcem . 1 )('         k kn nC k - Vlastnosti kombinačních čísel: . 11 , 1 1 1 ,                                                 k n k kn k n k n k n k n kn n k n  Excel umožňuje v sestavě svých matematických funkcí počítat i faktoriály a kombinační čísla. Příklad 2. (klasická definice pravděpodobnosti) Ze 75 zaměstnanců provozovny, mezi nimiž je 50 mužů a 25 žen, bylo vybráno 10 zaměstnanců. Jaká je pravděpodobnost jevu A, že byli vybráni samí muži? - Řešení. - Vybíráme 10 zaměstnanců ze 75, ve skupině nezáleží na pořadí ani se nemohou zaměstnanci opakovat. Celkový počet možných výběrů - Podobně počet příznivých výběrů k jevu A je - Hledaná pravděpodobnost je - Ve statistice se často používá statistická definice pravděpodobnosti jako relativní četnost v sérii dostatečně velkého počtu n nezávislých náhodných pokusů. Obě uvedené definice pravděpodobnosti nejsou použitelné pro jevy, jež nelze aspoň za podobných podmínek opakovat. V těchto případech můžeme použít . 10 75 =(75)C=n 10       . 10 50 =(50)C=m 10       0,01239. 10 75 10 50 = n m =P(A)              47 definice tzv. subjektivní pravděpodobnosti jako stupně důvěry jednotlivce ve výskyt uvažovaného jevu. - V exaktní teorii pravděpodobnosti se používá definice axiomatická. Základní vlastnosti pravděpodobnosti: - Z uvedených definic dostaneme a) 0  P(A)  1, b) P() = 0, P(E) = 1, c) P(AB) = P(A) + P(B), jsou-li A, B disjunktní jevy. - Odtud lze odvodit další vlastnosti, např. d) P(A) = 1 - P(A) (pravděpodobnost opačného jevu) e) AB  P(A)  P(B) (monotónnost), f) AB  P(B-A)=P(B)-P(A) (subtraktivnost). Podmíněná pravděpodobnost: - Podmíněná pravděpodobnost jevu A za podmínky, že již dříve nastal jev B, se definuje vztahem P(A|B) = P(AB) / P(B) , pro P(B)  0. Příklad 3. V telefonní ústředně je ze 120 drátů 75 modrých a z nich je 54 zapojených. Vybereme náhodně modrý drát. Jaká je pravděpodobnost, že je zapojený? - Řešení: - Označíme jevy: A - drát je zapojený, B - drát je modrý. Počí- táme: - Přímý výpočet podle klasické definice (místo základního jevového prostoru S uvažujeme B): 0,72.= 75 54 = 120 75 120 54 = n m n k = P(B) B)P(A =B)|P(A  0,72.= 75 54 =M)|P(Z 48 Pravidla pro počítání s pravděpodobnostmi Násobení pravděpodobností (složená pravděpodobnost): - Z definice podmíněné pravděpodobnosti dostaneme P(AB) = P(A)P(B|A) = P(B)P(A|B) - Matematickou indukcí získáme zobecnění: P(A1A2...An)=P(A1)P(A2A1)P(A3| A1A2)...P(AnA1A2...An-1) - Nezávislost náhodných jevů: - Říkáme, že jevy A,B jsou nezávislé, když platí P(AB) = P(A).P(B). - Jsou-li jevy A, B nezávislé, je P(AB) = P(A), P(BA) = P(B). - O n jevech A1,...,An říkáme, že jsou nezávislé, když pro každou podmnožinu r jevů z množiny jevů A1,A2,...,An, 2rn (tj. pro každou dvojici, trojici,...,n-tici z jevů A1, A2,...,An) platí - Jsou-li jevy A1,...,An nezávislé, jsou i po dvou nezávislé. Opačné tvrzení neplatí. K nezávislým jevům jsou nezávislé i jejich doplňky. - Jsou-li jevy A1,...,An nezávislé, potom platí: P(A1A2...An)=P(A1)P(A2)...P(An) Sčítání pravděpodobností (úhrnná pravděpodobnost): - Platí P(AB) = P(A) + P(B), jsou-li A, B neslučitelné jevy a P(AB) = P(A) + P(B) - P(AB), jsou-li jevy A, B slučitelné. - Zobecnění pro 3 slučitelné jevy: P(ABC)=P(A)+P(B)+P(C)-P(AB)-P(AC)- P(BC)+P(ABC). - Pro nezávislé náhodné jevy platí P(A1  A2 ...  An) = 1 - P(A1)P(A2)...P(An) ).A)...P(A)P(AP(=)A...AAP( kkkkkk r21r21  49 Příklad 4. Jaká je pravděpodobnost, že náhodně vybrané přirozené číslo je dělitelné 2 (jev A) nebo 3 (jev B)? - Platí P(A) = 1/2, P(B) = 1/3, P(AB) = 1/6. - Jevy jsou slučitelné. Proto P(AB) = P(A) + P(B) - P(AB) = 1/2 + 1/3 - 1/6 = (3+2-1)/6 = 2/3. - Číslo je dělitelné 2 nebo 3 s 66,7% pravděpodobností. Úplná pravděpodobnost: - Je-li - P(Hi)>0, i=1,...,n a jevy Hi (náhodné hypotézy) tvoří úplný systém jevů ( viz obr.). Potom platí: - Důkaz jsou neslučitelné => Příklad 5. Viz Stuchlý (1999a), s. 53. - Složené pravděpodobnosti je možno počítat i pomocí tzv. pravděpodobnostních stromů (viz Wonnacot, T. H. a Wonnacot, R. J. 1993, s. 76-100 a Stuchlý 2004, s. 84-86). Náhodná veličina - Výsledkem většiny náhodných pokusů jsou reálná čísla (např. počet poruch, celkový počet padnutých bodů či minimum z počtu dosažených bodů při hodu 2 kostkami, pří,HA i n =1i  ).H|)P(AHP(=P(A) ii n =1i  ).H|)P(AHP(=)HP(A=P(A) ii n =1i i n =1i   AHA),H(=A ii n =1i  50 jem či vydání čtyřčlenné rodiny apod.). Tedy výsledek náhodného pokusu, daný reálným číslem, můžeme považovat za hodnotu veličiny, kterou nazveme náhodná veličina. Náhodné veličiny označujeme velkými písmeny a jejich hodnoty odpovídajícími malými písmeny z konce abecedy a dělíme je na diskrétní a spojité náhodné veličiny. - Náhodná veličina X je diskrétní, nabývá-li konečného nebo spočetného počtu hodnot. Náhodná veličina X je spojitá, může-li nabývat všech hodnot z konečného nebo nekonečného intervalu. Rozdělení pravděpodobnosti náhodné veličiny - Náhodná veličina je z pravděpodobnostního hlediska plně popsána, je-li známé její rozdělení pravděpodobnosti. - Rozdělení pravděpodobností je vztah mezi hodnotami náhodné veličiny (pro diskrétní náhodné veličiny), resp. intervaly hodnot (pro spojité náhodné veličiny) a jejich prav- děpodobnostmi. Rozdělení pravděpodobnosti diskrétní náhodné veličiny: - Pro popis rozdělení diskrétní náhodné veličiny používáme pravděpodobnostní funkci p(xi), která je určena zadáním pravděpodobností P(X = xi), i = 1,2,…,n, že náhodná veličina nabude této hodnoty. Tyto pravděpodobnosti obvykle zapisujeme do tabulky: xi x1 x2 … xn Σ P(xi) P(x1) P(x2) … P(xn) 1 - Grafickým zobrazením tabulky je polygon rozdělení pravděpodobnosti. - Příklad viz Hindls a kol. (2007), s. 61-62. - Základní formou popisu rozdělení pravděpodobnosti je distribuční funkce. Pro každé reálné číslo x udává pravděpodobnost, že nahodná veličina X nabývá hodnot ≤ než x. Distribuční fukci značíme F(x) a definujeme ji vztahem F(x) = P(X ≤ x). - Vlastnosti distribuční a pravděpodobnostní funkce: - F(x) je neklesající, zprava spojitou funkcí, nabývající hodnot od 0 do 1. 51 - Platí F(-) = 0, F() = 1. .)p(xF(a)-F(b)=b)Xxp) = p : (1-p) - Pro spojitou náhodnou veličinu platí - Příklady: viz Stuchlý (1999a), str. 57-59. Číselné charakteristiky rozdělení dvourozměrné náhodné veličiny - Sdruženého rozdělení - Kovariance - cov(X,Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X) E(Y). - Kovarianční matice - Koeficient korelace - Platí -1  (X, Y)  1. - Jsou-li X, Y nezávislé  cov(X, Y) =0 a (X, Y) = 0. - Platí D(X ± Y) = D(X) + D(Y) ± cov(X, Y). - Marginálních a podmíněných rozdělení zavádíme obvyklým způsobem. - Závislost podmíněné střední hodnoty na proměnné v podmínce nazýváme regresní funkcí p.=dxf(x)=)xF(=)x 2), d) E(X), e) σ(X). 9) V masokombinátu jsou zásoby čerstvého masa skladovány v chladírnách, maximálně však po dobu 5 dnů. Doba skladování (tedy doba od uložení do expedice) je určena poptávkou a z minulosti je známo, že se jedná o náhodnou veličinu (měřenou ve dnech, označme ji X) s následujícím rozdělením pravděpodobnosti        jinak.0 1,2,3,4,5,xpro 15 6 )( x xP Napište tabulku a) rozdělení pravděpodobností, b) distribuční funkce, c) vypočítejte P(X > 2). 10) Náhodná veličina X se řídí pravděpodobnostním rozdělením daným hustotou pravděpodobnosti f(x) = 3x2 pro 0 0,75), c) P(X = 0,9), d) x0,9, e) E(X), f) F(x) pro 0 < x < 1. Úkoly k zamyšlení a diskuzi 1) Diskutujte o tom, jakým způsobem budeme počítat pravděpodobnost v situacích, kdy nejsou splněny podmínky pro použití klasické definice pravděpodobnosti. 2) Zamyslete se nad tím, jaké poznatky z počtu pravděpodobnosti může využívat manažer ke zkvalitnění manažerského rozhodování. Klíč k řešení otázek: 1) Variace: V3(8)=8.7.6 = 0,336. 2) Kombinace: a) C4(15)=15.14.13.12/4.3.2.1 = 1365, b) C4(5)=C1(5) = 5, c) C2(15).C2(5)= 1050, d) C4(15)+C3(15).C1(5)= 3640, e) C4(20)-C4(15) = 3480. 3) Kombinace s opakováním: C'7(3)=C7(9)= 36. 57 4) Klasická definice pravděpodobnosti: a) C4(17)/C4(20) = 0,4912; b) C2(3)/C2(20) = 0,0158; c) [C1(3).C2(17)+C3(17)] / C3(20) = 0,9544. 5) Podmíněná pravděpodobnost: Označme A -vědec, B – genius. P(A|B) = P(A∩B)/P(B) = 0,01 / 0,03 = 0,333. 6) Násobení pravděpodobností: Označme A1 - 1. je modrý, A2 - 2. je modrý, B2 - 2. je červený. Potom a) P(A1∩B2) = P(A1).P(B2|A1) = 5/10.5/9 = 0,2778; b) P(A1∩A2) = P(A1).P(A2|A1) = 5/10.4/9 = 0,2222. 7) Úplná pravděpodobnost: Označme V - kontrola vyřadí výrobek, D - výrobek je dobrý, Z - výrobek je zmetek. Potom P(V)=P(V|D)P(D) + P(V|Z) P(Z) = 0,02.0,95 + 0,95.0,05 = 0,0665. 8) Pravděpodobnostní rozdělení diskrétní náhodné veličiny: Z tabulky rozdělení pravděpodobností dostáváme a) P(X ≤ 4) = 0,84 nebo P(X ≤ 4)= 1 - P(X > 4)=1-0,10-0,06 = 0,84; b) P(2 ≤X <6) = 0,63; c) P(X > 2) = 0,49; d) E(X) = Σxp(x) = 2,56; e) D(X) = Σx2 p(x) - [E(X)]2 = 3,0864; σ(X) = 1,7568. 9) a) Pravděpodobnostní funkce: x 1 2 3 4 5 Součet p(x) 0,333 0,267 0,2 0,133 0,067 1 b) Distribuční funkce: x (-∞.1) <1,2) <2,3) <3,4) <4,5) <5,∞) F(x) 0 0,333 0,6 0,8 0,933 1 c) P(X > 2) = 0,2+0,13+0,07 = 0,4. 10) Pravděpodobnostní rozdělení spojité náhodné veličiny: a) P(0 < X < 0,5 = ;125,0 3 3 3 5,0 0 35,0 0 2        x dxx c) P(X > 0,75) = d) P(X = 0,9) = 0; ;5781,075,01 3 3 3 3 1 75,0 1 75,0 3 2        x dxx 58 e) f) g) ;9655,09,039,0 3 9,0 0 3 9,0 2 9,0   xxdxx x ;75,0 4 3 3.)( 1 0 1 0 42       xdxxxXE . 3 3 3)( 3 00 3 2 x t dttxF xx         59 Kapitola 4: Základní pravděpodobnostní modely Klíčové pojmy: rozdělení diskrétní a spojitá, alternativní, binomické, hypergeometrické, normální, normované (standardizované) normální, chi-kvadrát, Studentovo t, Fisher-Snedeckerovo F, Poissonovo, binomické, záporně binomické, rovnoměrné, logaritmicko-normální, exponenciální, multinomické, vícerozměrné normální, centrální limitní věty Cíle kapitoly: - umět aplikovat binomické rozdělení; - umět aplikovat normální rozdělení; - porozumění základním centrálním limitním větám; - získat základní poznatky o rozděleních chi-kvadrát, t a F. Čas potřebný ke studiu kapitoly: 9 hodin Výklad: Nastínění obsahu kapitoly. Alternativní rozdělení Binomické rozdělení Normální rozdělení 60 Centrální limitní věty Další rozdělení diskrétní a spojité náhodné veličiny Struktura výkladu - U často vyskytujících se rozdělení: - funkce rozdělení jsou tabelovány a graficky znázorněny  v statistických tabulkách (některé i v učebnicích statistiky),  v sofwareových prostředcích (např. Excel, R); - to usnadňuje provádění výpočtů;  viz statistické funkce v Excelu,  viz nabídka Distributions v R Commanderu. Alternativní rozdělení A() - Popis dichotomní populace. - Rozdělení nula-jedničkové veličiny – kvantifikuje výsledek náhodného pokusu. X má rozdělení A(π) - stručně zapisujeme: X ~ A(π). - Nastane-li sledovaný jev A, je X = 1 a nenastane-li jev A, je X = 0 (hod mincí). - Rozdělení: X = 1 s pravděpodobností  a X = 0 s pravděpodobností 1 - , kde 0<< 1 je parametr rozdělení, tj. pravděpodobností funkce je .1,0,)1()( 1   xxp xx  61 - Platí E(X) = , D(X) = (1-).  Důkaz: E(X)=1 + 0 (1-) = , E(X2 )= , D(X)= E(X2 )-[E(X)]2 = - 2 = (1-). Binomické rozdělení Bi(n;) - n, jsou parametry rozdělení; - Je jedním z nevíce používaných rozdělení. - Odvozeno z procesu známého jako Bernoulliho pokus. - Švédský matematik James Bernoulii (1654-1705). - Příklady situací vedoucích k binomickému rozdělení:  Házíme n krát mincí. Výsledek hodu je „pana“ nebo „orel“ - Bi(1;0,5).  Výzkumná laboratoř vyvíjí nový lék proti vysokému tlaku – má obavy z určitých škodlivých vedlejších účinků. Ověření na vzorku 80 pacientů u 12 vedlejší účinky, u 68 ne - Bi(80; 12/80).  Firma vyrábí fotoaparáty vybavené elektronickým zařízením pro automatické nastavení správné rychlosti závěrky. Pro kontrolu spolehlivosti této elektroniky firma ověřuje její funkci na náhodně vybraných 20 fotoaparátech z výrobní linky. Z testovaných 20 přístrojů jeden nefunguje správně - Bi(20;1/20). - Jde o experimenty, u nichž jsou vždy možné dva výsledky U (úspěch) a N (neúspěch). S nimi jsou spojeny pravděpodobnosti  = P(U), 1- = P(N). - Příklady Bernoulliho pokusů:  házení mincí – „pana“ – „orel“:  = 1- =1/2.  vývoj nového léku - vedlejší účinky léku proti vysokému tlaku:  = 12/80, 1- = 68/80.  Zkouška fotoaparátu - vadná závěrka:  =1/20 (= 0,05), 1- =19/20 (= 0,95). - Nutné podmínky pro binomické rozdělení: 62  Experiment sestává z n Bernoulliho pokusů (pokusů, které mají jen dva možné výsledky).  Pravděpodobnost úspěchu  je stejná pro všechny pokusy.  Pokusy jsou vzájemně nezávislé (výběr s vracením = nahrazováním vy- braných). - Pravděpodobnostní funkce, tj. pravděpodobnost, že v sérii n nezávislých opakovaných pokusů se úspěch U (= jev A) objeví právě x-krát je kde x = 0,1,2,...,n, 0<<1 (Bernoulliho vzorec). - distribuční funkce vznikne nasčítáváním p(x), - výpočet a grafy většiny rozdělení: Excel a R Commander. - Výpočtem dostaneme číselné charakteristiky: E(X) = n , E(X2 ) = n2 2 +n (1- ), D(X)=E(X2)-[E(X)]2 =n (1- ), (X) = [n (1- )]. Příklad: – Viz Stuchlý (1999), s. 82-83. Pravděpodobnostní a distribuční funkci a jejich grafy počítáme v Excelu pomocí funkce BINOMDIST nebo v R Commanderu v Distributions-Discrete distribution-Binomial distribution (zde získáme i kvantilovou funkci). Hypergeometrické rozdělení H(N, M, n) - Používáme ho při výběru bez vracení – závislé výběry (např. sportka). Má-li v populaci o rozsahu N sledovaný znak M jednotek, potom pravděpodobnost, že ve výběru n jednotek bez nahrazování bude se nacházet právě k jednotek se sledovaným znakem (a zbývajících n-k jednotek bez sledovaného znaku), je ,)1()( x xnx p x n xp          n).min(M,M),...,N-nmax(0,kkde,                       n N kn MN k M pk 63 - Platí - Pro velká N, n a pro n podstatně menší než N (n/N < 0,05) lze hypergeometrické rozdělení H(N, M, n) aproximovat binomickým rozdělením Bi(n, M/N). - Platí pak E(X) = n, D(X) = n(1-)(N-n)/(N-1), kde  = M/N. Přiklad: – viz Stuchlý (1999), s. 84. Distribuční funkci počítá Excel pomocí statistické funkce HYPGEOMDIS (zadáváme pak parametry v pořadí k, n, M, N). R Commander počítá všechny funkce a jejich grafy v Distributions-Discrete distribution-Hipergeometric distribution (dále zadáváme parametry v pořadí k, M, N-M, n). Normální (Gaussovo) rozdělení N(;2 ) Je nejdůležitější a nejčastější používané rozdělení spojité náhodné veličiny. - Podle centrální limitní věty k němu za určitých podmínek konvergují jiná rozdělení. - Představuje pravděpodobnostní model chování velkého množství jevů v technice, přírodních vědách i ekonomii. - Používá se tam, kde kolísání náhodné veličiny je způsobeno součtem velkého počtu nepatrných vzájemně nezávislých vlivů. - Např. v teorii chyb. - Bylo zavedeno v roce 1733 Abrahamem de Moivre (1667-54). - Je spojeno i se jmény Laplace a Gauss. - Hustota pravděpodobnosti - grafem zvonovitá funkce (Gaussova křivka). - Maximum (medián) je v bodě x =  a inflexní body v x = . - Grafy (pro různé hodnoty parametrů):    -, 2 1 2 2 σ2 μ xexf x )( )(  . 1 1)(,)(          N nN N M N M nXD N M nXE 64 - Platí: E(X) = , D(X) = 2 - P( -  < X < +  ) = 0,6827 (pravidlo jednoho sigma); - P( -2 < X <+2 ) = 0,9545 (pravidlo dvou sigma: 95,5% populace leží v tomto intervalu); - P( -3 < X <  +3) = 0,9973 (pravidlo tří sigma). Normované (standardní) normální rozdělení N(0;1): - Je-li X  N(,2 )  Standardizovaná veličina je - Platí: E(U) = 0, D(U) = 1. - Hustota pravděpodobnosti je - Distribuční funkce (Laplaceova funkce) je - Je tabelována pro u  0 (viz tab. I. v dodatku). - Pro u < 0 je (u) = (-u), (u) = 1 - (-u). - Grafy hustoty a distribuční funkce standardního normálního rozdělení N(0;1): Density of N(-3;4), N(0;4), N(3;4) -13 -8 -3 2 7 12 17 x 0 0,04 0,08 0,12 0,16 0,2 Density of N(2.5;1), N(2.5;4), N(2.5;16) x -25 -20 -15 -10 -5 0 5 10 15 20 25 30 0 0,1 0,2 0,3 0,4 N(0;1). σ μ    X U . 2 1 )( 2 2 u eu     . 2 1 )( 2 2    u t dteu  65 - Platí P(a 9/ [(1-)]  min{n; n(1- )} > 5. b) Lindebergova-Lévyho věta: - Součet X = Xi , resp. průměrX, nezávislých stejně rozdělených náhodných veličin (s konečnými stejnými středními hodnotami E(Xi)= a konečnými stejnými rozptyly D(Xi)=2 ) má asymptoticky normální rozdělení N(n; n2), resp. N(; 2 /n). - Tj. pro n velké platí - Odtud je P(a < U < b)  (b) - (a). Příklady: – Viz Hindls a kol. (2007), s. 90-100 a Stuchlý (1999a), s. 89. Od normálního rozdělení se odvozují další tři typy rozdělení, která jsou často používána ve statistice. χ2-rozdělení (chi-kvadrát nebo Pearsonovo rozdělení) χ2(n) - Jsou-li X1,...,Xn nezávislé náhodné veličiny s rozdělením N(0;1) potom S = X1 2 + X2 2 +...+ Xn 2 má rozdělení 2 (n). - n nazýváme stupně volnosti. (u).u)P(Ulimtj),1;0( π)-π(1 nπ-X U n   N n (u)u)P(Ulimtj),1;0( σ μ-X nσ nμ-X U n2   Nn 67 - Jde o asymetrické rozdělení (hustota – viz obrázek), které se pro velké n (alespoň 30) blíží k rozdělení N(0;1). - Platí E(S) = n, D(S) = 2n. - V statistice jsou důležité kvantily chi-kvadrát rozdělení. Označujeme je  2 (n) a jsou tabelované v tab. III. dodatku pro n  100 (Excel i R Commanter je počítá). - Znázornění kvantilů uvádí další graf. - Pro n>30 počítáme kvantily pomoci asymptotického vzorce Studentovo t-rozdělení t(n) - Nechť X1, X2 jsou nezávislé náhodné veličiny s rozdělením N(0,1) a 2 (n). Potom náhodná veličina - n představuje opět stupně volnosti. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0 2 4 6 8 10 12 n=1 n=2 n=3 n=4  22 12 2 1 )(  unn  .t(n) X X T 2 1  n 68 - Platí E(T) = 0 (pro n > 1), D(T) = n/(n-2) (pro n > 2). - Hustota rozdělení t(n) je - symetrická, - graf podobný rozdělení N(0;1) jen je plošší. - Pro velká n se graf blíži grafu rozdělení N(0;1). - Důležité jsou kvantily t-rozdělení t(n) a t1-(n) = -t(n) jsou tabelované v tab. IV. dodatku (je možno je určit v Excelu i R). - Pro n velké (n>30) je můžeme přibližně nahradit u. Fisherovo-Snededecorovo F-rozdělení F(n,m) - Jsou-li X1, X2, nezávislé náhodné veličiny, přičemž X1  2 (n) a X2  2 (m), potom náhodná veličina - Zde n jsou stupně volnosti čitatele a m stupně volnosti jmenovatele. - Na obrázku je uveden graf hustoty pravděpo- dobnosti. - Kvantily F-rozdělení F(n,m) jsou pro obvyklé   0,5 tabelované v tab. V. dodatku (najdeme je v Excelu i v R). Jsou definované obdobně jako u rozdělení 2 (n). - Pro  < 0,5 je Z diskrétních rozdělení se ještě často používají Poissonovo rozdělení P(λ) – popisuje počet jevů v prostorové jednotce nebo počet událostí v časové jednotce, geometrické rozdělení Ge(π) a záporné binomické rozdělení ZBi(n,π) popisující počet neúspěchu do 1. úspěchu, resp. do n-tého úspěchu. Viz Cyhelský (2001), s. 157-159. Ze spojitých rozdělení se ještě často používají rozdělení rovnoměrné rozdělení R(a,b) v simulačních metodách, logaritmicko-normální rozdělení LN(μ;σ2 ) v teorii spolehlivosti a účetnictví, m).F(n, X X F 2 1  m n ),( 1 ),( 1 nmF mnF     0 1 2 3 4 x 0 0.2 0.4 0.6 0.8 1 f(x) Rozdělení F(15;25) — hustota 69 exponenciální rozdělení E(A,δ) v teorii spolehlivosti a v hromadné obsluhy a další rozdělení. Viz Hindls a kol. (2007), s. 89-92 a Stuchlý (1999a), s. 80-81. Z diskretních vícerozměrných se používá multinomické rozdělení, jako zobecnění rozdělení Bi(n,π) (viz Cyhelský 2001, s. 161-163) a ze spojitých vícerozměrné normální rozdělení (viz Stuchlý 1999, s. 81-82, 85 a Cyhelský .2001, s. 172-175). Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 76-103. ISBN 978-80-86946-43-6. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 82-118. ISBN 978-80-86446-40-5. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S. 74-90. ISBN 80-7079-754-1. Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 87-115. ISBN 80-245-0178-3. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 149-185, 190-193. ISBN 80-7261-003-1. HEBÁK, P. a J. KAHOUNOVÁ. Počet pravděpodobnosti v příkladech. Praha: Informatorium, 1994. ISBN 80-85427-48-6. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 77-100. ISBN 80-7187-058-7. 70 WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada Publishing, 1996. S. 145- 172. ISBN 80-7169-089-9. WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 133-140. ISBN 80-85605-09-0. Otázky a úkoly 1) U přijímacích zkoušek na vysokou školu z angličtiny musí student v písemném testu zaškrtnout odpověď u 20 otázek. U každé otázky jsou 4 možnosti a pouze jedna je správná. Aby v testu uspěl, musí student zaškrtnout nejméně polovinu odpovědí správně. Přestože se student poctivě připravoval, test je náročný a on si je jist správnou odpovědí pouze u 8 otázek. U dalších 12 zaškrtává zcela náhodně. Jaká je pravděpodobnost, že a) v testu uspěje, b) zodpoví správně všechny otázky, c) zodpoví správně právě 15 otázek, d) zodpoví správně alespoň 15 otázek, e) v testu neuspěje? 2) Pouze 5 pracovníků určitého ministerstva používá na Internetu komunikační program ICQ. Z 50 pracovníků ministerstva, kteří využívají ke své práci Internet, náhodně vybereme 10 pracovníků. Jaká je pravděpodobnost, že z těchto 10 pracovníků program ICQ používají a) právě 2 pracovníci, b) 0 pracovníků, c) více než 3 pracovníci? 3) Náhodná veličina U má normované normální rozdělení. Určete pravděpodobnosti a kvantily: a) P(U < 0), b) P(U > 2), c) P(U=0), d) P(-1 pnorm(c(3400), mean=3422.4, sd=20.7846, lower.tail=FALSE) [1] 0.8594209 6) Chi-kvadrát rozdělení: X ~ χ2 (10), Y ~ χ2 (8), P(X<3)=FX(3)=0,018576 < P(Y<2)= FY(8)=0,018988 (distribuční funkci určíme v Excelu). 73 Kapitola 5: Výběrová šetření, rozdělení výběrových charakteristik a základy statistické indukce Klíčové pojmy: výběrová šetření, statistická indukce, reprezentativní výběr, prostý náhodný výběr, systematický a kvótní výběr, záměrné výběry, výběrové charakteristiky, výběrová rozdělení charakteristik, standardní chyba průměru, výběrový průměr, poměr a podíl, bodové odhady, nestrannost, výdatnost, konzistence a eficience odhadu, intervalové odhady, koeficient spolehlivosti, intervaly spolehlivosti pro normální výběr, určování rozsahu výběrového souboru, asymptotické intervaly spolehlivosti Cíle kapitoly: - popis metod výběrových šetření; - porozumění principu získávání reprezentativního odhadu; - znalost základních výběrových charakteristik a jejich vlastností; - stanovit a interpretovat bodový a intervalový odhad. Čas potřebný ke studiu kapitoly: 11 hodin 74 Výklad: Nastínění obsahu kapitoly. Základní pojmy z výběrových šetření Základní výběrové charakteristiky a jejich výběrová rozdělení Odhady parametrů Bodový odhad a jeho vlastnosti Intervalové odhady Intervaly spolehlivosti pro normální výběr Asymptotické intervaly spolehlivosti Určování optimálního rozsahu výběru Struktura výkladu Nelze jíst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson Základní pojmy z výběrových šetření Některé pojmy jsou již vysvětleny v úvodní části textu. Statistickým šetřením rozumíme získávání informací (poznatků, dat) o statistických jednotkách. Tyto informace poskytují manažerům podniků a organizací podporu při jejich rozhodování. Takovéto informace mají jednu věc společnou. Jsou získávány obvykle pouze od vybraného souboru, a nikoli od celé populace. Vycházejí pouze z poznání části určitého celku. Statistická indukce se zabývá zobecňováním úsudků o vlastnostech základního souboru založených na informacích získaných z výběrového souboru. 75 Získávání údajů o všech jednotkách základního souboru je často velmi pracné, zdlouhavé, nákladné a ve většině případů to není ani možné (destrukční zkoušky). Proto postupujeme tak, že provedeme výběr určitého počtu jednotek ze základního souboru, u nich zjistíme potřebné údaje a poznatky o rozdělení nebo o parametrech výběrového souboru a přenášíme je indukcí na celý základní soubor (např. zjišťování názoru zákazníků na nový výrobek, předvolební průzkumy preferencí jednotlivých kandidátů, statistická kontrola kvality výroby). Výběrový soubor musí byt určen tak, aby reprezentoval celou populaci, tj. musí být reprezentativní (věrná zmenšenina základního souboru). Nejčastěji ho získáme náhodným výběrem (např. losováním, pomocí tabulek náhodních čísel nebo simulací těchto náhodných čísel na počítači). Techniky šetření: - Vyčerpávající šetření (census) – nákladné, ne vždy možné (např. sčítání bytů a obyvatel prováděná Českým statistickým úřadem). - Výběrové šetření – ekonomičtější, výsledky zatíženy výběrovou chybou (lze ji odhad- nout). - Nereprezentativní výběry – např. anketa, metoda základního masivu, záměrný výběr (viz Hindls a kol. 2007, s. 109-110). Obsahují navíc nevýběrové chyby, které nelze odhadnout. - Reprezentativní výběry – založeny na náhodném výběru a použití metod počtu pravděpodobnosti. Prostý náhodný výběr – nejjednodušší a nejčastěji používaná metoda. - Každá jednotka základního souboru, ale i každá n-tice měření musí mít stejnou pravděpodobnost, že bude vybrána. Jednotlivé výsledky výběru musí být nezávislé. - Získáme ho výběrem s vracením. Při velkém rozsahu základního souboru (je alespoň 20 krát větší než výběrový soubor) je rozdíl mezi výběrem s vracením (nezávislé výběry řídí se binomickým rozdělením) a výběrem bez vracení (závislé výběry – řídí se hypergeometrickým rozdělením) zanedbatelný. Z praktických důvodů používáme obvykle výběr bez vracení (analýzy ale provádíme podle technik odvozených pro výběr s vrace- ním). - Technika pořízení prostého náhodného výběru: 76 - Vytvoříme nejdříve tzv. oporu výběru, tj úplný seznam jednotek základního souboru a provedeme jejich očíslování. - Náhodný výběr zabezpečí reprezentativnost výběru a tím i dobrou kvalitu získaných výsledků statistické indukce. - Je možno používat i složitější upořádání výběru (oblastní, skupinový, vícestupňový – viz Hindls a kol. 2007, s. 113-115). - Při obtížném pořízení opory můžeme použit systematický výběr.  Spočívá ve výběru každé j-té jednotky, počínaje od prvé, která byla vybrána náhodně;  např. každé páté, má-li se vybrat 20% populace;  podmínka pro použití této techniky: jednotky z populace tvoří náhodnou posloupnost nezávislou na sledovaném znaku;  pozor na periodicity – např. při výběru novin. - V marketinkových a sociologických výběrech se používá i kvótní výběr (např. respondenty vybíráme podle kvót stanovených na pohlaví, věk, vzdělání). Metody statistické indukce se využívají např. v marketingovém výzkumu trhu. - Testování nových výrobků u určité skupiny zákazníků před jejich zavedením na trh. - Prodejní organizace mají zájem na tom, aby věděli, jak zákazníci vnímají a oceňují jejich výrobky. - Organizace poskytující veřejné služby se stále více zajímají i o to, jak jejich aktivity hodnotí občané. Metody statistické indukce zahrnují: - bodové a intervalové odhady - statistické testy (parametrické, neparametrické). 77 Základní výběrové charakteristiky a jejich výběrová rozdělení Výsledkem náhodného výběru o rozsahu n jsou hodnoty x1,x2,...,xn nějakého statistického znaku, které můžeme považovat za realizace n nezávislých stejně rozdělených náhodných veličin X1,X2,...,Xn. Toto rozdělení budeme nazývat rozdělením základního souboru. Z uvedených hodnot náhodného výběru počítáme různé výběrové charakteristiky neboli statistiky, které jako funkce náhodného výběru jsou též náhodnými veličinami s určitým rozdělením pravděpodobností závislým na rozdělení základního souboru. Jako náhodné veličiny je budeme značit velkým písmenem (např. X , Sx 2 ) a jejich realizace odpovídajícím malým písmenem x , sx 2 ). Dále si uvedeme přehled nejpoužívanějších výběrových charakteristik a jejich vlastností. A) Výběrový průměr (Sample Mean) Označme X n Xi i n    1 1 výběrový průměr z náhodného výběru n pozorování vybraných ze základního souboru se střední hodnotou  a rozptylem 2 . Potom platí: a) Výběrové rozdělení statistiky X má střední hodnotu E( X ) = . b) Výběrové rozdělení statistiky X má rozptyl D( X ) = 2 n a standardní odchylku ( X ) =  n . Odhad standardní odchylky (σ nahradíme s) nazýváme standardní chybou průměru. c) Není-li rozsah výběrového souboru n podstatně menší než rozsah základního souboru N, potom pro standardní odchylku platí 78   ( )X n N n N   1 . d) Je-li rozdělení základního souboru normální, potom standardní náhodná veličina U X X X n      ( ) má standardní normální rozdělení. e) Není-li rozdělení základního souboru normální ale rozsah výběrového souboru n je velký, potom podle centrální limitní věty má veličina U přibližně standardní normální rozdě- lení. B) Výběrový poměr (podíl) Označme X počet úspěchů v alternativním výběrovém souboru n pozorování, kde pravděpodobnost úspěchu je . Potom statistiku představující poměr úspěchů P X n  ve výběrovém souboru nazýváme výběrovým poměrem a statistiku X nazýváme výběrovým úhrnem. Potom platí: a) Výběrové rozdělení výběrového poměru P má střední hodnotu E(P) = . b) Výběrové rozdělení statistiky P má rozptyl D X n ( ) ( )   1 a standardní odchylku 79    ( ) ( ) P n  1 . Veličinu (P) nazýváme standardní odchylkou výběrového poměru P. c) Není-li rozsah výběrového souboru n podstatně menší než rozsah základního souboru N, je    ( ) ( ) P n N n N     1 1 . d) Je-li rozsah výběrového souboru n velký, má náhodná veličina U P P P n         ( ) ( )1 přibližně standardní normální rozdělení. Pro výběrový úhrn X platí E(X) = n, D(X) = n(1-). C. Výběrový rozptyl (Sample Variance) Označme S n X Xx i i n 2 2 1 1 1     ( ) výběrový rozptyl z náhodného výběru n pozorování vybraných ze základního souboru se střední hodnotou  a rozptylem 2 . Potom platí: a) Výběrový rozptyl Sx 2 má střední hodnotu E( Sx 2 ) = 2 . b) Rozptyl výběrového rozptylu závisí na rozdělení základního souboru. Je-li toto rozdělení normální N(;2 ), potom 80 D S n x( )2 4 2 1    . c) Je-li rozdělení základního souboru N(;2 ), potom náhodná veličina Y = ( )n Sx1 2 2  má rozdělení 2 1( )n  a náhodná veličina T = X S n x   má Studentovo t-rozdělení t(n-1). d) Pro dva nezávislé náhodné výběry X1,...,Xn, Y1,...,Ym,vybrané ze základních souborů o rozsazích n a m s rozděleními N(1;1 2 ), N(2;2 2 ), mají náhodné veličiny F S S x y  2 1 2 2 2 2   a X Y Fisherovo F-rozdělení F(n-1,m-1) a normální rozdělení N(1 - 2; 1 2 /n + 2 2 /m). Předpoklady o normalitě rozdělení základního souboru jsou v tvrzeních b)-d) podstatné. Ani při velkém rozsahu výběrového souboru je nelze vynechat. Příklady: Viz Stuchlý (1999a), s. 93-94. Odhady parametrů Pro rozhodování manažera je důležité získávat informace a využít je na odhady parametrů. Např.: Vládu zajímá odhad množství zboží ze zahraničního obchodu, nebo odhad preferencí (úhrn a poměr); obchodníky zajímá odhad úrovně trhu s akciemi; spotřebitele zajímají průměrné ceny určitého zboží apod. Jednou ze základních úloh statistické indukce je odhad neznámých parametrů základního souboru pomocí náhodného výběru. Existují dva způsoby odhadu: Bodový odhad - neznámý populační parametr (populační charakteristiku) odhadujeme jedním číslem vypočítaným z hodnot výběrového souboru. 81 Intervalový odhad - najdeme interval, v kterém daný parametr s velkou pravděpodobností leží. Bodový odhad a jeho vlastnosti Bodovým odhadem odhadujeme neznámý parametr základního souboru pomocí jedné hodnoty neboli bodu. Je potřebné rozlišovat mezi dvěma významy pojmu bodový odhad: odhadem jako funkcí náhodného výběru, tj. náhodnou odhadovou funkcí (Estimator) a jeho realizací, která udává číselnou hodnotu této náhodné veličiny (Estimate). Předpokládejme, že je daný náhodný výběr X1,...,Xn ze základního souboru popsaného určitým rozdělením pravděpodobností. Neznámý parametr základního souboru  odhadujeme vhodnou funkcí náhodného výběru T(X1,...,Xn). Zapisujeme ˆ = T(X1,...,Xn), a výběrovou charakteristiku ˆ nazýváme bodovým odhadem parametru . Např. odhad populačního průměru a populační směrodatné odchylky je Aby byl použitý odhad dobrý, musí mít určité vlastnosti. Mezi důležité vlastnosti kvalitních statistických odhadů zařazujeme nestrannost, vydatnost, konzistentnost a postačitelnost. a) Nestranný odhad: Nestrannými neboli nezkreslenými odhady (Unbiased Estimator) parametru  jsou ty, jejichž střední hodnota se rovná tomuto parametru, tj. E(ˆ) = . Tato vlastnost zaručuje, že nedochází k systematickému podhodnocování nebo nadhodnocování skutečné hodnoty parametru. Protože např. platí E X E S E Px( ) , ( ) , ( ) ,    2 2 ,ˆ 1 n XX X n    . 1 )()( ˆ 22 1    n XXXX S n  82 jsou výběrový průměr, výběrový rozptyl a výběrový poměr nestrannými odhady svých populačních protějšků. Odhad, který nesplňuje podmínku nestrannosti, nazýváme vychýlený (Biased). Funkci b(ˆ,) = E(ˆ) -  nazýváme vychýlením či zkreslením (Bias) odhadu ˆ. Odhady splňující podmínku ,)ˆ(lim    E n nazýváme asymptoticky nestranné. Např. pro rozptyl   n i i XX n S 1 22 )( 1 platí 222 1 lim)(lim      n n SE nn a proto je S2 asymptoticky nestranným odhadem 2 . b) Vydatný odhad: Druhou požadovanou vlastností odhadu je, aby se rozdělení výběrové statistiky ˆ s největší pravděpodobností koncentrovalo blízko odhadovaného parametru . To je zaručeno, když požadujeme, aby rozptyl odhadu D(ˆ) byl minimální. Odhad, který splňuje oba dva uvedené požadavky, nazýváme vydatný neboli optimální. Takové odhady nemusí vždy existovat nebo je lze v některých případech získat jen obtížně. Lze ukázat, že statistiky X P, jsou v případě normality základního souboru vydatnými odhady svých populačních protějšků. c) Konzistentní odhad: Nestrannost odhadu zabezpečuje jen, aby jeho střední hodnota se rovnala odhadovanému parametru, nedává však odpověď na otázku, jak se odhad přibližuje k hodnotě tohoto parametru. Odhad, který se v pravděpodobnosti s rostoucím rozsahem výběru n blíží k hodnotě odhadovaného parametru, nazýváme konzistentní. Matematicky lze konzistenci odhadu ˆ zapsat vztahem 1)|ˆ(|lim   P n , 83 tj. pro velké n konverguje odhad ˆ v pravděpodobnosti k parametru . Postačující podmínkou pro konzistenci nestranného odhadu je 0)ˆ(lim   D n . d) Postačující odhad: Odhad je postačující (Sufficient), když v sobě zahrnuje veškerou informaci o odhadovaném parametru, kterou poskytuje náhodný výběr. Znamená to, že žádný jiný odhad nemůže o odhadovaném parametru dodat více informace. Výběrové statistiky: výběrový průměr, výběrový úhrn, výběrový podíl a výběrový rozptyl splňují uvedené vlastnosti a proto je můžeme považovat za nejlepší odhady odpovídajících parametrů základního souboru. Intervalové odhady Intervalový odhad spočívá v nalezení intervalu spolehlivosti neboli konfidenčního intervalu (Td,Th), který pokrývá neznámý parametr  s pravděpodobností 1-. Tato pravděpodobnost 1 se nazývá spolehlivostí neboli koeficientem či úrovní spolehlivosti (Level of Confidence) intervalového odhadu. Pokud výběr mnohokrát opakujeme, potom právě ve 100(1-)% případů bude parametr  obsažen ve vypočteném intervalu spolehlivosti. Uvedený interval nazýváme 100(1-)%-ním intervalem spolehlivosti pro parametr . Zapisujeme P(Td <  < Th) = 1-. Číslo  volíme obvykle malé (nejčastěji  = 0,05 nebo 0,01). Pokud jsou obě meze intervalu spolehlivosti konečné, nazýváme tento interval dvojstranný. Je-li jedna z těchto mezí nevlastní (nekonečno), hovoříme pak o jednostranném intervalu spolehlivosti. Speciálně interval spolehlivosti určený vztahem P(Td < ) = 1-, nazýváme levostranný interva spolehlivosti a interval určený vztahem P( < Th) = 1-, nazýváme pravostranný interval spolehlivosti. Meze intervalu spolehlivosti závisí na odhadovaném parametru, použitém náhodném výběru a zejména na jeho výběrovém rozdělení. V dalším si naznačíme postup, jak odvodit vzorce pro dolní mez Td a 84 horní mez Th intervalů spolehlivosti pro nejčastěji používané parametry v případě malých výběrů pocházejících z normálně rozdělených základních souborů a v případě velkých výběrů. Intervaly spolehlivosti pro normální výběr Předpokládejme nejdříve, že náhodný výběr X1,...,Xn pochází z normálního rozdělení N(,2 ), kde  je odhadovaný parametr střední hodnoty a rozptyl 2 je známý. Potom statistika U X n    má rozdělení N(0;1). Proto platí P u X n u             1 2 1 2 1     , kde u u u 1 2 1 2 2      , jsou kvantily rozdělení N(0;1). Ekvivalentními úpravami této nerovnosti dostaneme                1 2 1 2 1 n uX n uXP , což představuje vzorec pro 100(1-)%-ní interval spolehlivosti pro populační průměr  (u-interval). Tedy meze tohoto intervalu jsou T X u X T X u Xd h     1 2 1 2   ( ), ( ) , kde ( )X je standardní chyba výběrového průměru. Interval můžeme psát ve tvaru ( X -d, X +d), kde d u X 1 2  ( ) nebo ve tvaru  = X  d. Ve většině reálných situací je parametr rozptylu 2 neznámý. Potom ho musíme nahradit odhadem Sx 2 a místo statistiky U pak dostaneme statistiku T X S n x    , 85 která má za uvedených předpokladů rozdělení t(n-1). Stejným způsobem jako dříve dostáváme 100(1-)%-ní interval spolehlivosti pro populační průměr  (t-interval) ve tvaru P X t n S n X t n S n x x                1 2 1 2 1 1 1  ( ) ( ) , kde t n t n t n 1 2 1 2 2 1 1 1         ( ), ( ) ( ) jsou kvantily rozdělení t(n-1). Podobně dostaneme 100(1- )%-ní pravostranný interval pro populační poměr  ve tvaru P X t n S n x            1 1 1( ) a 100(1-)%-ní levostranný interval pro parametr  P X t n S n x           1 1 1  ( ) . K odvození intervalu spolehlivosti pro parametr populačního rozptylu 2 použijeme sta- tistiku ( )n Sx1 2 2  , která má za předpokladu normality rozdělení 2 (n-1). Proto platí P n n S nx      2 2 2 2 1 2 2 1 1 1 1( ) ( ) ( )              , kde    2 2 1 2 2 1 1( ), ( )n n   jsou kvantily rozdělení 2 (n-1). Úpravou nerovností pomocí ekvivalentních úprav odtud dostaneme 100(1-)%-ní interval spolehlivosti pro populační rozptyl 2 ve tvaru 86 P n S n n S n x x( ) ( ) ( ) ( )                    1 1 1 1 1 2 1 2 2 2 2 2 2       . Odmocněním uvedených nerovností dostaneme odtud interval spolehlivosti pro standardní odchylku . Intervaly spolehlivosti pro parametr střední hodnoty jsou symetrické se středem v bodě X a jejich délka 2d s rozsahem souboru n klesá a se zvyšováním hladiny významnosti roste. Hodnotu d lze interpretovat jako statistickou chybu průměru. Počítá ji Excel a nazývá jí „konfidence“ (ve statistických funkcích pro u-interval a v Analýze dat pro t-interval). Interval spolehlivosti pro rozptyl 2 symetrický není. Určování rozsahu souboru. Jestliže polovina délky intervalu spolehlivosti pro parametr  nesmí překročit hodnotu , musí být v případě známého rozptylu splněna podmínka u n1 2     . Řešením této nerovnosti dostaneme k tomu požadovaný rozsah souboru n u 1 2 2 2 2   . Veličinu  nazýváme přípustná chyba. V případě neznámého rozptylu nahradíme 2 odhadem Sx 2 . Asymptotické intervaly spolehlivosti Mějme náhodný výběr X1,...,Xn z libovolného rozdělení s neznámými parametry střední hodnoty  a rozptylu 2 . Nechť rozsah souboru n je velký (n > 30). Potom k odvození intervalu spolehlivosti pro parametr  můžeme použít statistiky U X S n x    , 87 která má podle centrální limitní věty rozdělení N(0;1). Odtud dostaneme asymptotický 100(1)%-ní interval spolehlivosti pro populační průměr  (u-interval) ve tvaru P X u S n X u S n x x              1 2 1 2 1   . Potřebný rozsah souboru n (pro danou přípustnou chybu ) určíme podle vzorce n u Sx  1 2 2 2 2  . Podobně můžeme s pomocí výběrového poměru P odvodit 100(1-)%-ní interval spolehlivosti pro populační poměr  ve tvaru P P u P P n P u P P n               1 2 1 2 1 1 1   ( ) ( ) Požadovanýý rozsah souboru n určíme podle vzorce n u P P   1 2 2 2 1  ( )  . Zde P je výběrový poměr, který získáme předvýběrem (popř. hodnotou 0,5). V případě, že rozsah základního souboru N není podstatně větší než rozsah výběrového souboru n, musíme vzorce pro parametry  a  opravit tak, že standardní chybu výběrového průměru ( X ) nebo výběrového poměru (P) násobíme opravným faktorem N n N  1 . V systému R se intervaly spolehlivosti pro průměr a rozptyl dostaneme interaktivně současně s prováděním parametrických testu (viz následující kapitola). Přesné (pro normální výběr) i asymptotické intervaly dostaneme po aktivování balíku vsePackage (Komárek 2012) příkazy estim.mean(x, type=“two.sided“ [„less“, „greater“], conf.level= ), estim.var(x, type=“ „, 88 conf.level= ). Pro poměr počítáme interval spolehlivosti ručně podle uvedených vzorců. A obdobně počítáme i optimální rozsah výběru. Ověřování normality dat probereme v následující kapitole. Příklady: – Viz Hindls a kol. (2007), s. 131-132 a Stuchlý (1999), s. 101-105. Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 107-133. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S. 91-98, 100-105, 107-109. ISBN 80-7079-754-1. Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 117-139. ISBN 80-245-0178-3. BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 197-214, 227-235, 237-238. ISBN 80-7261-003-1. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada Publishing, 1999. S. 57-68. ISBN 80-7169-255-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 121-131, 166-167. ISBN 978-80-86446-40-5. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 103-127. ISBN 80-7187-058-7. 89 STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011 (v elektronické podobě – viz https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada Publishing, 1996. S. 195- 208. ISBN 80-7169-089-9. WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 199-283. ISBN 80-85605-09-0. Otázky a úkoly 1) Hypermarket Hyper chce pro zkvalitnění služeb poskytovaných zákazníkům zkrátit dobu jejich čekání u pokladen. Náhodně bylo proto vybráno 10 zákazníků a byla změřena doba jejich čekání u pokladny (předpokládáme normalitu rozdělení doby čekání). Výsledky šetření (v sekundách): 50, 65, 30, 45, 45, 35, 55, 70, 65, 50. a) Určete bodový odhad průměrné doby čekání a ohodnoťte ji standardní chybou průměru. b) V jakých mezích lze s pravděpodobností 0,95 očekávat průměrnou dobu čekání zákazníka na obsluhu? c) Jaká je horní hranice doby čekání, která nebude s pravděpodobností 0,95 překročena? d) Odhadněte bodově a v jakých mezích lze s pravděpodobností 0.95 očekávat rozptyl (resp. směrodatnou odchylku) doby čekání na obsluhu? 2) Z provozních důvodu sledujeme dobu životnosti žárovek od určitého dodavatele. Chceme zjistit, kolik žárovek musíme vybrat, abychom odhad střední hodnoty životnosti provedli s 95% spolehlivostí, jestliže jsme ochotni připustit maximální možnou chybu ve výši ±35 hodin. 3) Při výrobě určitých komponentů jsme dosud používali některé komponenty dovážené ze země Z. Ale obchod s touto zemí se velmi zkomplikoval a my jsme byli nuceni změnit dodavatele. Zajímá nás, zda změnou dodavatele nedošlo i ke změně kvality našich výrobků. Zatímco dříve bylo mezi našimi výrobky v průměru 5% zmetků, zjistila výstupní kontrola mezi 250 nově vyrobenými výrobky 16 nevyhovujících. Na základě 95% intervalu spolehlivosti rozhodněte, zda došlo ke změně kvality výrobků. 90 4) Jaký minimální rozsah výběru pro odhad podílu chybně zaúčtovaných položek musíme navrhnout, chceme-li při 90% spolehlivosti zajistit přípustnou chybu 3%. O možném podílu chybných položek nemáme při prováděném auditu žádnou informaci. Úkoly k zamyšlení a diskuzi 1) Když zvětšíme rozsah výběru čtyřikrát, co se stane se standardní chybou průměru? 2) Jaké budou hodnoty kvantilu u u-intervalu pro hladinu významnosti 90% a 99%? 3) Komentujte intervaly spolehlivosti z hlediska vlivu změny hladiny spolehlivosti. 4) Na čem všem záleží velikost optimálního rozsahu výběrového souboru? Klíč k řešení otázek: 1) Vložíme v R data do souboru cekani proměnné doba (pomocí editoru, tj. z nabídky vybereme Data – New data set…, do vstupního okna vyplníme: cekani, OK, v Data Editor ťukneme na var1, ve Variable editor přepíšeme var1 na doba a zaškrtneme type: numeric a uložíme křižkem v pravém horním rohu, potom zapíšeme do 1.sloupce tabulky data a vše opět uložíme křížkem v pravém horním rohu). Po aktivování balíku vsePackage lze bodový a oboustranný intervalový odhad (u-interval a t-interval) pro populační průměr E(X) = μ dostat příkazem estim.mean(cekani$doba), napíšeme ho do Script Windows a odešleme ho pomocí Submit. Pokud nezadáme typ intervalu a hladinu významnosti, počítá R obvyklý oboustranný interval na hladině významnosti 95%. Výstup z počítače je: > estim.mean(cekani$doba, type="two.sided", conf.level=0.95) Data: cekani$doba Estimate of E(X) = 51 Estimate of sd(X) = 13.08094 Sample size = 10 95% confidence interval for E(X) based on the asymptotical approximation: (42.89250, 59.1075) 91 95% confidence interval for E(X) based on the assumption of normality: (41.64246, 60.35754) Interpretace: a) Bodový odhad průměrné doby čekání je 51 sekund, standardní chyba průměru je 13,08/√10 = 4,14 sekund, b) intervalový odhad: S 95% spolehlivostí se průměrná doba obsluhy pohybuje v intervalu od 41,64 do 60,36 sekund. c) Určujeme pravostranné intervaly spolehlivosti. Napíšeme do vstupního okna příkaz estim.mean(cekani$doba, type="less") a dosta- neme: > estim.mean(cekani$doba, type="less",conf.level=0.95) Data: cekani$doba Estimate of E(X) = 51 Estimate of sd(X) = 13.08094 Sample size = 10 95% confidence interval for E(X) based on the asymptotical approximation: (-Inf, 57.80403) 95% confidence interval for E(X) based on the assumption of normality: (-Inf, 58.58278) Interpretace: Horní hranice doby čekání, která nebude s 95% pravděpodobností překročena je 58,58 sekundy. d) Počítáme bodový odhad a oboustranný interval spolehlivosti pro rozptyl (resp. směrodatnou odchylku) doby čekání. Dostaneme ho příkazem: estim.var(cekani$doba). Výstup: Data: cekani$doba Estimate of var(X) = 171.1111 Estimate of std. dev.(X) = 13.08094 Sample size = 10 95% confidence interval for var(X) based on the assumption of normality: (80.95562, 570.2881) 95% confidence interval for std. dev.(X) based on the assumption of norma- lity: (8.997534, 23.88071) Interpretace: Bodový odhad rozptylu doby čekání je 171,11 s2 , směrodatné odchylky 13,08 sekund. S 95% spolehlivostí se bude rozptyl pohybovat v mezích od 80,95 do 570,29 s2 a směrodatná odchylka od 9,00 do 23,88 s. 2) Požadovaný rozsah souboru: n = 35 (výpočet viz Marek a kol. 2007, s. 128). 92 3) 0,034 < π < 0,094; interval spolehlivosti pro poměr obsahuje hodnotu 0,05; dá se tedy předpokládat, že změna dodavatele neměla za následek změnu kvality našich výrobku (výpočet viz Marek a kol. 2007, s. 130). 4) Při řešení využijeme vztah .7,751 03,0 )5,01(5,0 645,1 )1( 2 2 2 2 2/1        pp un  I za nejméně příznivých okolností nám rozsah souboru 752 účetních položek zajistí požadovanou spolehlivost a přesnost odhadu. 93 Kapitola 6: Testování statistických hypotéz Klíčové pojmy: statistický test, nulová a alternativní hypotéza, jednostranné a dvoustranné testy, testové kritérium, testovací statistika, hladina významnosti, chyba 1. a 2. druhu, síla testu, kritický obor, kritická hodnota, obor přijetí, věcná interpretace testu, parametrické a neparametrické testy, jednovýběrový u-test o průměru a t-test o průměru, jednovýběrový test o rozptylu a o poměru, p-hodnota testu, testování pomocí intervalu spolehlivosti, Shapirův-Wilkův test, grafické metody ověřování normality, Wilcoxonův jednovýběrový test, jednovýběrové testy v R Cíle kapitoly: - pochopení základních pojmů o testování statistických hypotéz; - porozumění strategie provádění klasických testů proti metodám používání p-hod- noty; - zvládnout postup provádění parametrických i neparametrických testů v běžných situacích s využitím počítačových programů. Čas potřebný ke studiu kapitoly: 13 hodin 94 Výklad: Nastínění obsahu kapitoly. Úvod Základní pojmy Základní rozdělení testů Testování hypotéz o parametrech normálního rozdělení - Testy o průměru a rozptylu - p-hodnota testu Asymptotické testy Shapirův-Wilkův test normality a grafické ověřování normality dat Neparametrické testy Testy v R Struktura výkladu Tak Vám nevím, jestli to její mrknutí bylo významné nebo ne. Hanousek J., Charamza P.: Moderní metody zpracování dat Úvod Testování statistických hypotéz patří mezi základní metody statistické indukce a mezi nejjednodušší metody kvantitativní teorie rozhodování. - Při řešení testovacího problému hledáme odpověď např. na otázky: 95 - Způsobuje kouření rakovinu? - Ovlivní reklamní kampaň postoj spotřebitele k nově zaváděnému výrobku? - Zvyšují vhodné dávky daného hnojiva úrodu brambor? - Vede nový technologický postup ke změně jakosti výrobku? - V pozadí těchto otázek stojí parametry (podíl osob postižených rakovinou, podíl zájemců o nový výrobek, průměrná velikost sklizně, podíl nekvalitních výrobků), jichž se otázka dotýká. Přejeme si posoudit, zda se tento parametr (označme jej obecně jako ) nějakým systematickým způsobem změní (např. vroste), když v uvažované situaci dojde k nějaké zásadnější změně (osoba začala kouřit, proběhla reklamní kampaň, bylo použito intenzivnější hnojení, byl použit nový technologický postup). - Odpověď na uvedené otázky získáváme z výběru (ne z celé populace) – statistickou in- dukcí. Základní pojmy Statistickou hypotézou je určité tvrzení o parametrech základního souboru (nebo o parametrech více souborů) Testem statistické hypotézy nazýváme postup, jímž na základě výsledku zjištěných z náhodného výběru ověřujeme, zda statistickou hypotézu o populaci lze pokládat za správnou či niko- liv - Např. testování změny poměru či průměru v předchozích případech. Postup statistického testování: - Formulace hypotéz. - Výběr testového kritéria a jeho rozdělení. - Volba hladiny významnosti. - Vymezení kritického oboru. - Výpočet hodnoty testového kritéria z měřených hodnot. - Formulace závěru testu a jeho věcná interpretace. Formulace hypotéz: 96 - Stavíme proti sobě nulovou hypotézu H0:  = 0 proti alternativní hypotéze H1 (či HA):   0, kde 0 je hypotetická hodnota parametru. - Např. průměrná doba potřebná na určitou pracovní operaci je H0:  = 5 min., H1:   5 min. - V tomto případě hovoříme o dvoustranné alternativě, resp. o dvoustranném testu. - Jednostranné alternativy: - levostranná H1:  < 0, - pravostranná H1:  > 0. - Levostranný test: H0:   0 proti H1:  < 0, - Pravostranný test: H0:   0 proti H1:  > 0. Výběr testového kritéria a jeho výběrové rozdělení: - Testové kritérium - testovací statistika je funkce výběru T = T(x1,...,xn), jejíž rozdělení je známé Nejčastěji: standardizovaný průměr, standardizovaný poměr apod. - Obvyklá rozdělení: N(0;1), Studentovo, chi-kvadrát aj. Volba hladiny významnosti: - Rozhodování o hypotézách se řídí rozhodovací tabulkou - Chyba 1. druhu - nesprávné zamítnutí nulové hypotézy. - Chyba 2. druhu - chybné přijetí (nezamítnutí) nulové hypotézy. - Ohodnocení těchto chyb pomocí pravděpodobností: Naše rozhodnutí Skutečná situace H0 platí H0 neplatí Nezamítneme H0 správné rozhodnutí pravděpodobnost 1 -  chyba II. druhu pravděpodobnost  Zamítneme H0 chyba I. druhu pravděpodobnost  hladina významnosti správné rozhodnutí pravděpodobnost 1 -  sila testu 97 - Pravděpodobnost chyby 1. druhu:  P(H1 | H0) =  .-. hladina významnosti (vyjadřuje se v %). - Pravděpodobnost chyby 2. druhu:  P(H0 | H1) = . - Pravděpodobnost, že se nedopustíme chyby 2. druhu:  P(H1 | H1) = 1 -  - nazýváme sílou testu (silofunkcí) Vymezení kritického oboru (kritické oblasti): - Obor hodnot testového kritéria dělíme na dvě disjunktní oblasti: - a) Kritický obor W - množina hodnot kriteria T, které jsou při platnosti hypotézy H0 málo věrohodné (chvosty rozdělení statistiky T) a má pravděpodobnost  , tj.: P(T  W | H0) =  - pravděpodobnost chyby 1. druhu - Kritickým oborem W u pravostranného testu je pravý chvost, u levostranného levý chvost a u dvoustranného - oba chvosty rozdělení - b) Obor přijetí (akceptování, nezamítnutí) H0 - množina hodnot V kritéria T, která při platnosti hypotézy H0 je hodně věrohodná - má pravděpodobnost 1 - , tj. platí: P(T V | H0) = 1- . - Pravděpodobnost chyby 2. druhu potom lze zapsat: P(T  V | H1) = . - Sílu testu počítáme z podmínky P(T  W | H1) = 1 - . - Kritické hodnoty testu – body oddělující kritický obor W od oboru přijetí V (= kvantilům rozdělení testového kritéria). - Snahou je, aby hodnoty  i  byly co nejmenší. Ale protože se zmenšováním hladiny významnosti roste chyba 2. druhu (viz následující obrázek), postupujeme takto: - Volíme co nejmenší  (0,05 nebo 0,01) a vybereme test, který při zvolené hladině významnosti maximalizuje sílu testu 1 - . Takový test se nazývá nejsilnější (určuje se v matematické statistice).  představuje riziko nesprávného zamítnutí nulové hypotézy. Chceme-li toto riziko snížit volíme  menší. 98 - Jediný způsob současného snížení  i  je zvětšení rozsahu výběru n. Výpočet hodnoty testového kritéria:  Provedeme náhodný výběr n měření x1,...,xn a z těchto měření určíme hodnotu testového kritéria - jde o nejpodstatnější část statistického tes- tování. Formulace závěru testu a jeho věcná interpretace: - Rozhodnutí provedeme na základě následujícího pravidla: - Rozhodovací pravidlo:  Je-li T  W, zamítneme nulovou hypotézu H0 na hladině významnosti  (na %-ní hladině). Máme zaručeno, že chyba takového rozhodnutí nepřekročí .  Je-li naopak T  V (tj. T  W) nezamítneme nulovou hypotézu H0 na hladině významnosti  (budeme jí akceptovat). Skutečnost, že test nepotvrdil H0 není na závadu, neboť za H0 volíme obvykle tvrzení, které chceme zamítnout.  Můžeme se přitom dopustit chyby 2. druhu, která může mít dosti velkou pravděpodobnost .  Proto raději neříkáme, že přijímáme H0.  Obvykle je jen třeba zvýšit rozsah výběru n, aby se snížila chyba 2. druhu , a test se stal průkaznější. - Výsledek rozhodnutí věcně interpretujeme  Např. reklamní kampaň přinesla významné zvýšení poměru zájemců o nový výrobek, intenzivnější hnojení přineslo významné zvýšení průměrné úrody apod. - Postup statistického testování můžeme porovnat s postupem u soudu 99 Na následujícím obrázku graficky znázorňujeme základní pojmy ze statistického testování hy- potéz. Zdroj: Čermáková 1995 Základní rozdělení testů Podle předpokladů o rozdělení sledovaného statistického znaku: 1) Parametrické; 2) Neparametrické. - Parametrické testy jsou založené na předpokladech o charakteru rozdělení statistického znaku a týkají se výhradně hodnot jednoho nebo několika parametrů daného rozdělení (např. středních hodnot, rozptylů apod.). - Nejčastěji předpokládáme normalitu rozdělení. - Jedná se o početně náročnější, avšak silné testy. - Neparametrické testy - nevyžadují splnění téměř žádných předpokladů o charakteru rozdělení statistického znaku. Netýkají se parametrů rozdělení, tj. hypotézy neobsahují žádná tvrzení o průměrech či rozptylech, ale týkají se jiných charakteristik (např. medi- ánu). - Výhoda: mohou být použity pro studium jak kvantitativních tak kvalitativních znaků a po výpočetní stránce jsou jednoduché a rychlé. 100 - Nevýhoda: mají menší sílu. Testování hypotéz o parametrech normálního rozdělení Testy o populačním průměru: - Předpoklad: x1,...,xn  N(;2 ), kde 2 je známý parametr. - Pravostranný test: - Testujeme H0:  = 0 proti alternativě H1 :  > 0, (0 je známá hodnota) - Testové kritérium při H0 - Hypotézu H0 zamítáme na hladině , když U > u1-  Příklad (Arltová a kol. 2003, s. 151-152): - Lze vyrobit 1 mil. součástek určitého elektronického zařízení se střední životností 900 hodin a směrodatnou odchylkou 225 hodin. Vývojové oddělení ve svých dílnách vyrábí experimentálně tyto součástky novou technologií a tvrdí, že tak dosáhne vyšší průměrnou životnost. K ověření tohoto tvrzení byl ze součástek vyrobených novou technologií pořízen náhodný výběr 100 ks, u nichž průměrná životnost činila 940 hodin. Jeví se nová technologie na základě těchto výsledku lépe než původní? Nejedná se jen o ná- hodu? Řešení: - Testujeme hypotézu H0:  = 900 proti pravostranné alternativě H1:  > 900. Vypočítáme N(0;1)0    n x U   .778,1100 225 9009400      n x U   101 - Protože U=1,778 > u0,95 = 1,645, zamítáme H0 na 5%-ní hladině vý- znamnosti. - Protože U=1,778 < u0,99 =2,326, nezamítáme H0 na 1%-ní hladině významnosti (viz obr.). - Statistické programy provádějí rozhodnutí pomocí tzv. p-hodnoty testu, tj. pravděpodobnosti dosažení ještě extrémnější (více ve chvostu rozdělení) hodnoty než je vypočtená hodnota testového kritéria. - p-hodnota = P(U  1,778 | H0) = 0,0377 = minimální hladině, na které H0 zamítáme. - H0 zamítáme, je-li p-hodnota < . - p-hodnotu lze totiž interpretovat jako pravděpodobnost nesprávného zamítnutí H0. Protože jsme si ji předem zadali jako , H0 můžeme zamítnout, jen když p-hodnota nepřekročí . - Levostranný test: - Testujeme H0:  = 0 proti H1 :  < 0 - H0 zamítneme, když U < u nebo, když p-hodnota P(U  vypočítaná .hodnota u | H0)< . - Dvoustranný test: - Testujeme H0:  = 0, proti alternativní hypotéze H1:   0. - Použijeme testové kritérium při H0 - H0 zamítneme na hladině významnosti  na kritické oblasti W = {U: U  -u1-/2  U  u1-/2}, tj. když |U|  u1-/2. - Nebo H0 zamítneme na hladině významnosti , je-li p-hodnota = P(|U|  vyp.hodnota | H0) < .  Podobně používáme p-hodnoty i u dalších testů. N(0,1)0    n x U   102 Pod pojmem klasický statistický test rozumíme testování pomocí kritických hodnot a kritických oborů. Případ neznámého rozptylu: - Použijeme testové kritérium které má při splnění H0 rozdělení t(n-1). - Pro vymezení kritických oblastí W používáme proto místo kvantilů rozdělení N(0;1) kvantily rozdělení t(n-1). - Hovoříme zde o t-testech na rozdíl od dřívějších u-testů. - Rozhodování v klasických t-testech je znázorněno na následujícím obrázku. Zdroj: Arltová 2003 Pro hypotetický průměr 0 platí: - Testování lze provést i pomocí tohoto intervalu spolehlivosti. - Nulovou hypotézy H0:  = 0 zamítneme a přijmeme opačnou oboustrannou alternativu H1, když 0 padne mimo tento interval spolehlivosti. Příklad: - Testujte hypotézu, že průměrný denní výtěžek určité chemikálie ve farmaceutické továrně je μ = 880 tun proti alternativě, že μ  880 tun. Na vzorku z 50 dní (n=50) jsme zjistili, že výběrový průměrx = 871 a výběrová směrodatná odchylka s = 21 tun. , / ns x T                  1)1()1( 2 1 2 1 n ntX n ntXP o 103 Řešení: - Testujeme nulovou hypotézu H0: μ = 880 proti oboustranné alternativě H1: μ  880 na hladině významnosti  = 0,05. - Platí T = (x- m0)/(s/n) = (871-880)/(21/ 50) = -3,0305 - Tedy |T| = 3,0305 > t0,975(49) = 2,010, tj. H0 na 5%-ní hladině významnosti zamítáme a tvrdíme, že denní výtěžek se významně liší od 880 tun. Test o populačním rozptylu: - Předpokládejme, že náhodný výběr pochází z normálního rozdělení N(;2 ), kde oba parametry jsou neznámé. - Testujeme nulovou hypotézu H0: 2 = 0 2 , kde 0 2 je určitá předem zvolená hodnota, proti alternativě H1: 2  0 2 . - Použijeme testové kritérium které má při splnění nulové hypotézy rozdělení 2 (n-1) - Kritický obor testu je kde v nerovnostech na pravé straně jsou příslušné kvantily rozdělení 2 (n-1). - Podobně je možno zavést i jednostranné testy Příklad: – Viz Hindls a kol. (2007), s. 142. Asymptotické testy Test o populačním průměru: - Při velkém rozsahu souboru (n > 30) nemusí být splněn předpoklad o normalitě výběru ze základního souboru. - Používáme testové kritérium jehož normalita je zaručena z centrální limitní věty. , )1( 2 0 2 2   xSn   )},1()1(:{W 2 2 1 22 2 22   nn   , / μ0 ns x U   104 - Rozhodnutí proto provádíme pomocí kvantilů rozdělení N(0;1). Příklad: – Viz Hindls a kol. (2007), s. 139. Test o populačním poměru: - Testujeme hypotézu H0:  = 0 proti alternativě H1:   0. - Použijeme testové kritérium Toto má při H0 podle Moivreovy-Laplaceovy limitní věty přibližně rozdělení N(0;1). - Kritickým oborem je Příklad – viz Hindls a kol. (2007), s. 140. Shapiro-Wilkův test (SWT) a grafické ověřování normality Test budeme potřebovat na ověření normality dat vždy při malém počtu měření (n ≤ 30). Testujeme H0: X má normální rozdělení proti opačné alternativě. Test (včetně rozdělení testové statistiky), navržený v práci Shapiro a Wilk (1965), využívá k ověření normality testové statistiky ,2 2 , x Normx S S W  jenž je podílem dvou odhadů rozptylů: klasického Sx 2 a odhadu Sx,Norm 2 , který je platným odhadem rozptylu za předpokladu, že data jsou normálně rozdělena. V případě, že platí nulová hypotéza normality, máme jak v čitateli, tak ve jmenovateli statistiky W platný odhad rozptylu a W tedy musí být blízké hodnotě 1. Pokud nulová hypotéza normality neplatí, potom je W výrazněji vzdáleno od 1. Přesný význam slova „výrazněji“ přitom závisí na rozsahu výběru n. Rozdělení statistiky W při platnosti H0 umožňuje výpočet p-hodnot a určení tabulek kritických hodnot. p-hodnoty poskytují statistické programy (např. R) a tabulku kritických hodnot (včetně podrobnějšího popisu testu) poskytuje Hebák a kol. (2004). . )1( 00 0 n P U      }.:{ 2 1    uUUW 105 Graficky je možno provádět testování normality dat z vyhodnocení krabicového diagramu (symetrie, malé množství odlehlých hodnot), z porovnání histogramu s křivkou příslušného normálního rozdělení (symetrie, unimodalita) a z qq-diagramu, do kterého zakreslujeme empirické kvantily a teoretické kvantily normálního rozdělení N(μ; σ2), počítané podle vztahu . 1 , )(2 pupF   Za parametry dosazujeme jejich odhady. Body v grafu by ideálně měly ležet na přímce. Příklady – viz úkoly. Neparametrické testy - Nemá-li X normální rozdělení a počet měření je malý (do 30 měření) používáme místo t-testu Wilcoxonův test. - Za charakteristickou hodnotu úrovně používáme obvykle medián Me(X) místo průměrů  Wilcoxonův jednovýběrový test úrovně (WJT) - Testujeme hypotézu H0: Me(X) = m0 proti alternativní hypotéze H1: Me(X)  m0 - Wilcoxonův test - Počítáme pořadí od nejmenších k největším číslům |xi – m0|. - R+ a Roznačuje součet těchto pořadí pro kladné nebo záporné xi – m0.  Nulové hodnoty vynecháváme.  K stejným hodnotám počítáme průměrná pořadí. - Testové kritérium: T = min (R+ , R- ) - Příznivé alternativě – nízká hodnota T. - Kritická oblast: W = { T: T  T/2}, kde T/2 je 100(/2)% kvantil jednvýběrové Wilcoxonovy statistiky T (v R qsignrank(p, n)) – viz tab. VI. v dodatku. - Pravostranný test H1:Me(X)>m0 , W = {T=R: R T} 106 - Levostranný test H1:Me(X)< m0 , W = {T=R+ : R+  T} - Podrobnější zavedení testu a příklady - viz Stuchlý (2004), s. 35-37, 167 nebo Blatná (1996), s. 86-91, 179. Jednovýběrové testy v R - SWT (test normality) - Provádíme v Statistics+Summaries+Shapiro-Wilks test of normality - Grafické ověření normality dat provedeme v R Commanderu takto: - Vybereme z nabídky Graphs  Boxplot  Quantile-comparison plot  Histogram (zaškrtneme densities)  Za příkaz histogramu připíšeme  x<-a:b  lines(x, dnorm(data$pr, mean(data$pr), sd(data$pr))  Zde data$pr je proměná „pr“ z datového souboru „data“, v kterém je proměnná „pr“ uložena a interval a:b je celočíselné rozmezí, v kterém se „pr“ pohybuje.  Histogram dostaneme také příkazem:  hist(data$pr, scale="density", breaks="Sturges", col= "darkgray", ylim =c(0,0.045)) - t-test střední hodnoty - Při normalitě dat provádíme v Statistcs+Means+Single-sample t-test - Asymptotický test po aktivaci balíku vsePackage příkazem:  asymp.mean.test(x, mu= ),  resp.: asymp.mean.test(x, mu= , conf.level= )  Pro pravostranný test: asymp.mean.test(x, mu= , type ="greater")  Pro levostranný test: asymp.mean.test(x, mu= , type =„less") - Wilcoxonův jednovýběrový test - Při malém výběru a nenormalitě dat 107 - Provádíme příkazem: wilcox.test(x, mu= ) - Test variability - Provádíme příkazem: onesample.var.test(x, sd= ) nebo onesample.var.test(x, var= ) po aktivaci balíku vsePackage. - Test o poměru u alternativní proměnné - Např. podíl mužů proti ženám - Provádíme v Statistics+Proportion+Single-sample proportion test, popř. příkazem prop.Z.test(x, n, p= , alternative=" ", conf.level= ) po aktivaci balíku vse- Package - Zavedení podmnožiny dat podle určité proměnné (odpovídá filtrování v Excelu): Data+Active data set+Subset active data set. Excel jednovýběrové testy nezahrnuje. Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 133-142. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S. 111-115, 117-122, 125-127. ISBN 80-7079-754-1. Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 140-158, 171- 173. ISBN 80-245-0178-3. BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. BLATNÁ, D. Neparametrické metody. Praha: VŠE 1996. ISBN 80-7079-607-3. 108 CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 256-263. ISBN 80-7261-003-1. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 69-73. ISBN 80-7169-255-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 132-139, 167-168. ISBN 978-80-86446-40-5. SEGER, J. a HINDLS, R. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 127-137. ISBN 80-7187-058-7. STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 35- 37. ISBN 80-245-0153-8. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 209-222, 226- 222, 226-230. ISBN 80-7169-089-9. WONNACOT, T. H. a WONNACOT, R. J. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 310-350. ISBN 80-85605-09-0. Otázky a úkoly Pro úkoly v této kapitole budeme používat datový soubor studenti.dat (popř. studenti.csv), který je v studijních materiálech na IS VŠTECB 1) Na hladině významnosti 5% otestujte normalitu rozdělení výšky studentů studujících na pražských fakultách VŠE. Grafickými metodami ověřte získaný výsledek. 2) Pomocí vhodného testu zjistěte, zda průměrná výška studentů studujících na pražských fakultách VŠE je různá od 178 cm. Rozhodnutí proveďte pomocí a) kritického oboru, 109 b) intervalu spolehlivosti, c) p-hodnoty. Při rozhodování použijte hladinu významnosti 5%. Změní se rozhodování na hladině významnosti 1% či 10%? 3) Pomocí vhodného testu zjistěte, zda průměrná výška studentů studujících na pražských fakultách VŠE je nižší než 180 cm. Rozhodnutí proveďte pomocí a) kritického oboru, b) intervalu spolehlivosti, c) p-hodnoty. Při rozhodování použijte hladinu významnosti 5% a 1%. 4) Pomocí vhodného testu zjistěte, zda průměrná váha studentů na VŠE je 75 kg. 5) Pomocí vhodného testu zjistěte, zda směrodatná odchylka výšky studentů studujících na pražských fakultách VŠE je a) 11,5 cm, b) nižší než 11.5. Při rozhodování použijte hladinu významnosti 5% a 10%. Při volbě vhodného testu nezapomeňte ověřit jeho předpoklady. Pokud jste zvolili parametrický test, určete odpovídající interval spolehli- vosti. 6) Pomocí vhodného testu zjistěte, zda u studentů cestujících vlakem je typická vzdálenost od školy a) 220 km, b) méně než 220 km. Při rozhodování použijte hladinu významnosti 5% a 10%. Při volbě vhodného testu nezapomeňte ověřit jeho předpoklady. Pokud jste zvolili parametrický test, určete odpovídající interval spolehlivosti. 7) Testujte hypotézu, že typický podíl studentů cestujících vlakem je 60% proti alternativě, že je menší. Úkoly k zamyšlení a diskuzi 1) Diskutujte o analogii statistického testování s rozhodováním u soudu. 2) Zamyslete se nad tím, jak souvisí statistická přejímací kontrola s testováním statistických hypotéz? Klíč k řešení otázek: 1) Testujeme nulovou hypotézu H0: výška má normální rozdělení proti opačné alternativě H1. Použijeme v R Commanderu Shapiro-Wilkův test. 110 Výstup: > shapiro.test(studenti$vyska) Shapiro-Wilk normality test data: studenti$vyska W = 0.9816, p-value = 0.4751 Závěr: Nezamítáme H0. Výška studentů se řídí normálním rozdělením. Graficky ověříme normalitu proměnné „vyska“ v R pomocí grafu histogramu, krabicového diagramu a qq-diagramu. Použijeme příkazy (nebo postupujeme interaktivně z nabídky Graphs): hist(studenti$vyska, scale="density", breaks="Sturges", col="darkgray") x<-150:200 lines(x,dnorm(x, mean(studenti$vyska),sd(studenti$vyska))) boxplot(studenti$vyska, ylab="test") qq.plot(studenti$test, dist= "norm", labels=FALSE) a dostaneme následující grafy, což potvrzuje normalitu proměnné výška. 2) Testujeme H0: μ=178 proti H1: μ≠178. Použijeme oboustranný jednovýběrový t-test. Výstup: > t.test(studenti$vyska, alternative='two.sided', mu=178, conf.level =.95) One Sample t-test data: studenti$vyska t = -1.4187, df = 61, p-value = 0.1611 alternative hypothesis: true mean is not equal to 178 111 95 percent confidence interval: 173.8805 178.7001 sample estimates: mean of x 176.2903 > qt(c(0.975), df=61, lower.tail=TRUE) [1] 1.999624 Závěry: a) |t|=1,42 α=0,05 H0 nezamítáme na 5% hladině významnosti, tj. test neprokázal, že průměrná výška studentů je odlišná od 178 cm. Závěr platí i na hladinách 1% a 10% (podle c). 3) Testujeme H0: μ = 180 proti H1: μ < 180. Použijeme levostranný jednovýběrový t-test. Výstup: > t.test(studenti$vyska, alternative='less', mu=180, conf.level =.95) One Sample t-test data: studenti$vyska t = -3.0782, df = 61, p-value = 0.001559 alternative hypothesis: true mean is less than 180 95 percent confidence interval: -Inf 178.3032 sample estimates: mean of x 176.2903 > qt(c(0.05), df=61, lower.tail=TRUE) [1] -1.670219 Závěry: a) t=-3,08<-1,67 b) 180  (-∞, 178,3) c) p-hodnota= 0,00156 < α = 0,05 H0 na 5% hladině významnosti zamítáme, tj. test prokázal, že průměrná výška studentů je menší než 180 cm. Na 1% hladině významnosti dostaneme stejný závěr (p-hodnota < 0,01). 112 4) Ukážeme nejdříve SWT, že váha studentů se neřídí normálním rozdělením: > shapiro.test(studenti$vaha) Shapiro-Wilk normality test data: studenti$vaha W = 0.9221, p-value = 0.0007557 Máme 62 měření, můžeme použít asymptotický test o průměru. Testujeme hypotézu H0: μ = 75 proti opačné hypotéze H1. Odešleme příkaz asymp.mean.test(studenti$vaha, mu=75) Výstup: > library(vsePackage) > asymp.mean.test(studenti$vaha, mu=75) Asymptotical test for the expected value Alternative hypothesis: true mean is not equal to 75 Data var1 Z = -2.54766, p-value = 0.01084481 Estimate of the true mean = 70.5 95% confidence interval: (67.03806, 73.96194) Závěr: Na 5% hladině významnosti zamítneme H0, tj. průměrná váha studentů na VŠE není 75 kg. 5) a) Pro výšku studentů testujeme hypotézu H0: σ = 11,5 proti opačné alternativě H1. Použijeme test o populačním rozptylu (směrodatné odchylce). Podmínky na jeho použití (normalita výšek) je splněna. V R používáme příkaz onesample.var.test(studenti$vyska, sd=11.5) Výstup: > library(vsePackage) > onesample.var.test(studenti$vyska, sd=11.5) One-sample test for the variance of normal data Alternative hypothesis: true variance is not equal to 132.25 true std. dev. is not equal to 11.5 Data: studenti$vyska SS = 41.53326, p-value = 0.05324797 Estimate of the true variance = 90.04548 95% confidence interval: (65.02138, 132.9868) Estimate of the true std. dev.= 9.48923 95% confidence interval: (8.063583, 11.53199) 113 Závěr: H0 na 5% hladině i 10% významnosti nezamítáme, tj. směrodatná odchylka výšky studentů není 11,5; 95% interval spolehlivosti je (8,06;11,53). b) Pro výšku studentů testujeme hypotézu H0: σ = 11,5 proti alternativě H1: σ < 11,5 . Použijeme příkaz onesample.var.test(studenti$vyska, sd=11.5, alternative="less") Výstup: > library(vsePackage) > onesample.var.test(studenti$vyska, sd=11.5, alternative="less") One-sample test for the variance of normal data Alternative hypothesis: true variance is less than 132.25 true std. dev. is less than 11.5 Data: studenti$vyska SS = 41.53326, p-value = 0.02662398 Estimate of the true variance = 90.04548 95% confidence interval: (0, 124.7284) Estimate of the true std. dev.= 9.48923 95% confidence interval: (0, 11.16819) Závěr: H0 na 5% i 10% hladině významnosti zamítáme, tj. směrodatná odchylka výšky studentů je nižší než 11,5. 95% interval spolehlivosti pravostranný: (0; 11,17). 6) Nejdříve zavedeme podsoubor studentů, kteří cestují do školy vlakem takto: V nabídce Data – Active data set – Subset active data set vyplníme Subset expression: doprava==“V“ a Name for data set: vlak (filtrování v R) a testujeme SWT normalitu proměnné bydliště. Výstup: > vlak <- subset(studenti, subset=doprava=="V") > shapiro.test(vlak$bydliste) Shapiro-Wilk normality test data: vlak$bydliste W = 0.7851, p-value = 0.0001296 Proměnná není normálně rozdělená. Testujeme H0: Me(bydliště)=220 proti opačné H1. Použijeme oboustranný Wilcoxonův jednovýběrový test příkazem wilcox.test(vlak$bydliste, mu=220) Výstup: > wilcox.test(vlak$bydliste, mu=220) Wilcoxon signed rank test with continuity correction data: vlak$bydliste 114 V = 141, p-value = 0.808 alternative hypothesis: true location is not equal to 220 Závěr: Na 5% hladině významnosti nezamítáme H0, tj. test neprokázal, že typická vzdálenost bydliště studentů, dopravujících se do školy vlakem, se liší od 220 km. (b) Testujeme H0: Me(bydliště) = 220 proti pravostranné H1: Me(bydliště) < 220. Použijeme levostanný WJT. Odešleme příkaz wilcox.test(vlak$bydliste, mu=220, alternative= "less") Výstup: > wilcox.test(vlak$bydliste, mu=220, alternative="less") Wilcoxon signed rank test with continuity correction data: vlak$bydliste V = 141, p-value = 0.404 alternative hypothesis: true location is less than 220 Závěr: H0 nezamítáme na 5% hladině významnosti, tj. test neprokázal, že typická vzdálenost bydliště studentů, dopravujících se do školy vlakem, je menší než 220 km. Oba závěry platí i na 10% hladině významnosti. 7) Testujeme hypotézu H0: π = 0,6 proti alternativě H1: π < 0.6. Použijeme asymptotický test o populačním poměru. Pomocí Statistics – Summaries – Active dataset zjistíme, že z 62 studentů jezdí jich vlakem 25 (proměnná „doprava“ nabývá hodnoty „T“). K provedení testu odešleme příkaz: prop.Z.test(25, 62, p=0.6 , alternative ="less") Výstup: > library(vsePackage) > prop.Z.test(25, 62, p=0.60 , alternative="less") 1-sample proportions test based on asymptotical normality Alternative hypothesis: true pi is less than 0.6 Data: 25 successes out of 62 trials Z = -3.162703, p-value = 0.0007815595 Estimate of the proportion of successes: 0.4032258 Estimated SE of the estimate: 0.06229932 95 % confidence interval for the proportion of successes: (0, 0.5076619) Závěr: Zamítáme H0 na 5% hladině významnosti. Test prokázal na 5% hladině významnosti, že typický poměr studentů jezdících do školy vlakem je menší než 60%. 115 Kapitola 7: Dvouvýběrové testy Klíčové pojmy: dvouvýběrové testy, dvouvýběrový F-test o shodě rozptylů, dvouvýběrový u-test o shodě průměrů, dvouvýběrový t-test o shodě průměrů, zobecněný dvouvýběrový test o shodě průměrů, dvouvýběrový asymptotický u-test o shodě průměrů a o shodě poměrů, dvouvýběrový t-test o shodě průměru pro závislé výběry, dvouvýběrový Wilcoxonův test pro závislé a pro nezávislé výběry, Mannův-Whitneyův test, Kolmogorovův-Smirnovův dvouvýběrový test Cíle kapitoly: - pochopení pojmu dvouvýběrový test jako prostředek analýzy numerické proměnné na proměnné alternativní; - naučit se používat dvouvýběrové testy parametrické i neparametrické; - umět rozlišit, kdy je který test potřebný použít. Čas potřebný ke studiu kapitoly: 11 hodin Výklad: Nastínění obsahu kapitoly. Testy o shodě parametrů dvou nezávislých i závislých normálních souborů - Testy o shodě rozptylů a středních hodnot 116 Asymptotické testy o shodě parametrů dvou souborů - Testy o shodě průměru a poměrů Neparametrické testy - Mannův-Whitneyův a Wilcoxonův dvouvýběrový test - Kolmogorovův-Smirnovův dvouvýběrový test Dvouvýběrové testy v R a Excelu Struktura výkladu Hypotézy jsou lešením, které se staví před budovou a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu. J.W.Goethe Testy o shodě parametrů dvou normálních soubor. Předpokládejme nejdříve, že jsou dané dva nezávislé náhodné výběry x1,...,xm a y1,...,yn, které pocházejí z normálních rozdělení N(1,1 2 ) a N(2,2 2 ) Dvouvýběrový F-test o shodě populačních rozptylů: - Testujeme hypotézu H0: 1 2 =2 2 proti alternativě H1: 1 2 2 2 - Použijeme testové kritérium F=s1 2 /s2 2  F(m-1,n-1) , při H0. - H0 zamítáme, když FF1- α/2(m-1,n-1). - Výrazy uvedené na pravých stranách nerovností jsou kvantily Fisherova rozdělení F(m-1, n-1). - Tento test je důležitý pro správné vymezení, který test o průměrech použijeme. Grafické znázornění F-testu (testování shody rozptylů): 117 Test o shodě populačních průměrů: Předpokládejme nejdříve, že rozptyly : 1 2 , 2 2 jsou známé. - Testujeme hypotézu H0: 1= 2 proti alternativě H1: 1 2. - Použijeme testové kritérium - při platnosti H0 - H0 zamítáme, když - Testujeme-li hypotézu H0: 1= 2 proti pravostranné alternativě H1: 1> 2, zamítáme H0, když U > u1-. - Testujeme-li hypotézu H0: 1= 2 proti levostranné alternativě H1: 1< 2, zamítáme H0, když U < -u1-. Jsou-li populační rozptyly neznámé ale stejné použijeme kritérium - Při platnosti H0 je Tt(m+n-1). Rozhodnutí proto provedeme pomocí příslušných kvantilů tohoto rozdělení – jde o klasický dvouvýběrový t-test. Příklad: – Viz Stuchlý (1999a), s. 122. Jsou-li populační rozptyly neznámé a různé použijeme kritérium )1;0( σσ 2 2 2 1 N nm yx U     . 2 1    uU 2 )1()1( kde, 22 2       nm SnSm S nm mn S YX T yx 2222 222 22 1 1 1 1 νkde),ν(t                              n S nm S m n S m S n S m S YX T yx yx yx 118 při H0 a k rozhodnutí proto použijeme kvantily tohoto rozdělení – jde o zobecněný dvouvýběrový t-test (Welchova aproximace). Příklad: – viz Stuchlý (1999a), s. 123. Jsou-li oba výběry normální závislé s m = n (párová měření), počítáme Di = xi – yi a test provádíme jako jednovýběrový test o parametru průměru aplikovaném na tyto rozdíly – jde o párovy dvouvýběrový t-test. Příklad – Viz Stuchlý (1999a), s. 124. Asymptotické dvouvýběrové testy Jsou-li rozsahy obou souborů velké (m > 30, n > 30), můžeme upustit od předpokladu normality obou souboru. Asymptotický u-test o shodě populačních průměrů: - V důsledku centrální limitní věty testové kritérium má rozdělení N(0;1). Tudíž k rozhodnutí používáme u-kvantily. R tento test neobsahuje. Proto zde používáme t-test. Asymptotický dvouvýběrový test o populačních poměrech: Předpokládejme, že máme dva velké výběry x1,...,xm a y1,...,yn (m, n jsou velké), které pocházejí z alternativních rozdělení A(1) a A(2), kde 1, 2 jsou neznámé parametry, představující populační poměry. Označme p1, p2 odpovídající výběrové poměry. - Testujeme hypotézu H0: 1 = 2 proti alternativě H1: 1  2. Použijeme testové kritérium - které má při H0 rozdělení N(0;1). m S n S YX U yx 22    ,*kde, ) 11 *)(1(* 2121 nm npmp p nm pp pp U       119 - Nulovou hypotézu H0 proto zamítáme na kritickém oboru W = {U: |U| > u1-/2}. - Podobně postupujeme při jednostranných testech. Příklad: – Viz Stuchlý (1999a), s. 125. Neparametrické testy Budeme se nejprve zabývat testy o shodě úrovní. Porovnávání úrovní při neparametrických testech se obvykle provádí porovnáváním mediánů Me(Xi) místo průměrů i. Rozlišujeme: - Závislé výběry – stejné rozsahy výběrů, pro 2 výběry – párová měření. - Nezávislé výběry – mohou být různé rozsahy výběrů. Testy úrovně pro dva závislé výběry: - Testujeme hypotézu H0: Me(X) = Me(Y) proti alternativní hypotéze H1: Me(X)  Me(Y) Wilcoxonův párový test: - Počítáme pořadí od nejmenších k největším číslům |xi – yi|, - T+ a Toznačuje součet těchto pořadí pro kladné nebo záporné xi – yi. - Nulové hodnoty vynecháváme. - K stejným hodnotám počítáme průměrná pořadí. - Testové kritérium: T = min (T+ , T— ). - Kritická oblast: W = { T: T  Tw;/2}, kde Tw;/2 je 100/2-procentní kvantil jednovýběrové Wilcoxonovy statistiky Tw (viz tab. VI. v dodatku).  Pravostranný test H1:Me(X)>Me(Y), W = {T: T Tw;}.  Levostranný test H1:Me(X) Me(Y), W = { T1: T1 < k} - Levostranná alternativa H1:Me(X) < Me(Y), W = { T2: T2 < k} Určitou modifikací MWT je dvouvýběrový Wilcoxonův test (DWT), který používá R. - Jeho testovací statistika je - Při H0 má W rozdělení W(n,m), jehož kvantily jsou tabelované (a počítá je i R pomocí přikazu qwilcox(p,n,m)). - Asymptotická verze DWT používá testové kritérium které má při H0 rozdělení N(0,1). Příklad: - Mezinárodní korporace plánuje otevřít svoji pobočku v Řecku. Zabezpečení jejího provozu bude vyžadovat, aby se do Řecka přestěhoval větší počet pracovníků. Vedení korporace se rozhodlo nabídnout pracovníkům, kteří přicházejí do úvahy, intenzívní program výuky řečtiny. Při předcházejícím kurzu italštiny využili program poskytnutý firmou Lingua. Podle názoru jednoho z ředitelů efektivnější výuku cizích jazyků poskytuje společnost Trend. Proto se rozhodli otestovat nulovou hypotézu, že oba programy jsou stejně efektivní proti alternativě, že studenti, kteří absolvovali program poskytovaný . 2 )1( 1   nn RW , )1( 12   mnnm W Z 122 společností Trend, dosahují lepší výsledky. Náhodným výběrem vybrali výsledky závěrečných testů 14 studentů, kteří absolvovali program společnosti Trend a 15 studentů, kteří absolvovali program společnosti Lingua. Závěrečný test byl v obou skupinách stejný a jeho výsledky jsou následující: - Trend xi 85 87 92 98 90 88 75 72 60 93 88 89 62 73 (bodů). - Lingua yi 65 57 74 43 39 88 62 69 70 72 59 60 80 83 50 (bodů). - Potvrzují výsledky výběrového šetření tvrzení jednoho z ředitelů, že program společnosti Trend je lepší než program společnosti Lingua? Řešení: - Jedná se o nezávislé náhodné výběry, proto použijeme MWT. Nejdříve uspořádáme výsledky závěrečného testu vzestupně podle velikostí a přiřadíme jim pořadová čísla. - Trend 60 62 72 73 75 85 87 88 89 90 92 93 98 88. - Lingua 39 43 50 57 59 60 62 65 69 70 72 74 80 83 88. - Protože hodnota 60 je v pořadí na 6. a 7. místě, její pořadové číslo bude průměr z těchto dvou pořadí (6+7)/2 = 6,5. Podobně pořadí hodnoty 62 je (8+9)/2 = 8,5, pořadí hodnoty 72 je (13+14)/2 = 13,5 a pořadí hodnoty 88 je (22+23+24)/3 = 23. Pořadí hodnot v obou skupinách jsou následovné: - Trend 6,5 8,5 13,5 15 17 20 21 23 23 25 26 27 28 29. - Lingua 1 2 3 4 5 6,5 8,5 10 11 12 13,5 16 18 19 23. - Součet pořadí pro společnost Trend je R1 = 282,5 a pro společnost Lingua R2 = 152,5. - Dále vypočítáme: - Testujeme hypotézu H0: Me(X) = Me(Y) proti pravostranné alternativě H1: Me(X) > Me(Y), použijeme testové kritérium T = T1 = 32,5. V tab. VII v. dodatku najdeme pro  = 0,05 kritickou hodnotu k = k0,05 = 67. Protože T1 = 32,5 < k0,05 = 67, zamítáme na 5% hladině významnosti hypotézu H0 proti pravostranné alternativě H1. Znamená to, tvrzení jednoho z ředitelů korporace je správné. 32,5,282,5-14.15/214.15 2 )1( 11    R mm mnT 177,5.152,5-15.16/214.15 2 )1( 22    R nn mnT 123 - Při použítí DWT počítáme testové kritérium - Horní kvantil Wilcoxonova dvojvýběrového rozdělení w0,95(14,15) = 143 (v R použijeme příkaz qwilcox(0.95,14,15)). Testovací statistika ho překročí, proto H0 zamítáme a přijímáme pravostrannou alternativu. - Asyptotická verze DWT používá testové kritérium - které překročí hodnotu u0,95 = 1,645 , tj. dostáváme stejný závěr. - Výpočet pomocí DWT nabízí R. Výstup z počítače je: > wilcox.test(test ~ společnost, alternative="greater", data=jazyk) Wilcoxon rank sum test with continuity correction data: test by společnost W = 177.5, p-value = 0.0008303 alternative hypothesis: true location shift is greater than 0 > qwilcox(0.95,14,15) [1] 143 Kolmogorovův-Smirnovův dvouvýběrový test (KSDT) – test shody rozdělení - Testujeme hypotézu H0: dva výběry x1,…,xm a y1,…yn pocházejí ze stejných rozdělení proti opačné alternativě. - Srovnáme všechna měření do neklesající posloupnosti z1,...,zm+n. - Z výběrů vypočítáme empirické distribuční funkce Fm(z) a Gn(z) – tj. kumulové relativní četnosti jednotlivých výběrů. - Testové kritérium je - Kritický obor: W= {D: D  d1-}, kde d1- jsou kvantily KSDT (viz tabulka VIII. v dodatku). .5,177 2 15.14 5,282 2 )1( 1    mm RW ,747,7 )1( 12    nmmn W Z |)()(|sup nm z zGzFD  124 Příklad: Bylo vybráno 13 polí stejné kvality. Na 5 z nich se zkoušel nový způsob hnojení, zbývajících 8 bylo ošetřeno běžným způsobem. Výnosy pšenice uvedené v tunách na hektar jsou označeny xi u nového a yi u běžného způsobu hnojení. xi: 5,0 4,5 4,2 5,4 4,4 yi: 5,7 5,5 4,3 5,9 5,2 5,6 5,8 5,1 Testujte hypotézu H0: oba výběry pocházejí ze stejného rozdělení proti opačné alternativě H1 Řešení. Použijeme KST pro dva výběry. Potřebné výpočty jsou provedeny v následující tabulce. Hodnota testového kritéria je D F x G x sup | ( ) ( )| x n m = 0,675. V tab. VIII. v dodatku najdeme pro n = 5, m = 8,  = 0,05 odpovídající kvantil d0,95 = 0,75. Protože D < d0,95, nezamítáme hypotézu H0, že oba výběry pocházejí ze základních souborů se stejnými distribučními funkcemi. Dvouvýběrové testy je možno používat jako prostředek analýzy závislostí numerické proměnné na alternativní. Výnosy zi Četnost xi Četnost yi Kumulovaná četnost xi Kumulovaná četnost yi Fn(zi) Gm(zi) |Fn(zi)-Gm(zi)| 4,2 1 0 1 0 0,2 0 0,2 4,3 0 1 1 1 0,2 0,125 0,075 4,4 1 0 2 1 0,4 0,125 0,275 4,5 1 0 3 1 0,6 0,125 0,475 5,0 1 0 4 1 0,8 0,125 0,675 5,1 0 1 4 2 0,8 0,25 0,55 5,2 0 1 4 3 0,8 0,375 0,425 5,4 1 0 5 3 1 0,375 0,625 125 5,5 0 1 5 4 1 0,5 0,5 5,6 0 1 5 5 1 0,625 0,375 5,7 0 1 5 6 1 0,75 0,25 5,8 0 1 5 7 1 0,875 0,125 5,9 0 1 5 8 1 1 0 Součet 5 8      Řešení v R: Načteme data do souboru vynosy.dat. Použijeme příkaz: ks.test(vynosy$x,vynosy$y). Výstup: > ks.test(vynosy$x,vynosy$y) Two-sample Kolmogorov-Smirnov test data: vynosy$x and vynosy$y D = 0.675, p-value = 0.07925 alternative hypothesis: two-sided Dvouvýběrové testy v R a v Excelu Pro nezávislé výběry: 1) Paramerické testy: t.test(x, y, mu= , var.equal=T) t.test(x, y, mu= , var.equal=F) t.test(y~factor, mu= , var.equal=T) t.test(y~factor, mu= , var.equal=F) var.test(x, y, ratio= ) var.test(y~factor, mu= ) 2) Neparametrické testy 126 wilcox.test(x, y, mu= ) wilcox.test(y~factor, mu= ) ks.test(x, y) Pro závislé výběry 3) Parametrický test: t.test(x, y, mu= , paired=T) 4) Neparametrický test: wilcox.test(x, y, mu= , paired=T) Dvouvýběrový asyptotický test o poměrech (relativních četnostech): Po aktivaci balíku vsePackage lze provádět příkazem prop.diff.test(x, n, diff= , alternative= ) Viz Otázky a úkoly č. 5. To jsou příkazy, pomocí kterých je možno jednotlivé testy vykonávat. Většina dvouvýběrových testů v R je možno provádět interaktivně přímo z nabídek. Dvouvýběrové testy v Excelu: Excel nabízí v Analýze dat všechny dvouvýběrové parametrické testy úrovně. Neparametrické testy neuvádí. Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 144-150. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S. 115-119, 122-125, 128-129. ISBN 80-7079-754-1. 127 Doporučené studijní zdroje: ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 159-178, 171- 173. ISBN 80-245-0178-3. BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. BLATNÁ, D. Neparametrické metody. Testy založené na pořádkových a pořadových statistikách. Praha: VŠE, 1996. S. 94-98, 102-117. ISBN 80-7079-607-3. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 268-274, 283-286, 289-290. ISBN 80-7261-003-1. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 73-79. ISBN 80-7169-255-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 140-154, 167-168. ISBN 978-80-86446-40-5. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 138-147. ISBN 80-7187-058-7. STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 37- 43, 53, 57-58, 60. ISBN 80-245-0153-8. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/) WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 223-226. ISBN 80-7169-089-9. Otázky a úkoly 1) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda výška studentů závisí na jejich pohlaví. 128 2) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu ověřte, zda ženy jsou v průměru o 20 kg lehčí než muži. 3) U 10 dvojčat byla zjištěna následující porodní váha (v gramech) starší 2440 3500 2820 2540 2650 2690 2750 2750 2650 2200 mla- dší 2700 3080 2200 2700 2550 2350 3500 2500 2420 2520 Pomocí vhodného testu zjistěte, zda porodní váha u staršího z dvojčat je vyšší než porodní váha mladšího z dvojčat. 4) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda typický rozdíl výšky a váhy studentů studujících na VŠE je 90. 5) V souvislosti s kontrolováním své osobní váhy získaly v posledních letech na popularitě dietní nápoje. Inzerenti těchto nápojů se domnívají, že muži dávají přednost nedietním nápojům mnohem častěji než ženy. K ověření této domněnky byl vybrán náhodný výběr n = 300 mužů, kteří pijí kolu, a bylo zjištěno, že 192 z nich pije obyčejnou kolu a zbývajících 108 dietní kolu. V obdobném souboru 300 žen pije 144 obyčejnou kolu a 156 dietní kolu. Ověřte předpoklad inzerentů na hladině významnosti 0, 05. 6) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda bodové rozložení ve statistickém testu je stejné pro angličtináře i neangličtináře. Úkoly k zamyšlení a diskuzi 1) Diskutujte o podmínkách používání jednotlivých testů. 2) Zamyslete se nad tím, jak používat jednotlivé testy v manažerské praxi. 129 Klíč k řešení otázek: 1) Nejdříve dvouvýběrovým F-testem (Statistics – Variance - Two-variances F-test) zjistíme, zda rozptyly výšek u mužů a žen se liší, tj. testujeme H0: σ1 2 = σ2 2 proti opačné alternativě H1. Výstup: > tapply(studenti$vyska, studenti$pohlavi, var, na.rm=TRUE) M Z 36.39572 44.18519 >var.test(vyska~pohlavi,alternative='two.sided',conf.level=.95,data=studenti) F test to compare two variances data: vyska by pohlavi F = 0.8237, num df = 33, denom df = 27, p-value = 0.5908 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.3902931 1.6919592 sample estimates:ratio of variances 0.8237087 Závěr: Nezamítáme H0, tj. výstup ukazuje, že rozptyly výšek jsou stejné. K testování shody průměrných výšek použijeme dvojvýběrový t-test (Statistics – Means - Independent samples t-test) a zaškrtneme vyska a Assume equal variances?: Yes. Testujeme H0: μ1 = μ2 proti opačné alternativě H1. Výstup: >t.test(vyska~pohlavi,alternative='two.sided',conf.level=.95,var.equal=TRUE, data=studenti) Two Sample t-test data: vyska by pohlavi t = 8.8125, df = 60, p-value = 2.044e-12 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 10.98137 17.43039 sample estimates: mean in group M mean in group Z 182.7059 168.5000´ 130 Závěr: H0 zamítáme na 5% hladině významnosti, tj. výstup ukazuje, že průměrné výšky se liší a tedy výška studentů závisí na pohlaví. (Normalitu výšek v obou souborech prokážene SWT – viz úkol 1 v předchozí kapitole.) Stejné výsledky dostaneme i pomocí Analýzy dat v Excelu. 2) SWT lze ověřit, že váhy v souboru mužů i v souboru žen se neřídí normálním rozdělením. Proto použijeme Wilcoxonův dvouvýběrový test v Statistics – Nonparametric tests – Two-sample Wilcoxon test. Po jeho provedení doplníme ještě do příkazu mu=20. Testujeme H0: Me(vaha mužů) - Me(vaha žen) = 20 proti opačné alternativě H1. Výstup: wilcox.test(vaha ~ pohlavi, mu=20, alternative="two.sided", data=studenti) Wilcoxon rank sum test with continuity correction data: vaha by pohlavi W = 602, p-value = 0.07542 alternative hypothesis: true location shift is not equal to 20 Závěr: Test těsně nulovou hypotézu nezamítnul. Na 5% hladině významnosti jsme neprokázali, že typický rozdíl vah studentů a studentek se liší od 20 kg. Stejné výsledky dostaneme i pomocí Analýzy dat v Excelu. 3) Vložíme data do souboru dvojcata proměnných starsi a mladší pomocí editoru. Testujeme nejdříve normalitu dat pomocí SWT. Výstup: > shapiro.test(dvojcata$mladsi) Shapiro-Wilk normality test data: dvojcata$mladsi W = 0.8578, p-value = 0.0719 > shapiro.test(dvojcata$starsi) Shapiro-Wilk normality test data: dvojcata$starsi W = 0.8787, p-value = 0.1262 Závěr: Oba soubory se řídí normálním rozdělením a jsou závislé. Použijeme proto dvouvýběrový párový t-test (Statistics – Means – Paired t-test). Testujeme hypotézu H0: μst – μml = 0 proti H1: μst – μml > 0 Výstup: 131 > t.test(dvojcata$mladsi, dvojcata$starsi, alternative='greater', + conf.level=.95, paired=TRUE) Paired t-test data: dvojcata$mladsi and dvojcata$starsi t = 0.3596, df = 9, p-value = 0.3637 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: -192.6179 Inf sample estimates: mean of the differences 47 Závěr: H0 nezamítáme. Znamená to, že jsme na 5% hladině významnosti neprokázali, že starší dvojče má těžší porodní váhu než dvojče mladší. Stejné výsledky dostaneme i pomocí Analýzy dat v Excelu. 4) Nejdříve ověříme SWT, že uvažovaný rozdíl se neřídí normálním rozdělením: použijeme příkaz shapiro.test(studenti$vyska-studenti$vaha). Proto použijeme Wilcoxonův párový test (Statistics - Nonparametric tests – Pairedsamples Wilcoxon test) a do příkazu ještě dopíšeme mu=90. Testujeme H0: Me(vyska) – Me(vaha) = 90 proti opačné H1. Výstup: > wilcox.test(studenti$vyska, studenti$vaha, mu=90, alternative='two.sided', paired=TRUE) Wilcoxon signed rank test with continuity correction data: studenti$vyska and studenti$vaha V = 1953, p-value = 7.603e-12 alternative hypothesis: true location shift is not equal to 90 Závěr: Na 5% hladině významnosti zamítáme H0. Výstup ukazuje, že typický rozdíl není 90. Testujeme H0 πm-πz = 0 proti alternativě H1: πm-πz > 0. Použijeme asymptotický dvouvýběrový test o poměrech. Řešení získáme v R Commanderu po aktivaci balíku vsePackage příkazem: prop.diff.test(x=c(144,192), n=c(300,300),diff=0,alternative="greater") Výstup: 132 > library(vsePackage) > prop.diff.test(x=c(144,192), n=c(300,300),diff=0,alternative="greater" ) Difference of proportions test based on asymptotical normality Data: c(144, 192) Alternative hypothesis: true pi(1) - pi(0) is greater than 0 Success = x Z = 4, p-value = 3.167124e-05 Sample estimates of proportions of successes: 0 1 0.48 0.64 Estimate of the difference of proportions: 0.16 Estimated SE of the estimate: 0.04 95% confidence interval for the difference of proportions: (0.09420585, 1) > qnorm(c(0.95), mean=0, sd=1, lower.tail=TRUE) [1] 1.644854 Závěr: Zamítáme H0, tj. potvrdila se domněnka inzerentů, že muži vypijí více nedietních nápojů než ženy. 5) Pomocí příkazů: skup1 <- subset(data, data$jazyk=="A") skup2 <- subset(data, data$jazyk!="A") Rozdělíme studenty na skupinu1 angličtinářů a skupinu2 neangličtinářů. K testování shody rozdělení použijeme Kolmogorovův-Smirnovův dvouvýběrový test. Testujeme H0: bodové rozdělení ve statistickém testu je stejné v skupině angličtinářů jako ve skupině neangličtinářů proti opačné alternativě. Aktivujeme balík vsePackage příkazem library(vsePackage). Samotný test provedeme příkazem: ks.test(skup1$test, skup2$test). Výstup: > ks.test(skup1$test, skup2$test) Two-sample Kolmogorov-Smirnov test data: skup1$test and skup2$test D = 0.224, p-value = 0.523 alternative hypothesis: two-sided Závěr: Nezamítáme H0, tj. test neprokázal významný rozdíl rozdělení bodového hodnocení ve statistickém testu mezi skupinou angličtinářů a neangličtinářů. 133 134 Kapitola 8: Další testy a analýza rozptylu Klíčové pojmy: chi-kvadrát testy, testy dobré shody, testování shody empirických a teoretických četností, testování nezávislosti v kontingenční tabulce, kontingenční koeficienty, KolmogorovůvSmirnovův jednovýběrový test, jednofaktorová analýza rozptylu, celková, meziskupinová a vnitroskupinová suma čtverců, poměr determinace, homoskedasticita, Bartletův test, tabulka analýzy rozptylu, Kruskalův-Wallisův test Cíle kapitoly: - pochopení principu chi-kvadrát testů; - provádění dalších neparametrických testů; - princip a používání analýzy rozptylu. Čas potřebný ke studiu kapitoly: 11 hodin Výklad: Nastínění obsahu kapitoly. Úvod Chi-kvadrát testy 135 - Testování shody empirického rozdělení s rozdělením teoretickým - Testování nezávislosti v kontingenční tabulce Kolmogorovův-Smirnovův test pro jeden výběr Příkazy pro další testy v R Jednofaktorová analýza rozptylu Kruskalův-Wallisův test Struktura výkladu Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů Samuel Butler Úvod V dosud probraných parametrických testech vycházíme vždy ze znalosti rozdělení základního souboru, z kterého jsme pořídily náhodný výběr (např. předpoklad normality). Musíme proto umět tento předpoklad ověřit: - Testujeme shodu mezi předpokládaným rozdělením a rozdělením empirickým. Používáme k tomu testy dobré shody. - Např. shodu empirického rozdělení s normálním rozdělením ověřujeme SWT. Patří do velmi početné skupiny neparametrických testů. Předpoklady na použití neparametrických testů jsou menší. - Neparametrické testy jsou robusnější, tj. kvalita výsledků je méně závislá na povaze konkrétních dat a na narušení předpokladů kladených na tato data. 136 Síla neparametrických testů je obvykle slabší, tj. dochází častěji k chybnému nezamítnutí nepravdivé nulové hypotézy. Chi-kvadrát testy Používáme je nejčastěji jako testy dobré shody - Mají širší použití: - Testy nezávislosti dvou znaků (v kontingenční tabulce). - Testy homogenity (shody) rozdělení 2 výběrových souborů. - Testy o shodě 2 nebo více populačních poměrů. a) Chi-kvadrát test dobré shody - Ověřujeme jím předpoklad, že rozdělení základního souboru, z něhož byl výběr pořízen, je určitého konkrétního typu. - Testujeme hypotézu H0, že náhodný výběr - pochází z předpokládaného rozdělení (normálního, Poissonova aj.), které má r  1 neznámých parametrů (tzv. neúplně specifikovaný model), popř. toto rozdělení je určeno i s parametry (tzv. úplně specifikovaný model), - nebo tvoří určité intuitivně formulované teoretické rozdělení (viz příklad 2), proti opačné alternativě H1. Postup chi-kvadrát testu dobré shody: - Náhodný výběr o rozsahu n roztřídíme do k tříd. - Označme ni absolutní empirické četnosti těchto tříd. - Při splnění H0 je znám tvar rozdělení sledovaného znaku X. - Odhadneme parametry tohoto rozdělení. - Potom určíme pravděpodobnosti jednotlivých tříd i pomocí odhadů - pi = P(Xi-té třídy). - Z nich určíme teoretické (očekávané) četnosti ni’= npi. - Vypočteme testové kritérium:     k i i ii n nn 1 2 2 . )(  137 - Při platnosti H0 má testové kritérium χ2 rozdělení 2 (k-r-1), kde k je počet tříd a r je počet odhadovaných parametrů. - Kritický obor testu je - Pro korektní použítí testu je požadováno splnění podmínek: n je dostatečně velké (n  50) a npi = ni’ > 5 pro i = 1,…,k. - Není-li splněna 2. podmínka, je potřebné některé třídy spojit. - Test používáme nejčastěji na testování hypotéz: H0: X  N(,2 ), kde odhadneme H0: X  Po(), kde odhadneme H0: empirické rozdělení četností je shodné se zadaným rozdělením. - Chi-kvadrát test je rovnocenný s u-testem o shodě poměrů. Příklad 1: Viz Stuchlý (1999a), s. 131-133. Příklad 2: Třetí sloupec tabulky udává strukturu korunových úvěrů klientů ČR v roce 1995 v členění podle účelu. Jeden z bankovních ústavů poskytující korunové úvěry potřebuje operativně znát, zda i v jeho klientele je rozložení shodné s celostátní strukturou. Provedl náhodný výběr 253 úvěrových smluv a ověřuje nulovou hypotézu o shodě. Údaje i potřebné propočty jsou v tabulce. Počet tříd k = 6. Testové kritérium χ2 = 9,476. Kritický obor je omezen zdola kvantilem 2 0,95(5) = 11,1. Protože χ2 < 11,1, nezamítáme na 5% hladině významnosti nulovou hypotézu. Test neprokázal rozdíly v struktuře úvěrů. Korunové úvěry klientů podle účelu Počet úvěrů ni Celostátní úvěrová struktura pi ni’ = n pi ' )'( 2 i ii n nn  - provozní 92 35,6% = 0,356 90,068 0,041 - investiční 63 26,2% = 0,262 66,286 0,163 - hypotekární 4 0,4% = 0,004 1,012 8,822 - privatizační 11 3,9% = 0,039 9,867 0,130 - na přechodný nedostatek zdrojů 24 9,0% = 0,090 22,770 0,066 - ostatní 59 24,9% = 0,249 61,997 0,254 Celkem 253 100% = 1,000 253,000 9,476 )}.1(:{ 2 1 22   rkW  ;ˆ,ˆ 22 xsx   ;ˆ x 138 b) Test nezávislosti dvou znaků Provedeme dvoustupňové třídění do kontingenční tabulky: A \ B B1 B2 . . . . . Bs Součet A1 A2 . . . Ar n11 n12 . . . . . n1s n21 n22 . . . . . n2s . . . . . . . . . . . nr1 nr2 . . . . . nrs n1. n2. . . . nr. Součet n.1 n.2 . . . . . n.s n přičemž znak X třídíme do r skupin A1,…,Ar a znak Y do s skupin B1,…,Bs. Tabulka obsahuje absolutní sdružené četnosti nij a součtové (marginální) četnosti ni. (součty řádků), i = 1,…,r a n.j (součty sloupců), j = 1,…,s. Testujeme nulovou hypotézu H0: Znaky X, Y jsou nezávislé proti opačné alternativě H1. Testové kritérium při dostatečně velkém rozsahu souboru a při dostatečně velkých očekávaných četnostech (požadujeme, aby nij’  1) má při H0 rozdělení 2 ((r-1)(s-1)). Odtud dostaneme kritický obor testu Podobně testujeme homogenitu výběrů (tj. předpoklad, že výběry pocházejí ze stejného rozdělení pravdepodobnosti). Míry síly závislosti kvalitativních proměnných: Pearsonův kontingenční koeficient           r i s j ji ji ij n nn n nn n 1 1 .. 2 .. 2   i j ijnn n n n n nn ji ij .. ' ))}.1)(1((:{W 2 1 22   sr 2 2     n C 139 - Při nezávislosti znaků je C = 0, velké C znamená silnou závislost. Cramérův kontingenční koeficient - Zde m = min(r,s), r je počet řádků, s je počet sloupců kontingenční tabulky. - Platí 0 matrix(c(), r, s, byrow=T[F]), zadání tabulky maticí typu r x s po řádcích [sloupcích]. Testování nezávislosti v kontingenční tabulce: chisq.test (tab), testování nezávislosti v kontingenční tabulce; pearson.indep.test(tab), testování nezávislosti v kontingenční tabulce po aktivaci balíku vsePackage, počítá i koeficienty kontingence (tabulku lze zadat v nabídce Statistics – Contingency tables – Enter and analyse two-way table). Analýza rozptylu (AR) Úvod Analýza rozptylu zkoumá, zda číselná veličina Y (odezvová veličina) závisí na kategoriálních (kvalitativních) proměnných Xi (faktory). Rozhodnutí se provádí na základě rozkladu rozptylu, resp. odpovídajícího součtu čtverců. AR byla zavedena R. A. Fisherem (v r. 1912) k sledování vlivů různých úrovní určitého faktoru na úrodu uvažované plodiny. Anglický název: Analysis of variance (ANOVA). 142 Jednofaktorová analýza rozptylu (JAR) Sledovaná statistická veličina Y je ovlivňována jen jedním faktorem X uvažovaným na k úrov- ních. - Např. závislost úrody na hnojivu, tržby a prodavači, hodinové mzdy na kvalifikační třídě, investic na vzdělání respondenta. Podle úrovní daného faktoru X jsou pozorování znaku Y rozdělena do k skupin o ni pozorováních, ni = n: Skupina Hodnoty znaku y Průměry sku- pin 1 y11, y12,..., 11ny 1y 2 y21, y22,..., 22ny 2y . . . . . . . . . . . . . . . . . . . k yk1, yk2,..., kkny ky Základní myšlenka JAR: Rozklad rozptylu veličiny Y: - na meziskupinový a vnitroskupinový. - Místo rozptylu používáme v AR jen příslušné součty čtverců. Součet čtvercových odchylek n hodnot veličiny Y od jejich průměru (celkový součet Sy) rozkládáme na součet meziskupinový Sy,m (rozptyl skupinových průměrů) a vnitroskupinový (reziduální = zbytkový) Sy,v , tj. Sy = Sy,m + Sy,v ,       k i n j ij k i n j ij k i n j ij iii y n yynyyy 1 1 2 1 1 2 1 1 2 y 1 kde,)(S ,)(S 2 1 2 1 2 my, ynnynyy k i ii k i ii         k i ii k i n j ij k i n j iij nyyyy ii 1 2 1 1 2 1 1 2 vy, )(S 143 Interpretace těchto součtů: celkový součet čtverců Sy charakterizuje celkovou měnlivost (variabilitu) hodnot sledovaného znaku Y; meziskupinový součet čtverců Sy,m - měnlivost mezi skupinami (vliv jednotlivých úrovní faktoru x); vnitroskupinový součet čtverců Sy,v - měnlivost v skupinách (tj. nevysvětlená variabilita, způsobená náhodnými vlivy). Nazýváme ho také reziduální součet čtverců SR. - Mírou těsnosti (síly) závislosti Y na x je tzv. poměr determinace P2 = Sy,m/Sy. - Platí: 0  P2  1. Čím silnější je závislost (čím větší podíl na celkové variabilitě má meziskupinová variabilita) tím více se P2 blíží k 1 (samotné P nazýváme korelační poměr – představuje neobecnější míru síly závislosti). - Hodnota P2 = 0 odpovídá rovnosti všech skupinových průměrů (nulové meziskupinové variabilitě) a P2 = 1 nulové vnitroskupinové variabilitě. K jednotlivým součtům čtverců můžeme definovat tzv. stupně volnosti. - Počet stupňů volnosti součtu čtverců m veličin je určen tím, kolik z těchto veličin je nezávislých. Existuje-li mezi m veličinami c lineárních vztahů, má součet čtverců těchto m veličin m – c stupňů volnosti. Lze ukázat, že Sy má  = n - 1, Sy,m má 1 = k - 1 a Sy,v má 2 = n - k stupňů volnosti (platí  = 1 + 2). Předpoklady použití ANOVA: - Výběry ve skupinách musí být nezávislé a pochází ze základních souborů s rozdělením N(i;i 2 ), které mají stejné rozptyly, tj. platí, že 1 2 = 2 2 = … = k 2 , tzv. homoskedas- ticita. - Homoskedaticitu ověřuje Bartlettův test (viz Seger a Hindels 1995, s. 162-163) nebo Levenův test v R a normality SWT nebo grafickými metodami. Aplikujeme je na rezidua (odhady chyb měření v modelu). 144 Test hypotézy o neexistenci vlivu faktoru (neboli o nezávislosti znaku Y na zkoumaném faktoru x) umožní zobecnit závěr o rozdílnosti či podobnosti skupinových průměrů na celou populaci. Pomocí JAR testujeme nulovou hypotézu H0: 1 = 2 = … = k proti opačné alternativě H1 - Jiná interpretace JAR: H0: odezvová veličina nezávisí na faktorech. Použijeme testové kritérium které má při H0 rozdělení F(k-1;n-k). Alternativní hypotéze jsou příznivé vysoké hodnoty F. Proto H0 zamítáme, když F > F1-(k-1;n-k), kde F1-(k-1;n-k) je kvantil příslušného F-rozdělení a interpretujeme to tak, že faktor x působí významně na odezvovou veličinu Y (resp. kvantitativní veličina Y závisí na hodnotách kvalitativní proměnné x). Hodnoty náhodné veličiny (odezvy) Y lze vyjádřit ve tvaru yij=μ+αi+εij, i=1,…,k, j=1,…,ni, (model analýzy rozptylu) kde yij je j-té pozorování odezvy Y při i-té úrovni faktoru x, μ = E(Y), αi je efekt (vliv) i-té úrovně faktoru na odezvovou veličinu Y, εij jsou náhodné chyby. μ odhadujeme výběrovým průměrem αi rozdílem skupinového a celkového průměru Hodnoty yij odhadujeme vyrovnanými hodnotami ŷij (v R fittted.values(model)), chyby εij odhadujeme rozdílem empirických (naměřených) a vyrovnaných hodnot eij = yij – ŷij (tzv. residua – v R residuals(model)). Výpočet provádíme obvykle do následující tabulky ANOVA: , )/(S )1/(S F vy, my, kn k    y .. yyi  Zdroj měnlivosti Součet čtverců Stupně volnosti Průměrný součet čtverců Testové kritérium Faktor Sy,m =   k i ii yyn 1 2 )( k - 1 Sy,m/(k-1) )](/ )1(/ , , knS kS F vy my    Rezidua Sy,v =    k i n j iij i yy 1 1 2 )( n - k Sy,v/(n – k)  Celkový Sy =    k i n j ij i yy 1 1 2 )( n - 1   145 Při zamítnutí H0 provádíme vícenásobná porovnávání např. Tukeyovo metodou (zjišťujeme, které dvojice úrovní faktorů způsobily zamítnutí H0) a můžeme počítat také intervaly spolehlivosti pro jednotlivé třídy – viz R. Podobným způsobem můžeme provádět i vícefaktorovou analýzu rozptylu. Poznámky: Předpoklad normality rozdělení se ověřuje obvykle SWT na rezidua nebo některou z počítačových grafických metod. Odchylky skutečného rozdělení znaku Y od normálního rozdělení nemají velký vliv na rozdělení statistiky F, kromě případu výskytu extremních hodnot v jednotlivých výběrech. Ověření homoskedasticity (shody rozptylů): Pokud nelze pro nedostatečně obsazené skupiny použít Bartlettův test, můžeme použít Levenův test nebo použijeme k ověření bodový diagram (závislost reziduí na úrovních faktorů) popř. odhadneme nesplnění zhruba posouzením hodnot výběrových rozptylů si 2 . Při nejistotě splnění předpokladů normality a homoskedesticity dat, můžeme místo AR použít Kruskalův-Wallisův test (KWT) – viz Stuchlý (2004), s. 44-46. Analýza rozptylu v R: 1. ANOVA (v nabídce Models je podrobná analýza číselná i grafická v modelu): model <- aov(y~x), uložení výsledků AR do objektu model (nebo interaktivně v Statistics-Means-One-way ANOVA); factor(x, levels=c(), labels=c()), zadání a označení úrovní faktoru fitted.values(model), výpis vyrovnaných hodnot z AR TukeyHSD(model), provedení Tuckeyovo vícenásobného porovnávání 2. rezidua a grafy reziduí: residials(model), výpis reziduí AR; resplot(model, type=“e-yhat“, xterm= , lowess= F, hline=T), graf závislosti reziduí na vyrovnaných hodnotách; resplot(model, type=“e-x“, xterm= , lowess= F, hline=T), graf závislosti reziduí na faktoru; 146 resplot(model, type=“e-time“, xterm= , lowess= F, hline=T), graf závislosti reziduí na čase. 3. Barttletův a Levenův test homoskedasticity: bartlett.test(y ~ x); levene.test(y ~ x,data = ). 4. Kruskalův-Wallisův test: kruskal.test(y ~ x, data = ); kruskal.test(y , x, data = ). Příklad 6 (Stuchlý 1999a): V následující tabulce jsou uvedeny měsíční tržby tří prodavačů v tis. Kč. Na hladině významnosti 0.05 testujte hypotézu o shodě průměrných měsíčních tržeb u všech tří prodavačů proti opačné alternativě. Odhadněte celkovou průměrnou tržbu a efekty jednotlivých prodavačů na průměrné tržbě. Intenzitu závislosti charakterizujte korelačním poměrem. Ověřte podmínky potřebné pro použití analýzy rozptylu. Řešení. Použijeme výpočty v následující tabulce: Prodavač číslo Měsíční tržby yij yi yi 2 yij j n 2 1  1 15 10 9 5 16 11 121 687 2 15 10 12 11 12 12 144 734 3 19 12 16 16 17 16 256 1306 Součet  39 521 2727 Testujeme nulovou hypotézu H0: 1 = 2 = 3 proti opačné alternativě H1. Při ručním výpočtu je výhodné přepsat si zavedené sumy čtverců tak, jak je uvedeno dále y m yi i m      1 1 3 39 13 1 . , 147   m i imy ynmynS 1 222 ., ,7013.5.3260513.5.3521.5      m i n j m i iijvy ynyS 1 1 1 2 . 2 , ,122521.52727    m i n j ijy ynmyS 1 1 222 .19213.5.32727 Protože platí ,89,3)12,2(44,3 14,10 35 4.3/122 2/70 )]1([/ )1(/ 95,0 , ,     F nmS mS F vy my nezamítáme nulovou hypotézu H0. Znamená to, že v tržbách jednotlivých prodavačů není statisticky významný rozdíl, tj. tržby nezávisí na faktoru prodavač. Odhadneme ještě parametry modelu: yˆ = 13, yy  .11 ˆ = 11-13 = -2, yy  .22 ˆ = 12-13 = -1, yy  .33 ˆ =16-13 =3. Celkový průměr tržeb je 13 tis. Kč a efekty, jakými se jednotlivý prodavači podílejí na celkovém průměru jsou - 2, -1 a 3 tis. Kč. Určení meziskupinové sumy čtverců přibližuje její grafické znazornění v následujícím grafu. V levé části grafu jsou pomocí mediánú znázorněny skupinové průměrné tržby a v pravé části grafu je krabicovým diagramem znázorněna jejich variabilita, představující meziskupinovou variabilitu. 148 Úlohu je možno řešit na počítači např. pomocí programu R. Dostáváme: > AnovaModel.1 <- aov(trzba ~ prodavac, data=trzby) > summary(AnovaModel.1) Df Sum Sq Mean Sq F value Pr(>F) prodavac 2 70 35.00 3.443 0.0658 . Residuals 12 122 10.17 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numSummary(trzby$trzba , groups=trzby$prodavac, statistics=c("mean", "sd")) mean sd % data:n P1 11 4.527693 0 5 P2 12 1.870829 0 5 P3 16 2.549510 0 5 > sqrt(70/(70+122)) [1] 0.6038074 Korelační poměr P = 0,604. Tedy na 5% hladině významnosti není závislost tržeb na prodavačích významná, ale intenzita závislosti je více jak středně silná (malá variabilita dat). 149 Načteme k datům rezidua a ověříme, zda jsou splněny podmínky pro použítí analýzy rozptylu: > trzby$residuals <- with(trzby, residuals(AnovaModel.1)) > shapiro.test(trzby$residuals) Shapiro-Wilk normality test W = 0.9659, p-value = 0.7931 > bartlett.test(residuals ~ prodavac, data=trzby) Bartlett test of homogeneity of variances Bartlett's K-squared = 2.9245, df = 2, p-value = 0.2317 > dwtest(trzba ~ prodavac, alternative="two.sided", data=trzby) Durbin-Watson test DW = 2.2377, p-value = 0.9372 alternative hypothesis: true autocorrelation is not 0 Testy ukazují na to, že požadované podmínky jsou splněny. Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 151-165, 210-212. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S. 130-140, 142-145, 147-148. ISBN 80-7079-754-1. Doporučené studijní zdroje: ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985. S. 147-157, 209-217, 231-2. 150 ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 178-185. ISBN 80-245-0178-3. BLATNÁ, D. Neparametrické metody. Testy založené na pořádkových a pořadových statistikách. Praha: VŠE, 1996. S. 117-125. ISBN 80-7079-607-3. CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 279-283. ISBN 80-7261-003-1. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 79-81, 102-105, 112-122. ISBN 80-7169-255-7. HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 14-19, 22-27, 37-43. ISBN 80-7261-013-9. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 155-165, 169-170, 181-192, 203-210. ISBN 978-80-86446-40. MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita v Brně, 1995. S. 137-142. ISBN 80-7157-166-0. PECÁKOVÁ, I. Statistika v terénních průzkumech. Praha: Professional Publishing, 2008. S. 116-128. ISBN 978-80-86946-74-0. ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 50-56. ISBN 978-80-245-1514-4. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 147-163, 216-219. ISBN 80-7187-058-7. STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 44- 47. ISBN 80-245-0153-8. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/) WONNACOT, T.H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 352-364. ISBN 80-85605-09-0. 151 Otázky a úkoly 1) Použijte data ze souboru casopis.dat. Zjistěte, zda výběr respondentů odpovídá ohledně vzdělání a) celostátnímu údaji, tj. že podíl základoškoláků, středoškoláků a vysokoškoláků je v poměru 7:9:4, b) je v stejném poměru. 2) Použijeme opět data ze souboru časopis.dat. Zjistěte, zda zájem o časopis závisí na vzdělání. V případě, že ano, určete koeficienty kontingence a vhodně je okomentujte. 3) Použijeme data ze souboru vydaje.dat. Rozhodněte, zda výše výdajů za zboží A závisí na vzdělání respondenta (neopomeňte ověřit předpoklady testu). Pokud ano, proveďte hlubší analýzu pomocí metody mnohonásobného porovnávání. Úkoly k zamyšlení a diskuzi 1) Zamyslete se nad tím, jak souvisí uspořádání údajů v kontingenční tabulce se závislostí jednotlivých proměnných. 2) Diskutujte o podmínkách na použití AR. Klíč k řešení otázek: 1) Použijeme test o shodě poměrů. Příkaz: pearson.test(x=c(), p=x()). Použijeme příkazy: summary(casopis) Výstup: id zajem vzdelani pohlavi vek vekint Min. : 1.0 ano: 167 SS: 433 muz : 951 Min. :15.00 (0,25] :310 1st Qu.: 500.8 ne :1833 VS: 426 zena:1049 1st Qu.:31.00 (25,40]:698 Median :1000.5 ZS:1141 Median :40.00 (40,60]:800 Mean :1000.5 Mean :40.81 (60,85]:192 152 3rd Qu.:1500.2 3rd Qu.:51.00 Max. :2000.0 Max. :85.00 table(casopis$zajem,casopis$vzdelani) SS VS ZS ano 63 69 35 ne 370 357 1106 a) Testujeme H0: πSS : πVS : πZS = 9:4:7 proti opačné alternativě H1. Test provedeme příkazem: pearson.test(x=c(63,69,35), p=c(9/20,4/20,7/20)) Výstup a závěr: Pearson's chi-squared test Data: c(63, 69, 35) Hypothetical probabilities: 0.45, 0.2, 0.35 X2 = 49.31737, df = 2, p-value = 1.953755e-11 Observed counts: 63, 69, 35 Expected counts: 75.15, 33.4, 58.45 Estimated probabilities: 0.3772455, 0.4131737, 0.2095808 Pearson residuals: -1.401560, 6.159944, -3.06726 Pearson squared residuals: 1.964371, 37.94491, 9.408084 Zamítáme H0, tj. výběr respondentů vzhledem ke vzdělání neodpovídá celostátnímu rozložení. Po vyfiltrování podmnožiny studentů, kteří mají zájem o časopis, lze test provést i v Statistics-Summaries-Frequency distribution (a zaškrtnutím Chi-squared-goodnes-of-fit test a zadáním očekávaných četností pro jednotlivé kategorie vzdělání). b) Obdobně dostaneme: X-squared = 11.8323, df = 2, p-value = 0.002696 H0 zamítáme, tj. výběr respondentů vzhledem ke vzdělání není ve stejném poměru. 153 2) Jde o test nezávislosti v kontingenční tabulce: Kontingenční tabulku vytvoříme v interaktivní nabídce (Statistics – Contingency tabeles – Two-way table + označíme proměnné a název tabulky: .Table). Současně se provede i chi-kvadrát test. Pokud chceme ještě určit koeficienty kontingence, použijeme po aktivizaci balíku vsePackege příkaz: pearson.indep.test (.Table). Výsledky: >.Table <- xtabs(~zajem+vzdelani, data=casopis) > .Table vzdelani zajem SS VS ZS ano 63 69 35 ne 370 357 1106 > .Test <- chisq.test(.Table, correct=FALSE) > .Test Pearson's Chi-squared test data: .Table X-squared = 97.6307, df = 2, p-value < 2.2e-16 Pomocí příkazu: pearson.indep.test(.Table) dostaneme mj.: Pearson's chi-squared test of independence Data: .Table X2 = 97.6307, df = 2, p-value = 6.306132e-22 Contingency coefficients: Pearson: 0.215739 Pearson (maximum): 0.7071068 Cramer: 0.2209420 Závěr: Zamítáme nulovou hypotézu H0 o nezávislosti zájmu o nový časopis na vzdělání. Závislost je významná, ale intenzita vyjádřená koeficienty kontingence této závislosti je nízká. 3) Analýzu provedeme pomocí jednofaktorové analýzy rozptylu (JAR) - závislost kvantitativní proměnné (odezva) na kvalitativní (faktor, ošetření). JAR provádíme interaktivně (Statistics – Means – One-way ANOVA, označíme faktor a odezvu). Výsledky se uloží pod názvem modelu a současně pomocí summary(model) jsou vypsané základní výsledky. V nabídce Model můžeme provádět další rozsáhlou výpočetní i grafickou analýzu – testy a grafy na ověřování podmínek (převážně aplikovanou na residua). Pokud 154 H0 zamítneme, provádíme příkazem TukeyHSD(model) Tukeyovo vícenásobné porovnávání. Normalitu testujeme SWT a homoskedasticitu Bartlettovým testem (interaktivně z Variance). Pokud nejsou splněny podmínky, lze použít Kruskalův-Wallisův test též z interaktivní nabídky (z Nonparametric tests). Data musí být uspořádána do 2 sloupců (v jednom odezva a v druhém faktor). Načteme data. Popsaným způsobem dostaneme model závislosti výdajů za zbozi A na vzdělání ve tvaru: > AnovaModel.1 <- aov(zbozi.A ~ vzdelani, data=vydaje) > summary(AnovaModel.1) Df Sum Sq Mean Sq F value Pr(>F) vzdelani 2 38936 19468 51.125 < 2.2e-16 *** Residuals 997 379650 381 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numSummary(vydaje$zbozi.A , groups=vydaje$vzdelani, statistics=c("mean", + "sd")) mean sd n SS 5103.487 19.82091 690 VS 5118.764 18.37047 199 ZS 5101.495 19.57358 111 Závěr: Nulovou hypotézu o nezávislosti těchto výdajů na vzdělání zamítáme. Krabicový diagram na následujícím obrázku potvrzuje výsledky testu. Výrazněji zamítnutí shody potvrzuje skupinový krabicový diagram a graf průměrů Výdajů za zboží A (Graphs – Plot of means, označime vzdelani a zbozi A, zaskrtneme Conf.intervals). 155 Příkazem TukeyHSD(AnovaModel.1) provedeme ještě Tukeyovo vícenásobné porovnávání. Výstup: > TukeyHSD(AnovaModel.1) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = zbozi.A ~ vzdelani, data = vydaje) $vzdelani diff lwr upr p adj VS-SS 15.276863 11.591363 18.962362 0.0000000 ZS-SS -1.991461 -6.675568 2.692646 0.5783367 ZS-VS -17.268324 -22.694443 -11.842204 0.0000000 Znamená to, že významné rozdíly jsou mezi průměrnými výdaji základoškoláků a vysokoškoláků a mezi výdaji vysokoškoláků a středoškoláků (p-hodnoty jsou nulové). Ověření podmínek pro AR: Pomocí Data – Manager variables in activ data set – Compute new variable (a vyplněním New variable name: residuals; Expression to compute: residuals(AnovaModel.1) přidáme k datům sloupec reziduí. Na ně aplikujeme SWT o normalitě a Bartlettův test o homoskedasticitě. Výstupy: shapiro.test(vydaje$residuals) Shapiro-Wilk normality test data: vydaje$residuals W = 0.9977, p-value = 0.1867 > bartlett.test(residuals.AnovaModel.1 ~ vzdelani, data=vydaje) Bartlett test of homogeneity of variances data: residuals.AnovaModel.1 by vzdelani Bartlett's K-squared = 1.7246, df = 2, p-value = 0.4222 Normalita a homoskedasticita reziduí nebyla zamítnuta. Poslední výsledky ověříme ještě graficky. Z Graphs – Strip chart – zaškrtneme Jiter a dostaneme graf závislosti reziduí na faktoru vzdělání (homoskedasticita). V Graph – Quantile-comparision dostaneme qq-diagram (normalita): 156 Grafy potvrzují splnění předpokladů potřebných k použití AR. Na doplnění ještě provedeme KWT: > kruskal.test(zbozi.A ~ vzdelani, data=vydaje) Kruskal-Wallis rank sum test data: zbozi.A by vzdelani Kruskal-Wallis chi-squared = 88.5283, df = 2, p-value < 2.2e-16 Závěry jsou stejné jako testu v JAR. Základní výsledky JAR lze získat i v Excelu použitím jednofaktorové analýzy z Analýzy dat (odezvová veličina musí být zapsána ve zvláštních sloupcích pro každou úroveň faktoru). 157 Kapitola 9: Jednoduchá lineární regrese a korelace Klíčové pojmy: regresní přímka, závislost funkční a statistická, regrese, korelace, elementární popis závislostí, bodový diagram, graf podmíněných průměrů, teoretická a empirická regresní přímka, metoda nejmenších čtverců, systém normálních rovnic, korelační a regresní koeficient, koeficient determinace a jeho interpretace, predikce, interpretace odhadnutých regresních parametrů, nelineární regrese Cíle kapitoly: - pochopení principů jednoduché lineární regrese; - být schopni odhadnout a interpretovat parametry regresní přímky; - umět vypočítat a interpretovat ukazatele síly jednoduché lineární závislosti; - naučit se využívat regresi k analýze a k predikci. Čas potřebný ke studiu kapitoly: 10 hodin Výklad: Nastínění obsahu kapitoly. Úvod 158 Elementární popis závislostí Regresní přímka a její odhad Metoda nejmenších čtverců Síla lineární závislosti Interpretace odhadnutých regresních parametrů Další typy regresních funkcí Vyrovnání regresní přímky v Excelu a v R Struktura výkladu Regresní a korelační analýza umožňuje výrazně rozvinout způsob vašeho statistického myšlení a navršit kvalitu a efektivnost práce s ekonomickými daty R.Hindls Úvod Budeme se zabývat studiem závislostí statistických veličin. Závislost funkční (pevná, deterministická): - v matematice, fyzice, technické praxi; - vzájemné jednoznačné přiřazení; - např. objem koule , dráha volného pádu 2 2 gt s  . Závislost statistická (volná, nedeterministická): - obecnější závislost studovaná ve statistice; 3 3 4 rV  159 - při změnách jedné veličiny dochází ke změnám podmíněných středních hodnot druhé veličiny; - Např. závislost středních výdajů rodiny na počtu členů rodiny, poptávky na ceně apod. - Závislost je ovlivňována řadou dalších nekontrolovatelných vlivů i chyb (příjmy a velikost rodiny, její návyky apod.). Studiem statistických závislostí se zabývá regresní a korelační analýza - Pojem regrese - zaveden F. Galtonem koncem 19. století. - Vyšetřoval závislost výšky synů na výšce jejich otců; - zjistil tendenci jit ve výšce zpět k celkovému průměru; - původní význam slova "regression" byl proto návrat zpět. - Regresní analýza - zkoumání průběhu statistické závislosti, tj. závislosti změn podmíněných průměrů vysvětlované proměnné na změnách vysvětlující proměnné. - Vysvětlujících proměnných může být více; - hledáme tvar tzv. regresní funkce, jejímž grafem je odpovídající regresní křivka; - na základě náhodného výběru najdeme empirickou regresní funkci, která představuje její odhad, a provádíme její analýzu. - Korelační analýza - určování stupně síly (intenzity) s jakou se statistická závislost projevuje a vypočítat a interpretovat číselné charakteristiky (míry) této závislosti. - Obě disciplíny se vzájemně prolínají a budeme je probírat souběžně. Elementární popis závislostí Metody popisu: - korelační tabulka a její graf; - bodový (rozptylový) diagram; - graf podmíněných průměrů (popř. i rozptylu). Příklad 1: Viz Stuchlý (1999b), s. 8-9. 160 Regresní přímka a její odhad Statistickou lineární závislost vysvětlované náhodné veličiny Y (regresand) na jedné vysvětlující veličině X (regresor) zapisujeme rovnicí (teoretický neboli populační regresní model) E(Y|x) = 0 + 1 x, kde 0 a 1 jsou regresní parametry (absolutní člen a směrnice). Podmínku v střední hodnotě obvykle vynecháváme. - Např. závislost průměrné poptávky Y na ceně x. Jde o lineární regresní funkci a jejím grafem je regresní přímka. Hlavní úloha: odhad regresních parametrů. Použijeme k tomu dvourozměrný náhodný výběr dvojic n pozorování (x1,y1), (x2,y2),....,(xn,yn). Rovnici přepíšeme do stochastického tvaru: yi = 0 + 1 xi + i = E(Y|xi) + i , i = 1,…,n, kde i představuje náhodné složky (chyby měření). Regresní koeficienty odhadneme metodou nejmenších čtverců (MNČ). Jejich odhady označíme b0 a b1 Odhadnutá regresní funkce je což představuje výběrový (empirický) regresní model Jiný tvar zápisu modelu yi = b0 + b1 xi + ei, kde ei = yi –(b0 + b1xi) jsou odhady náhodné složky - tzv. rezidua = empirická (naměřená) hodnota minus vyrovnaná hodnota; ,1,...,,ˆˆˆ i1010 nixbbxy ii   161 residuals = empirical – fitted values. Grafem je odhadnutá (empirická) regresní přímka Metoda nejmenších čtverců Grafické znázornění vyrovnání MNČ: Za optimální vyrovnání volíme to, které minimalizuje součet čtverců reziduí (naznačené čtverce). Zdroj: Komárek 2007a 162 Matematický princip MNČ: b0, b1 dostaneme minimalizací funkce Představuje součet čtverců rozdílů mezi empirickými a vyrovnanými hodnotami regresandu. Derivováním podle proměnných b0, b1, položením těchto rovnic nule a úpravou dostaneme systém normálních rovnic (SNR) pro neznámé parametry b0 n + b1 xi =  yi , b0  xi + b1  xi 2 =  xi yi . Řešením SNR dostaneme MNČ-odhady regresních parametrů S využitím kovariance a dalších výběrových charakteristik odtud dostaneme hledané odhady kde jsou výběrové průměry, je výb. rozptyl a je výběrová kovariance. Síla lineární závislosti: Jako míra síly (intenzity) lineární závislosti Y na X se používá korelační koeficient Zde sx , sy jsou výběrové směrodatné odchylky a .)()S( 2 i10 n 1=i i10, xbbybb     ,22 2 0         ii iiiii xxn yxxxy b   .221         ii iiii xxn yxyxn b ,)(ˆ,, 11021 xxbyyxbyb s s b x xy     n i i n i i y n yx n x 11 1 , 1 2 1 22 1 2 1 )( 1 xx n xx n s n i i n i ix       n i ii n i iixy yxyx n yyxx n s 11 1 ))(( 1 yx xy yx ss s r           n i ii n i iixy yxnyx n yyxx n s 11 1 ))(( 1 163 je výběrová kovariance. Význam a interpretace ryx je znám z popisné statistiky. Pro ruční výpočet lze použít vzorec Síla obecné závislosti se obvykle také popisuje koeficientem determinace R2 , který u regresní přímky je roven čtverci korelačního koeficientu. Interpretace R2 : - Udává, jakou část změn vysvětlované proměnné je možno vysvětlit změnami vysvětlující proměnné (obvykle se vyjadřuje v %). Regresní rovnici lze použít na předpověď (predikci) hodnoty vysvětlované proměnné y, když za x dosadíme do regresní rovnice zadanou hodnotu vysvětlující proměnné. Příklad 2: V určité obci s 55 obyvateli byl proveden průzkum poptávky Y po určité zbožní komoditě v závislosti na ceně xi. Při ceně 1 Kč byla poptávka u 7 obyvatel v množstvích 45, 46, 47, 48, 49, 50 a 51 kusů, při ceně 2 Kč byla poptávka u 5 obyvatel v množstvích 44, 45, 46, 47, 48 kusů. Další údaje o této poptávce v závislosti na ceně jsou uvedeny v 1. a 2. sloupci následující tabulky. Doplníme do tabulky podmíněné hodnoty poptávky v závislosti na ceně E(Y | xi). Znázorníme do jednoho obrázku bodový diagram závislosti poptávky na ceně a vypočítané podmíněné průměry. Spojíme tyto průměry populační regresní čarou (regresní přímka). Řešení provedeme do tabulky: , // / n 1=i 2n 1=i i 2 i n 1=i 2n 1=i i 2 i n 1=i i n 1=i i n 1=i ii yx                                     nyynxx nyxyx r Cena [Kč] xi Poptávka [kusů] Y Počet zákazníků E(Y | xi) 1 45 46 47 48 49 50 51 7 48 2 44 45 46 47 48 5 46 3 40 42 44 46 48 5 44 4 35 38 42 44 46 47 6 42 5 36 39 40 42 43 5 40 6 32 35 37 38 39 42 43 7 38 7 32 34 36 38 40 5 36 8 31 32 33 34 35 36 37 7 34 9 28 30 32 34 36 5 32 10 29 30 31 3 3 Součet  55  164 Závislost poptávky Y na ceně X: Příklad 3: Pro data z předcházejícího příkladu byl proveden náhodný výběr. Jeho výsledek je v 1. a 2. sloupci následující tabulky. Odhadneme rovnici příslušné výběrové regresní funkce. Data a výpočty jsou v tabulce: Základní číselné charakteristiky: xi yi xiyi xi 2 i ˆy ei ei 2 yi 2 1 49 49 1 47,509 1,4909 2,2228 2401 2 45 90 4 45,352 -0,3515 0,1236 2025 3 44 132 9 43,194 0,8061 0,6497 1936 4 39 156 16 41,036 -2,0364 4,1468 1521 5 38 190 25 38,879 -0,8788 0,7723 1444 6 37 222 36 36,721 0,2788 0,0777 1369 7 34 238 49 34,564 -0,5637 0,3177 1156 8 33 264 64 32,406 0,5940 0,3528 1089 9 30 270 81 30,248 -0,2484 0,0617 900 10 29 290 100 28,091 0,9091 0,8265 841 55 378 1901 385 378,000 0 9,5515 14682 x n xi i n     1 5 5 1 , , y n yi i n     1 37 8 1 , , s n x xx i i n 2 2 1 2 21 38 5 55 8 25       , , , , sy 2        1 14682 37 8 39 362 1 2 2 n y yi i n , . sx = 2,87, sy = 6,27, s n x y xyi i i n yx         1 190 1 5537 8 17 8 1 , , . , , 165 Odhady regresních parametrů: b s sx 1 2 17 8 8 25 2 1576     yx , , , , b y b x0 1   37,8 - (-2,1576).5,5 = 49,6670. Odhad regresní přímky: )(ˆ 1 xxbyy  = 37,8 - 2,1576(x - 5,5) = 49,6770 - 2,1576 x. Výběrová závislost poptávky Y na ceně x: Síla lineární závislosti Korelační koeficient: Znamená to, že síla lineární závislosti je velká a nepřímá (s růstem ceny klesá poptávka) – viz obrázek. Koeficient determinace R2 = (-0,989)2 = 0,978 Znamená to, že změnami cen je vysvětleno 97,8% změn poptávky. .989,0 27,6.87,2 8,17 10/3781468210/55385 10/551901 // / 22 n 1=i 2n 1=i i 2 i n 1=i 2n 1=i i 2 i n 1=i i n 1=i i n 1=i ii yx                                            nyynxx nyxyx r 166 Interpretace odhadnutých regresních parametrů Důležitá je směrnice regresní přímky b1. Nazýváme jí regresním koeficientem. Udává, o kolik se změní vysvětlovaná proměnná, když se vysvětlující proměnná změní o jed- notku. Absolutní člen b0 má význam jen v některých situacích. V uvedeném př. 3: je rovnice regresní přímky E(Y)=49,7-2,16x. Interpretace b1: Zvětší-li se cena o 1 Kč, sníží se poptávka v průměru o 2,16 ks. Interpretace b0: Poptávka při nulové ceně je v průměru 49,7 ks. Predikce: Při ceně x=5,50Kč je předpověď poptávky y=49,7-2,16.5,50=37,8 ks. Další typy regresních funkcí Pokud vidíme z bodového diagramu, že mezi proměnnými je nelineární statistická závislost, můžeme často i tuto nelineární regresní funkci pomocí vhodné transformace převést na lineární a tuto potom vyrovnat MNČ. Např. funkci y = a + b/z + e převedeme na regresní přímku transformací x = 1/z. Exponenciální závislost y = ea+bz+e nebo mocninnou y = azb převedeme na lineární logaritmováním této rovnice. Příklad 4: Viz Stuchlý (1999b), s. 41-42. Vyrovnání regresní přímky v Excelu a v R Regresní přímka v Excelu: - Vyrovnání lineární regresní funkce i korelační koeficient: Analýza dat – Regrese. - Korelační koeficient dostaneme i pomocí statistické funkce Corel. 167 Regresní přímka v R: - V Statistics – Fit model - Linear regression vytvoříme i odhadneme model. - Graf dostaneme v Graphs – Scatterplot (necháme zaškrtnuté jen Least-squares line. - Bodovou předpověď dostaneme příkazem: predict(model, newdata=data.frame( prom= ). Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 169-210. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999. S. 5-15, 21-22, 25-26, 41-43. ISBN 80-7079-035-0. Doporučené studijní zdroje: GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. S. 152-177, 216-225. ISBN 978-80-251-2465-9. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 122-132, 146-154. ISBN 80-7169-255-7. HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 19-32, 44-59, 72-77. ISBN 80-7261-013-9. JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 9-14, 31-32, 37-39, 54-57. ISBN 80-7079-328-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 213-215, 222-236, 249-250. ISBN 978-80-86446-40. MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita, 1995. S. 94-112. ISBN 80-7157-166-0. 168 ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 56-58. ISBN 978-80-245-1514-4. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 167-187, 202-214. ISBN 80-7187-058-7. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 309-325. ISBN 80-7169-089-9. WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 388-407, 487-500, 514-522. ISBN 80-85605-09-0. Otázky a úkoly 1) Pracovník personálního oddělení určitého podniku zkoumá, zda existuje vztah mezi počtem dní absence v práci a věkem pracovníka. Náhodně vybere pracovní záznamy 10 pracovníků a získá údaje o jejich věku xi (v letech) a počtu dní yi, v kterých nenastoupili do práce v době jednoho kalendářního roku. Údaje jsou v následující tabulce: xi 27 61 37 23 46 58 29 36 64 40 yi 15 6 10 18 9 7 14 11 5 8 Určete: a) bodový odhad regresní přímky (napište i systém normálních rovnic), b) charakteristiky popisující sílu této závislosti a interpretujte jejich význam, c) interpretujte odhadnutý regresní koeficient, d) odhadněte průměrný počet dní absence pro 26-ti letého pracovníka. 2) Hodláte prodat auto, které má najeto 30000 km, a chcete si udělat představu o jeho prodejní ceně. V bazaru stojí 50 aut téže značky, údaje o ceně a počtu najetých kilometru naleznete v datovém souboru ojetiny.dat, resp. ojetiny.csv. V souboru jsou následující 169 údaje: id (identifikační číslo ojetého auta), cena (cena ojetého auta v tis. Kč), najeto (počet najetých kilometrů v tis. km). Pomocí vhodného obrázku a charakteristiky popište míru závislosti mezi cenou ojetého auta a počtem najetých km. 3) Pro zadání z předchozího úkolu na základě modelu regresní přímky proveďte následující kroky: a) Odhadněte průměrnou cenu nového auta. b) Odhadněte, jak se průměrná cena auta změní s každými 10000 najetými kilometry. c) Pomocí vhodné charaktristiky posuďe vhodnost modelu. d) Rádi byste prodali vaše auto za 150000 Kč. Odpovídá vaše představa cenám ojetin v bazaru? Své rozhodnutí zdůvodněte. 4) Vyrovnejte data ze souboru ojetiny.csv regresní hyperbolou. Porovnejte kvalitu tohoto vyrovnání s vyrovnáním regresní přímkou. Úkoly k zamyšlení a diskuzi 1) Při pokusu najít přímku proloženou MNČ v bodovém diagramu použijeme počítačový program. Ten nám ovšem ukáže, že žádná taková přímka neexistuje. Když si graf prohlédneme, zjistíme, že body jsou rozprostřeny po celém prostoru. Korelace mezi dvěma proměnnými se očividně a) nachází mezi 0 a +1, b) se rovná 0, c) nachází mezi -1 a 0, d) rovná -1. Které z uvedených tvzení platí? 2) Uvažujme lineární regresní závislost mezi ziskem a prodejem. Jaké hodnoty mohou v tomto případě nabývat regresní parametry: negativní nulové nebo pozitivní? Jaká je jejich ekonomická interpretace? Klíč k řešení otázek: 1) Regresní přímka: a) 21,578 - 0,268x, (10b0+421b1=103, 421b0+19661b1=3817); b) r = -0,9325, R2 = 0,8692; c) Zvýší-li se věk pracovníka o 1 rok, sníží se průměrná roční absence o 0,268 hodin; d) 14,6 dní. Podrobné řešení viz Stuchlý (1999b), s. 25-26. 2) Regresní přímka v Excelu: V Analýze dat použijeme nabídku Regrese. Ve vstupním okně vypíšeme: Vstupní oblast Y: B1:B51 (odkaz na ceny); Vstupní oblast X: B1:B51 (odkaz na najeto). Zaškrtneme Popisky a Graf regresní přímky. Z Výstupu: Regresní statistika 170 Násobné R 0,808076 korelační koeficient Hodnota spolehlivosti R 0,652988 koeficient determinace Nastavená hodnota spolehlivosti R 0,645758 korigovaný koeficient determinace Chyba stř. hodnoty 62,03298 residuální standartní chyba Pozorování 50 počet měření Koefi- cienty Hranice 374,7484 najeto -3,18673 Na obrázku je bodový diagram a odhadnutá regresní přímka. Korelační koeficient lze určit v Analýze dat z nabídky Korelace (přejedeme oba sloupce dat). Dostaneme r = -0,808. Interpretace: Mezi cenami a počtem najetých kilometrů je silná nepřímá lineární závislost. 3) Z počítačového výstupu k 2. úkolu dostáváme: a) Průměrná cena nového auta je 375 tis. Kč; b) S každými 10 000 najetými km klesne průměrná cena o 32 tis. Kč; c) Koeficient determinace je R2 = 0,653. Jeho interpretace: Změnami v počtu najetých km je lineárním modelem vysvětleno 65,3% změn cen; d) Předpověď dostaneme dosazením za najeto = 30 tis. Kč do regresní rovnice: průměrná cena = 374,7 – 3,2.najeto = 374,7 – 3,19.30 = 0 100 200 300 400 500 600 0 100 200 cena najeto Závislost ceny na najetých km cena Očekávaná cena 171 279 tis. Kč. Tedy vaše cena 150 tis. Kč představuje značné podhodnocení ceny prodávaného auta. 4) Regresní přímka v R: Odhadujeme model střední cena = β´0+β1.(1/najeto). Postupujeme obdobně jako v úkolu 2, jen místo proměnné najeto použijeme její převrácenou hodnotu, kterou dopočítáme v Excelu. Výstup z Excelu: Regresní statistika Násobné R 0,902415 Hodnota spolehlivosti R 0,814352 Nastavená hodnota spolehlivosti R 0,810484 Chyba stř. hodnoty 45,37278 Pozorování 50 Koefi- cienty Hranice 78,52338 1/najeto 4752,269 172 Rovnice odhadnuté závislosti: střední cena = 78,5 + 4752,3.(1/najeto). Koeficient determinace R2 = 0,902 i obrázek ukazují, že regresní hyperbola představuje lepší vyrovnání než regresní přímka. 173 Kapitola 10: Statistická indukce v regresním modelu Klíčové pojmy: statistická indukce v regresním modelu, residuální rozptyl, standardní chyba odhadu, standardní normální model, standardní chyby regresních parametrů, intervaly spolehlivosti a testy pro regresní parametry, index determinace, bodová a intervalová předpověď, predikční chyba, homoskedasticita, heteroskedasticita, autokorelace, Levenův test, Breutch-Paganův test, Durbinův-Watsonův test, residuální analýza Cíle kapitoly: - uvědomit si možnosti provádění statistické indukce v regresi; - umět ověřovat předpoklady pro použití statistické indukce v regresi; - naučit se interpretovat výsledky statistické indukce v regresi. Čas potřebný ke studiu kapitoly: 11 hodin Výklad: Nastínění obsahu kapitoly. Odhady náhodné složky Standardní normální regresní model (SNRM) 174 Vlastnosti odhadů v SNRM Statistická indukce v SNRM - Intervaly spolehlivosti - Testy Míry síly závislosti Použití modelu na předpověď Ověřování podmínek SNRM Struktura výkladu Suave est ex magno tollere acervo Milo jest bráti z velkého množství Horatius Odhady náhodné složky Náhodné složky i , (i = 1, …,n) odhadujeme pomocí reziduí - Tedy rezidua jsou rozdíly empirických a vyrovnaných hodnot. Nestranný odhad rozptylu náhodné složky: - Je to residuální součet čtverců dělený odpovídajícími stupni volnosti n-2. - Odmocněním dostaneme s - standardní chybu odhadu (SEE). - Charakterizuje přesnost odhadu regresního modelu. Standardní normální regresní model Též klasický regresní model popsaný rovnicí Yi = β0+ β1xi + εi, v kterém jsou plněny podmínky: iii yye ˆ .)ˆ( 2 1 ˆ 1 222     n i ii syy n  175 - náhodné složky i jsou nezávislé, - mají rozdělení N(0; 2 ). Vlastnosti odhadů v SNRM - V standardním normálním regresním modelu pro n=1,…,n platí: - Rozptyly odhadnutých parametrů b0 a b1 obsahují neznámý parametr 2 . Po jeho náhradě odhadem s2 a odmocnění dostaneme standardní chyby odhadnutých regresních parametrů: - Představují odhadnuté směrodatné odchylky odhadů parametrů b0 a b1. - Charakterizují přesnost odhadnutých regresních parametrů. Statistická indukce v SNRM Intervaly spolehlivosti pro regresní parametry (i = 0, 1): P(bi-t1-/2(n-2)s(bi)i bi+t1-/2(n-2)s(bi))=1-. Interval spolehlivosti pro rozptyl náhodných složek: Statistické testy v regresním modelu: Testování významnosti regresních parametrů: ,10 iii exbby  b0  N(0;  2 2 x n s i 2 x 2  ), b1  N(1;  2 n sx 2 ), 2 1 2 2 1  n i ie   2 (n-2). s(bo) = s x n s i x 2 2 2  , s(b1) = s 1 2 n sx . .1 )2( )2(s )2( )2(s P 2 /2 2 2 2 /21 2                  n n n n 176 - Testujeme hypotézu H0: i = 0 proti alternativní hypotéze H1: i  0 (i = 0, 1) na hladině významnosti . - Hypotézu H0 zamítáme na kritickém oboru W = {T = bi/s(bi): |T| > t1-/2(n-2)}. - Je-li předem známé, že i > 0 nebo i < 0, používáme potom jednostranné testy. Zobecnění testů významnosti: - Testujeme hypotézu H0: i = i*, kde i* je určitá předem zvolená konstanta, proti H1: i  i*. Testování provádíme stejným způsobem, jen místo dřívějšího testového kritéria používáme kritérium T = (bi - i*)/s(bi). Míry síly závislosti Koeficient determinace: Definujeme vztahem - Zde .12 y R y T S S S S R  S y yi i n y    ( )2 1 je celkový součet čtverců,   n i iT yyS 1 2 )ˆ( teoretický součet čtverců neboli součet čtverců vysvětlený regresí,   n i iR yyS 1 2 i )ˆ( reziduální součet čtverců neboli součet čtverců regresí nevysvětlený 177 Koeficient korelace: Použití regresního modelu na předpověď - Předpověď bodová: - dostaneme jí dosazením za x do předpovědní rovnice. - Předpověď intervalová: - Predikční interval (pro Y): - Predikční chyba: - Je možno počítat i přesnější konfidenční interval pro E(Y). - Konfidenční chyba: Příklad: Statistická indukce v modelu regresní přímky: Z tabulky u příkladu 3 (závislost poptávky q na ceně p) z kap. 9 dostáváme: a) Odhad rozptylu 2 náhodných složek a všech standardních chyb: b) Intervaly spolehlivosti pro regresní parametry: P(bi-t1-/2(n-2)s(bi) i bi+t1-/2(n-2)s(bi))=1-, i = 0, 1. yx yx yx ss s r     1))()2()()2(( 2/12/1 PPPP ysntyYysntyP 2 x 2 )(1 1)( sn xx n sys P   2 x 2 )(1 )( sn xx n sys c   1,0926,=s,1939.15515.9 210 1 2 1 )ˆ( 2 1 ˆ 1 1 2222           n i n i iii e n yy n s ,7464.0 25,8.100 385 0926.1)( 22 2 0   x i sn x bs .1203.0 25.810 1 0926.1 1 )( 21  xsn bs 178 P(-2,1576-2,306.0,1203 1 -2,1576+2,306.0,1203) = 0,95, tj. P(-2,435 1  -1,880)=0,95, P(49,667-2,306.0,7464 0 49,667+2,306.0,7464) = 0,95, tj. P(47,946 0  51,388)=0,95, c) Test významnosti regresních parametrů: T = b1/s(b1) = -2,1576/0,1203 = -17,94, |T| = 17,97 > t0,975(8) = 2,306, T=b0/s(b0)=49,667/0,7464=66.54 |T| = 66.54 > t0,975(8)=2,306, tj. oba koeficienty jsou statisticky významné d) Koeficient (index) determinace a korelační koeficient: e) Prezentaci výsledků: = 49,6670 - 2,1576 xi ; R2 = 0,9757 se = (0,7464) 0,1203) , s.v. = 8 t = (66,538) (-17,935) f) Předpověď (predikci): a) bodovou: pro x = 5,5 je y = 49,6670 - 2,1576.5,5 = 37,799, b) intervalovou: predikční chyba: R2 = I S S S S T y R y yx 2 1   = 1 - 9,5515/(10.39,39) = 0,9757, r s s s yx yx x y  = -17,8/(2,87.6,27) = 0,989. yˆ 2 x 2 )(1 1)( sn xx n sys P   = 1,0926 1 1 10 55 55 108 25 2   ( , , ) . , = 1,146,    1))()2()()2(( 2/12/1 PPPP ysntyYysntyP 179 predikční interval: P(37,799-2,306.1,146 Y 37,799+2,306.1,146) = 0,95, tj. P(35,156  Y  40,442) = 0.95 Základní výsledky je možno získat i v Excelu: Ověřování podmínek SNRM Normalita chyb: - SWT aplikovaným na rezidua. - QQ-diagram reziduí. Homoskedasticita chyb (rozptyl se nemění s i) - Levenovým nebo Breusch-Paganovým testem (v R). - Grafem závislosti reziduí na pořadí měření nebo na hodnotách vysvětlované proměnné, krabicový diagram. Nezávislost chyb (nepřítomnost autokorelace = sériová závislost). - Durbinůvo-Watsonovým testem (DWT) reziduí - viz Hindls (2007), s. 320. - Grafem závislosti reziduí na pořadí měření nebo proměnných. Z grafu reziduí je možno usuzovat na následující problémy v regresním modelu (residuální ana- lýza): 180 Zdroj: Komárek 2007a Odstraňování problémů v regresním modelu: Nenormalita chyb: - Použijeme jiný model nebo transformovaný model. Heteroskedasticita chyb: - Odstraníme odlehlá pozorování. - Místo MNČ použijeme metodu vážených nejmenších čtverců (viz Stuchlý 2000). Porušená nezávislost chyb: - Použijeme pokročilejší metody odhadu (zobecněná metoda nejmenších čtverců, ARIMA metody, metoda maximální věrohodnosti – viz Stuchlý 2000). R-kové příkazy: - Regresní modely (v Statistics - Linear model…): lm(y~x, data=); lm(y~I(1/x), data=); lm(y~I(log(x),data=); lm(y~I(sqrt(x), data=); lm(y~x+I(x^2), data=). - Odhady a testy regresních parametrů (po aktivaci balíku vsePackage): lmbeta.test(model, beta.null= , alternative= , conf.level= ) 181 - Předpovědi (predikční a konfidenční): predict(model, newdata=data.frame(x= ), interval=„prediction“, level= ); predict(model, newdata=data.frame(x= ), interval=„confidence“, level= ). - Levenův test: skupiny <- (data$x >= median(data$x)); levene.var.test(residuals(model)~skupiny). Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 226-234. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999. S. 17-22, 25-27. ISBN 80-7079-035-0. Doporučené studijní zdroje: HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 132-138, 140-142. ISBN 80-7169-255-7. HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 59-68. ISBN 80-7261-013-9. JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 39-46. ISBN 80-7079- 328-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 215-222. ISBN 978-80-86446-40. 182 MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita, 1995. S. 114-118, 120-123. ISBN 80-7157-166-0. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 193-197, 236-243. ISBN 80-7187-058-7. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 325-330. ISBN 80-7169-089-9. WONNACOT, T.H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 408-429, 500-512. ISBN 80-85605-09-0. Otázky a úkoly 1) V úkolu 1 kap. 9 jsme odhadli závislost mezi počtem dní absence y a věkem pracovníka x (v letech) lineární regresní funkcí tvaru E(Y) = 21,59 – 0,27x a sílu lineární závislosti popsali korelačním koeficientem r = -0,933. a) Testujte významnost regresního koeficientu a určete příslušný interval spolehlivosti. b) odhadněte bodově i intervalově průměrný počet dní absence pro 26-ti letého pracovníka, c) odhadněte bodově i intervalově počet dní absence v letech pro jednoho 26-ti letého pracovníka. 2) V úkolech 2-3 kap. 9 jsme řešili v Excelu základní zadání z regrese a korelace. Nyní si vyřešte v R tato zadání, rozšířená o statistickou indukci. Tedy hodláte prodat auto, které má najeto 30000 km, a chcete si udělat představu o jeho prodejní ceně. V bazaru stojí 50 aut téže značky, údaje o ceně a počtu najetých kilometru naleznete v datovém souboru ojetiny.dat. a) Pomocí vhodného obrázku a charakteristiky popište míru závislosti mezi cenou ojetého auta a počtem najetých km. b) Odhadněte bodově a intervalově vprůměrnou cenu nového auta. c) Odhadněte bodově a intervalově, jak se průměrná cena auta změní s každými 10000 najetými kilometry. d) Otestujte, zda cena auta závisí 183 na počtu najetých kilometrů. e) Otestujte, zda cena auta klesá s počtem najetých kilometrů. f) Odhadněte bodově a intervalově průměrnou cenu aut, které mají najeto stejně jako vaše auto, tj. 30000 km. g) Rádi byste prodali vaše auto za 150000 Kč. Odpovídá vaše představa cenám ojetin v bazaru? Své rozhodnutí zdůvodněte. h) Ověřte předpoklady regresní analýzy. 3) Porovnání modelů. Vyberte pro data ze souboru ojetiny2.dat nejvhodnější jednovýběrovou regresní funkci pro závislost ceny ojetého auta na počtu najetých km. Použijeme tyto regresní funkce: a) přímku, b) odmocninovou funkce, c) hyperbolu, d) logaritmickou funkci, e) kvadratickou funkci. Rozhodování provedeme pomocí R2 , s a bodového diagramu. Řešte úlohu v R. Úkoly k zamyšlení a diskuzi 1) Uvažujte o analogii mezi jednovýběrovým t-testem o průměru a testy o regresních pa- rametrech. 2) Pokuste se řešit předcházející řešený úkol 2 pomocí regresní hyperboly. Klíč k řešení otázek: 1) Statistická indukce v regresním modelu: a) Testujeme hypotézu H0: 1 = 0 proti jednostranné alternativě H1: 1 < 0 na hladině významnosti  = 0,05. K tomu účelu použijeme testové kritérium T = b1/s(b1) = -0,2681/0,0367 = -7,305. Protože platí T < -t0,95(8) = -1,860, zamítáme nulovou hypotézu a tvrdíme, že lineární vztah mezi počtem dní absence pracovníka a věkem pracovníka je na 5%-ní hladině významnosti statistiky významný; P(-0,353  1  -0,183) = 0,95. b) E(Y|x=26) = 14,62, P(12,81  E(Y|x = 26)  16,42) = 0,95; c) P(10,48 Yn 18,75) = 0,95. Podrobněji viz Stuchlý (1999b), s. 26. 184 2) Úlohy budeme řešit v R-ku pomocí příkazů (většinu kroků je možno řešit interaktivně, tj. z nabídky). Aktivujeme balík vsePackage a načteme data ze souboru ojetiny.dat. a) Bodový diagram s regresní přímkou dostaneme nabídky Graphs-Scatterplot (označíme cena a najeto a zrušíme Marginal boxplot a Smooth Line, napíšeme do x-axis label: počet najetých km [tis. km] a do y-axis label: cena ojetého auta [tis. Kč] nebo použijeme příkaz (pokud chceme mít i hlavní nadpis): scatterplot(cena~najeto, reg.line=lm, smooth=F, main=“Bodový diagram“, xlab=“počet najetých km [tis. km]”, ylab=”cena ojetého auta [tis. Kč]”, boxplot=F, span=0.5, data=ojetiny) Korelační koeficient příkazem cor(ojetiny$najeto, ojetiny$cena): > cor(ojetiny$najeto, ojetiny$cena) [1] -0.8080765 Regresní přímku dostaneme v nabidce Statistics-Fit models-Linear regression… (zaškrtneme cenu a najeto a stiskneme OK): > RegModel.1 <- lm(cena~najeto, data=ojetiny) > summary(RegModel.1) Call: lm(formula = cena ~ najeto, data = ojetiny) Residuals: 185 Min 1Q Median 3Q Max -117.21299 -45.94419 -0.09883 39.69985 181.49233 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 374.7484 18.1188 20.683 < 2e-16 *** najeto -3.1867 0.3353 -9.504 1.30e-12 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 62.03 on 48 degrees of freedom Multiple R-squared: 0.653,Adjusted R-squared: 0.6458 F-statistic: 90.32 on 1 and 48 DF, p-value: 1.304e-12 Testy a interval spolehlivosti pro regresní parametry dostaneme příkazem lmbeta.test(RegModel.1): > library(vsePackage) > lmbeta.test(RegModel.1) Estimate Std. Error Conf. Alternative Estim. Low Estim. Up (Intercept) 374.748379 18.1188041 0.95 two.sided 338.318082 411.178676 najeto -3.186725 0.3353081 0.95 two.sided -3.860908 -2.512543 Beta H0 t value p value (Intercept) 0 20.682843 1.490125e-25 najeto 0 -9.503872 1.304310e-12 Interpretace regresních parametrů: b) Průměrná cena nového auta je 375 tis. Kč, intervalově od 338 do 411 tis. Kč c) S každými 10 000 najetými km klesne cena o 32 tis. Kč, intervalově od 25,1 do 38,6 tis. Kč d) Testujeme hypotézu H0: β1=0 vs.H1: β1≠0. |T| = 9,5, p-hod.=1,3.10-12 . H0 zamítáme, tj. regresní koeficient je významný, proto cena auta závisí na počtu najetých km. e) Testujeme hypotézu H0: β1=0 vs. H1: β1<0. Pro levostranný test použijeme příkaz lmbeta.test(RegModel.1, beta.null=0, alternative="less"): > lmbeta.test(RegModel.1, beta.null=0, alternative="less") Estimate Std. Error Conf. Alternative Estim. Low Estim. Up Beta H0 t value p value (Intercept) 374.748379 18.1188041 0.95 less -Inf 405.137676 0 20.682843 1.000000e+00 186 najeto -3.186725 0.3353081 0.95 less -Inf -2.624339 0 -9.503872 6.521548e-13 > qt(0.05,48) [1] -1.677224 > Závěr: T = -9,5 < -1,67, p-hod.=6,5.10-13 , proto H0 zamítáme, což znamená, že cena auta významně klesá s počtem najetých kilomertů. f) Bodovou a intervalovou předpověď střední ceny při 30 tis. najetými km dostaneme příkazem predict(RegModel.1, newdata=data.frame(najeto=30), interval= " confi- dence"): > predict(RegModel.1, newdata=data.frame(najeto=30), interval=" confidence ) fit lwr upr [1,] 279.1466 258.0078 300.2854 Závěr: Průměrná cena aut s najetými 30 tis.km je 279 tis.Kč, intervalově od 258 do 300 tis. Kč. g) Bodovou i intervalovou predikci ceny vašeho auta dostaneme příkazem predict(RegModel.1, newdata=data.frame(najeto=30), interval="prediction"): > predict(RegModel.1, newdata=data.frame(najeto=30), interval="prediction") fit lwr upr [1,] 279.1466 152.6423 405.6509 > Závěr: Cena Vašeho auta by měla být 279 tis.Kč, intervalově od 152,6 do 405,6 tis.Kč. Interval je šírší (méně přesný). Vaše představa o ceně je podhodnocená. h) Ověření předpokladu pro korektnost použití statistické indukce v regresi: Výpočetně testujeme normalitu reziduí SWT, homoskedasticitu reziduí Levenovo nebo BreuschPaganovým testem a nezávislost reziduí Durbinovo-Watsonovým testem. Příkazy: shapiro.test(residuals(RegModel.1)) skupiny <- (ojetiny$najeto >= median(ojetiny$najeto)) levene.var.test(residuals(RegModel.1)~skupiny) bptest(cena ~ najeto, studentize=FALSE, data=ojetiny) dwtest(cena ~ najeto, alternative="two.sided", data=ojetiny) Výstupy: > shapiro.test(residuals(RegModel.1)) Shapiro-Wilk normality test data: residuals(RegModel.1) 187 W = 0.9848, p-value = 0.7648 > skupiny <- (ojetiny$najeto >= median(ojetiny$najeto)) > levene.var.test(residuals(RegModel.1)~skupiny) Levene test of homogeneity of variances data: residuals(RegModel.1) by skupiny Levene's F = 0.4992, num df = 1, denom df = 48, p-value = 0.4832 > qf(0.95,1,48) [1] 4.042652 > bptest(cena ~ najeto, studentize=FALSE, data=ojetiny) Breusch-Pagan test data: cena ~ najeto BP = 2.0503, df = 1, p-value = 0.1522 > dwtest(cena ~ najeto, alternative="two.sided", data=ojetiny) Durbin-Watson test data: cena ~ najeto DW = 2.2445, p-value = 0.3847 alternative hypothesis: true autocorelation is not 0 p-hodnoty všech těchto testů jsou vysoké. Proto nezamítáme nulové hypotézy o normalitě, homoskedasticitě a nezávislosti reziduí. Podmínky na použití statistické indukce v regresi jsou splněny. Z grafických ověřovacích metod použijme QQ-diagram a bodový diagram závislosti reziduí na vyrovnaných hodnotách. Použijeme příkazy: par(mfrow=c(1,2), bty="n") qqnorm(residuals(RegModel.1), main="normalni QQ graf pro rezidua", xlab="teoreticke kvantily N(0,1)", ylab="vyberove kvantily", pch=16) abline(a=mean(residuals(RegModel.1)), b=sd(residuals(RegModel.1)), col="blue") resplot(RegModel.1,"e-yhat", lowess=T, main="Rezidua vs. vyrovnane hodnoty", xlab="odhad ceny ojeteho auta [tis. Kc]", ylab="rezidua [tis. Kc]", pch=16) Výstup: QQ-diagram potvrzuje normalitu a bodový diagram reziduí ukazuje, že na vyrovnání dat nebyla použita optimální regresní funkce (residua by měla náhodně kolísat okolo nuly). Lepší výsledky než regresní přímka by dala regresní hyperbola. 188 3) Porovnání regresních modelů: Načteme data do R. Následujícími příkazy vytvoříme a vypíšeme výsledky pro jednotlivé regresní modely: model01 <- lm(cena~najeto, data=ojetiny2) model02 <- lm(cena~I(sqrt(najeto)), data= ojetiny2) model03 <- lm(cena~I(1/najeto), data= ojetiny2) model04 <- lm(cena~I(log(najeto)), data= ojetiny2) model05 <- lm(cena~najeto+I(najeto^2), data= ojetiny2) summary(model01) summary(model02) summary(model03) summary(model04) summary(model05) Z jednotlivých výstupů můžeme shrnout tyto výsledky pro odhadnuté funkce: a) y = 458,5 – 5,8x + e, R2 = 0,762, s = 65,4 b) y = 634,7 - 67,5√x + e, R2 = 0,850, s = 51,9 c) y = 130,4+2689,7/x + e R2 = 0,791, s = 61,27 d) y = 851,5-169,7ln(x)+e R2 = 0,890, s = 44,42 e) y = 589,9-15,8x+0,134x2 +e R2 = 0,913, s = 39,9 K sestrojení bodových diagramů použijeme příkazy: par(mfrow=c(3,2)) usek <- seq(5,75,by=0.1) 189 plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni primka", ylab="cena auta [tis. Kc]", xlab="najeto [tis. km]") lines(usek, predict(model01, newdata=data.frame(najeto=usek))) plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni odmocnina", ylab="cena auta [tis. Kc]", xlab="najeto [tis. km]") lines(usek, predict(model02, newdata=data.frame(najeto=usek))) plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni hyperbola", ylab="cena auta [tis. Kc]", xlab="najeto [tis. km]") lines(usek, predict(model03, newdata=data.frame(najeto=usek))) plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni logaritmus", ylab="cena auta [tis. Kc]", xlab="najeto [tis. km]") lines(usek, predict(model04, newdata=data.frame(najeto=usek))) plot(ojetiny2$cena~ojetiny2$najeto, pch=16, main="Regresni parabola", ylab="cena auta [tis. Kc]", xlab="najeto [tis. km]") lines(usek, predict(model05, newdata=data.frame(najeto=usek))) Výstup: Závěr: Nejlepší vyrovnání poskytuje regresní parabola (kvadratická funkce). 190 Kapitola 11: Vícerozměrná regrese Klíčové pojmy: vícerozměrná regrese, obecný lineární model, absolutní a relativní pružnosti, elasticity, B-keficienty, reziduální rozptyl, standardní normální model, F-testy v regresních modelech, koeficient (index) mnohonásobné determinace, koeficient parciální a mnohonásobné korelace, korigovaný koeficient determinace, intervaly spolehlivosti pro korelační koeficient, testy o korelačních koeficientech, multikolinearita, umělé proměnné v regresi Cíle kapitoly: - pochopení pojmu vícenásobná regrese a korelace; - porozumění základním cílům strategie analýz závislostí numerických proměn- ných; - znalost metod odhadů vícerměrných modelů; - naučit se pomocí umělých proměnných zahrnovat mezi regresory i nominální pro- měnné. Čas potřebný ke studiu kapitoly: 13 hodin 191 Výklad: Nastínění obsahu kapitoly. Vícerozměrná regrese Interpretace regresních koeficientů Statistická indukce v regresní analýze Použití modelu na předpověď Ukazatele síly vícerozměrné lineární závislosti Statistická indukce v korelační analýze Ověřování podmínek SLRM Umělé proměnné v regresi Struktura výkladu Durante causa, durant effectus – cesante causa, cessant effectus Dokud trvá příčina, trvá důsledek – ustává-li příčina, ustává také důsledek Bacon Vícerozměrná regrese Obecný lineární model: yj = 0 + 1x1j+2x2j+...+pxpj+ j, j=1,2,...,n; - obsahuje p vysvětlujících proměnných (regresorů), p+1 neznámých parciálních regresních parametrů a náhodnou složku; - 1, 2, …, p nazýváme dílčí (parciální) regresní koeficienty (tzv regresní nadrovina). Příklad: Pro p = 2 - závislost výnosů y na ceně x1 a nákladech na reklamu x2. 192 yj = 0 + 1x1j+2x2j + j, j = 1,2,...,n, - Jde o tzv. regresní rovinu. - Přesnější označení regresních koeficientů: βyx1.x2 , βyx2.x1. Regresní parametry odhadujeme opět MNČ. - Jejich ruční výpočet je komplikovaný (opírá se o maticový zápis). - Používáme proto vhodný statistický program. Odhadnutý regresní model = b0 + b1x1 + b2x2 + ... + bpxp Interpretace dílčích parciálních regresních koeficientů bj a použití výsledků k analýze: - Když se zvětší xi (i = 1,…,p) o jednotku a ostatní vysvětlující proměnné zůstanou stejné, udává bi, o kolik se v průměru změnila hodnota vysvětlované proměnné y. - Ekonomický význam - Udávají empirické absolutní pružnosti: - Lze pomocí nich počítat okamžité relativní pružnosti (elasticity): - Protože definici relativní pružnosti lze numericky aproximovat vzorcem (tzv. empirické elasticity): plyne odtud, že relativní pružnosti vyjadřují separovanou procentuální změnu vysvětlované proměnné y odpovídající jednotkové procentuální změně vysvětlující proměnné Xi. B-koeficienty: - Pro i= 1,...,p jsou definovány vzorci yˆ . i i x y b    .,...,1, yln ln :E i i iii i pi x x y x y x y       ,,...,1, 100 x 100 :E i iii i pi x y y x y x y        . y x iyx i i s s bB  193 - Představují též dílčí korelační koeficienty. - Lze je také počítat jako - parciální regresní koeficienty mezi odpovídajícími standardizovanými proměn- nými, - nebo pomocí párových korelačních koeficientů. - Používáme je k výpočtu veličin které udávají, jak se podílí změny jednotlivých vysvětlujících proměnných na variabilitě (změnách) vysvětlované proměnné. - Intenzitu vlivu jednotlivých proměnných lze vyjádřit v procentech. - Příklad na interpretaci - Hindls (2007), s. 218-219 nebo Stuchlý (1999b), s. 52. Odhad rozptylu náhodné složky: - Provádíme opět reziduálním rozptylem kde ej jsou rezidua (rozdíly naměřených a odhadnutých hodnot vysvětlované pro- měnné). - Tento odhad je nestranným odhadem. - Další regresní analýza se provádí obdobně jako v modelu regresní přímky. - V dalším upozorníme na případné rozdíly. Statistická indukce v regresmí analýze Standardní regresní model: Splňuje podmínky standardizace, tj. pro j = 1,2,...,n platí: 1) náhodné složky j mají normální rozdělení (normalita), 2) E(j) = 0 (vhodnost lineárního modelu - kolísání chyb kolem nuly), 3) D(j) = 2 (homoskedasticita), 4) cov (j,k) = 0  j k (nezávislost, resp. nekorelovanost chyb), , || || p 1=i yx yx i i  B B   n j je pn s 1 22 1 1 194 5) proměnné xi (i = 0,1,...,p) a x0 (vektor jedniček) jsou nenáhodné a vzájemně lineárně nezávislé (v modelu není multikolinearita). Potom MNČ-odhad je nejlepší lineární nestranný odhad (BLUE) regresních parametrů a statistickou indukci (intervaly spolehlivosti a testy) můžeme provádět obdobně jako v modelu regresní přímky. 100(1-)% intervaly spolehlivosti pro regresní parametry: P(bi - t1-/2(n-p-1) s(bi)  i  bi + t1-/2(n-p-1) s(bi)) = 1 - , i = 0,1,...,p. Testy o regresních parametrech: - Pro i = 0,1,...,p testujeme hypotézy H0: i = 0 proti alternativním hypotézám H1: i  0 na hladině významnosti . - H0 zamítáme na kritickém oboru W = {T = bi/s(bi): |T| > t1-/2(n-p-1)}. - Nezamítnutí H0 interpretujeme jako statistickou nevýznamnost regresního parametru i. - Znamená to, že na proměnnou Y buď nepůsobí významně proměnná Xi (je jí třeba z modelu vypustit) nebo nemáme vhodná data. - Testy je možno zobecnit. Celkový F-test o regresním modelu: Testujeme hypotézu H0: 1= 2= ... = p = 0 proti alternativní hypotéze H1, že aspoň jeden z těchto koeficientů je nenulový. Jde o celkový F-test. Testové kritérium: - Zde ST je teoretický či regresí vysvětlený a SR je reziduální součet čtverců. Jsou počítány v speciální analýze rozptylu. - Kritický obor: W = {F: F > F1-(p;n-p-1)}. Na postupném vynechávání nevýznamných regresorů je založena tzv. metoda stupňovité re- grese.        )1/()ˆ( /)ˆ( 1 2 2 pnyy pyy pn S p S F jj j R T 195 Zobecnění celkového F-testu: V modelech s více vysvětlujícími proměnnými je možno uvedený test zobecnit tak, že testujeme hypotézu, že jen posledních r parametrů je statisticky nevýznamných, tj. hypotézu H0: p = p-1 = ... = p-r+1 = 0 proti opačné alternativě H1. Označme Rr 2 koeficient determinace redukovaného modelu. K testování použijeme testové kritérium Kritický obor: W = {F: F > F1-(r;n-p-1)}. Předpovědi v regresním modelu Bodová předpověď pro X1=x1*, X2=x2* ,…, Xp=xp* (kde hvězdičkované hodnoty jsou hodnoty regresorů, v kterých počítáme předpověď) je y* = b0+b1x1*+b2x2*+...+bpxp* Predikční interval pro jednotlivé hodnoty Y, resp. konfidenční interval pro E(Y), počítáme pomocí statistického programu jako u regresní přímky, jen musíme zadat hodnoty všech regresorů (hvězdičkové hodnoty). Ukazatelé síly vícenásobné lineární závislosti Koeficient (index) mnohonásobné determinace Po převedení na procenta udává, kolik procent změn vysvětlované proměnné lze vysvětlit změnami vysvětlujících proměnných. )1,( )1/()1( /)( 2 22     pnrF pnR rRR F r . )( 1 )( )ˆ( 2 j 2 j 2 j 2 j2          yy e yy yy R 196 Koeficient mnohonásobné korelace r: Dostaneme ho odmocněním koeficientu mnohonásobné determinace. Platí 0 r 1. Vícenásobná lineární závislost se popisuje i dílčí korelační koeficienty - viz Hindls (2007), s. 220-222. Statistická indukce v korelační analýze Test významnosti koeficientu determinace: Je ekvivalentní s testem o významnosti celého modelu. Testujeme hypotézu H0: R2 = 0 proti alternativě H1: R2  0. Testové kritérium: Kritický obor: W = {F: F > F1-(p;n-p-1)}. Korigovaný (adjustovaný) koeficient determinace: Platí a odtud dostáváme, že platí Při zvyšování počtu vysvětlujících proměnných se automaticky zvyšuje i R2 , i když kvalita modelu se nemusí zlepšovat. Proto při porovnávání kvality modelů s různým počtem proměnných je lepší používat korigovaný koeficient determinace. Intervaly spolehlivosti pro korelační koeficient: Viz Hindls (2007), s. 230-232. Testy o korelačních koeficientech: Viz Hindls (2007), s. 234-238. . )1/()1( / 2 2   pnR pR F      n 1j= 2 j n 1j= 2 j 2 )1/()( )1/()ˆ( 1 nyy pnyy R 1 )1( 222   pn p RRR .22 RR  197 Příklady: Viz Stuchlý (1999b), s. 50-58. V ekonomické praxi potřebujeme často odhadnout i nelineární regresní model (např. CobbDouglasovu produkční funkci). Obvykle používáme k tomu logaritmickou transformaci. Viz Hindls (2007), s. 223-224. - Pokud nelze model linearizovat – používáme nelineární MNČ (např. v R). Ověřování podmínek SNRM Ověřování provádíme obdobně jako u regresní přímky. Navíc musíme ověřit, zda v modelu není multikolinearita. Pokud je mezi regresory lineární závislost, říkáme, že v modelu je perfektní multikolinearita. Model MNČ pak nelze odhadnout (závislý regresor musíme vynechat). Jsou-li regresory silně skorelované, je v modelu silná multikolinearita a odhad získaný MNČ nemá dobré statistické vlastnosti. Viz Hindls (2009), s. 224-226. Umělé proměnné v regresi Vícerozměrná regrese s kvantitativními i kvalitativními regresory: Používá se v analýze dat ke zkoumání závislosti numerické proměnné na numerických i nominálních proměnných. Pokud dáváme do lineárního modelu více vysvětlujících proměnných (regresorů), rozhoduje o tom, které proměnné do modelu zařadit, příslušný párový korelační koeficient mezi vysvětlovanou proměnou (Y) a regresorem (určíme ho z korelační matice). Při zařazování kvalitativní proměnné (např. pohlaví, vzdělání) používáme umělé proměnné (UmP) pro její úrovně. Nabývají hodnoty 1, pokud kvalitativní proměnná nabude této úrovně a hodnotu 0 v opačném případě. Aby v regresním modelu nebyla multikolinearita (lineární závislost regresorů), musí být počet UmP roven počtu úrovní minus jedna. 198 Úroveň s vynechanou umělou proměnnou nazýváme referenční (obvykle první nebo poslední úroveň). Odhadnuté regresní koeficienty u umělých proměnných udávají, o kolik se změní průměrná hodnota Y, když úroveň UmP přešla z referenční úrovně na uvažovanou úroveň. Např. vzdělání se změnilo ze ZS na SS. Do modelu můžeme zahrnovat i interakce (spolupůsobení) kvantitativní s kvalitativní proměnnou (odhadnutý koeficient u intraktivní proměnné se interpretuje jako změna směrnice při dané úrovni kvalitativní proměnné). Příklady: Viz Stuchlý (2000), s. 49-53 a úkoly řešené na konci kapitoly. Vícerozměrná regrese v R Bodový diagram s vyrovnáním MNČ (viz Úkol 3) hodnoty <- 0:cislo plot(data$x,data$y,pch=16,xlab=„ “,ylab=„ “,main=„ “,ylim=c( , ),col=„barva“) lines(hodnoty, predict(model, newdata=data.frame(x1= ,x2= )), col=„barva“) points(data$x,y,pch= ,xlab=„ “,ylab=„ “,main=„ “,ylim=c( , ),col=„barva“), legend( , ,legend=c(„ “,„ “,…), col=c(„ “,„ “,…),pch=16) Regresní rovina: lm(y~x1+x2, data=název) Model regresní roviny s interakcemi: lm(y~x1*x2, data= ) Vícerozměrná regrese: lm(y~x1+x2+x3+…, data= ) Testování podmodelu: anova(submodel,model) Durbinův-Watsonův test: durbin.watson(residuals(model)) Reziduální grafy: resplot(model, „e-yhat“,…) 199 resplot(model, „e-x“, xterm=„x1“,…) Všechny regresní modely lze také získat interaktivně ze Statistics-Fit model-Linear model… Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 213-226, 230-241. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999. S. 23-25, 47-60. ISBN 80-7079-035-0. Doporučené studijní zdroje: HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 138-146, 154-160. ISBN 80-7169-255-7. HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 77-85. ISBN 80-7261-013-9. JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 46, 76-87, 106-126. ISBN 80-7079-328-7. MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 239-258, 265-275. ISBN 978-80-86446-40. MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita, 1995. S. 124-136. ISBN 80-7157-166-0. SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 219-236, 240-241, 244-253. ISBN 80-7187-058-7. 200 STUCHLÝ, J. Ekonometrie. J. Hradec: VŠE, 2000. S. 31-41, 49-56. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 431-470, 537-556. ISBN 80-85605-09-0. Otázky a úkoly 1) Lékař léčí určitou nemoc dvěma druhy léku. Domnívá se, že pokud budou pacienti užívat oba léky společně ale v různých dávkách, potom se zkrátí počet hodin léčby. Lékař se rozhodne ověřit svůj předpoklad, a aby zachoval stejné podmínky experimentu, umístí v nemocnici 16 náhodně vybraných pacientů s danou nemocí a začne podávat léky formou injekcí se stanovenými dávkami v ml. Tyto údaje pečlivě zaznamenává spolu s celkovým počtem hodin léčby, po kterých je pacient opět zdravý. Údaje jsou uvedeny v souboru lecba.xlsx. a) MNČ odhadněte závislost počtu hodin léčby z na množství prvního léku x v ml a množství druhého léku y v ml a interpretujte získané regresní koeficienty. b) Určete a interpretujte standardní chybu modelu. c) Testujte statistickou významnost obou parciálních regresních koeficientů, interpretujte jejich standardní chyby a testujte model jako celek. d) Určete intervaly spolehlivosti pro parciální regresní koeficienty. e) Určete, jak se na léčbě podílely jednotlivé léky. f) Určete a interpretujte koeficient mnohonásobné determinace počtu hodin léčby. Vypočítejte i adjustovaný koeficient determinace. g) Proveďte bodovou a intervalovou predikci počtu hodin léčby pacienta a průměrného počtu hodin léčby pacienta při dávce prvního léku x = 1 ml a dávce druhého léku y = 2 ml. 2) Použijeme data ze souboru ojetiny2.dat. Na základě modelu vícenásobné regrese, kdy vysvětlovaná proměnná cena v tisících Kč a obě vysvětlující proměnné (počet najetých kilometrů v tisících km a stáří auta v měsících) vstupují do modelu lineárně, proveďte následující kroky: a) Odhadněte bodově i intervalově průměrnou cenu nového auta. b) Odhadněte bodově i intervalově, jak se liší průměrná cena stejně starých aut, pokud jedno auto má najeto o 5000 km více než druhé. c) Otestujte zda cena auta klesá (i) 201 s počtem najetých km (po vyloučení vlivu stáří auta); (ii) se stářím auta (po vyloučení vlivu najetých km). d) Rozhodněte, zda průměrná cena aut, která po zakoupení stojí pouze v garáži, klesá s každým rokem o 40 tisíc Kč. e) Odhadněte bodově i intervalově cenu vašeho auta, které má najeto 30 tisíc km a je staré 2 roky. f) Ověřte předpoklady regresní analýzy. 3) V souboru platy.dat jsou k dispozici údaje o platech (výše měsíční mzdy v Kč) u 100 náhodně zvolených zaměstnanců velké firmy. Kromě výše platu se v datovém zaznamu uvádí rovněž počet odpracovaných let u firmy a dosažené vzdělání zaměstnance (ZS – základoškolské, SS – středoškolské a VS - vysokoškolské). a) Odhadněte funkční předpis závislosti platu zaměstnance (i) se ZS vzděláním, (ii) se SS vzděláním, (iii) s VS vzděláním. b) Odhadněte bodově i intervalově průměrný přírůstek platu za každý odpracovaný rok za předpokladu, že zaměstnanec již při zaměstnání nestuduje. c) Otestujte, zda plat ve firmě po vyloučení vlivu vzdělání roste s počtem odpracovaných let ve firmě. d) Otestujte, zda je rozdíl mezi průměrnými platy ZS a (i) SS, (ii) VS je statisticky významný. V případě že ano, odhadněte bodově i intervalově tento rozdíl. e) Otestujte, zda plat ve firmě po vyloučení vlivu odpracovaných let závisí na vzdělání zaměstnance. Úkoly k zamyšlení a diskuzi 1) Zamyslete se nad tím, jak zapsat výsledky ve vícenásobné regresi a korelaci pomocí matic. 2) Uvažujte o souvislosti JAR a jednoduché lineární regrese, která má za vysvětlující proměnnou kvalitativní veličinu. Klíč k řešení otázek: 1) Regresní rovina v Excelu: a) zˆ = 46,8973 - 1,4528x - 1,3702y, b) 2,52, c) významné, d) -2,68  1  -0,22, -2,00  2  -0,74, e) 35,3% a 64,7%, f) 0,68 a 0,63, g) 42,70 ± 2,99. 202 Podrobný výpočet – viz Stuchlý (1999b), s. 50-53. Základní výsledky získáme v Excelu použitím Regrese z Analýzy dat: 2) Regresní rovina v R: Odhadujeme regresní rovinu s rovnicí E(Y) = β0+β1x1+β2x2, kde Y cena auta (tis. Kč), x1 je najeto (roků) a x2 je stáří auta (měsíců). Načteme měření do datového rámce data. Obvykle začínáme výpočtem korelační matice (Statistics-Summaries-Correlation matrix; podržíme Ctrl a zaškrtneme cena, najeto, stari): > cor(data[,c("cena","najeto","stari")], use="complete.obs") cena najeto stari cena 1.0000000 -0.8728738 -0.6733943 najeto -0.8728738 1.0000000 0.3666705 stari -0.6733943 0.3666705 1.0000000 Závěr: Mezi cenou a oběma regresory (najeto a stáří) je dosti silná lineární nepřímá závislost (-0,873; -0,673). Mezi oběma regresory není významná multikolinearita (r = 0,367). Interpretace regresních parametrů: Použijeme příkazy library(vsePackage), model.v1 <- lm(cena~najeto+stari, data=data) a lmbeta.test(model.v1)): > lmbeta.test(model.v1) Estimate Std. Error Conf. Alternative Estim. Low Estim. Up (Intercept) 525.725902 13.8625756 0.95 two.sided 497.837997 553.613807 najeto -4.815436 0.3198214 0.95 two.sided -5.458834 -4.172039 stari -3.611565 0.4249370 0.95 two.sided -4.466428 -2.756702 Beta H0 t value p value (Intercept) 0 37.92411 6.719919e-37 najeto 0 -15.05664 1.321060e-19 203 stari 0 -8.49906 4.631383e-11 a) Průměrná cena nového auta je 525,7 tis.Kč, tj. od 498,8 do 553,6 tis. Kč. b) O 5x4,82 = 24,1 tis. Kč. c) Levostranné testy o regresních koeficientech: Použijeme příkazy lmbeta.test(model.v1, beta.null=0, alternative="less") a qt(0.95,47): Estimate Std. Error Conf. Alternative Estim. Low Estim. Up (Intercept) 525.725902 13.8625756 0.95 less -Inf 548.986289 najeto -4.815436 0.3198214 0.95 less -Inf -4.278800 stari -3.611565 0.4249370 0.95 less -Inf -2.898552 Beta H0 t value p value (Intercept) 0 37.92411 1.000000e+00 najeto 0 -15.05664 6.605298e-20 stari 0 -8.49906 2.315692e-11 > qt(0.95,47) [1] 1.677927 Závěr: (i) Testujeme H0: β1=0 vs. H1:β1<0, T= -15, p-hodnota = 6,61.10-20 , (ii) Testujeme H0: β2=0 vs. H1:β2<0, T=-8,5, p-hodnota = 2,32.10-11 . V obou případech H0 zamítáme, tj, cena významně klesá s počtem najetých km i se stářím auta. d) Testujeme hypotézu H0: β2 = -40/12 (měsíční pokles ceny v tis. Kč) proti H1: β2≠- 3,3. Použijeme příkaz lmbeta.test(model.v1, beta.null=-40/12): > lmbeta.test(model.v1, beta.null=-40/12) Estimate Std. Error Conf. Alternative Estim. Low Estim. Up (Intercept) 525.725902 13.8625756 0.95 two.sided 497.837997 553.613807 najeto -4.815436 0.3198214 0.95 two.sided -5.458834 -4.172039 stari -3.611565 0.4249370 0.95 two.sided -4.466428 -2.756702 Beta H0 t value p value (Intercept) -3.333333 38.1645699 5.038805e-37 najeto -3.333333 -4.6341587 2.863838e-05 stari -3.333333 -0.6547604 5.158137e-01 Závěr: T=-0,655, p-hodnota = 0,51, tj. H0 nezamítáme, tj. cena auta s každým rokem klesá o 40 tis.Kč (s každým měsícem klesá o 40/12 = 3,3 tis. Kč). e) Bodová a intervalová predikce: Použijeme příkaz predict(model.v1, newdata = data.frame(najeto=30, stari=24), interval="prediction"): 204 >predict(model.v1,newdata=data.frame(najeto=30,stari=24),interval= "pre- diction") fit lwr upr 1 294.5852 210.1766 378.9938 Závěr: Předpověď ceny auta, které má najeto 30 000 km a je staré 2 roky je 294,6 tis. Kč, tj. od 210,2 do 379 tis. Kč. f) Ověření předpokladů regresní analýzy: Použijeme příkazy shapiro.test(residuals(model.v1)) skup1 <- (data$najeto >= median(ojetiny2$najeto)) skup2 <- (data$stari >= median(ojetiny2$stari)) levene.var.test(residuals(model.v1)~skup1) qf(0.95,1,48) levene.var.test(residuals(model.v1)~skup2) Výstupy: > shapiro.test(residuals(model.v1)) Shapiro-Wilk normality test data: residuals(model.v1) W = 0.9725, p-value = 0.2904 > skup1 <- (ojetiny2$najeto >= median(data$najeto)) > skup2 <- (ojetiny2$stari >= median(data$stari)) > levene.var.test(residuals(model.v1)~skup1) Levene test of homogeneity of variances data: residuals(model.v1) by skup1 Levene's F = 0.0144, num df = 1, denom df = 48, p-value = 0.905 > levene.var.test(residuals(model.v1)~skup2) Levene test of homogeneity of variances data: residuals(model.v1) by skup2 Levene's F = 1.9953, num df = 1, denom df = 48, p-value = 0.1642 > dwtest(cena ~ najeto + stari, alternative="two.sided", data=data) Durbin-Watson test data: cena ~ najeto + stari DW = 1.8534, p-value = 0.6151 alternative hypothesis: true autocorelation is not 0 Závěr: Podmínky SNLM jsou splněny. Grafické ověření: prumer.r1 <- mean(residuals(model.v1)) 205 odchylka.r1 <- sd(residuals(model.v1)) par(mfrow=c(1,2)) qqnorm(residuals(model.v1), main="normalni QQ graf pro rezidua", xlab="teoreticke kvantily N(0,1)", ylab="vyberove kvantily", pch=16) abline(a=prumer.r1, b=odchylka.r1, col="blue") resplot(model.v1,"e-yhat",lowess=T, main="Rezidua vs. vyrovnane hodnoty", xlab="odhad ceny ojeteho auta [tis. Kc]", ylab="rezidua [tis. Kc]", pch=16) dev.off() Grafický výstup potvrzuje normalitu a homoskedasticitu reziduí a ukazuje, že použití lineárního modelu není optimální. 3) Jde o model vícerozměrná regrese s kvantitativní i kvalitativní proměnnou (umělé proměnné). Plat je vysvětlován kvantitativní proměnnou odpracováno a kvalitativní proměnnou vzdělání (3 úrovně, použijeme 2 umělé proměnné). Můžeme uvažovat 2 typy modelu: I. Model bez interakcí kvantitativní a kvalitativní proměnné II. model s interakcemi těchto proměnných. Budeme nejdříve uvažovat model I. Ohadujeme model E(Y) = β0+β1x1+β2x2+ β3x3, kde Y je plat, x1 odpracováno, x2 a x3 jsou umělé proměnné pro vzdělání SS a VS. Načteme data do souboru platy a aktivujeme balík vsePackage. K řešení použijeme program: platy$vzdelani <- factor(platy$vzdelani, levels=c("ZS","SS","VS")) zs <- subset(platy, platy$vzdelani=="ZS") ss <- subset(platy, platy$vzdelani=="SS") vs <- subset(platy, platy$vzdelani=="VS") ###################################################### model bez interakce 206 ### a) modelbez <- lm(plat~odpracovano+vzdelani, data=platy, x=TRUE) summary(modelbez) hodnoty <- 0:36 par(mfrow=c(1,1)) plot(zs$odpracovano, zs$plat, pch=16, xlab="odpracovano [roky]", ylab="plat [Kc]", main="Model bez interakce", ylim=c(20000,34000), col="blue") lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="ZS")), col="blue") points(ss$odpracovano, ss$plat, pch=16, col="darkgreen") lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="SS")), col="darkgreen") points(vs$odpracovano, vs$plat, pch=16, col="red") lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="VS")), col="red") legend(5, 32000, legend=c("VS", "SS", "ZS"), col=c("red", "darkgreen", "blue"), pch=16) ### b) lmbeta.test(modelbez) ### c) lmbeta.test(modelbez, beta.null=0, alternative="greater") ### d) lmbeta.test(modelbez) ### e) modelbez.kvant <- lm(plat~odpracovano, data=platy) summary(modelbez.kvant) anova(modelbez.kvant,modelbez) Výstupy: a) Coefficients: Estimate Std. Error t value Pr(>|t|) 207 (Intercept) 19739.256 120.273 164.12 <2e-16 *** odpracovano 270.677 6.186 43.76 <2e-16 *** vzdelani[T.SS] 1620.304 150.903 10.74 <2e-16 *** vzdelani[T.VS] 4663.840 143.069 32.60 <2e-16 *** E(Y)=19739,3+270,7x1+1 620,3x2+4 663,8x3 ZS: E(Y|x2=0, x3=0)=19739,3+270,7x1 SS: E(Y|x2=1,x3=0)=19739,3+270,7x1+1620,3=21359,6+270,7x1 VS: E(Y|x2=0,x3=1)=19739,3+270,7x1+4 666,8=24403,1+270,7x1 Graf: b) lmbeta.test(modelbez) Estimate Std. Error Conf. Alternative Estim. Low Estim. Up Beta H0 t value p value (Intercept) 19739.2556 120.273059 0.95 two.sided 19500.5155 19977.9957 0 164.12034 2.136450e-119 odpracovano 270.6767 6.186181 0.95 two.sided 258.3973 282.9562 0 43.75506 3.239238e-65 vzdelani[T.SS] 1620.3036 150.903039 0.95 two.sided 1320.7634 1919.8438 0 10.73738 3.911054e-18 vzdelani[T.VS] 4663.8399 143.068946 0.95 two.sided 4379.8503 4947.8295 0 32.59855 1.016458e-53 208 Roční přírůstek platu je 270,7 Kč, intervalově od 258,4 do 283 Kč. c) > lmbeta.test(modelbez, beta.null=0, alternative="greater") Estimate Std. Error Conf. Alternative Estim. Low Estim. Up Beta H0 t value p value (Intercept) 19739.2556 120.273059 0.95 greater 19539.4963 Inf 0 164.12034 1.068225e-119 odpracovano 270.6767 6.186181 0.95 greater 260.4022 Inf 0 43.75506 1.619619e-65 vzdelani[T.SS] 1620.3036 150.903039 0.95 greater 1369.6715 Inf 0 10.73738 1.955527e-18 vzdelani[T.VS] 4663.8399 143.068946 0.95 greater 4426.2194 Inf 0 32.59855 5.082288e-54 Testujeme H0: β1=0 vs. H1:β1>0, T=43,8, p-hod.=1,62.10-65 , H0 zamítáme, plat ve firmě po vyloučeni vlivu vzdělání roste d) SS: Testujeme H0:β2=0 vs. H1:β2>0, T=10,7, p-hod.=1,96.10-18 , H0 zamítáme; VS: Testujeme H0:β3=0 vs. H1:β3>0, T=33,0, p-hod.=5,08.10-54 , H0 zamítáme. Je významný rozdíl mezi platy SS a ZS a také je významný rozdíl mezi platy ZS aVS. e) > modelbez.kvant <- lm(plat~odpracovano, data=data) anova(modelbez.kvant,modelbez) Analysis of Variance Table Model 1: plat ~ odpracovano Model 2: plat ~ odpracovano + vzdelani Res.Df RSS Df Sum of Sq F Pr(>F) 1 98 431841761 2 96 35225594 2 396616167 540.45 < 2.2e-16 *** Testujeme H0: β2=β3=0 proti opačné alternativě. Je F=540,5, p-hod.=2,2.10-16 , H0 zamítáme, plat po vyloučení vlivu odpracovaných let závisí významně na vzdělání. Uvedeme dále ještě stručně výstupy řešení pro model II. Odhadujeme regresní model s interakcemi E(Y)=β0+β1x1+ β2x2+ β3x3+ β4x1x2+ β5x1x3. 209 > modelint <- lm(plat ~ odpracovano*vzdelani, data=platy) > summary(modelint) Call: lm(formula = plat ~ odpracovano * vzdelani, data = platy) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 19981.130 134.813 148.213 < 2e-16 *** odpracovano 249.101 9.246 26.940 < 2e-16 *** vzdelani[T.SS] 1567.071 194.035 8.076 2.21e-12 *** vzdelani[T.VS] 3871.227 201.409 19.221 < 2e-16 *** odpracovano:vzdelani[T.SS] 3.910 12.956 0.302 0.763 odpracovano:vzdelani[T.VS] 67.697 13.575 4.987 2.80e-06 *** --- Residual standard error: 531.4 on 94 degrees of freedom Multiple R-squared: 0.9774, Adjusted R-squared: 0.9762 F-statistic: 813.8 on 5 and 94 DF, p-value: < 2.2e-16 Regresní funkce pro model s interakcemi: E(Y)=19981,1+249,1x1+1567,1x2+3871,2x3+3,9x1x2+67,7x1x3 ZS: E(Y|x2=0, x3=0)=19981,1+249,1x1 SS: E(Y|x2=1,x3=0)= 19981,1+249,1x1+1567,1+3,9x1 = 21548,2+253x1 VS: E(Y|x2=0,x3=1)= 19981,1+249,1x1+3871,2+67,7x1 = 23852,2+316,8x1 Graf: plot(zs$odpracovano, zs$plat, pch=16, xlab="odpracovano [roky]", ylab="plat [Kc]", main="Model s interakci", ylim=c(20000,34000), col="blue") lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="ZS")), col="blue") points(ss$odpracovano, ss$plat, pch=16, col="darkgreen") lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="SS")), col="darkgreen") points(vs$odpracovano, vs$plat, pch=16, col="red") lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="VS")), col="red") legend(5, 32000, legend=c("VS", "SS", "ZS"), col=c("red", "darkgreen", "blue"), pch=16) 210 Graf (jen pro model s interakcemi) můžeme získat jednodušším způsobem (interaktivně) v nabídce Graphs – Scatterplot po vyplnění vstupního okna: x-variable: odpracovano, y-variable: plat, odškrtnout: Marginal Box a Smooth line, stisknout: Plot by groups…a potom OK. Výstup v R-Console má tvar: 211 Porovnáními modelu bez interakcí s modelem s interakcemi: > anova(modelbez,modelint) Analysis of Variance Table Model 1: plat ~ odpracovano + vzdelani Model 2: plat ~ odpracovano * vzdelani Res.Df RSS Df Sum of Sq F Pr(>F) 1 96 35225594 2 94 26539416 2 8686177 15.383 1.662e-06 *** --- Testujeme hypotézu H0: β4= β5 = 0 proti opačné alternativě H1. Testovací statistika F = 15,4 a p-hodnota = 1,67.10-6 . Tedy H0 zamítáme, tj. interakce v modelu jsou významné. Model má i vyšší korigovaný koeficient determinace (modelem je vysvětleno 97,6% změn platů). 212 Kapitola 12: Úvod do analýzy časových řad Klíčové pojmy: časová řada, intervalová a okamžiková časová řada, diference, absolutní a relativní přírůstky, tempa růstu, řetězové a bazické indexy, modely časových řad, trendová, sezónní, náhodná složka, trendové funkce, vyrovnání tredové funkce, lineární, kvadratický, exponenciální, modifikovaný exponenciální, logistický trend a gompertzova křivka, střední kvadratická chyba (MSE), prosté a centrované klouzavé průměry Cíle kapitoly: pochopení pojmu časová řada a její číselné charakteristiky; porozumění základním cílům strategie modelování časových řad; naučit se metodám vyrovnávání časové řady; být schopni elementárního prognózování časové řady. Čas potřebný ke studiu kapitoly: 8 hodin Výklad: Nastínění obsahu kapitoly. Časové řady Číselné charakteristiky časových řad Složené cenové indexy 213 Modelování časových řad Trendové funkce Klouzavé průměry Struktura výkladu Inflace je jako zubní pasta – jakmile jednou vyleze z tuby, těžko se někomu podaří nacpat ji zpátky. Karl-Otto Pohl Časové řady Časová řada yt, t = 1,2,…,n: - je posloupnost věcně a prostorově srovnatelných pozorování, která jsou jednoznačně uspořádána v čase. - Příklady z ekonomie: - vývoj HDP, míry inflace, nezaměstnanosti a počtu volných míst, kurzu měny, peněžních zásob, cen akcií, obchodování s akciemi apod. - časové řady publikované státní statistikou  v statistických ročenkách, statistických přehledech a bulletinech apod. - Analýza časových řad – soubor metod, které slouží k jejich popisu nebo předvídání jejich budoucího chování. - Dělení časových řad podle časového hlediska: - intervalové (měřené v určitých časových intervalech u stejného objektu), - okamžikové či průřezová data (měřené k určitému časovému okamžiku u různých objektů). Číselné charakteristiky časových řad Pro intervalové časové řady: - používáme součty (úhrny) a průměry, - očisťujeme je od kalendářních variací (Příklad: – Viz Hindls 2007, s. 247-248). Pro okamžikové časové řady používáme: - Chronologický průměr: (Příklad: Viz Hindls 2007, s. 248-249) - Zpřehlednění časové řady – graf časové řady - Diference (přírůstky): 214  yt = yt - yt-1, t = 2,3,...,n (2) yt =  yt -  yt-1 = yt - 2yt-1 + yt-2, t = 3,4,...,n, atd. - Relativní přírůstky - Koeficienty neboli tempa růstu (řetězové indexy) - Bazické indexy ,...,2,1,, 0 nt y y i t t  kde y0 je hodnota srovnávané veličiny ve výchozím (bazickém) období (např. indexy cen, inflace apod.). Průměrné charakteristiky: - Průměrný absolutní přírůstek - Průměrný koeficient růstu Další charakteristiky: - klouzavé úhrny a průměry; - Příklady – Viz Stuchlý (1999b), s. 63-65. Složené cenové indexy Složené cenové indexy jsou objemově vážené indexy. Laspeyresův index – používá váhy (množství) z běžného období Paascheův index – používá váhy z běžného období Zde p jsou ceny a q množství. ,,,3,2, y 1-t t t nt y    .,,3,2, y 1-t t t nt y k  . 1-n1 1 1n n 2=t t yy y n      .1-n 1 1-n n32 y y kkkk n   . 00 01)(   qp qp I L p . 10 11)(   qp qp I P p 215 Příklad. Racionalizace práce firmy v oblasti úklidu, zásobování a pomocných kancelářských prací. Hod. sazba v zákl. období v € p0 Odprac. hodiny v zákl. období q0 Hod. sazba v běžn. období v € p1 Odprac. hodiny v běžn. období q1 p0q0 p1q0 p0q1 p1q1 2 4000 1,9 5500 8000 7600 11000 10450 2,5 2000 3 2100 5000 6000 5250 6300 3,5 6000 3,75 7000 21000 22500 24500 26250 Součet 34000 36100 40750 43000 Laspayresův index hodinových sazeb . Kdyby u firmy bylo v běžném období odpracováno na uvedených pracích stejné množství hodin jako v základním období, pak by náklady na tyto práce stouply v důsledku zvýšení hodinových sazeb o 6,2% (použili jsme jako váhy počty odpracovaných hodin v základním období). Paasheův index hodinových sazeb Kdyby v běžném období bylo odpracováno na uvedených pracích množství hodin z běžného období, pak by náklady na tyto práce vzrostly o 5,5% (použili jsme jako váhy počty odpracovaných hodin v běžném období). Kompromisem je Fisherův index (geom.průměr). Modelování časových řad Modely: - Aditivní model: yt = Tt + St + Ct + t, - Tt je trendová, St je sezónní, Ct je cyklická a t je náhodná složka. 062,1 34000 36100 0 01    Oqp qp .055,1 40750 43000 10 11    qp qp 216 - Multiplikativní model yt = Tt St Ct t . - Multiplikativní model lze převést logaritmováním na aditivní model. Volbu vhodné trendové funkce lze provádět pomocí R. Trendovou funkci lze použít k predikci (předpovědi) hodnot časové řady. Trendové funkce Model pro časovou řadu bez sezónní a cyklické složky: Yt = Tt + εt (t = 1,2,…,n) Trend Tt budeme modelovat vhodnou matematickou křivkou. Nejčastěji uvažované trendové funkce (pro t = 1,2,…,n): - a) Lineární trend Tt = 0 + 1t. - b) Kvadratický trend Tt = 0 + 1t + 2t2 . - c) Exponenciální trend Tt = 0 1 t (1 > 0). - d) Modifikovaný exponenciální trend Tt = k + 0 1 t , (1 > 0). - e) Logistický trend T k t 0 1 t  1   , (k>0, α1>0). - f) Gompertzova křivka T kt 0 1 t   , (0 > 0, 1 > 0). Parametry α0, α1, k jsou neznámé, nutno je odhadnout z dat – metody odhadu: Viz Stuchlý (1999b), s. 67-69. Výběr vhodného modelu trendové funkce provedeme: a) pomocí věcně ekonomických kritérií (volba na základě teoretických znalostí a zkušeností zkoumaného ekonomického jevu), b) pomocí analýzy grafu zobrazované časové řady (vizuální analýza, jejíž nevýhodou je subjektivní přístup), c) s využitím některých regresních kritérií jako např. reziduálního součtu čtverců, indexu korelace, F-statistiky používané k celkovému testu modelu aj. 217 Kromě toho lze využít testů založených na jednoduchých charakteristikách časové řady (viz následující tabulka). V statistických programech je možno se setkat s následujícími mírami vhodně zvolené trendové funkce: střední kvadratická chyba odhadu MSE (Mean Squared Error) n Ty MSE n t    1 2 tt )ˆ( , střední absolutní chyba odhadu MAE (Mean Absolute Error) n Ty MAE n t t   1 t |ˆ| , Trend Test lineární první diference jsou přibližně konstantní, druhé diference jsou přibližně nulové. kvadratický druhé diference jsou přibližně konstantní, třetí diference jsou přibližně nulové. exponenciální podíl relativních diferencí  yt /  yt-1 nebo koeficienty růstu jsou přibližně konstantní. logistický křivka prvních diferencí se podobá křivce hustoty normálního rozdělení, podíly (1/yt+2 - 1/yt+1)/(1/yt+1 - 1/yt) jsou přibližně konstantní. Gompertzova křivka podíly (ln yt+2 - ln yt+1)/(ln yt+1 - ln yt) jsou přibližně konstantní. střední absolutní chyba procentuální MAPE (Mean Absolute Percentage Error)    n t y Ty n MAPE 1 t tt 100. |ˆ|1 , střední chyba procentuální MPE (Mean Percentage Error) 218    n t y Ty n MPE 1 t tt 100. )ˆ(1 , kde yt značí pozorovanou hodnotu časové řady v okamžiku t a t ˆT značí vyrovnanou hodnotu trendu v okamžiku t. Z uvedených kritérií se nejčastěji používá střední kvadratická chyba MSE. Obecně dáváme přednost modelu, u něhož je hodnota MSE nejnižší. Příklady: Viz Stuchlý (1999b), s. 71-80. Klouzavé průměry (Moving Averages) Použití k: - vyrovnání časové řady, - k předpovědi. Průměry počítané klouzáním po časové řadě Prosté klouzavé průměry pro lichou délku klouzavé části 1+2p p+t1-p+t1ptp-t t yyyy y     = 1 2 1p y   t+i i=-p p , pro t = p+1,p+2,...,n-p. Takto vypočítané klouzavé průměry jsou nevhodné pro sudou délku klouzavé čísti z hlediska porovnávání skutečných hodnot časové řady s hodnotami klouzavých průměrů a proto je třeba je centrovat, tj. počítat průměr z každých dvou po sobě následujících klouzavých průměrech. Dostáváme potom tzv. centrované klouzavé průměry (Centered Moving Average). Obecně můžeme centrované klouzavé průměry počítat podle vzorce: )22( 4 1 p+t1-p+t1+p-tp-tt yyyy p y   , pro t = p+1, p+2,...,n-p. Problémy při používání klouzavých průměrů: - Prvních a posledních p hodnot není vyrovnáno (chybí). - U časových řad bez trendové a sezónní složky představuje klouzavý průměr vždy předpověď na následující období (takto používá klouzavé průměry Excel v Analýze dat). Příklady: Viz Stuchlý (1999b), str. 84-86. Časové řady v R (po aktivizaci balíku vsePackage): - 1. Časová řada 219 ts(y, start = ) plot(objekt) 2. Trendová složka ts.explore(objekt) ts.fit.trend(objekt, trend=“linear“) ts.fit.trend(objekt, trend=“quadratic“) ts.fit.trend(objekt, trend=“exponential“) ts.fit.trend(objekt, trend=“modified.exponential“) ts.fit.trend(objekt, trend=“logistic“) ts.fit.trend(objekt, trend=“gompertz“) 3. Náhodná složka resplot(model) write.noise.test(residuals(model)) 4. Predikce predict(model, step= ) plot(model, step= ) 5. Klouzavé průměry ts.masooth(objekt, order= , length= ) Studijní materiály: Základní literatura: HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 245-302. ISBN 978-80-86946-43-6. STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999. S. 67-86. ISBN 80-7079-035-0. Doporučené studijní zdroje: BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006. HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 164-181, 185-189. ISBN 80-7169-255-7. 220 HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000. S. 89-126, 137-144. ISBN 80-7261-013-9. JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 127-171, ISBN 80-7079- 328-7 MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S. 279-303. ISBN 978-80-86446-40-5. ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 59-64, 67- 72. ISBN 978-80-245-1514-4. SEGER, J. a R. HINDLS, R. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing, 1995. S. 257-310. ISBN 80-7187-058-7. STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011. (v elektronické formě - https://is.vstecb.cz/auth/www/6384/). WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 268-276, 283- 308. ISBN 80-7169-089-9. WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1993. S. 754-772. ISBN 80-85605-09-0. Otázky a úkoly 1) Pro časovou řadu hodnot průměrné měsíční mzdy pracovníků státního a družstevního sektoru národního hospodářství v ČR v letech 1981-1990: 2 692, 2 757, 2 808, 2 858, 2 901, 2 944, 3 005, 3 070, 3 138, 3 247 vypočítejte a interpretujte a) absolutní přírůstky a průměrný absolutní přírůstek, b) koeficienty růstu a průměrný koeficient růstu, c) 2. diference. 2) K dispozici jsou údaje o stavu skotu v ČR v letech 1989-1997 (tis. kusů): 3506, 3360, 2950, 2512, 2161, 2030, 1989, 1866, 1690 Vyrovnejte data lineární trendovou funkcí, pomocí MSE vyhodnoťte přesnost vyrovnání a proveďte předpověď stavu skotu na roky 1998-2000. 3) Řešte předcházející úlohu pomocí klouzavých průměrů a centrovaných klouzavých průměrů. Předpověď počítejme pro rok 1998. Porovnejte výsledky. 4) Řešte úkol 2 v R výběrem nejvhodnějšího trendu a proveďte předpověď stavu skotu na roky 1998-2000. 221 Úkoly k zamyšlení a diskuzi 1) Diskutujte o významu indexů a rozdílů pro ekonoma. 2) Zamyslete se nad možnostmi využítí časových řad k předpovědím. Klíč k řešení otázek: 1) Číselné charakteristiky časové řady: a) 61,67, b) 1,021 (řešení - viz Stuchlý 1999b, s. 63-64). 2) Lineární trend: Znázornění, vyrovnání i předpověď je možno provést v Excelu. Předpověď pro rok 1998 je 1293 (pro rok 2000 je 800,7). MSE je 27902. Výstup: 3) Klouzavé průměry v Excelu. Nejdříve pomocí tříčlenných a pětičlenných průměrů. Vý- stupy: Lepší vyrovnání poskytují tříčlenné klouzavé průměry. Předpověď pro rok 1998 (určená poslední členem vyrovnané řady) je 1848 a MSE = 2287. Použijme dále dvojčlenné a čtyřčlenné centrované klouzavé průměry. Výstup: 222 Ještě lepší vyrovnání poskytuje dvojčlenný centrovaný průměr. Předpověď na rok 1998 je 1852,8 a MSE = 1286,5. Úkol je možno řešit i v R. 4) Trendové funkce: Vstup dat do R (po aktivaci vsePackage): cas <- 1989:1997 pocet <- c(3506, 3360, 2950, 2512, 2161, 2030, 1989, 1866, 1690) data <- data.frame(cas, pocet) Ulozeni a zobrazeni dat ve forme casove rady: skot <- ts(data$pocet, start=1989) skot par(mfrow=c(1,1)) plot(skot, xlab="Rok", ylab="Stav skotu v tisicich") Výstup: > skot Time Series: Start = 1989 End = 1997 Frequency = 1 [1] 3506 3360 2950 2512 2161 2030 1989 1866 1690 Hledani nejvhodnejsiho trendu: ts.explore(skot, xlab="t") vyber <- ts.fit.trends(skot) vyber plot(vyber) Výstup: > vyber Time series: analysis of trend MSE MAE ME MPE MAPE linear 27901.617 144.81481 5.810691e-13 0.366022519 6.312749 quadratic 8281.953 83.27561 1.010523e-13 -0.002979555 3.372092 exponential 13653.084 104.09502 1.913640e+00 0.341035107 4.578573 modified.exponential 9686.729 85.02633 -1.727843e-03 0.010563399 3.316746 logistic 12107.499 90.17628 -2.418045e+00 -0.241446602 3.421633 gompertz 10200.831 88.10475 -1.022910e-02 0.018052998 3.461254 > plot(vyber) 223 Nejlepší výsledky dává kvadratický trend, kde je MSE nemenší = 8281,9. Srovnatelné výsledky dává i modifikovaný exponenciální trend s MSE = 9686,7. Grafy jednotlivých trendových funkcí jsou na následujím obrázku. Odhad parametru pro nejvhodnejsi trend: model01 <- ts.trend(skot, trend="quadratic") model02 <- ts.trend(skot, trend="modified.exponential") model01 model02 Výstup: > model01 Time series: analysis of trend Trend = quadratic (alpha + beta*t + gamma*t^2) Fitted coefficients: alpha beta gamma 4069.690 -475.2706 23.94372 Sum of Squared Errors (SSE): 74537.58 Mean Squared Error (MSE): 8281.953 Mean Absolute Error (MAE): 83.27561 Mean Error (ME): 1.010523e-13 Mean Absolute Percentage Error (MAPE): 3.372092% Mean Percentage Error (MPE): -0.002979555% Fitted values: Time Series: Start = 1989 End = 1997 Frequency = 1 [1] 3618.364 3214.924 2859.372 2551.708 2291.931 2080.041 1916.039 1799.924 [9] 1731.697 224 > model02 Time series: analysis of trend Trend = modified.exponential (gamma + alpha*beta^t) Fitted coefficients: alpha beta gamma 3006.715 0.8290591 1131.099 Sum of Squared Errors (SSE): 87180.56 Mean Squared Error (MSE): 9686.73 Mean Absolute Error (MAE): 85.02633 Mean Error (ME): -0.001727843 Mean Absolute Percentage Error (MAPE): 3.316746% Mean Percentage Error (MPE): 0.0105634% Fitted values: Time Series: Start = 1989 End = 1997 225 Frequency = 1 [1] 3623.844 3197.732 2844.459 2551.576 2308.758 2107.448 1940.550 1802.182 [9] 1687.466 Předpověd pro roky 1997-2000 a grafické znázornění: predict(model01, step=1:3) predict(model02, step=1:3) par(mfrow=c(1,2)) plot(model01, step=1:3, xlab="Rok", ylab="Stav skotu v tisicich", main="Kvadraticky trend") plot(model02, step=1:3, xlab="Rok", ylab="Stav skotu v tisicich", main="Modif. exponencialni trend") Výstup: > predict(model01, step=1:3) 1 2 3 1711.357 1738.905 1814.340 > predict(model02, step=1:3) 1 2 3 1592.360 1513.512 1448.142 Závěr: Optimální odhad pro rok 1998 kvadratickou trendovou funkcí je 1711,4 s MSE = 8282. 226 Dodatky Statistické tabulky I. Distribuční funkce standardního normálního rozdělení N(0;1) Jsou tabelovány hodnoty Laplaceovy funkce ( )x e dt    1 2 t 2 x 2 . Platí (-x) = 1 - (x). 227 Pokračování tabulky I. 228 II. Kvantily standardního normálního rozdělení Jsou tabelovány kvantily standardního normálního rozdělení xp určené vztahem P(X < xp) = p, kde X  N(0;1). 229 III. Kvantily rozdělení chi-kvadrát Jsou tabelovány kvantily chi-kvadrát rozdělení 2 p(n) určené vztahem P(X < 2 p(n)) = p, kde X  2 (n). 230 IV. Kvantily Studentova t - rozdělení Jsou tabelovány kvantily t-rozdělení tp(n) definované vztahem P(X < tp(n)) = p, kde X  t(n). 231 V. Kvantily F-rozdělení Jsou tabelovány kvantily F-rozdělení Fp(1;2) definované vztahem P(X < Fp(1;2)) = p pro p = 0,95, 0,975, 0,99, 0,995, kde X  F(1;2). Platí Fp(1;2) = 1/F1-p(2;1). 232 Pokračování tabulky V. 233 Pokračování tabulky V. 234 Pokračování tabulky V. 235 VI. Kritické hodnoty Wilcoxonova jednovýběrového testu (WJT) Jsou tabelovány kritické hodnoty Wilcoxonova testu T, WJT určené vztahem P(T  T)  . n  = 0,05  = 0,025  = 0,01  = 0,005 5 1 6 2 1 7 4 2 0 8 6 4 2 0 9 8 6 3 2 10 11 8 5 3 11 14 11 7 5 12 17 14 10 7 13 21 17 13 10 14 26 21 16 13 15 30 25 20 16 16 36 30 24 19 17 41 35 28 23 18 47 40 33 28 19 54 46 38 32 20 60 52 43 37 21 68 59 49 43 22 75 66 56 49 23 83 73 62 55 24 92 81 69 68 25 101 90 77 68 26 110 98 85 76 27 120 107 93 84 28 130 117 102 92 29 141 127 111 100 30 152 137 120 109 31 163 148 130 118 32 175 159 141 128 33 188 171 151 138 34 201 183 162 149 35 214 195 174 160 36 228 208 186 171 37 242 222 198 183 38 256 235 211 195 39 271 250 224 208 40 287 264 238 221 41 303 279 252 234 42 319 295 267 248 43 336 311 281 262 44 253 327 297 277 45 371 344 313 292 46 389 361 329 307 47 408 379 345 323 48 427 397 362 339 49 446 415 380 356 50 466 434 398 373 236 VII. Kritické hodnoty pro Mannův-Whitneyovův test Jsou tabelovány kritické hodnoty Mannova-Whitneyova testu kp definované vztahem P(T  kp)  p, kde n v řádcích a sloupcích představují rozsahy jednotlivých souborů. 237 VIII. Kvantily dvouvýběrového Kolmogorovova - Smirnovova testu Jsou tabelovány kvantily dvouvýběrového Kolmogorova-Smirnovova testu d1- definované vztahem P(D  d1-)  1 - pro  = 0,05. 238 239 Pokračování tabulky VIII. pro  = 0,01 240 IX. Kvantily pro Kolmogorův - Smirnovovův jednovýběrový test (KSJT) Jsou tabelovány kvantily Kolmogorova-Smirnova testu d1- definované vztahem P(Dd1-)  1- pro uvedené hodnoty 1-. 241 Použitá literatura ANDĚL, J., 1985. Matematická statistika. Praha: SNTL/ALFA. ANDĚL, J., 2007. Matematitika náhody. Praha: Matfyzpres. ISBN 80-7378-004-6. ANDĚL, J., 1993. Statistické metody. Praha: Matfyzpres. ANDĚL, J., 2007. Základy matematické statistiky. Praha: Matfyzpres. ISBN 80-7378-001-1. ARLTOVÁ, M. a kol., 2003. Příklady k předmětu Statistika A. Praha: VŠE. ISBN 80-245- 0178-3. BLATNÁ, D., 1996. Neparametrické metody. Testy založené na pořádkových a pořadových statistikách. Praha: VŠE. ISBN 80-7079-607-3. CYHELSKÝ, L. a kol., 2001. Elementární statistická analýza. Praha: Management Press. ISBN 80-7261-003-1. ČERMÁKOVÁ, A. a F. STŘELEČEK, 1995. Statistika I. České Budějovice: JU zemědělská fakulta. ISBN 80-7040-126-5. GIBILISCO, S., 2009. Statistika bez předchozích znalostí. Brno: Computer Press. ISBN 978- 80-251-2465-9. GUJARATI, D.N., 1992. Essentials of Econometrics. New York: Mc Grow-Hill. ISBN 0-07- 112624-4. HEBÁK, P., 1995. Testování statistických hypotéz. Praha: VŠE Praha. ISBN 80-7079-294-9. HEBÁK, P. a kol., 2004. Praktikum k výuce matematické statistiky II. Testování hypotéz Praha: Oeconomica. ISBN 80-245-0721-8. HEBÁK, P. a J. KAHOUNOVÁ, 1994. Počet pravděpodobnosti v příkladech. Praha: Informatorium. ISBN 80-85427-48-6. HINDLS, R. a kol., 1999. Analýza dat v manažerském rozhodování. Praha: Grada. ISBN 80- 7169-255-7. HINDLS, R. a kol., 2000. Metody statistické analýzy pro ekonomy. Praha: Management Press. ISBN 80-7261-013-9. HINDLS, R. a kol., 2007. Statistika pro ekonomy. Praha: Professional Publishing. ISBN 978- 80-86946-43-6. JAROŠOVÁ, E., 1994. Statistika B. Řešené příklady. Praha: VŠE. ISBN 80-7079-328-7. 242 KOMAREK, A. 2012. Package ‘vsePackage’ (manual) Praha: http://www.karlin.mff. cuni.cz/ ~komarek. KOMÁREK, A. a KOMÁRKOVÁ, L. 2007. Statistická analýza závislostí s příklady v R. Praha: VŠE Nakladatelství Oeconomica. ISBN 978-80-245-1226-6. KOMÁRKOVÁ, L. a kol., 2007. Základy analýzy dat a statistického úsudku s příklady v R. Praha: VŠE Nakladatelství Oeconomica. ISBN 978-80-245-1227-3. MAREK, L. a kol., 2007. Statistika pro ekonomy – aplikace. Praha: Professional Publishing. ISBN 978-80-86446-40-5. MINAŘÍK, B., 1995. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická universita. ISBN 80-7157-166-0. NEWBOLD, P., 1991. Statistics for business and economies. New York: Prentice-Hall Int. Englewood Clifis. ISBN 0-13850645-0. PECÁKOVÁ, I. Statistika v terénních průzkumech. Praha: Professional Publishing, 2008. ISBN 978-80-86946-74-0. ŘEZANKOVÁ, H. a T. LÖSTER, 2009. Úvod do statistiky. Praha: Oeconomica. ISBN 978- 80-245-1514-4. SEGER, J. a R. HINDLS, 1995. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing. ISBN 80-7187-058-7. SHAPIRO, S. S. a M. B. WILKS, M. B., 1965. An analysis of variance test for normality (complete samples). Biometrica. 52(3-4), 591-611. doi:10.1093/biomet/52.3-4.591. STUCHLÝ, J., 2000. Ekonometrie. J. Hradec: VŠE. STUCHLÝ, J., 2011. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice. (v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/). STUCHLÝ, J., 1999a. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE. ISBN 80-7079-754-1. STUCHLÝ, J., 1999b. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE. ISBN 80-7079-035-0. STUCHLÝ, J., 2004. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE. ISBN 80-245-0153-8. SVATOŠOVÁ, L. a M. PRÁŠILOVÁ, 2009. Statistické metody v příkladech. Praha: ČZU. ISBN 978-80-213-1673-7. 243 WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. ISBN 80-7169- 089-9. WONNACOT, T. H. a R. J. WONNACOT, 1993. Statistika pro obchod a hospodářství. Praha: Victoria Publishing. ISBN 80-85605-09-0. 244 Rejstřík a česko-anglický slovník absolutní člen intercept, 133 absolutní míry variability absolute measures of variability, 25 absolutní odchylka absolute deviation, 25 aditivní model časové řady additive model of time series, 179 alternativní hypotéza alternative hypothesis, 81 alternativní rozdělení alternative distribution, 52 analýza časových řad analysis of time series, 177 analýza dat analyses of data, 28 analýza rozptylu analysis of variance, 26, 118 ANOVA, 118 analýza rozptylu v R ANOVA in R, 121 anketa questionnaire, 64 aritmetický průměr arithmetic mean, 24 asociační tabulky association tables, 12 asymptotická verze asymptotical version, 102 asymptotický dvouvýběrový test o poměrech asymptotic two-sample proportion test, 100, 110 asymptoticky nestranný odhad asymptotically unbiased estimator, 69 asymptotický test o průměru asymptotic mean test, 94 asymptotický test o shodě populačních průměrů two-sample asymptotic mean test, 100 Bartlettův test Bartlett's test, 120, 129 bazické indexy bazic indexes, 178 Bernoulliho pokus Bernoulli experiment, trial, 53 Bernoulliho vzorec Bernoulli formula, 53 binomické rozdělení binomial distribution, 53, 61 B-koeficienty B-coefficients, 160 bodová předpověď point prediction, 162 bodový diagram scatterplot, 12, 121, 133 bodový odhad estimator, estimation, 68 point estimate, 68, 77 Breusch-Paganovým test Breutch-Pagan's test, 149 celkový F-test o regresním modelu global F-test of regression model, 161 celkový součet čtverců total sum of squares, 119 centrální limitní věta central limit theorem, 57, 61 centrované klouzavé průměry centered moving average, 182 cenzus 245 cenzus, 10 Cobb-Douglasovu produkční funkce Cobb-Douglas production function, 163 Cramérův kontingenční koeficient Cramér coefficient of contingence, 116 cyklická složka cyclical component, 179 časová řada time series, 177 časové řady v R time series in R, 182 česko-anglický slovník Czech-English dictionary, 207 četnost frequency, 11 číselné charakteristiky časové řady numerical characteristics of time series, 185 číselné charakteristiky náhodných veličin numerical characteristics of random variable, 45 číselné charakteristiky rozdělení dvourozměrné náhodné veličiny numerical characteristics of twodimensional random variables, 46 číselné charakteristiky v Excelu numerical characteristics in Excel, 28, 32 číselné charakteristiky v R numerical characteristics in R, 28, 34 čtvrť district, 15 de Morganova pravidla de Morgan's rules, 38 decil decile, 27, 33 definice axiomatická axiomatic definition, 40 diference (přírůstky) differences, 177 dílčí (parciální) korelační koeficienty partial correlation coefficients, 160, 163 dílčí (parciální) regresní koeficienty partial regression coefficients, 159 diskrétní a spojité náhodné veličiny discrete and continuous random variables, 43 distribuční funkce distribution function, 43, 49 dolní mez lower limit, 71 doprava transport, 15 důkaz proof, 42 Durbinůvo-Watsonúv test Durbin-Watson test, 149 důsledek consequence, 44 dvojstranný two-sided, 71 dvojvýběrový t-test two-sample t-test, 108 dvourozměrná náhodná veličina two-dimensional random variable, 44 dvourozměrný histogram two-dimensional histogram, 12, 17 dvoustranný test two-sided test, 81 dvouvýběrové testy v Excelu two-sample tests in Excel, 106 dvouvýběrové testy v R two-sample tests in R, 106 dvouvýběrový F-test two-sample F-test, 98, 108 dvouvýběrový párový t-test two-sample paired t-test, 109 246 dvouvýběrový Wilcoxonův test two-sample Wilcoxon test, 102 efekt efect, 120 elementární jev elementary event, 38 empirická distribuční funkce empirical distribution function, 12, 104 empirické absolutní pružnosti empirical absolute elasticity, 160 empirické četnosti empirical frequency, 114 empirické rozdělení četností empirical frequency distribution, 114 etapy statistických prací phases of statistical work, 7 exponenciální rozdělení exponential distribution, 59 exponenciální trend exponential trend, 180 faktory factors, 118 Fisherovo-Snededecorovo F-rozdělení Fisher-Snedecor F-distribution, 58 Fisherův index Fisher's index, 179 formulace hypotéz formulation of hypotheses, 81 F-rozdělení F-distribution, 68, 120 Gaussova křivka Gaussian curve, 55 geometrické rozdělení geometric distribution, 59 geometrický geometric, 24 Gompertzova křivka Gompertz curve, 180 graf časové řady plot of time series, 177 graf průměrů mean graph, 128 graf reziduí graph of residuals, 149 graf závislosti reziduí na faktoru graph of dependency residuals on factor, 129 grafické ověřování normality graphic verification of normality, 88 harmonický harmonic, 24 hazardní hry gambling, 37 histogram histogram, 12, 16, 93 histogram s křivkou normálního rozdělení histogram with the normal distribution curve, 88 hladina významnosti significance level, 82 hod kostkou roll of the dice, 38 hod mincí throwing coins, 38 hodnocení evaluation, 6 hodnota testového kritéria value of test statistic, 83 homoskedasticita homoscedasticity, 120, 121, 128, 149 horní mez upper limit, 71 hromadná obsluha queuing, 59 hromadný jev collective phenomena, 8 hustota pravděpodobnosti 247 probability density, 44 hypergeometrické rozdělení hypergeometric distribution, 54, 61 charakteristiky polohy characteristics of the position, 23 charakteristiky tvaru rozdělení četností characteristics of shape distribution, 26 charakteristiky variability characteristics of variability, 24 chi-kvadrát rozdělení chi-square distribution, 57 chi-squared distribution, 61 chi-kvadrát test dobré shody chi-square goodness-of-fit test, 114 chronologický průměr chronological average, 177 chyba 1. druhu type I error, 82 chyby měření measurement errors, 134 interakce (spolupůsobení) interaction, 164 interpretace odhadnutých regresních parametrů interpretation of estimated regression parameters, 138 interval spolehlivosti confidence interval, 70, 87, 121 interval spolehlivosti pro poměr confidence interval for proportion, 74, 78 interval spolehlivosti pro průměr confidence interval for mean, 71, 74 interval spolehlivosti pro rozptyl confidence interval for variance, 73, 77 intervalové časové řady interval time series, 177 intervalový odhad interval estimate, 68, 70, 77 intervaly spolehlivosti pro korelační koeficient confidence intervals for correlation coefficients, 163 intervaly spolehlivosti pro regresní parametry confidence intervals for regression parameters, 146, 161 jednofaktorová analýza rozptylu one-way analysis of variance, 118 one-way ANOVA, 128 jednostranné alternativy one-sided alternatives, 81 jednostranný one-sided, 71 jednovýběrové testy v R one sample tests in R, 89 jednovýběrový t-test one sample t-test, 93 jistý jev sure event, 38 kategorie category, 15 klasická definice pravděpodobnosti classical definition of probability, 39, 40, 49 klasický regresní model classical regression model, 145 klasifikace statistických znaků classification of statistical characters, 16 klíč k řešení položených otázek key to the solution to the issues submitted, 5 klíčové pojmy key terms, 5 klouzavé průměry v Excelu moving averages in Excel, 185 248 koeficient (index) mnohonásobné determinace coefficient of multiple determination, 162 koeficient determinace coefficient of determination, 136, 138, 146 koeficient korelace correlation coefficient, 46 koeficient mnohonásobné korelace coefficient of multiple correlation, 162 koeficient mutability coefficient of mutability, 13, 18 koeficient šikmosti skewness, 27 koeficient špičatosti kurtosis, 27 koeficient, úroveň spolehlivosti confidence level, 70 koeficienty (tempa) růstu growt coefficients (rates), 178 koeficienty kontingence contingency coefficients, 118, 128 koláčový diagram pie chart, 11, 16 Kolmogorovův-Smirnovův dvouvýběrový test Kolmogorov-Smirnov two-sample test, 104, 111 Kolmogorovův-Smirnovův jednovýběrový test Kolmogorov-Smirnov one-sample test, 116 kombinace combination, 40, 49 kombinace s opakováním combination with repeating, 40, 49 kombinační čísla combination numbers, 40 kombinatorika combinatorics, 39 konfidenční interval confidence interval, 147 kontingenční tabulka contingency table, 115 kontingenční tabulka s hierarchickou strukturou contingency table with hierarchical structure, 12, 17 kontrolní otázky control questions, 5 konzistentní odhad consistent estimator, 70 korelační analýza correlation analysis, 133 korelační koeficient coefficient of correlation, 135 correlation coefficient, 29, 138 korelační matice correlation matrix, 29, 34, 35 korelační poměr correlation ratio, 119 korelační tabulka correlation table, 133 korigovaný koeficient determinace adjusted coefficient of determination, 163 kovariance covariance, 29, 46 kovarianční matice covariance matrix, 29, 34, 35, 46 krabicový diagram box-and-whisker plot, 28 boxplot, 28, 32, 34, 88, 93, 128 kritická hodnota testu critical value of test, 83 249 kritické hodnoty Mannova-Whitneyova testu critical values of Mann-Whitney test, 200 kritické hodnoty Wilcoxonova testu critical values of Wilcoxon test, 199 kritický obor critical region, 82 Kruskalův-Wallisův test Kruskal-Wallis test, 121, 128 kumulované cumulative, 12 kvadratický quadratic, 24 kvadratický trend quadratic trend, 180 kvantil quantile, 27 kvantil jednvýběrové Wilcoxonovy statistiky quantile of onesample Wilcoxon statistic, 89 kvantilová funkce quantile function, 56 kvantilové charakteristiky quantile characteristics, 27 kvantily dvouvýběrového KolmogorovaSmirnovova testu quantiles of Kolmogorov-Smirnov twosample test, 201 kvantily F-rozdělení quantiles of F-distribution, 59, 195 kvantily chi-kvadrát rozdělení quantiles of chi-square distribution, 57, 193 kvantily Kolmogorova-Smirnova testu quantiles of Kolmogorov-Smirnov test, 203 kvantily normálního rozdělení quintiles of normal distribution, 88 kvantily standardního normálního rozdělení quantiles of standard normal distribution, 192 kvantily t-rozdělení quantiles of t-distribution, 58, 194 kvartil quartile, 27 kvartilová odchylka quartile deviation, 27 kvartilové rozpětí interquartile range, 27 kvótní výběr quota sampling, 64 Laplaceova funkce Laplace function, 56, 190 Laspeyresův index Laspeyres index, 178 Levenův test Levene test, 120, 150 levostranný interval spolehlivosti left-hand confidence interval, 71 levostranný test left-tailed test, 81 Lindebergova-Lévyho věta Lindeberg-Lévy theorem, 57 lineární regresní funkce linear regression function, 133 lineární trend linear trend, 180, 185 lineární závislost linear dependence, 29 logaritmicko-normální rozdělení log-normal distribution, 59 logistický trend logistical trend, 180 Mannův-Whitneyův test Mann-Whitney test, 102 marginální rozdělení marginal distribution, 44 250 marketingový výzkum marketing research, 37 matematický princip mathematical principle, 135 medián median, 13, 24, 27 metoda nejmenších čtverců least squares method, 134 metoda stupňovité regrese method of stepwise regression, 162 meziskupinový rozptyl intergroup variance, 26 meziskupinový součet čtverců between-groups sum of squares, 119 MNČ-odhady LSM-estimations, 135 množina set, 38 model analýzy rozptylu ANOVA model, 120 model bez interakcí model without interaction, 170 model s interakcemi model with interactions, 173 modifikovaný exponenciální trend modified exponential trend, 180 modus modus, 13 Moivre-Laplaceova věta Moivre-Laplace theorem, 57 multikolinearita multicollinearity, 164 multinomické rozdělení multinomial distribution, 59 multiplikativní model časové řady multiplicative model of time series, 179 na hladině významnosti at the signicant level, 83 náhodná složka random component, 179 random term, 134 náhodná veličina random variable, 43 náhodné chyby random errors, 120 náhodný jev random event, 37 náhodný pokus random experiment, 37 nájemné rent, 16 náměty k zamyšlení a diskuzi suggestions for thought and discussion, 5 násobení pravděpodobností multiplication of probabilities, 49 nejlepší lineární nestranný odhad regresních parametrů best linear unbiased estimation, 161 nekonečno infinity, 71 nelineární metoda nejmenších čtverců nonlinear least squares method, 163 nelineární regresní funkce nonlinear regression function, 138 nemožný jev impossible event, 38 neparametrické testy nonparametric tests, 84, 113 neslučitelné jevy disjoint events, 38 nestranný odhad unbiased estimator, 69 neurčitost uncertainty, 37 neúspěch failure, 53 nezávislé pokusy independent experiments, 38 251 nezávislé stejně rozdělené náhodné veličiny independent identical distributed random variables, 65 nezávislost independency, 149 nominální a ordinální proměnné nominal and ordinal variables, 11 nominální variance nominal variance, 13, 18 normalita normality, 128, 149 normalita v ANOVA normality in ANOVA, 121 normální rozdělení normal distribution, 55, 61 nulová hypotéza null hypothesis, 81 obecný lineární model general linear model, 159 obor přijetí acceptance region, 82 obytná plocha living space, 15 očekávané četnosti expected frequencies, 114, 115 očisťování časových řad cleaning time series, 177 odezvová veličina response variable, 118 odhad estimation, 137 odhady parametrů parameter estimations, 68 odlehlé hodnoty outliers, 27, 33 odstraňování problémů troubleshooting, 150 okamžikové časové řady point time series, 177 opačný jev complementary event, 38 opakování repetition, 36 oporu výběru sampling frame, 64 opravný faktor correction factor, 74 ordinální variance ordinal variance, 13 ověřování podmínek conditions verification, 149 Paascheův index Paasche index, 178 parametrické testy parametric tests, 84 párovy dvouvýběrový t-test two-sample paired test, 99 Pearsonův kontingenční koeficient Pearson coefficient of contingence, 116 percentil percentile, 27 permutace permutation, 39 p-hodnota testu p-value of test, 85 p-kvantil spojité náhodné veličiny p-quantile of continuous random variable, 45 plošný graf area chart, 11 počet obyvatel number of peaple, 15 podmíněná pravděpodobnost conditional probability, 41, 49 podmíněná rozdělení conditional distribution, 44 podmíněné průměry a rozptyly conditional means and variances, 29, 35 252 pohlaví sex, 15, 31 Poissonovo rozdělení Poisson distribution, 59 pokračování continuation, 191 polygon polygon, 11, 32 polygon rozdělení pravděpodobnosti probability distribution polygon, 43 poměr determinace ratio of determination, 119 popisná statistika descriptive statiastics, 7 popisná statistika v R descriptive statistics in R, 19 popisné statistiky v Excelu descriptive statistics in Excel, 16 populační population, 25 populační rozptyl population variance, 28 porovnání regresních modelů comparison of regression models, 156 pořadí rank, 89, 101, 102 postačující odhad sufficient estimator, 70 použitá literatura reference, 204 poznámky remarks, 121 požadovaný rozsah souboru required sample size, 73, 77 pravděpodobnost náhodného jevu probability of random event, 39 pravděpodobnostní funkce probability function, 43, 49 pravděpodobnostní rozdělení diskrétní náhodné veličiny probability distribution of discrete random variable, 49 pravděpodobnostní rozdělení spojité náhodné veličiny probability distribution of continuos random variables, 49 pravděpodobnostní stromy probability trees, 43 pravidlo dvou sigma two sigma rule, 55 pravostranný interval spolehlivosti right-hand confidence interval, 71, 77 pravostranný test right-tailed test, 81 predikce prediction, 138 predikční interval prediction interval, 162 prezentace dat data presentation, 11 primární data primary data, 10 problémy v regresním modelu problems in regression model, 149 program R program R, 18 proměnné variables, 9 prosté klouzavé průměry simple moving averages, 182 prostý aritmetický průměr simple arithmetic mean, 23 prostý náhodný výběr simple random sampling, 64 průměr mean, 23 průměrný absolutní přírůstek 253 average absolute increase, 178 průměrný koeficient růstu average growth rate, 178 průřezová data cross-sectional data, 177 prvky náhody elements of chance, 37 předpoklady použití ANOVA assumptions for using ANOVA, 120 předpověď bodová point prediction, 147 předpověď intervalová interval prediction, 147 předpovědi v regresním modelu prediction in regression model, 162 předvýběr pre-sample, 74 příklad example, 12 přípustná chyba error bound, 73 qq-diagram QQ-diagram, 88, 93, 129 referenční úroveň reference level, 164 regresand regressand, 133 regrese regression, 132 regresní analýza regression analysis, 133 regresní funkce regression function, 46 regresní koeficient regression coefficient, 138 regresní model regression model, 134 regresní parametry regression parameters, 133 regresní přímka regression line, 133, 141 regresní přímka v Excelu regression line in Excel, 139, 141 regresní přímka v R regression line in R, 139, 142 regresní rovina regression plane, 159 regresní rovina v Excelu regression plane in Excel, 167 regresní rovina v R regression plane in R, 168 regresor regressor, 133 rejstřík register, 207 relativní četnost relative frequency, 11, 40 relativní kvartilová odchylka relative quartile deviation, 27 relativní míry variability relative measures of variability, 26 relativní pružnosti relative elasticity, 160 relativní přírůstky relative increases, 178 reprezentativní soubor representative sample, 63 residuální analýza residual analysis, 149 rezidua residuals, 120, 134, 145 reziduální rozptyl residual variance, 160 reziduální součet čtverců residual sum of squares, 119 rovnoměrné rozdělení uniform distribution, 59 rozdělení četností 254 frequency distribution, 11 rozdělení pravděpodobnosti probability distribution, 43 rozdělení statistických znaků distribution of statistical characters, 10 rozhodovací pravidlo decision rule, 83 rozptyl variance, 25 rozptyl pro diskrétní a spojitou náhodnou veličinu variance of discrete and continuous random variable, 45 rozptyl vážený weighted variance, 25 rozptýlenost dispersion, 24 rozsah souboru sample size, 9, 78 řešení solution, 40 řetězové indexy chain indexes, 178 sčítání pravděpodobností addition of probabilities, 42 sdružené rozdělení pravděpodobností joint probability distribution, 44 sekundární data secondary data, 10 sezónní složka seasonal component, 179 Shapiro-Wilkův test Shapiro-Wilk test, 88, 92 síla lineární závislosti strength of linear dependence, 135 síla testu test power, 82 skupinový diagram group bar chart, 12 sloupcový diagram bar chart, 11, 16 složená pravděpodobnost compound probability, 41 složené cenové indexy aggregates price index, 178 složené jevy composed events, 38 směrnice slope, 133 směrodatná odchylka standard deviation, 25, 45 součet čtverců reziduí sum of squared residuals, 134 standardizovaná veličina standardized variable, 55 standardní chyba odhadu standard error of the estimation, 145 standardní chyba průměru standard error of the mean, SEM, 66 standardní chyby regresních parametrů standard errors of regression parameters, 146 standardní normální rozdělení standard normal distribution, 55, 61 standardní regresní model standard regression model, 161 statistická definice pravděpodobnosti statistical definition of probability, 40 statistická indukce statistical inference, 63, 147, 153 statistická šetření statistical surveys, 10 statistické jednotky statistical units, 9 statistické testování statistical testing, 81 statistické testy v regresním modelu statistical tests in regression model, 146 255 statistické vyhodnocování statistical evaluation, 11 statistický soubor universe, 9 statistika statistics, 8 střední absolutní chyba mean absolute error, 181 střední absolutní chyba procentuální mean absolute percentage error, 181 střední hodnota mean value, expected value, 45 střední chyba procentuální mean percentage error, 181 střední kvadratická chyba mean squared error, 180 Studentovo t-rozdělení Student t-distribution, 58, 67 studijní materiály study materials, 5 stupně volnosti degrees of freedom, 57, 119 Sturgesův vzorec Sturges rule, 12, 16 subjektivní pravděpodobnost subjective probability, 40 systém normálních rovnic system of normal equations, 135 systematický výběr systematic sampling, 64 tabulka table, 43 tabulka ANOVA ANOVA table, 120 tabulka počtu voleb table of options, 13 tabulka rozdělení četností distribution frequency table, 16 téma topic, 6 teoretický a reziduální součet čtverců teoretical and rezidual sum of squares, 161 teorie pravděpodobnosti probability theory, 37 teorii spolehlivosti reliability theory, 59 test nezávislosti dvou znaků independence test of two characters, 115 test nezávislosti v kontingenční tabulce test of independence in contingency table, 127 test o populačním poměru test of population proportion, 88, 96 test o populačním průměru tests of population mean, 87 test o populačním rozptylu test of population variance, 87, 94 test o shodě dvou populačních poměrů testing the equality of two population proportions, 116 test o shodě poměrů test of conformity proportions, 126 test o shodě populačních průměrů equality population means tests, 99 test o shodě více poměrů testing the equality of more population proportions, 116 test statistické hypotézy test of statistical hypothesis, 81 testování nezávislosti v kontingenční tabulce independence test in contingency table, 118 testování statistických hypotéz statistical hypothesis testing, 80 testy dobré shody 256 goodness of fit tests, 113 testy o korelačních koeficientech tests of correlation coefficients, 163 testy o populačním průměru tests of population mean, 85 testy o regresních parametrech tests of regression parameters, 161 testy shody v R agreement tests in R, 117 trendová složka trend component, 179 trendové funkce trend functions, 180, 186 třídění a shrnování dat sorting and summarizing data, 11 třidní rozdělení četností class frequency distribution, 16 třídní znak class character, 11 Tukeyova metoda Tukey method, 121 Tukeyovo vícenásobné porovnávání Tukey multiple comparison, 128, 129 tvary rozdělení distribution shapes, 11 úkoly tasks, 5 umělé proměnné dummy variables, 164, 170 úplná pravděpodobnost total probability, 42, 49 úplný systém jevů complete system of events, 38 úroveň level, 23 úspěch success, 53 uspořádaná dvojice ordered pair, 44 váha weight, 35 variace variation, 39, 49 variace s opakováním variations with repeating, 39 variační koeficient coefficient of variation, 26 variační rozpětí range, 12, 24 vážený průměr weighted average, 23 věcná interpretace material interpretation, 83 Vennovy diagramy Venn diagrams, 38 vícefaktorová analýza rozptylu multifactor ANOVA, 121 vícenásobná porovnávání multiple comparisons, 121 vícerozměrná proměnná multidimensional variable, 12 vícerozměrná regrese v R multivariable regression in R, 164 vícerozměrné normální rozdělení multivariate normal distribution, 59 vlastnosti aritmetického průměru properties of arithmetic mean, 23, 35 vlastnosti distribuční a pravděpodobnostní funkce properties of distribution function and probability functions, 43 vlastnosti hustoty pravděpodobnosti properties of probability density, 44 vlastnosti kombinačních čísel properties of combinatorial numbers, 40 vlastnosti rozptylu properties of variance, 25, 35, 45 vlastnosti střední hodnoty 257 properties of the mean value, 45 vnitroskupinový rozptyl intragroup variance, 26 vnitroskupinový součet čtverců within-groups sum squares, 119 vybavení telefonem telephone equipment, 15 výběr selection, 180 výběr bez vracení sampling without replacement, 39, 54, 64 výběr pravděpodobnostní probability sampling, 10 výběr s vracením sampling with replacement, 38, 53, 64 výběr testového kritéria a jeho výběrové rozdělení selection of test statistic and his sample distribution, 81 výběrová kovariance sample covariance, 135 výběrová šetření sample surveys, 63 výběrové charakteristiky sample statistics, 65 výběrové rozdělení sample distribution, 65 výběrové šetření sample survey, 64 výběrový sample, 25 výběrový poměr sample proportion, 66 výběrový průměr sample mean, 65 výběrový rozptyl sample variance, 67 výběrový soubor sample, 9 výběrový úhrn sample sum (total), 66 vyčerpávající šetření exhaustive survey, 64 vydatný odhad efficient estimator, 70 vychýlení bias, 69 výklad interpretation, 5 vyrovnaná hodnota fitted value, 181 vyrovnané hodnoty fitted value, 120, 135 vysvětlující veličina explanatory variable, 133 výška height, 15 vzestupně in ascending order, 117 vznik a význam statistiky emergence and importance of statistics, 7 Wilcoxonova statistika Wilcoxon statistic, 101 Wilcoxonovo dvojvýběrové rozdělení Wilcoxon two-sample distribution, 103 Wilcoxonův dvouvýběrový test Wilcoxon two-sample test, 109 Wilcoxonův jednovýběrový test Wilcoxon one-sample test, 89, 95 Wilcoxonův párový test Wilcoxon paired test, 101, 110 základní číselné charakteristiky basic numerical characteristics, 137 základní jevový prostor basic space of events, 38 základní soubor population, 9 základní vlastnosti pravděpodobnosti 258 basic properties of probability, 41 záměrný výběr judgment sampling, 64 zamítnout nulovou hypotézu reject null hypothesis, 83 záporné binomické rozdělení negative binomial distribution, 59 závěr testu test conclusion, 83 závislé pokusy dependent experiments, 38 závislost funkční functional dependence, 132 závislost statistická statistical dependence, 132 zkouška examination, 6 znaky characteristics, 9 zobecněný dvouvýběrový t-test generalized two-sample t-test, 99