1
Statistika
Studijní opora
Jaroslav Stuchlý
2017
České Budějovice
2
2. vydání
ISBN 978-80-7468-021-2
© Vysoká škola technická a ekonomická v Českých Budějovicích, 2017
Vydala: Vysoká škola technická a ekonomická v Českých Budějovicích, Okružní 10, 370 01 České
Budějovice
Za obsahovou a jazykovou správnost odpovídá autor.
3
Cíl předmětu
Cílem předmětu je seznámit studenty se základními postupy z oblasti statistické indukce, metodami
analýzy kvalitativních i kvantitativních znaků a s elementy analýzy časových řad.
Výstupy z učení
Student po absolvování předmětu umí definovat základní postupy z oblasti statistické indukce,
umí charakterizovat a aplikovat metody analýzy kvalitativních i kvantitativních znaků a elementy
analýzy časových řad. Absolvent umí shromažďovat, třídit, zpracovávat a prezentovat
statistická data.
Základní okruhy studia
1. Metody popisné statistiky;
2. Základní statistické charakteristiky;
3. Pravděpodobnost a rozdělení pravděpodobností a jejich číselné charakteristiky;
4. Základní pravděpodobnostní modely;
5. Výběrová šetření, rozdělení výběrových charakteristik a základy statistické indukce;
6. Testování statistických hypotéz;
7. Dvouvýběrové testy;
8. Další testy a analýza rozptylu;
9. Jednoduchá lineární regrese a korelace;
10. Statistická indukce v regresním modelu;
11. Vícerozměrná regrese a prognostická aplikace regrese;
12. Úvod do analýzy časových řad.
13. Analýza časových řad.
Povinná literatura
MAREK, Luboš. Statistika v příkladech. Druhé vydání. Praha: Kamil Mařík - Professional Publishing,
2015, 425 stran. ISBN 978-80-7431-153-6.
4
STUCHLÝ, Jaroslav. Statistika: studijní opora pro kombinované studium. 1. vyd. České Budějovice:
Vysoká škola technická a ekonomická v Českých Budějovicích, 2012. 197 s. ISBN 978-
80-7468-021-2.
Studijní průvodce
- Klíčové pojmy
- Cíle kapitoly
- Čas potřebný ke studiu kapitoly
- Výklad
- Úkoly k zamyšlení a diskuzi
- Klíč k řešení otázek
- Studijní materiály
5
Kapitola 1: Metody popisné statistiky
Klíčové pojmy:
popisná statistika, statistické jednotky, znaky, proměnné, základní a výběrový soubor,
rozsah souboru, klasifikace proměnných, statistická šetření, rozdělení četností, histogram,
sloupkový a výsečový diagram, polygon, skupinové rozdělení četností, vícerozměrné
rozdělení četností, modus, medián, koeficient mutability, nominální a ordinální va-
riance
Cíle kapitoly:
- pochopení základních pojmů z popisné statistiky;
- seznámení s etapami statistického zkoumání;
- znalost pojmů tabulka rozdělení četností, intervalové rozdělení četností, dvourozměrné
tabulky rozdělení četností a příslušné statistické grafy;
- popisování rozdělení nominální a ordinální proměnné číselnými charakteristikami.
Čas potřebný ke studiu kapitoly: 11 hodin
6
Výklad:
Nastínění obsahu kapitoly
Vznik a význam statistiky
Základní statistické pojmy
Etapy statistických prací
Elementární zpracování dat (tabulky a grafy)
o kvalitativní (nominální) proměnné;
o pořadové (ordinální) proměnné;
o kvantitativní (numerické) proměnné s malým a velkým počtem obměn;
o vícerozměrné proměnné.
Statistická analýza nominální a ordinální proměnné.
Život nedal nic lidem, co by nezaplatili velkou námahou
Horatius
Vznik a význam statistiky
Poznání stále pronikavěji zasahuje do všech stránek našeho života. Každých 10-15 let se množství
znalostí zdvojnásobuje. Orientace v oborech lidské činnosti a jejích výsledcích je stále náročnější.
Vzrůstá rozsah informací (údaje o hromadných jevech), ale i jejich cena (informace
jsou zbožím). Jejich zkoumání a vyhodnocování se stalo důležitou náplní praktické i teoretické
statistiky.
- První použití statistických operací – Čína, Řím před naším letopočtem: sčítání obyvatel,
zařazení do daňových skupin.
- První statistické analýzy – 17. století: Anglie - J. Graunt, W: Petty (zpracování údajů z
matriky).
- Termín „statistika“ vznikl v 18. století (G.Achenwall):
7
- Latinsky status = stav status rei publicae = stav věci veřejné italské státo
= stát státistico = statistický, statistik státistica = statistika.
- Statistikové byli vzdělaní muži, kteří byli velmi ceněni.
- Další rozvoj statistiky 19. a 20. století: Bernoullli, Laplace, Gauss, Pearson, Fisher,
Janko, Hájek.
Moderní statistika 20. století vznikla z úředních zjišťování, univerzitní státovědy, politické aritmetiky
a teorie pravděpodobnosti.
Lze ji chápat nejméně ve 3 pojetích: Jako
- číselné údaje o hromadných jevech;
- praktickou činnost spočívající ve sběru, zpracování a vyhodnocování statistických
údajů;
- teoretickou disciplínu, zabývající se metodami zkoumání hromadných jevů.
Nachází široké uplatnění ve všech oblastech lidské činnosti:
- biologie, medicína, fyzika, technické disciplíny,
- ekonometrie, marketing, sociálně-ekonomické vědy,
- významná podpora pro manažerské rozhodování.
Základní statistické pojmy
Hromadné jevy (opak individuálních jevů):
- masově se vyskytují a mohou se libovolně opakovat;
- měříme je u prvků, které nazýváme statistické jednotky;
- to co měříme, nazýváme statistické znaky či proměnné.
Statistický soubor:
8
- určitá věcně, prostorově a časově vymezená množina všech zkoumaných statistických
jednotek, u kterých zjišťujeme hodnoty sledovaných statistických znaků;
- jednorozměrný, dvourozměrný, vícerozměrný;
- základní soubor (populace) a výběrový soubor (vzorek) – obsahuje všechny nebo jen
vybrané jednotky.
Rozsah souboru – počet jeho statistických jednotek:
- Základní: N;
- Výběrový: n.
Rozdělení statistických znaků
Zdroj: vlastní
Klasifikace podle stupnice, na které jsou znaky měřeny:
- Nominální (kvalitativní, slovní),
- ordinální (pořadové),
- kardinální znaky (kvantitativní, číselné).
Základní klasifikace:
nespojité
(diskrétní)
spojité
měřitelné pořadové
kvantitativní
(číselné)
alternativní množné
kvalitativní
(slovní, kategoriální)
Statistické znaky
(proměnné)
9
Etapy statistických prací
Statistická šetření (zjišťování):
- použití sekundárních dat (publikovaná – ČSÚ, ČNB apod.),
- primární data – získaná od zpravodajských jednotek nebo respondentů (přímé pozorování,
dotazník, anketa; z výkazů).
- Rozhodná doba u intervalových proměnných, rozhodný okamžik u okamžikových
proměnných.
- Šetření úplné = vyčerpávající (cenzus) a neúplné = dílčí (výběr, zatíženo výběrovou
chybou); expediční, korespondenční (telefonické nebo přes internet).
- Výběr pravděpodobnostní = náhodný (reprezentativní) a nenáhodný (záměrný =
úsudkový, kvótní aj.).
- Statistické zpracování (na počítači):
- kontrola dat, tabulka, třídění a shrnování dat, číselné charakteristiky.
- Statistické vyhodnocování (rozbor) a prezentace dat:
- slovní text, prezentační tabulka nebo graf, v prezentačním programu na počítači.
Elementární zpracování dat
O nominální a ordinální proměnné:
- tabulka variant a jejich četností (frekvencí)
- absolutních ni - počet výskytů i-té varianty,
- relativních pi = ni/n - poměr výskytů i-té varianty;
- graf rozdělení četností:
10
- sloupcový diagram (histogram);
vertikální = svislý nebo horizontální = vodorovný,
jednoduchý nebo skupinový;
- polygon rozdělení četností (lomená čára);
- výsečový, koláčový diagram;
- plošný graf.
- Tvary rozdělení: jednovrcholové, vícevrcholové, symetrické, různě šikmé a špičaté.
O pořadové nebo kvantitativní proměnné:
- Jednostupňové třídění do tabulky rozdělení četností.
- U diskrétní proměnné s malým počtem obměn vyjadřujeme:
- hodnoty obměn xi (třídní znak),
- absolutní četnosti (frekvence) ni,
- relativní četnosti pi = ni/n,
- kumulované absolutní četnosti Ni = n1+n2+…+ni,
- kumulované relativní četnosti Mi = p1+p2+…+pi:
představují tzv. empirickou distribuční funkci,
násobené stem udávají, jaké % rozsahu souboru má menší nebo rovnou
hodnotu proměnné než je xi,
kumulované absolutní (relativní) četnosti udávají počty (podíly) statistických
jednotek, pro které je uvažovaná proměnná rovna nejvýše xi (tj.
X ≤ xi).
11
- Rozdělení znázorňujeme obvykle sloupkovým diagramem (histogramem) nebo
polygonem.
Příklad – viz Stuchlý (1999a), s. 32-33.
U diskrétní kvantitativní proměnné s velkým počtem obměn nebo u spojité kvantitamivní proměnné
vyjadřujeme třídění do tabulky třídního (intervalového) rozdělení četností.
- Počet tříd nejčastěji určuje Sturgesův vzorec: k = 1+3,322 log10(n) (zaokrouhlíme na
celé číslo).
- Obvyklý počet tříd k 5 – 20 (při menším – přílišná redukce dat a při větším – nepřehlednost
výsledků).
- Délka třídního intervalu h =R/k (zaokrouhlíme), variační rozpětí R = xmax-xmin.
Příklad – viz Stuchlý (1999a), s. 33-34.
Elementární zpracování dat o vícerozměrné proměnné:
- více kontigenčních tabulek – podle dvojic znaků (v R);
- kontingenční tabulka s hierarchickou strukturou (větvení v řádcích, resp. v sloupcích,
viz Excel);
Grafy: dvourozměrné histogramy, skupinový diagram, bodový (rozptylový) diagram.
Speciální tabulky:
- asociační tabulky – podle 2 kvalitativních znaků;
- korelační tabulky – podle 2 kvantitativních znaků.
Příklad – viz Stuchlý (1999a), s. 34-35.
12
Statistická analýza nominální proměnné
- Kategorie seřazujeme obvykle podle velikosti četností nebo podle abecedy.
- Pokud se u určitých otázek objevuje více odpovědí, nedostaneme tabulku rozdělení
četností, ale jen tabulku počtu voleb (vyhodnocení procenty z počtu obměn
nebo z rozsahu výběru).
- Poloha – modus (hodnota s nejvyšší četností).
- Variabilita:
- Koeficient mutability
Je 0 M 1, přitom M = 0 znamená 1 obměnu a M = 1 je n obměn.
- Nominální variance: nomvar =
Interpretace je obdobná jako u M.
Příklad – viz Stuchlý (2011), s. 40.
Statistická analýza ordinální proměnné
- Poloha – medián (prostřední hodnota) a modus.
- Variabilita - diskrétní ordinální variance
kde Mi, resp. Fi jsou kumulativní relativní četnosti.
Příklad – viz Řezanková-Löster (2009), s. 22.
Podrobnější popis metod popisné statistiky najdeme zejména v učebnici Cyhelský (2001), s.
13-55.
1)-n(n
2
i
2
nn
M
k
1i
2
i1
1
p
k
k
),1(
1
4
dorvar
1
k
i
ii MM
k
13
Tabulky rozdělení četností a jejich grafy lze získat v Excelu pro kvalitativní proměnnou pomocí
prostředku Kontingenční tabulka a pro numerickou proměnnou pomocí nástroje Histogram
v Analýze dat - viz Řezanková-Löster (2009), s. 39-42. Výpočty je také možné provést v interaktivní
nabídce R-Commanderu (viz řešení následujících úkolů).
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 11-29.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE Praha
1999. S. 30-36. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 7-26. ISBN 80-
245-0178-3.
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 13-
55. ISBN 80-7261-003-1.
GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. s. 35-46.
ISBN 978-80-251-2465-9.
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 11-17. ISBN 80-7261-013-9.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
11-20, 37-44. ISBN 978-80-86446-40-5.
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita, 1995. S. 9-58. ISBN 80-7157-166-0.
14
ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 7-22, 39-
44, ISBN 978-80-245-1514-4
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 9-29. ISBN 80-7187-058-7.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/)
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 51-85. ISBN
80-7169-089-9.
Otázky a úkoly
1) Pracujte se souborem byty.xls. Úkoly:
a) Načíst data do Excelu a charakterizovat typ jednotlivých proměnných;
b) vytvořit tabulku rozdělení absolutních a relativních četností podle proměnné čtvrť a
znázornit je graficky histogramem, resp. sloupcovým diagramem nebo výsečovým diagramem
(použít kontingenční tabulky a grafy);
c) vytvořit tabulku rozdělení všech četností podle proměnné počet obyvatel a znázornit
je graficky sloupkovým diagramem nebo histogramem (použít z analýzy dat histo-
gram);
d) vytvořit tabulku rozdělení všech četností podle proměnné obytná plocha a znázornit
je graficky sloupkovým diagramem (použít z Analýzy dat Histogram v Excelu);
e) vytvořit kontingenční tabulku pro proměnné čtvrť, obytná plocha a vybavení telefo-
nem
2) Pro proměnnou a) čtvrť b) kategorie ze souboru byty.xls určete charakteristiky úrovně
a variability a interpretujte výsledky.
3) Načtěte do programu R data ze souboru studenti.dat a určete v tomto programu a) tabulku
rozdělení četností a její graf pro proměnnou „doprava“, b) tabulku rozdělení absolutních
a relativních četností a histogram pro proměnnou „výška“. c) dvojrozměrnou
tabulku rozdělení četnosti pro proměnné „pohlaví“ a „výška“ a znázorněte je graficky.
15
Úkoly k zamyšlení a diskuzi
1) Jaká kritéria budete považovat za důležitá při sestavování reprezentativního výběru
osob pro a) předvolební průzkum, b) marketingový průzkum prodeje aut, c) průzkum
ohrožení populace cévními chorobami? Vyberte z těchto navrhovaných: věk, krevní
tlak, pohlaví, barva očí, národnost, velikost obce bydliště, členství v politické straně,
tělesná výška, náboženské vyznání. Která z nich jsou nejdůležitější v bodě a), b), c)?
Zkuste navrhnout další kritéria!
2) Sestavte statistický soubor ze svých přátel a známých a roztřiďte je současně podle pohlaví
a podle toho, zda jsou kuřáci či nekuřáci. Sestavte asociační tabulku a znázorněte
ji graficky.
16
Klíč k řešení otázek:
1) a) Klasifikace statistických znaků a popisné statistiky v Excelu: Nominální množná:
Čtvrť, nominální alternativní: Telefon, ordinální: Kategorie, numerická diskrétní: Počet
obyvatel, numerická spojitá: Obytná plocha a Nájemné.
b) Sloupcový diaagram a koláčový diagram čtvrti, tabulka rozdělení četností a histogram
počtu obyvatel:
c)
poč.ob. četnost
1 3
2 6
3 7
4 8
5 4
6 2
Součet 30
3
6
7
8
4
2
0
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5 6 Další
Četnost
poč.ob.
Histogram
Četnost
17
d) Variační rozpětí je R = 116,0 - 34,8 = 34,8. Podle Sturgesova vzorce je počet tříd
k = 1 + 3,322 log 30 = 5,907. Délka třídního intervalu je h = 81,2/5,907 = 13,746. Pro
lepší přehlednost zaokrouhlíme h = 10. Třidní rozdělení četností a sloupcový diagram:
Obytná plocha (v m2
) xi ni pi Ni Mi
31 - 40 35 1 0,033 1 0,033
41- 50 45 2 0,067 3 0,1
51 - 60 55 5 0,167 8 0,267
61 - 70 65 8 0,267 16 0,534
71 - 80 75 6 0,2 22 0,734
81 - 90 85 4 0,133 26 0.867
91 - 100 95 2 0,067 28 0,934
101 - 110 105 1 0,033 29 0,967
111 - 120 115 1 0,033 30 1
Součet 30 1
e) Kontingenční tabulka s hierarchickou strukturou a její dvourozměrný histogram:
Počet z Ctvrť Ob.plocha
Ctvrť Telefon 30-55 55-80 80-105 105-130 Celkový součet
'Nove_Mesto' 'ano' 1 4 2 7
'ne' 1 1 1 3
Celkem z 'Nove_Mesto' 2 5 3 10
'Nusle' 'ano' 2 2
'ne' 2 2 4
Celkem z 'Nusle' 2 2 2 6
'Vinohrady' 'ano' 6 2 8
'ne' 3 1 4
Celkem z 'Vinohrady' 9 2 1 12
0
1
2
5
8
6
4
2
1 1
0
0
2
4
6
8
10
Četnost
ob.plocha
Sloupcový diagram
Četnost
18
'Vysehrad' 'ne' 1 1 2
Celkem z 'Vysehrad' 1 1 2
Celkový součet 5 17 7 1 30
2) a) Jde o nominální proměnnou. Pro výpočet použijeme tabulku
Čtvrt ni pi ni
2
pi
2
'Nove_Město' 10 0,333 100 0,111
'Vinohrady' 12 0,400 144 0,160
'Nusle' 6 0,200 36 0,040
'Vyšehrad' 2 0,067 4 0,004
Součet 30 1 284 0,316
Úroveň popisuje modus = „Vinohrady“, variabilitu popisuje koeficient mutability
nebo nominální variance
Hodnoty blízké 1 ukazují na velkou variabilitu (měnlivost) hodnot nominální proměnné
„čtvrť“.
30-55
55-80
80-105
105-130
0
1
2
3
4
5
6 'ano'
'Nove_Mesto'
'ne'
'ano'
'Nusle'
'ne'
'ano'
'Vinohrady'
'ne'
'ne'
'Vysehrad'
30-55
55-80
80-105
105-130
,708,0
)130(30
28430
1)-n(n
22
i
2
nn
M
.913,0)316,01(
14
4
1
1
nomvar
k
1i
2
i
p
k
k
19
b) Jde o ordinální proměnnou. Úroveň charakterizuje modus nebo medián, variabilitu
ordinální variance. Dále postupujeme obdobně.
3) R je pro potřeby výuky volně šiřitelný program. Instalce je možná z Internetu nebo jen
zkopírováním na učebně. Program R otevřeme pomocí příslušné ikonky „R“ (otevře se
R Konzola). V R Konzole napíšeme příkaz library(Rcmdr) a odešleme ho Enterem. Tím
se otevře nadstavba R Commander. Obsahuje vstupní okno (Script Window) na vkládání
příkazů, výstupní okno (Output Window), kde dostáváme výsledky výpočtů a úplně dole
dialogové okno (Messages), v kterém se budou zobrazovat chybová hlášení či jiné informace.
Základní poznatky o práci s systémem R jsou v Bína a kol. (2006) nebo můžeme
použít Help v R Commanderu: Introduction to Rcmdr. Datový soubor studenti.dat
načteme z nabídky Data pomocí Import data from text file. (v dialogovém okně vypíšeme
do okna Enter name for data set: studenti a po stlačení OK zadáme cestu k umístnění
datového souboru). Tabulku načteného datového souboru si můžeme prohlédnout
stlačením tlačítka u Data set (v našem případě se toto tlačítko označilo „studenti“). Tlačítko
Edit data set otvírá editor dat (po provedení editace ho zavíráme křížkem X v pravém
horním rohu). Program rozlišuje velká a malá písmena a používá desetinné tečky.
Většinu výpočtů je možno provádět v R interaktivně (s využitím nabídky R Commanderu),
avšak některé musíme provádět příkazově (vypsáním a odesláním příslušného
příkazu ve vstupním okně). Přehled příkazů najdeme v Stuchlý (2011). Modifikátory
k těmto příkazům lze vyhledat v nápovědě.
a) Popisná statistika v R:Určení tabulky rozdělení absolutních a relativních četností a
jejích grafů pro proměnou doprava použijeme v nabídce Statistics položku Summaries
Frequency distribution (označíme proměnnou „doprava“) a z nabídky Graphs
položku Bar graph, resp. Pie Chart. Na výstupu se objeví tabulky rozdělení četností
a grafy (grafy se automaticky kreslí do R Konzoly):
> .Table # counts for doprava
A B M T V
2 19 9 7 25
> 100*.Table/sum(.Table) # percentages for doprava
A B M T V
3.225806 30.645161 14.516129 11.290323 40.322581
20
b) Protože R-ko kreslí histogram jen pro kvantitativní proměnné a tabulku rozdělení
počítá jen pro kategoriální proměnné, nakreslíme nejdříve histogram pomoci nabídky
Graphs a položky Histogram a proměnou „výška“:
Z grafu vidíme, že optimální třídní rozdělení četností (založené na Sturgesově vzorci)
je do 8 tříd délky 5 na intervalu od 150 do 200 cm. Budeme proto kategorizovat výšky
do těchto tříd v Data - Manage variables in active data set - Compute new variable
(vyplníme New variable name: vyska_k, Expression to compute: cut(studenti$vyska,
breaks=seq(150,200,by=5)), v editoru se objeví nová kategoriální proměnná vyska_k,
21
zavřeme editor a použijeme pro ni Statistics Summaries Frequency distribution a dostane
rozdělení absolutních relativních četností:
> .Table # counts for vyska_k
(150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185] (185,190]
1 2 9 6 10 12 11 7
(190,195] (195,200]
4 0
> 100*.Table/sum(.Table) # percentages for vyska_k
(150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185] (185,190]
1.612903 3.225806 14.516129 9.677419 16.129032 19.354839 17.741935 11.290323
(190,195] (195,200]
6.451613 0.000000
Kumulované četnosti se počítají pomocí příkazu
cumsum (table(studenti$vyska_k))
a kumulované relativní četnosti (v %) pomocí příkazu
cumsum(100*table(studenti$vyska_k))/sum(table(studenti$vyska_k))
c) Použijeme Statistics Contigency tables - Two-way table, zaškrtneme pohlavi a vyska_k
a No percentages (pro absolutní četnosti) nebo Percentages of total (pro relativní
četnosti v %) a Chi-square test of independence zatím odškrtneme.
vyska_k
pohlavi (150,155] (155,160] (160,165] (165,170] (170,175] (175,180] (180,185]
M 0 0 0 1 2 10 11
Z 1 2 9 5 8 2 0
vyska_k
pohlavi (185,190] (190,195] (195,200]
M 6 4 0
Z 1 0 0
Graf dostaneme vypsáním programu:
par(mfrow=c(1,2))
22
Hist(studenti$vyska[studenti$pohlavi=="M"], scale="frequency", main="muzi", col="darkgray")
Hist(studenti$vyska[studenti$pohlavi=="Z"], scale="frequency", main="zeny", col="darkgray")
do vstupního okna a jeho odesláním pomocí Submit:
23
Kapitola 2: Základní statistické charakteristiky
Klíčové pojmy:
číselné charakteristiky (míry) statistického znaku (proměnné), prostý a vážený aritmetický
průměr, vlastnosti průměru, modus, medián, kvantily, kvartily, odlehlá hodnota,
variační a kvartilové rozpětí, prostý a vážený rozptyl, populační a výběrový rozptyl, vlastnosti
rozptylu, meziskupinový a vnitroskupinový rozptyl, směrodatná odchylka, variační
koeficient, absolutní a relativní kvartilová odchylka, koeficient asymetrie (šikmosti) a špičatosti,
kovariance, korelační koeficient, kovarianční a korelační matice, krabicový dia-
gram
Cíle kapitoly:
- pochopení významu jednotlivých číselných charakteristik statistického znaku;
- porozumění vlastnostem aritmetického průměru a rozptylu;
- znalost výpočtu a věcné interpretace jednotlivých číselných charakteristik pomocí
vhodného software (Excel, R).
Čas potřebný ke studiu kapitoly: 11 hodin
24
Výklad:
Nastínění obsahu kapitoly.
Charakteristiky numerické proměnné
- Charakteristiky polohy
- Charakteristiky variability
- Charakteristiky tvaru rozdělení
Kvantilové charakteristiky
Grafické znázornění číselných charakteristik
Charakteristiky vícerozměrné veličiny
Struktura výkladu
Charakteristiky numerické proměnné
Charakteristiky polohy (úrovně)
- Popisují obecnou úroveň znaku
- Udávají střed rozdělení četností (střední hodnoty)
- Známe již modus a medián
Průměry:
Motto: Statistika je předmět, který nás učí, že když stojíme jednou nohou na
rozpálené plotně a druhou máme v mrazáku, jsme na tom v průměru dobře.
Prostý aritmetický průměr
- populační
N
i
ix
N 1
1
25
- výběrový
- Interpretace aritmetického průměru – jaká část z celkového úhrnu připadne na jednu
jednotku;
fyzikálně: těžiště.
- Z dat agregovaných v tabulce rozdělení četností dostaneme vážený průměr:
váhy – absolutní četnosti ni:
váhy - relativní četnosti pi :
Vlastnosti aritmetického průměru:
a) Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu
i aritmetický průměr.
b) Aritmetický průměr konstanty je opět roven konstantě.
c) Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou násoben
i průměr.
d) Součet jednotlivých odchylek od průměru je nulový.
e) Součet čtverců odchylek hodnot znaku od jeho aritmetického průměru je mini-
mální.
f) Je-li statistický soubor rozdělen na k dílčích podsouborů, v nichž známe jednotlivé
dílčí průměryxi a počty pozorování (absolutní četnosti) ni, i = 1,…,k, potom
celkový aritmetický průměr se rovná váženému aritmetickému průměru dílčích
průměrů s vahami rovnými absolutním četnostem.
- Uvedené vlastnosti je možno zapsat pomocí následujících vzorců:
n
i
ix
n
x
1
1
k
i
ii nx
n
x
1
1
k
i
ii pxx
1
k
1i
iik
1i
i
n
1i
n
1i
22
n
1i
1
f);)()(e)
;0)(d);..c)
c;cb)a)
nx
n
xaxxx
xxxcxc
cxcx
ii
i
26
- Kromě aritmetického průměru používáme v některých situacích harmonický, geometrický
nebo kvadratický průměr – viz Hindls (2007), s. 32-34.
Příklad:
- Doba pobytu pacientů v nemocnici je 5 9 6 6 9 8 9 6 38 5 9.
- Aritmetický průměr je
- Je aritmetický průměr za 1. týden dostatečně spolehlivou (typickou) střední hodnotou,
když deset z jedenácti pacientů strávilo v nemocnici kratší dobu než 10 dní? (Vliv extrémní
hodnoty 38 dní.)
- Spolehlivější je zde medián (prostřední hodnota): 5 5 6 6 6 8 9 9 9 9 38, medián
= 8.
Charakteristiky variability:
- Popisují měnlivost (rozptýlenost=variabilitu) hodnot znaku (vyrovnanost, homogenita
hodnot znaku).
- Malá variabilita znamená malou vzájemnou různost hodnot znaku, v tomto případě je
průměr dobrou mírou.
- Vysoká variabilita značí velkou vzájemnou odlišnost hodnot znaku, pak průměr není
dobrá míra.
- Známe již míru variační rozpětí R = xmax – xmin.
Absolutní míry variability:
- Rozptyl prostý (variance)
- populační:
- výběrový:
- Charakterizuje rozptýlenost hodnot znaku kolem aritmetického průměru.
- Platí
.10
11
110
)953869896695(
11
11
1
n
i
ix
n
x
,)(
1 N
1i
22
xx
N
i
.)(
1
1
'nebo)(
1
1
2
1
22 2
n
i
ix
n
i
ix xx
n
sxx
n
s
.
1
'a'
1 2222
s
n
n
ss
n
n
s
27
- Pro ruční výpočet je vhodnější používat následující výpočetní vzorce místo předcházejících
definičních:
-
Pro data shrnutá do tabulky rozdělení četností používáme:
- Výběrový rozptyl vážený
k
i
ii nxx
n
s
1
22
)(
1
, resp. .
1 2
1
22
xnx
n
s
k
i
ii
- Rozptyl měříme ve čtvercích měrných jednotek hodnot znaku. Proto je vhodnější místo
rozptylu používat jeho odmocninu. Dostaneme míru:
- Směrodatná odchylka
- populační ;
- výběrová s (resp. s’).
- Absolutní odchylka
- Vlastnosti rozptylu:
1. Rozptyl konstanty je roven nule, tj. sc
2
= 0
2. Rozptyl je vždy nezáporný tj. sx
2
0.
3. Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění, tj. sx+c
2
=
sx
2
.
4. Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem
této konstanty, tj. scx
2
= c2
sx
2
.
5. Předpokládejme, že statistický soubor o rozsahu n je rozdělen do k dílčích podsouborů
kde známe dílčí rozptyly si
2
, dílčí průměryxi a dílčí četnosti ni. Potom
rozptyl celého souboru je dán součtem rozptylu skupinových průměrů (meziskupinový
rozptyl) a váženému průměru ze skupinových rozptylů (vnitroskupinový
rozptyl), tj.
.
1
1
'resp.,
1
s 2
n
1i
2
i
22
n
1i
2
i
2
xnx
n
sxx
n
.||
1 n
1i
i
xx
n
d
kde,222
sss x
,)(
1 2
1
2
i
k
i
ix nxx
n
s
k
i
i
k
i
ii
n
n
s
1
1
2
2
s
28
Meziskupinový rozptyl měří variabilitu mezi skupinami a vnitroskupinový rozptyl
variabilitu vnitroskupinovou. Na principu tohoto rozkladu je založena analýza
rozptylu.
Relativní míry variability:
- Jedná se o variabilitu vztaženou na jednotku znaku.
- Variační koeficient
- Udává, kolik procent průměru činí směrodatná odchylka. Je-li V > 50%, je soubor
silně nesourodý a není vhodné používatx.
- Platí:
- V řešeném příkladu je V = 8,99.100/10 = 89,8% (silně nehomogenní data).
Charakteristiky tvaru rozdělení četností:
- Koeficient asymetrie (šikmosti) a špičatosti rozdělení četností
- Charakteristiky jsou založeny na srovnání stupně koncentrace malých a velkých
hodnot pozorovaného znaku.
- Je-li stejný počet podprůměrných a nadprůměrných hodnot je rozdělení symetrické
– levý obrázek (průměr = mediánu).
- Převažují-li velké hodnoty, jde o rozdělení s kladnou šikmostí – prostřední obrázek
(průměr > medián).
- Převažují malé hodnoty, jde o rozdělení se zápornou šikmostí – pravý obrázek
(průměr < medián).
Grafy symetrických a asymetrických rozdělení:
%.100)(,%100
x
s
xVV x
;)(
cx
s
cxV
).(
.
.
)( xV
x
s
xc
sc
xcV
29
Symetrické rozdělení Kladná šikmost Záporná šikmost
Číselné charakteristiky tvaru rozdělení:
- Koeficient šikmosti (asymetrie)
- Rozdělení symetrické: ax = 0, zleva zešikmené ax > 0, zprava zešikmené ax < 0.
- Koeficient špičatosti
- Špičatost jako u standardního normálního rozdělení: bx = 0, špičatější bx > 0,
méně špičaté bx < 0.
Kvantilové charakteristiky
Úroveň popisujeme kvantily. Z nich nejvíce používaný je medián.
- p kvantil xp – bod, který dělí hodnoty seřazené podle velikosti přibližně v poměru p:(1-
p).
- Přesnější zápis:
- (relativní četnost jednotek xi, pro něž je xi ≤ xp) ≥ p;
- (relativní četnost jednotek xi, pro něž je xi > xp) ≤ 1 – p.
- Výpočet lze provádět z tabulky kumulovaných relativních četností.
- Medián x0,5 je prostřední hodnota v posloupnosti dat srovnaných podle velikosti při lichém
počtu měření a průměr z prostředních dvou měření při sudém počtu měření.
- Jinak řečeno: (aspoň polovina hodnot je x0,5 a nejvýše polovina je > x0,5)
.
)(
3
1
3
x
n
i
i
x
ns
xx
a
.3
)(
4
1
4
x
n
i
i
x
ns
xx
b
30
- Jiná označení x50, x~ .
- Kvartily x0,25, x0,50, x0,75.
- Decily x0,1, x0,2,…,x0,9.
- Percentily x0,01, x0,02, …, x0,99.
Absolutní variabilitu popisuje:
Kvartilové rozpětí Rq = x0.75 – x0,25 a kvartilová odchylka Q = (x0,75 – x0,25)/2.
Odlehlé hodnoty jsou hodnoty nižší než x0,25 – 1,5 Rq nebo vyšší než x0,75 + 1,5 Rq.
Relativní variabilitu popisuje relativní kvartilová odchylka Qrel = (x0,75 – x0,25)/ (x0,75 + x0,25)
Příklad: Budeme charakterizovat data z řešeného příkladu o pobytu pacientů v nemocnici rozptylem
a směrodatnou odchylkou. Výpočet provedeme v tabulce:
- Počítáme populační rozptyl
- Směrodatná odchylka je s = 8,99 dní – velmi vysoká variabilita způsobená jednou extrémní
hodnotou.
Grafické znázornění číselných charakteristik
Hodnoty kvantilových charakteristik znázorňujeme krabicovým diagramem v R. Krabicový diagram
– obdélník, 2 vousy a body. Dolní a horní hrana obdélníku představují dolní a horní
data
xi
průměr
x
odchylka
xi - x
čtv.odchylky
(xi - x )2
čtv.dat
xi
2
5 10 -5 25 25
5 10 -5 25 25
6 10 -4 16 36
6 10 -4 16 36
6 10 -4 16 36
8 10 -2 4 64
9 10 -1 1 81
9 10 -1 1 81
9 10 -1 1 81
9 10 -1 1 81
38 10 28 784 1444
Součet 0 890 1990
.dní9091,80890
11
1
)(
1
s 2
1
22
n
i
i xx
n
31
kvartil, dělicí čára uvnitř představuje medián. Dolní vous představuje menší z hodnot xmin a
x0,25 – 1,5 Rq a horní vous představuje vyšší z hodnot xmax a x0,75 + 1,5 Rq. Body představují
odlehlé (extrémní) hodnoty.
Celé rozdělení znázorňujeme histogramem nebo polygonem v Excelu nebo R. Z těchto grafů je
také možné odhadnout přibližnou hodnotu číselných charakteristik.
Výpočet číselných charakteristik v Excelu (viz Řezanková-Löster 2009, s. 39-42):
- pomocí statistických funkcí;
- pomocí popisné statistiky z Analýzy dat.
Výpočet číselných charakteristik v R Commanderu:
- interaktivně: Statistics-Summaries-Active data set, Statistics-Summaries-Numerical
summaries…, Statistics-Summaries-Table of statistics… (počítá charakteristiky podmíněné
hodnotami nominální proměnné), Statistics-Summaries-Correlation matrix…,
Graphs-Histogram, Graphs-Boxplot nebo pomocí příkazů (viz Stuchlý 2011).
Příklady: Viz Stuchlý (1999a), s. 41 (prosté číselné charakteristiky), s. 42 (vážené číselné charakteristiky)),
s. 45 (rozklad rozptylu), s. 46 (charakteristiky tvaru rozdělení), s. 47-48 (grafy).
Charakteristiky vícerozměrných proměnných
Podmíněné průměry a rozptyly (počítané v závislosti na hodnotách kategoriální proměnné).
- Výpočet v Excelu – vyfiltrováním dat podle kategoriální proměnné a přímo v R.
Kovariance
- Obecně platí sx±y
2
= sx
2
± sxy + sy
2
,
- Jsou-li znaky x, y nezávislé, je sx±y
2
= sx
2
+ sy
2
.
Korelační koeficient
- Měří těsnost lineární závislosti. Platí:
n
i
ii
n
i
iixy yxyx
n
yyxx
n
YXs
11
1
))((
1
),cov(
.),(cor
yx
xy
xy
ss
s
YXr
32
ryx = rxy ,
-1 rxy 1,
rxy= 1 mezi proměnnými je přímá funkční lineární závislost,
rxy=-1mezi proměnnými je nepřímá funkční lineární závislost,
rxy = 0 proměnné jsou nekorelované.
Jsou-li proměnné x, y lineárně nezávislé, je sxy = rxy = 0.
Pro více proměnných počítáme kovarianční matici (na diagonále rozptyly, mimo kovariance) a
korelační matici (na diagonále 1 mimo korelační koeficienty).
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 29-47.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE Praha,
1999. S. 37-50. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Skripta VŠE, Praha 2003, s. 27-53,
ISBN 80-245-0178-3
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S. 56-
81. ISBN 80-7261-003-1.
GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. S. 46-5. ISBN
978-80-251-2465-9.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada Publishing, 1999.
S. 12-40. ISBN 80-7169-255-7.
33
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
21-37. ISBN 978-80-86446-40-5.
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita, 1995. S. 61-93. ISBN 80-7157-166-0.
ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 22-45,
ISBN 978-80-245-1514-4.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 33-51. ISBN 80-7187-058-7.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 87-130. ISBN
80-7169-089-9.
WONNACOT, T.H. a R.J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 33-48. ISBN 80-85605-09-0.
Otázky a úkoly
1) Pracujte se souborem byty.xls. Řešte v Excelu:
a) Několika vhodnými způsoby charakterizujte polohu proměnných obytná plocha
a počet obyvatel. Použijte vhodné funkce Excelu.
b) Několika vhodnými způsoby charakterizujte absolutní a relativní variabilitu proměnných
obytná plocha a počet obyvatel. Použijte vhodné funkce Excelu. Interpretujte
výsledky.
c) Řešte úkoly a), b) pomocí popisné statistiky v Analýze dat.
d) Určete koeficient asymetrie a špičatosti a ověřte, zda jsou získané výsledky
v souladu s grafem rozdělení obou proměnných.
e) Určete meze pro odlehlé hodnoty pro proměnnou obytná plocha.
f) Určete decily pro proměnnou obytná plocha
34
g) Pomocí filtru rozdělte data proměnné obytná plocha podle kategoriální proměnné
vybavení telefonem a určete příslušné podmíněné průměry a výběrové
směrodatné odchylky.
h) Určete kovarianční a korelační matici pro proměnné obytná plocha, počet obyvatel
a nájemné a interpretujte výsledky.
2) Načtete do R data ze souboru studenti.dat. Úkoly:
a) Pro proměnnou výška vypočítat průměr, standardní odchylku a kvartily a znázornit
výsledek krabicovým diagramem.
b) Pro proměnnou výška vypočítat podmíněný průměr, standardní odchylku a kvartily
podle pohlaví a znázornit výsledek krabicovým diagramem.
c) Určete kovarianční a korelační matici pro proměnné vyska, vaha, test a interpretujte
výsledky.
3) Byla vypočtena průměrná mzda 21037 Kč a rozptyl mezd 360000. Určete průměrnou
mzdu a směrodatnou odchylku mezd, pokud
a) každý pracovník dostane přidáno 500 Kč,
b) každý pracovník dostane 1,5 násobek platu,
c) každý pracovník dostane přidáno 5% ze stávajícího platu.
35
Úkoly k zamyšlení a diskuzi
1) Představte si, že nějaký test píše velký počet lidí a že každý jednotlivý žák dosáhne
přesně polovinu správných odpovědí. V tomto případě bude směrodatná odchylka (vyberte
a zdůvodněte správnou odpověď):
a) rovna průměru,
b) rovna mediánu,
c) rovna nule,
d) směrodatnou odchylku nebude možné určit bez více odpovědí.
2) Zamyslete se nad tím, jak dokážeme platnost výpočetního vzorce pro rozptyl.
Klíč k řešení otázek:
1) Číselné charakteristiky v Excelu: Vložíme data do sloupců v Excelu.
a) Aplikujeme na příslušné sloupce v Excelu statistické funkce průměr a medián a
dostaneme pro obytnou plochu: průměr = 70,46, medián = 69,35 a pro počet
obyvatel: průměr = 3,33, medián = 3.
b) Pro absolutní variabilitu použijeme SMODCH.VÝBĚR a kvartilovou odchylku
Q (pro její výpočet použijeme Q = (QUARTIL(D2:D31;3) - QUARTIL(D2:D31;1))/2
dostáváme pro obytnou plochu s = 17,63, Q = 10,5 a pro počet
obyvatel s = 1,40, Q = 1. Relativní variabilitu budeme charakterizovat variačním
koeficientem V (V = SMODCH.VÝBĚR/ PRŮMĚR) a relativní kvartilovou
odchylku Qrel (Qrel = (QUARTIL(D2:D31;3) – QUARTIL (D2:D31;1))/
(QUARTIL(D2:D31;3) + QUARTIL(D2:D31;1)). Dostáváme pro obytnou plochu
V = 0,25, Qrel = 0,15 a pro počet obyvatel V = 0,41, Qrel = 0,33. Obě proměnné
jsou homogenní, homogennější je obytná plocha.
c) Na kartě Data stlačíme tlačítko Analýza dat (instalace viz Řezanková-Löster
2009, s. 41) a vybereme položku Popisná statistika. Ve vstupním okně vyplníme
36
Vstupní data (sloupce obou proměnných), zaškrtneme popisky v 1. řádku a Celkový
přehled. Dostaneme následující tabulku výsledků, kde ještě dopočteme V.
Kvartilové odchylky je lepší počítat pomocí statistických funkcí.
Ob.plocha Počet obyvatel
Stř. hodnota 70,457 Stř. hodnota 3,333
Chyba stř. hodnoty 3,2191 Chyba stř. hodnoty 0,255
Medián 69,35 Medián 3
Modus 93 Modus 4
Směr. odchylka 17,632 Směr. odchylka 1,398
Rozptyl výběru 310,89 Rozptyl výběru 1,954
Špičatost 0,5753 Špičatost -0,654
Šikmost 0,4713 Šikmost 0,084
Variační rozpětí 81,2 Variační rozpětí 5
Minimum 34,8 Minimum 1
Maximum 116 Maximum 6
Součet 2113,7 Součet 100
Počet 30 Počet 30
Variační koeficient 0,2503 Variační koeficient 0,419
d) Výsledky jsou v předchozí tabulce. Polygony získáme z vkládání grafů v Excelu
a krabicové diagramy v R:
37
e) Odlehlé hodnoty: Dolní odlehlá mez = x0,25-1,5.Rq = 59,78-1,5.21 = 28,28, horní
odlehlá mez = x0,75+1,5.Rq = 80,78+1,5.21 = 112,28 (dílčí hodnoty počítáme
pomocí statistických funkcí).
f) Pro p = 0,1 použijeme funkci =PERCENTIL($A$2:$A$31;B2) a potahovánín
za pravý dolní růžek výsledkového okna dostaneme další decily. Výpočet je
v následující tabulce:
Ob.plocha
p xp
82,6 0,1 52,18
57,3 0,2 56,84
70,4 0,3 62,13
65 0,4 65,54
48,4 0,5 69,35
103,8 0,6 71,68
73,6 0,7 77,8
43,5 0,8 82,92
66,1 0,9 93
93 1 116
g) Vyfiltrujeme proměnnou Obytná plocha podle kategoriální proměnné Telefon a
překopírujeme ji do dvou sloupců na nový list. Výsledky získáme pomocí funkcí
PRŮMĚR a SMODCH.VÝBĚR. Pro byty s telefonem je průměrná obytná plocha
71,19 a sm.odchylka = 13,19 a byty bez telefonu 69,5 a 22,75. Byty bez
telefonu mají v průměru menší obytnou plochu ale vyšší variabilitu.
38
h) Použijeme z Analýzy dat nástroj Kovariance a Korelace a dostaneme kovarianční
matice a korelační matice:
Ob.plocha Počet obyv. Nájemné
Ob.plocha 300,523789
Počet obyv. 12,9744444 1,88888889
Nájemné 6950,89233 49,1666667 588580,82
Ob.plocha
Počet
obyv. Nájemné
Ob.plocha 1
Počet obyv. 0,5445605 1
Nájemné 0,5226345 0,0466299 1
Mezi Počtem obyvatel a Obytnou plochou a Nájemným a Obytnou plochou je
středně silná lineární přímá závislost, mezi Nájemným a Počtem obyvatel je
velmi slabá lineární závislost.
2) Načteme soubor studenti.dat do R Commanderu.
a) Číselné charakteristiky v R: Užijeme z nabídky Statistics-Summaries-Numerical
summaries. Ve vstupním okně označíme proměnnou výška. Krabicový diagram
dostaneme z Graphs-Boxplot. Výsledky:
mean sd 0% 25% 50% 75% 100% n
176.2903 9.48923 155 168.25 176 183 195 62
39
b) Použijeme Statistics-Summaries-Table of statistics. Ve vstupním okně označíme
proměnnou výška a pohlaví. Graf dostaneme opět z Graphs-Boxplot jen ve
vstupním okně po označení výška stiskneme tlačítko Plot by Groups… a označíme
pohlaví. Podmíněné průměry a rozptyly:
mean sd 0% 25% 50% 75% 100% n
M 182.7059 6.032887 170 178.25 182.0 186.75 195 34
Z 168.5000 6.647194 155 164.75 167.5 174.25 186 28
c) Pro korelační matici užijeme Statistics–Summaries–Correlation matrix a pro kovarianční
matici příkazu cov(studenti[,c("test","vaha","vyska")]). Výsledky:
>cor(studenti[,c("test","vaha","vyska")],use="complete.obs")
40
test vaha vyska
test 1.00000000 0.1833762 0.06266131
vaha 0.18337621 1.0000000 0.88564944
vyska 0.06266131 0.8856494 1.00000000
> var(studenti[,c("test","vaha","vyska")], use="complete.obs")
test vaha vyska
test 265.769236 41.57787 9.693548
vaha 41.577869 193.43443 116.885246
vyska 9.693548 116.88525 90.045479
Silná lineární přímá závislost je jen mezi váhou a výškou.
3) Příklad vychází z vlastností aritmetického průměru a z vlastností rozptylu. Přidání 5%
vyjádříme jako vynásobení konstantou 1,05.
a) x = 21037 + 500 = 21537; sx = √(360000) = 600.
b) x = 21037.1,5 = 31555,5; sx = √(1,52
.360000) = 1,5.600 = 900,
c) x = 21037.1,05 = 22088,85; sx = √(1,052
.360000) = 1,05.600 = 630.
41
Kapitola 3: Pravděpodobnost a náhodná veličina
Klíčové pojmy:
význam pravděpodobnosti a její historický vývoj, náhodný pokus, náhodný jev, operace
s jevy, elementární jev, základní jevový prostor, úplný systém jevů, klasická definice
pravděpodobnosti, kombinatorika, variace, permutace, kombinace, vlastnosti pravděpodobnosti,
podmíněná pravděpodobnost, složená, úhrnná a úplná pravděpodobnost, náhodná
veličina a její rozdělení pravděpodobností, diskrétní a spojitá náhodná veličina,
distribuční a pravděpodobnostní funkce, hustota pravděpodobnosti, střední hodnota, rozptyl
a kvantil náhodné veličiny, vícerozměrná náhodná veličina a její rozdělení, kovarianční
a korelační matice
Cíle kapitoly:
- pochopení základních pojmů z počtu pravděpodobnosti;
- porozumění pojmu náhodná veličina X a její rozdělení pravděpodobnosti;
- znalost výpočtu a vlastností číselných charakteristik náhodné veličiny.
Čas potřebný ke studiu kapitoly: 11 hodin
42
Výklad:
Nastínění obsahu kapitoly.
- Náhodný pokus a náhodný jev
- Operace s náhodnými jevy
- Pravděpodobnost náhodného jevu
- Opakování kombinatoriky
- Pravidla pro počítání s pravděpodobnostmi
- Úplná pravděpodobnost
- Náhodná veličina
- Systém náhodných veličin a jejich rozdělení pravděpodobnosti
- Číselné charakteristiky náhodných veličin
- Kvantily
- Číselné charakteristiky dvourozměrné náhodné veličiny
Struktura výkladu
Motto: Kdyby bylo vše jasné, tak by vám všechno přišlo úplně marné. Nuda by zaplavila svět
bez stínů jakýmsi necitelným životem tvořeným nekvašenými dušemi. Naděje, která září na
temný práh, nevychází ze světa nadměrné jistoty
Marcel Proust, spisovatel
Náhodný pokus a náhodný jev
Úvod:
- Teorie pravděpodobnosti studuje jevy a procesy, ve kterých se uplatňují prvky náhody.
Představuje statistickou možnost kvantifikovat neurčitost, s kterou se setkávají firmy,
podnikatelé i manažeři.
- Pravděpodobnost je jazykem neurčitosti.
43
- Neurčitost působí manažerům při rozhodování nemalé problémy. Kdyby manažer dokázal
identifikovat přesně důsledky svých rozhodnutí, jistě by volil vždy tu nejlepší alternativu.
Přesto musí manažer odhadnout důsledky alternativních možností a učinit jednoznačné
rozhodnutí. K tomu musí umět situace popsat pomocí pravděpodobností.
- Pravděpodobnost hraje důležitou roli v marketingovém výzkumu. Princip technik marketingového
výzkumu spočívá v tom, že shromáždí data jen o výběrovém souboru
(např. zákazníků) a pomocí metod pravděpodobnosti přenáší závěry na celou populaci
(statistická indukce - inference). Teorie pravděpodobnosti tvoří takto most mezi popisnou
statistikou a statistickou indukcí.
- Historické začátky pravděpodobnostních zkoumání spadají do 17. století v souvislosti s
řešením úloh z oblasti hazardních her.
- Další rozvoj následoval v 19. století a byl podmíněn prudkým rozvojem přírodních věd.
Teoretické základy pravděpodobnosti jako vědy vybudovali matematici Bernoulli,
Laplace, Gauss, Poisson, Čebyšev aj. Ve 30. letech našeho století vypracoval A. N.
Kolmogorov matematickou teorii výstavby pravděpodobnosti.
- Pravděpodobnost má velký význam v přírodních a technických vědách a ve statistice.
Buduje modely, které lze aplikovat ve všech oborech ekonomické teorie a praxe.
- Teorie pravděpodobnosti se nejdříve zabývá studiem náhodných jevů. Při zavádění tohoto
pojmu vycházíme z tzv. náhodného pokusu. Pokusy, jejichž výsledky se mění, i
když zachováváme stejné experimentální podmínky, nazýváme náhodné pokusy.
- Např. hod kostkou, hod mincí, výběr kuliček z osudí, přesné měření tloušťky
destičky ap.
- Náhodné jevy – jednotlivé výsledky náhodného pokusu nebo množiny těchto výsledků.
- Označení A, B, resp. A1, A2,…,An,…
- Jistý jev E, nemožný jev .
- S jevy je možno pracovat jako s množinami, tj. můžeme zavést pojmy AB, AB, A=B
i složené jevy.
- Operace s náhodnými jevy:
- JevA nazýváme opačný jev nebo komplementární k jevu A. Složené jevy AB, AB,
A-B aj. znázorňujeme pomocí Vennových diagramů.
- Pro tyto operace platí pravidla, která známe z teorie množin, např. de Morganova pra-
vidla
.BA=BA,BA=BA
44
- Jevy A, B budeme nazývat disjunktní (neslučitelné jevy), když AB = .
- Elementární jev e - nedá se dále rozložit na sjednocení podjevů.
- Základní jevový prostor E je množina všech možných jevů.
- Jevy A1,...,An tvoří úplný systém jevů, když platí:
- a) Ai Aj = , i, j=1,...,n, ij,
- b) A1 A2 ... An = E.
Příklad l. Za náhodný pokus vezmeme hod kostkou. Potom:
- a) Elementární jev je např. e6={6}.
- b) Základní jevový prostor E = {1,2,3,4,5,6}.
- c) Náhodnými jevy jsou např. , E, A={2,4,6} - padne sudé číslo, A ={1,3,5} - padne
liché číslo, B={5,6} - padne číslo větší než 4. Platí
- Při opakovaných náhodných pokusech provádíme pokus několikrát za sebou a při každém
pokusu sledujeme uskutečnění jevu A.
- Podle techniky provedení pokusů dělíme pokusy na
- Nezávislé pokusy: v těchto pokusech není v daném opakování pokusu uskutečnění
jevu A závislé na výsledcích předchozích pokusů. Nezávislými pokusy jsou
např. ty pokusy, při nichž postupně vybíráme ze souboru určité prvky a ty před
dalším výběrem (opakováním) vracíme zpět do souboru – tzv. výběr s vracením;
- Závislé pokusy: v těchto pokusech je v daném opakování uskutečnění jevu A
závislé na výsledcích předchozích pokusů; závislými pokusy jsou např. pokusy,
při nichž postupně vybíráme ze souboru určité prvky a ty před dalším výběrem
(opakováním) již nevrátíme zpět do souboru – tzv. výběr bez vracení.
Pravděpodobnost náhodného jevu
- Pravděpodobnost náhodného jevu A je číslo P(A), které můžeme interpretovat jako míru
možnosti nastoupení (realizace) náhodného jevu.
.ee=B,eee=A,e=E 65
642
6
1i
i
45
- Existuje několik definic pravděpodobnosti. Historicky se způsob zavádění pravděpodobnosti
vyvíjel od statistické pravděpodobnosti, přes klasickou pravděpodobnost (založenou
na kombinatorických úvahách), geometrickou pravděpodobnost až po axiomatickou
pravděpodobnost, která všechny předcházející způsoby zahrnuje a zobecňuje.
Klasická definice pravděpodobnosti:
- Nechť základní jevový prostor E je konečná n prvková množina, přičemž všechny elementární
jevy jsou stejně možné. Nechť náhodný jev A má právě m příznivých případů.
Potom pravděpodobnost jevu A definujeme vztahem
- Jiná terminologie: P(A) je poměr počtu případů příznivých jevů A ku celkovému počtu
všech možných výsledku náhodného pokusu.
- V příkladu 1 je
- Při výpočtu P(A) v případě závislých i nezávislých pokusů využijeme kombinatoriku.
Proto si ji zopakujeme.
Kombinatorika:
- Je nauka o skupinách (množinách) prvků. Nejjednodušší skupiny vzniknou, vyberemeli
z množiny n prvků podmnožiny k prvků (k-tici); k ≤ n. Podle způsobu výběru rozli-
šujeme:
- Variace k-té třídy z n prvků; vznikají v případě, že při výběru záleží na pořadí vybraných
prvků. Variace dělíme na:
- variace bez opakování: žádný již vybraný prvek se v k-tici nesmí opakovat; počet
variací k-té třídy bez opakování z n prvků Vk(n) je dán vzorcem
);1()1(
)!(
!
)(
knnn
kn
n
nVk
- variace s opakováním: vybrané prvky se v k-tici mohou opakovat. Platí
Vk(n) = nk
;
- permutace je variace n té třídy z n prvků,
P(n) = n! = n.(n-1)…2.1 (tzv. faktoriál);
- Kombinace k-té třídy z n prvků; vznikají v případě, že při výběru nezáleží na pořadí
vybraných prvků. Variace dělíme na:
.
n
m
=P(A)
.
3
1
=
6
2
=P(B),
2
1
=)AP(,
2
1
=P(A)
46
- kombinace bez opakování: žádný již vybraný prvek se v k-tici nesmí opakovat;
počet kombinací k-té třídy bez opakování z n prvků (kombinační číslo) Ck(n) je
dán vzorcem
;
1.2)1(
)1()1(
)!(!
!
)(
kk
knnn
knk
n
k
n
nCk
- kombinace s opakováním: vybrané prvky se v k-tici mohou opakovat; počet
kombinací k-té třídy s opakováním vybírané z n prvků C’k(n) je dán vzorcem
.
1
)('
k
kn
nC k
- Vlastnosti kombinačních čísel:
.
11
,
1
1
1
,
k
n
k
kn
k
n
k
n
k
n
k
n
kn
n
k
n
Excel umožňuje v sestavě svých matematických funkcí počítat i faktoriály
a kombinační čísla.
Příklad 2. (klasická definice pravděpodobnosti) Ze 75 zaměstnanců provozovny, mezi
nimiž je 50 mužů a 25 žen, bylo vybráno 10 zaměstnanců. Jaká je pravděpodobnost jevu A,
že byli vybráni samí muži?
- Řešení.
- Vybíráme 10 zaměstnanců ze 75, ve skupině nezáleží na pořadí ani se nemohou zaměstnanci
opakovat. Celkový počet možných výběrů
- Podobně počet příznivých výběrů k jevu A je
- Hledaná pravděpodobnost je
- Ve statistice se často používá statistická definice pravděpodobnosti jako relativní
četnost v sérii dostatečně velkého počtu n nezávislých náhodných pokusů.
Obě uvedené definice pravděpodobnosti nejsou použitelné pro jevy, jež nelze
aspoň za podobných podmínek opakovat. V těchto případech můžeme použít
.
10
75
=(75)C=n 10
.
10
50
=(50)C=m 10
0,01239.
10
75
10
50
=
n
m
=P(A)
47
definice tzv. subjektivní pravděpodobnosti jako stupně důvěry jednotlivce ve
výskyt uvažovaného jevu.
- V exaktní teorii pravděpodobnosti se používá definice axiomatická.
Základní vlastnosti pravděpodobnosti:
- Z uvedených definic dostaneme
a) 0 P(A) 1,
b) P() = 0, P(E) = 1,
c) P(AB) = P(A) + P(B), jsou-li A, B disjunktní jevy.
- Odtud lze odvodit další vlastnosti, např.
d) P(A) = 1 - P(A) (pravděpodobnost opačného jevu)
e) AB P(A) P(B) (monotónnost),
f) AB P(B-A)=P(B)-P(A) (subtraktivnost).
Podmíněná pravděpodobnost:
- Podmíněná pravděpodobnost jevu A za podmínky, že již dříve nastal jev B, se definuje
vztahem P(A|B) = P(AB) / P(B) , pro P(B) 0.
Příklad 3. V telefonní ústředně je ze 120 drátů 75 modrých a z nich je 54 zapojených. Vybereme
náhodně modrý drát. Jaká je pravděpodobnost, že je zapojený?
- Řešení:
- Označíme jevy: A - drát je zapojený, B - drát je modrý. Počí-
táme:
- Přímý výpočet podle klasické definice (místo základního jevového prostoru S uvažujeme
B):
0,72.=
75
54
=
120
75
120
54
=
n
m
n
k
=
P(B)
B)P(A
=B)|P(A
0,72.=
75
54
=M)|P(Z
48
Pravidla pro počítání s pravděpodobnostmi
Násobení pravděpodobností (složená pravděpodobnost):
- Z definice podmíněné pravděpodobnosti dostaneme
P(AB) = P(A)P(B|A) = P(B)P(A|B)
- Matematickou indukcí získáme zobecnění:
P(A1A2...An)=P(A1)P(A2A1)P(A3| A1A2)...P(AnA1A2...An-1)
- Nezávislost náhodných jevů:
- Říkáme, že jevy A,B jsou nezávislé, když platí P(AB) = P(A).P(B).
- Jsou-li jevy A, B nezávislé, je
P(AB) = P(A), P(BA) = P(B).
- O n jevech A1,...,An říkáme, že jsou nezávislé, když pro každou podmnožinu r jevů z
množiny jevů A1,A2,...,An, 2rn (tj. pro každou dvojici, trojici,...,n-tici z jevů A1,
A2,...,An) platí
- Jsou-li jevy A1,...,An nezávislé, jsou i po dvou nezávislé. Opačné tvrzení neplatí.
K nezávislým jevům jsou nezávislé i jejich doplňky.
- Jsou-li jevy A1,...,An nezávislé, potom platí:
P(A1A2...An)=P(A1)P(A2)...P(An)
Sčítání pravděpodobností (úhrnná pravděpodobnost):
- Platí P(AB) = P(A) + P(B), jsou-li A, B neslučitelné jevy a
P(AB) = P(A) + P(B) - P(AB), jsou-li jevy A, B slučitelné.
- Zobecnění pro 3 slučitelné jevy:
P(ABC)=P(A)+P(B)+P(C)-P(AB)-P(AC)-
P(BC)+P(ABC).
- Pro nezávislé náhodné jevy platí
P(A1 A2 ... An) = 1 - P(A1)P(A2)...P(An)
).A)...P(A)P(AP(=)A...AAP( kkkkkk r21r21
49
Příklad 4. Jaká je pravděpodobnost, že náhodně vybrané přirozené číslo je dělitelné 2 (jev A)
nebo 3 (jev B)?
- Platí P(A) = 1/2, P(B) = 1/3, P(AB) = 1/6.
- Jevy jsou slučitelné. Proto
P(AB) = P(A) + P(B) - P(AB) = 1/2 + 1/3 - 1/6
= (3+2-1)/6 = 2/3.
- Číslo je dělitelné 2 nebo 3 s 66,7% pravděpodobností.
Úplná pravděpodobnost:
- Je-li
- P(Hi)>0, i=1,...,n a jevy Hi (náhodné hypotézy) tvoří úplný systém jevů ( viz obr.). Potom
platí:
- Důkaz
jsou neslučitelné =>
Příklad 5. Viz Stuchlý (1999a), s. 53.
- Složené pravděpodobnosti je možno počítat i pomocí tzv. pravděpodobnostních
stromů (viz Wonnacot, T. H. a Wonnacot, R. J. 1993, s. 76-100 a Stuchlý 2004,
s. 84-86).
Náhodná veličina
- Výsledkem většiny náhodných pokusů jsou reálná čísla (např. počet poruch, celkový
počet padnutých bodů či minimum z počtu dosažených bodů při hodu 2 kostkami, pří,HA
i
n
=1i
).H|)P(AHP(=P(A) ii
n
=1i
).H|)P(AHP(=)HP(A=P(A) ii
n
=1i
i
n
=1i
AHA),H(=A ii
n
=1i
50
jem či vydání čtyřčlenné rodiny apod.). Tedy výsledek náhodného pokusu, daný reálným
číslem, můžeme považovat za hodnotu veličiny, kterou nazveme náhodná veličina.
Náhodné veličiny označujeme velkými písmeny a jejich hodnoty odpovídajícími malými
písmeny z konce abecedy a dělíme je na diskrétní a spojité náhodné veličiny.
- Náhodná veličina X je diskrétní, nabývá-li konečného nebo spočetného počtu hodnot.
Náhodná veličina X je spojitá, může-li nabývat všech hodnot z konečného nebo nekonečného
intervalu.
Rozdělení pravděpodobnosti náhodné veličiny
- Náhodná veličina je z pravděpodobnostního hlediska plně popsána, je-li známé její rozdělení
pravděpodobnosti.
- Rozdělení pravděpodobností je vztah mezi hodnotami náhodné veličiny (pro diskrétní
náhodné veličiny), resp. intervaly hodnot (pro spojité náhodné veličiny) a jejich prav-
děpodobnostmi.
Rozdělení pravděpodobnosti diskrétní náhodné veličiny:
- Pro popis rozdělení diskrétní náhodné veličiny používáme pravděpodobnostní funkci
p(xi), která je určena zadáním pravděpodobností P(X = xi), i = 1,2,…,n, že náhodná
veličina nabude této hodnoty. Tyto pravděpodobnosti obvykle zapisujeme do tabulky:
xi x1 x2 … xn Σ
P(xi) P(x1) P(x2) … P(xn) 1
- Grafickým zobrazením tabulky je polygon rozdělení pravděpodobnosti.
- Příklad viz Hindls a kol. (2007), s. 61-62.
- Základní formou popisu rozdělení pravděpodobnosti je distribuční funkce. Pro každé
reálné číslo x udává pravděpodobnost, že nahodná veličina X nabývá hodnot ≤ než x.
Distribuční fukci značíme F(x) a definujeme ji vztahem
F(x) = P(X ≤ x).
- Vlastnosti distribuční a pravděpodobnostní funkce:
- F(x) je neklesající, zprava spojitou funkcí, nabývající hodnot od 0 do 1.
51
- Platí F(-) = 0, F() = 1.
.)p(xF(a)-F(b)=b)X
xp) = p : (1-p)
- Pro spojitou náhodnou veličinu platí
- Příklady: viz Stuchlý (1999a), str. 57-59.
Číselné charakteristiky rozdělení dvourozměrné náhodné veličiny
- Sdruženého rozdělení
- Kovariance
- cov(X,Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X) E(Y).
- Kovarianční matice
- Koeficient korelace
- Platí -1 (X, Y) 1.
- Jsou-li X, Y nezávislé cov(X, Y) =0 a (X, Y) = 0.
- Platí D(X ± Y) = D(X) + D(Y) ± cov(X, Y).
- Marginálních a podmíněných rozdělení zavádíme obvyklým způsobem.
- Závislost podmíněné střední hodnoty na proměnné v podmínce nazýváme regresní
funkcí
p.=dxf(x)=)xF(=)x
2), d) E(X), e) σ(X).
9) V masokombinátu jsou zásoby čerstvého masa skladovány v chladírnách, maximálně
však po dobu 5 dnů. Doba skladování (tedy doba od uložení do expedice) je určena
poptávkou a z minulosti je známo, že se jedná o náhodnou veličinu (měřenou ve dnech,
označme ji X) s následujícím rozdělením pravděpodobnosti
jinak.0
1,2,3,4,5,xpro
15
6
)(
x
xP
Napište tabulku a) rozdělení pravděpodobností, b) distribuční funkce, c) vypočítejte P(X
> 2).
10) Náhodná veličina X se řídí pravděpodobnostním rozdělením daným hustotou pravděpodobnosti
f(x) = 3x2
pro 0 0,75), c) P(X = 0,9),
d) x0,9, e) E(X), f) F(x) pro 0 < x < 1.
Úkoly k zamyšlení a diskuzi
1) Diskutujte o tom, jakým způsobem budeme počítat pravděpodobnost v situacích, kdy
nejsou splněny podmínky pro použití klasické definice pravděpodobnosti.
2) Zamyslete se nad tím, jaké poznatky z počtu pravděpodobnosti může využívat manažer
ke zkvalitnění manažerského rozhodování.
Klíč k řešení otázek:
1) Variace: V3(8)=8.7.6 = 0,336.
2) Kombinace: a) C4(15)=15.14.13.12/4.3.2.1 = 1365, b) C4(5)=C1(5) = 5, c)
C2(15).C2(5)= 1050, d) C4(15)+C3(15).C1(5)= 3640, e) C4(20)-C4(15) = 3480.
3) Kombinace s opakováním: C'7(3)=C7(9)= 36.
57
4) Klasická definice pravděpodobnosti: a) C4(17)/C4(20) = 0,4912; b) C2(3)/C2(20) =
0,0158; c) [C1(3).C2(17)+C3(17)] / C3(20) = 0,9544.
5) Podmíněná pravděpodobnost: Označme A -vědec, B – genius. P(A|B) = P(A∩B)/P(B)
= 0,01 / 0,03 = 0,333.
6) Násobení pravděpodobností: Označme A1 - 1. je modrý, A2 - 2. je modrý, B2 - 2. je
červený. Potom a) P(A1∩B2) = P(A1).P(B2|A1) = 5/10.5/9 = 0,2778; b) P(A1∩A2) =
P(A1).P(A2|A1) = 5/10.4/9 = 0,2222.
7) Úplná pravděpodobnost: Označme V - kontrola vyřadí výrobek, D - výrobek je dobrý,
Z - výrobek je zmetek. Potom P(V)=P(V|D)P(D) + P(V|Z) P(Z) = 0,02.0,95 + 0,95.0,05
= 0,0665.
8) Pravděpodobnostní rozdělení diskrétní náhodné veličiny: Z tabulky rozdělení pravděpodobností
dostáváme a) P(X ≤ 4) = 0,84 nebo P(X ≤ 4)= 1 - P(X > 4)=1-0,10-0,06 =
0,84; b) P(2 ≤X <6) = 0,63; c) P(X > 2) = 0,49; d) E(X) = Σxp(x) = 2,56; e) D(X) =
Σx2
p(x) - [E(X)]2
= 3,0864; σ(X) = 1,7568.
9) a) Pravděpodobnostní funkce:
x 1 2 3 4 5 Součet
p(x) 0,333 0,267 0,2 0,133 0,067 1
b) Distribuční funkce:
x (-∞.1) <1,2) <2,3) <3,4) <4,5) <5,∞)
F(x) 0 0,333 0,6 0,8 0,933 1
c) P(X > 2) = 0,2+0,13+0,07 = 0,4.
10) Pravděpodobnostní rozdělení spojité náhodné veličiny: a) P(0 < X < 0,5 =
;125,0
3
3
3
5,0
0
35,0
0
2
x
dxx
c) P(X > 0,75) =
d) P(X = 0,9) = 0;
;5781,075,01
3
3
3 3
1
75,0
1
75,0
3
2
x
dxx
58
e)
f)
g)
;9655,09,039,0 3
9,0
0
3
9,0
2
9,0
xxdxx
x
;75,0
4
3
3.)(
1
0
1
0
42
xdxxxXE
.
3
3
3)( 3
00
3
2
x
t
dttxF
xx
59
Kapitola 4: Základní pravděpodobnostní modely
Klíčové pojmy:
rozdělení diskrétní a spojitá, alternativní, binomické, hypergeometrické, normální, normované
(standardizované) normální, chi-kvadrát, Studentovo t, Fisher-Snedeckerovo F,
Poissonovo, binomické, záporně binomické, rovnoměrné, logaritmicko-normální, exponenciální,
multinomické, vícerozměrné normální, centrální limitní věty
Cíle kapitoly:
- umět aplikovat binomické rozdělení;
- umět aplikovat normální rozdělení;
- porozumění základním centrálním limitním větám;
- získat základní poznatky o rozděleních chi-kvadrát, t a F.
Čas potřebný ke studiu kapitoly: 9 hodin
Výklad:
Nastínění obsahu kapitoly.
Alternativní rozdělení
Binomické rozdělení
Normální rozdělení
60
Centrální limitní věty
Další rozdělení diskrétní a spojité náhodné veličiny
Struktura výkladu
- U často vyskytujících se rozdělení:
- funkce rozdělení jsou tabelovány a graficky znázorněny
v statistických tabulkách (některé i v učebnicích statistiky),
v sofwareových prostředcích (např. Excel, R);
- to usnadňuje provádění výpočtů;
viz statistické funkce v Excelu,
viz nabídka Distributions v R Commanderu.
Alternativní rozdělení A()
- Popis dichotomní populace.
- Rozdělení nula-jedničkové veličiny – kvantifikuje výsledek náhodného pokusu.
X má rozdělení A(π) - stručně zapisujeme: X ~ A(π).
- Nastane-li sledovaný jev A, je X = 1 a nenastane-li jev A, je X = 0 (hod mincí).
- Rozdělení: X = 1 s pravděpodobností a X = 0 s pravděpodobností 1 - , kde
0<< 1 je parametr rozdělení, tj. pravděpodobností funkce je
.1,0,)1()( 1
xxp xx
61
- Platí E(X) = , D(X) = (1-).
Důkaz: E(X)=1 + 0 (1-) = , E(X2
)= ,
D(X)= E(X2
)-[E(X)]2
= - 2
= (1-).
Binomické rozdělení Bi(n;)
- n, jsou parametry rozdělení;
- Je jedním z nevíce používaných rozdělení.
- Odvozeno z procesu známého jako Bernoulliho pokus.
- Švédský matematik James Bernoulii (1654-1705).
- Příklady situací vedoucích k binomickému rozdělení:
Házíme n krát mincí. Výsledek hodu je „pana“ nebo „orel“ - Bi(1;0,5).
Výzkumná laboratoř vyvíjí nový lék proti vysokému tlaku – má obavy z
určitých škodlivých vedlejších účinků. Ověření na vzorku 80 pacientů u
12 vedlejší účinky, u 68 ne - Bi(80; 12/80).
Firma vyrábí fotoaparáty vybavené elektronickým zařízením pro automatické
nastavení správné rychlosti závěrky. Pro kontrolu spolehlivosti
této elektroniky firma ověřuje její funkci na náhodně vybraných 20 fotoaparátech
z výrobní linky. Z testovaných 20 přístrojů jeden nefunguje
správně - Bi(20;1/20).
- Jde o experimenty, u nichž jsou vždy možné dva výsledky U (úspěch) a N (neúspěch).
S nimi jsou spojeny pravděpodobnosti = P(U), 1- = P(N).
- Příklady Bernoulliho pokusů:
házení mincí – „pana“ – „orel“: = 1- =1/2.
vývoj nového léku - vedlejší účinky léku proti vysokému tlaku: =
12/80, 1- = 68/80.
Zkouška fotoaparátu - vadná závěrka: =1/20 (= 0,05), 1- =19/20 (=
0,95).
- Nutné podmínky pro binomické rozdělení:
62
Experiment sestává z n Bernoulliho pokusů (pokusů, které mají jen dva
možné výsledky).
Pravděpodobnost úspěchu je stejná pro všechny pokusy.
Pokusy jsou vzájemně nezávislé (výběr s vracením = nahrazováním vy-
braných).
- Pravděpodobnostní funkce, tj. pravděpodobnost, že v sérii n nezávislých opakovaných
pokusů se úspěch U (= jev A) objeví právě x-krát je
kde x = 0,1,2,...,n, 0<<1 (Bernoulliho vzorec).
- distribuční funkce vznikne nasčítáváním p(x),
- výpočet a grafy většiny rozdělení: Excel a R Commander.
- Výpočtem dostaneme číselné charakteristiky:
E(X) = n ,
E(X2
) = n2
2
+n (1- ),
D(X)=E(X2)-[E(X)]2
=n (1- ),
(X) = [n (1- )].
Příklad: – Viz Stuchlý (1999), s. 82-83.
Pravděpodobnostní a distribuční funkci a jejich grafy počítáme v Excelu pomocí funkce BINOMDIST
nebo v R Commanderu v Distributions-Discrete distribution-Binomial distribution
(zde získáme i kvantilovou funkci).
Hypergeometrické rozdělení H(N, M, n)
- Používáme ho při výběru bez vracení – závislé výběry (např. sportka). Má-li v populaci
o rozsahu N sledovaný znak M jednotek, potom pravděpodobnost, že ve výběru n jednotek
bez nahrazování bude se nacházet právě k jednotek se sledovaným znakem (a
zbývajících n-k jednotek bez sledovaného znaku), je
,)1()( x
xnx
p
x
n
xp
n).min(M,M),...,N-nmax(0,kkde,
n
N
kn
MN
k
M
pk
63
- Platí
- Pro velká N, n a pro n podstatně menší než N (n/N < 0,05) lze hypergeometrické rozdělení
H(N, M, n) aproximovat binomickým rozdělením Bi(n, M/N).
- Platí pak E(X) = n, D(X) = n(1-)(N-n)/(N-1), kde = M/N.
Přiklad: – viz Stuchlý (1999), s. 84.
Distribuční funkci počítá Excel pomocí statistické funkce HYPGEOMDIS (zadáváme pak parametry
v pořadí k, n, M, N). R Commander počítá všechny funkce a jejich grafy v Distributions-Discrete
distribution-Hipergeometric distribution (dále zadáváme parametry v pořadí k,
M, N-M, n).
Normální (Gaussovo) rozdělení N(;2
)
Je nejdůležitější a nejčastější používané rozdělení spojité náhodné veličiny.
- Podle centrální limitní věty k němu za určitých podmínek konvergují jiná rozdělení.
- Představuje pravděpodobnostní model chování velkého množství jevů v technice, přírodních
vědách i ekonomii.
- Používá se tam, kde kolísání náhodné veličiny je způsobeno součtem velkého počtu
nepatrných vzájemně nezávislých vlivů.
- Např. v teorii chyb.
- Bylo zavedeno v roce 1733 Abrahamem de Moivre (1667-54).
- Je spojeno i se jmény Laplace a Gauss.
- Hustota pravděpodobnosti - grafem zvonovitá funkce (Gaussova křivka).
- Maximum (medián) je v bodě x = a inflexní body v x = .
- Grafy (pro různé hodnoty parametrů):
-,
2
1 2
2
σ2
μ
xexf
x )(
)(
.
1
1)(,)(
N
nN
N
M
N
M
nXD
N
M
nXE
64
- Platí: E(X) = , D(X) = 2
- P( - < X < + ) = 0,6827 (pravidlo jednoho sigma);
- P( -2 < X <+2 ) = 0,9545 (pravidlo dvou
sigma: 95,5% populace leží v tomto intervalu);
- P( -3 < X < +3) = 0,9973 (pravidlo tří
sigma).
Normované (standardní) normální rozdělení N(0;1):
- Je-li X N(,2
) Standardizovaná veličina je
- Platí: E(U) = 0, D(U) = 1.
- Hustota pravděpodobnosti je
- Distribuční funkce (Laplaceova funkce) je
- Je tabelována pro u 0 (viz tab. I. v dodatku).
- Pro u < 0 je (u) = (-u), (u) = 1 - (-u).
- Grafy hustoty a distribuční funkce standardního normálního rozdělení N(0;1):
Density of N(-3;4), N(0;4), N(3;4)
-13 -8 -3 2 7 12 17
x
0
0,04
0,08
0,12
0,16
0,2
Density of N(2.5;1), N(2.5;4), N(2.5;16)
x
-25 -20 -15 -10 -5 0 5 10 15 20 25 30
0
0,1
0,2
0,3
0,4
N(0;1).
σ
μ
X
U
.
2
1
)( 2
2
u
eu
.
2
1
)( 2
2
u t
dteu
65
- Platí P(a 9/ [(1-)] min{n; n(1- )} > 5.
b) Lindebergova-Lévyho věta:
- Součet X = Xi , resp. průměrX, nezávislých stejně rozdělených náhodných veličin (s
konečnými stejnými středními hodnotami E(Xi)= a konečnými stejnými rozptyly
D(Xi)=2
) má asymptoticky normální rozdělení N(n; n2), resp. N(; 2
/n).
- Tj. pro n velké platí
- Odtud je P(a < U < b) (b) - (a).
Příklady: – Viz Hindls a kol. (2007), s. 90-100 a Stuchlý (1999a), s. 89.
Od normálního rozdělení se odvozují další tři typy rozdělení, která jsou často používána ve
statistice.
χ2-rozdělení (chi-kvadrát nebo Pearsonovo rozdělení) χ2(n)
- Jsou-li X1,...,Xn nezávislé náhodné veličiny s rozdělením N(0;1) potom S = X1
2
+ X2
2
+...+ Xn
2
má rozdělení 2
(n).
- n nazýváme stupně volnosti.
(u).u)P(Ulimtj),1;0(
π)-π(1
nπ-X
U
n
N
n
(u)u)P(Ulimtj),1;0(
σ
μ-X
nσ
nμ-X
U
n2
Nn
67
- Jde o asymetrické rozdělení (hustota – viz obrázek), které se pro velké n (alespoň 30)
blíží k rozdělení N(0;1).
- Platí E(S) = n, D(S) = 2n.
- V statistice jsou důležité kvantily chi-kvadrát rozdělení. Označujeme je
2
(n) a jsou
tabelované v tab. III. dodatku pro n 100 (Excel i R Commanter je počítá).
- Znázornění kvantilů uvádí další graf.
- Pro n>30 počítáme kvantily pomoci asymptotického vzorce
Studentovo t-rozdělení t(n)
- Nechť X1, X2 jsou nezávislé náhodné veličiny
s rozdělením N(0,1) a 2
(n). Potom náhodná
veličina
- n představuje opět stupně volnosti.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 2 4 6 8 10 12
n=1
n=2
n=3
n=4
22
12
2
1
)( unn
.t(n)
X
X
T
2
1
n
68
- Platí E(T) = 0 (pro n > 1), D(T) = n/(n-2) (pro n > 2).
- Hustota rozdělení t(n) je
- symetrická,
- graf podobný rozdělení N(0;1) jen je plošší.
- Pro velká n se graf blíži grafu rozdělení N(0;1).
- Důležité jsou kvantily t-rozdělení t(n) a t1-(n) = -t(n) jsou tabelované v tab. IV. dodatku
(je možno je určit v Excelu i R).
- Pro n velké (n>30) je můžeme přibližně nahradit u.
Fisherovo-Snededecorovo F-rozdělení F(n,m)
- Jsou-li X1, X2, nezávislé náhodné veličiny, přičemž X1 2
(n) a X2 2
(m), potom
náhodná veličina
- Zde n jsou stupně volnosti čitatele a m stupně volnosti jmenovatele.
- Na obrázku je uveden graf hustoty pravděpo-
dobnosti.
- Kvantily F-rozdělení F(n,m) jsou pro obvyklé
0,5 tabelované v tab. V. dodatku
(najdeme je v Excelu i v R). Jsou definované
obdobně jako u rozdělení 2
(n).
- Pro < 0,5 je
Z diskrétních rozdělení se ještě často používají Poissonovo
rozdělení P(λ) – popisuje počet jevů v prostorové jednotce nebo počet událostí v časové
jednotce, geometrické rozdělení Ge(π) a záporné binomické rozdělení ZBi(n,π) popisující počet
neúspěchu do 1. úspěchu, resp. do n-tého úspěchu. Viz Cyhelský (2001), s. 157-159.
Ze spojitých rozdělení se ještě často používají rozdělení rovnoměrné rozdělení R(a,b) v simulačních
metodách, logaritmicko-normální rozdělení LN(μ;σ2
) v teorii spolehlivosti a účetnictví,
m).F(n,
X
X
F
2
1
m
n
),(
1
),(
1 nmF
mnF
0 1 2 3 4
x
0
0.2
0.4
0.6
0.8
1
f(x)
Rozdělení F(15;25) — hustota
69
exponenciální rozdělení E(A,δ) v teorii spolehlivosti a v hromadné obsluhy a další rozdělení.
Viz Hindls a kol. (2007), s. 89-92 a Stuchlý (1999a), s. 80-81.
Z diskretních vícerozměrných se používá multinomické rozdělení, jako zobecnění rozdělení
Bi(n,π) (viz Cyhelský 2001, s. 161-163) a ze spojitých vícerozměrné normální rozdělení (viz
Stuchlý 1999, s. 81-82, 85 a Cyhelský .2001, s. 172-175).
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 76-103.
ISBN 978-80-86946-43-6.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
82-118. ISBN 978-80-86446-40-5.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S.
74-90. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 87-115. ISBN
80-245-0178-3.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S.
149-185, 190-193. ISBN 80-7261-003-1.
HEBÁK, P. a J. KAHOUNOVÁ. Počet pravděpodobnosti v příkladech. Praha: Informatorium,
1994. ISBN 80-85427-48-6.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 77-100. ISBN 80-7187-058-7.
70
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada Publishing, 1996. S. 145-
172. ISBN 80-7169-089-9.
WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 133-140. ISBN 80-85605-09-0.
Otázky a úkoly
1) U přijímacích zkoušek na vysokou školu z angličtiny musí student v písemném testu
zaškrtnout odpověď u 20 otázek. U každé otázky jsou 4 možnosti a pouze jedna je
správná. Aby v testu uspěl, musí student zaškrtnout nejméně polovinu odpovědí
správně. Přestože se student poctivě připravoval, test je náročný a on si je jist správnou
odpovědí pouze u 8 otázek. U dalších 12 zaškrtává zcela náhodně. Jaká je pravděpodobnost,
že a) v testu uspěje, b) zodpoví správně všechny otázky, c) zodpoví správně právě
15 otázek, d) zodpoví správně alespoň 15 otázek, e) v testu neuspěje?
2) Pouze 5 pracovníků určitého ministerstva používá na Internetu komunikační program
ICQ. Z 50 pracovníků ministerstva, kteří využívají ke své práci Internet, náhodně vybereme
10 pracovníků. Jaká je pravděpodobnost, že z těchto 10 pracovníků program ICQ
používají a) právě 2 pracovníci, b) 0 pracovníků, c) více než 3 pracovníci?
3) Náhodná veličina U má normované normální rozdělení. Určete pravděpodobnosti a
kvantily: a) P(U < 0), b) P(U > 2), c) P(U=0), d) P(-1 pnorm(c(3400), mean=3422.4, sd=20.7846, lower.tail=FALSE)
[1] 0.8594209
6) Chi-kvadrát rozdělení: X ~ χ2
(10), Y ~ χ2
(8), P(X<3)=FX(3)=0,018576 < P(Y<2)=
FY(8)=0,018988 (distribuční funkci určíme v Excelu).
73
Kapitola 5: Výběrová šetření, rozdělení výběrových charakteristik
a základy statistické indukce
Klíčové pojmy:
výběrová šetření, statistická indukce, reprezentativní výběr, prostý náhodný výběr, systematický
a kvótní výběr, záměrné výběry, výběrové charakteristiky, výběrová rozdělení
charakteristik, standardní chyba průměru, výběrový průměr, poměr a podíl, bodové odhady,
nestrannost, výdatnost, konzistence a eficience odhadu, intervalové odhady, koeficient
spolehlivosti, intervaly spolehlivosti pro normální výběr, určování rozsahu výběrového
souboru, asymptotické intervaly spolehlivosti
Cíle kapitoly:
- popis metod výběrových šetření;
- porozumění principu získávání reprezentativního odhadu;
- znalost základních výběrových charakteristik a jejich vlastností;
- stanovit a interpretovat bodový a intervalový odhad.
Čas potřebný ke studiu kapitoly: 11 hodin
74
Výklad:
Nastínění obsahu kapitoly.
Základní pojmy z výběrových šetření
Základní výběrové charakteristiky a jejich výběrová rozdělení
Odhady parametrů
Bodový odhad a jeho vlastnosti
Intervalové odhady
Intervaly spolehlivosti pro normální výběr
Asymptotické intervaly spolehlivosti
Určování optimálního rozsahu výběru
Struktura výkladu
Nelze jíst celého vola jenom proto,
abychom poznali, že to jde ztuha.
Samuel Johnson
Základní pojmy z výběrových šetření
Některé pojmy jsou již vysvětleny v úvodní části textu. Statistickým šetřením rozumíme získávání
informací (poznatků, dat) o statistických jednotkách. Tyto informace poskytují manažerům
podniků a organizací podporu při jejich rozhodování. Takovéto informace mají jednu věc společnou.
Jsou získávány obvykle pouze od vybraného souboru, a nikoli od celé populace. Vycházejí
pouze z poznání části určitého celku.
Statistická indukce se zabývá zobecňováním úsudků o vlastnostech základního souboru založených
na informacích získaných z výběrového souboru.
75
Získávání údajů o všech jednotkách základního souboru je často velmi pracné, zdlouhavé, nákladné
a ve většině případů to není ani možné (destrukční zkoušky). Proto postupujeme tak, že
provedeme výběr určitého počtu jednotek ze základního souboru, u nich zjistíme potřebné údaje
a poznatky o rozdělení nebo o parametrech výběrového souboru a přenášíme je indukcí na celý
základní soubor (např. zjišťování názoru zákazníků na nový výrobek, předvolební průzkumy
preferencí jednotlivých kandidátů, statistická kontrola kvality výroby). Výběrový soubor musí
byt určen tak, aby reprezentoval celou populaci, tj. musí být reprezentativní (věrná zmenšenina
základního souboru). Nejčastěji ho získáme náhodným výběrem (např. losováním, pomocí tabulek
náhodních čísel nebo simulací těchto náhodných čísel na počítači).
Techniky šetření:
- Vyčerpávající šetření (census) – nákladné, ne vždy možné (např. sčítání bytů a obyvatel
prováděná Českým statistickým úřadem).
- Výběrové šetření – ekonomičtější, výsledky zatíženy výběrovou chybou (lze ji odhad-
nout).
- Nereprezentativní výběry – např. anketa, metoda základního masivu, záměrný
výběr (viz Hindls a kol. 2007, s. 109-110). Obsahují navíc nevýběrové chyby,
které nelze odhadnout.
- Reprezentativní výběry – založeny na náhodném výběru a použití metod počtu
pravděpodobnosti.
Prostý náhodný výběr – nejjednodušší a nejčastěji používaná metoda.
- Každá jednotka základního souboru, ale i každá n-tice měření musí mít stejnou pravděpodobnost,
že bude vybrána. Jednotlivé výsledky výběru musí být nezávislé.
- Získáme ho výběrem s vracením. Při velkém rozsahu základního souboru (je alespoň 20
krát větší než výběrový soubor) je rozdíl mezi výběrem s vracením (nezávislé výběry řídí
se binomickým rozdělením) a výběrem bez vracení (závislé výběry – řídí se hypergeometrickým
rozdělením) zanedbatelný. Z praktických důvodů používáme obvykle
výběr bez vracení (analýzy ale provádíme podle technik odvozených pro výběr s vrace-
ním).
- Technika pořízení prostého náhodného výběru:
76
- Vytvoříme nejdříve tzv. oporu výběru, tj úplný seznam jednotek základního souboru
a provedeme jejich očíslování.
- Náhodný výběr zabezpečí reprezentativnost výběru a tím i dobrou kvalitu získaných
výsledků statistické indukce.
- Je možno používat i složitější upořádání výběru (oblastní, skupinový, vícestupňový
– viz Hindls a kol. 2007, s. 113-115).
- Při obtížném pořízení opory můžeme použit systematický výběr.
Spočívá ve výběru každé j-té jednotky, počínaje od prvé, která byla vybrána
náhodně;
např. každé páté, má-li se vybrat 20% populace;
podmínka pro použití této techniky: jednotky z populace tvoří
náhodnou posloupnost nezávislou na sledovaném znaku;
pozor na periodicity – např. při výběru novin.
- V marketinkových a sociologických výběrech se používá i kvótní výběr (např.
respondenty vybíráme podle kvót stanovených na pohlaví, věk, vzdělání).
Metody statistické indukce se využívají např. v marketingovém výzkumu trhu.
- Testování nových výrobků u určité skupiny zákazníků před jejich zavedením na trh.
- Prodejní organizace mají zájem na tom, aby věděli, jak zákazníci vnímají a oceňují jejich
výrobky.
- Organizace poskytující veřejné služby se stále více zajímají i o to, jak jejich aktivity
hodnotí občané.
Metody statistické indukce zahrnují:
- bodové a intervalové odhady
- statistické testy (parametrické, neparametrické).
77
Základní výběrové charakteristiky a jejich výběrová rozdělení
Výsledkem náhodného výběru o rozsahu n jsou hodnoty x1,x2,...,xn nějakého statistického
znaku, které můžeme považovat za realizace n nezávislých stejně rozdělených náhodných veličin
X1,X2,...,Xn. Toto rozdělení budeme nazývat rozdělením základního souboru. Z uvedených
hodnot náhodného výběru počítáme různé výběrové charakteristiky neboli statistiky, které jako
funkce náhodného výběru jsou též náhodnými veličinami s určitým rozdělením pravděpodobností
závislým na rozdělení základního souboru. Jako náhodné veličiny je budeme značit velkým
písmenem (např. X , Sx
2
) a jejich realizace odpovídajícím malým písmenem x , sx
2
). Dále
si uvedeme přehled nejpoužívanějších výběrových charakteristik a jejich vlastností.
A) Výběrový průměr (Sample Mean)
Označme X
n
Xi
i
n
1
1
výběrový průměr z náhodného výběru n pozorování vybraných
ze základního souboru se střední hodnotou a rozptylem 2
. Potom platí:
a) Výběrové rozdělení statistiky X má střední hodnotu
E( X ) = .
b) Výběrové rozdělení statistiky X má rozptyl
D( X ) =
2
n
a standardní odchylku
( X ) =
n
.
Odhad standardní odchylky (σ nahradíme s) nazýváme standardní chybou průměru.
c) Není-li rozsah výběrového souboru n podstatně menší než rozsah základního souboru
N, potom pro standardní odchylku platí
78
( )X
n
N n
N
1
.
d) Je-li rozdělení základního souboru normální, potom standardní náhodná veličina
U
X
X
X
n
( )
má standardní normální rozdělení.
e) Není-li rozdělení základního souboru normální ale rozsah výběrového souboru n je
velký, potom podle centrální limitní věty má veličina U přibližně standardní normální rozdě-
lení.
B) Výběrový poměr (podíl)
Označme X počet úspěchů v alternativním výběrovém souboru n pozorování, kde pravděpodobnost
úspěchu je . Potom statistiku představující poměr úspěchů
P
X
n
ve výběrovém souboru nazýváme výběrovým poměrem a statistiku X nazýváme výběrovým
úhrnem.
Potom platí:
a) Výběrové rozdělení výběrového poměru P má střední hodnotu
E(P) = .
b) Výběrové rozdělení statistiky P má rozptyl
D X
n
( )
( )
1
a standardní odchylku
79
( )
( )
P
n
1
.
Veličinu (P) nazýváme standardní odchylkou výběrového poměru P.
c) Není-li rozsah výběrového souboru n podstatně menší než rozsah základního souboru
N, je
( )
( )
P
n
N n
N
1
1
.
d) Je-li rozsah výběrového souboru n velký, má náhodná veličina
U
P
P
P
n
( ) ( )1
přibližně standardní normální rozdělení.
Pro výběrový úhrn X platí
E(X) = n, D(X) = n(1-).
C. Výběrový rozptyl (Sample Variance)
Označme S
n
X Xx i
i
n
2 2
1
1
1
( ) výběrový rozptyl z náhodného výběru n pozorování
vybraných ze základního souboru se střední hodnotou a rozptylem 2
. Potom platí:
a) Výběrový rozptyl Sx
2
má střední hodnotu
E( Sx
2
) = 2
.
b) Rozptyl výběrového rozptylu závisí na rozdělení základního souboru. Je-li toto rozdělení
normální N(;2
), potom
80
D S
n
x( )2
4
2
1
.
c) Je-li rozdělení základního souboru N(;2
), potom náhodná veličina Y =
( )n Sx1 2
2
má rozdělení 2
1( )n a náhodná veličina T =
X
S
n
x
má Studentovo t-rozdělení t(n-1).
d) Pro dva nezávislé náhodné výběry X1,...,Xn, Y1,...,Ym,vybrané ze základních souborů
o rozsazích n a m s rozděleními N(1;1
2
), N(2;2
2
), mají náhodné veličiny
F
S
S
x
y
2
1
2
2
2
2
a X Y
Fisherovo F-rozdělení F(n-1,m-1) a normální rozdělení N(1 - 2; 1
2
/n + 2
2
/m).
Předpoklady o normalitě rozdělení základního souboru jsou v tvrzeních b)-d) podstatné. Ani
při velkém rozsahu výběrového souboru je nelze vynechat.
Příklady: Viz Stuchlý (1999a), s. 93-94.
Odhady parametrů
Pro rozhodování manažera je důležité získávat informace a využít je na odhady parametrů.
Např.: Vládu zajímá odhad množství zboží ze zahraničního obchodu, nebo odhad preferencí
(úhrn a poměr); obchodníky zajímá odhad úrovně trhu s akciemi; spotřebitele zajímají průměrné
ceny určitého zboží apod.
Jednou ze základních úloh statistické indukce je odhad neznámých parametrů základního souboru
pomocí náhodného výběru. Existují dva způsoby odhadu:
Bodový odhad - neznámý populační parametr (populační charakteristiku) odhadujeme jedním
číslem vypočítaným z hodnot výběrového souboru.
81
Intervalový odhad - najdeme interval, v kterém daný parametr s velkou pravděpodobností leží.
Bodový odhad a jeho vlastnosti
Bodovým odhadem odhadujeme neznámý parametr základního souboru pomocí jedné hodnoty
neboli bodu. Je potřebné rozlišovat mezi dvěma významy pojmu bodový odhad: odhadem jako
funkcí náhodného výběru, tj. náhodnou odhadovou funkcí (Estimator) a jeho realizací, která
udává číselnou hodnotu této náhodné veličiny (Estimate).
Předpokládejme, že je daný náhodný výběr X1,...,Xn ze základního souboru popsaného určitým
rozdělením pravděpodobností. Neznámý parametr základního souboru odhadujeme vhodnou
funkcí náhodného výběru T(X1,...,Xn). Zapisujeme
ˆ = T(X1,...,Xn),
a výběrovou charakteristiku ˆ
nazýváme bodovým odhadem parametru . Např. odhad populačního
průměru a populační směrodatné odchylky je
Aby byl použitý odhad dobrý, musí mít určité vlastnosti. Mezi důležité vlastnosti kvalitních
statistických odhadů zařazujeme nestrannost, vydatnost, konzistentnost a postačitelnost.
a) Nestranný odhad:
Nestrannými neboli nezkreslenými odhady (Unbiased Estimator) parametru jsou ty, jejichž
střední hodnota se rovná tomuto parametru, tj.
E(ˆ) = .
Tato vlastnost zaručuje, že nedochází k systematickému podhodnocování nebo nadhodnocování
skutečné hodnoty parametru. Protože např. platí
E X E S E Px( ) , ( ) , ( ) , 2 2
,ˆ 1
n
XX
X n
.
1
)()(
ˆ
22
1
n
XXXX
S n
82
jsou výběrový průměr, výběrový rozptyl a výběrový poměr nestrannými odhady svých populačních
protějšků. Odhad, který nesplňuje podmínku nestrannosti, nazýváme vychýlený (Biased).
Funkci
b(ˆ,) = E(ˆ) -
nazýváme vychýlením či zkreslením (Bias) odhadu ˆ. Odhady splňující podmínku
,)ˆ(lim
E
n
nazýváme asymptoticky nestranné. Např. pro rozptyl
n
i
i XX
n
S
1
22
)(
1
platí 222 1
lim)(lim
n
n
SE
nn
a proto je S2
asymptoticky nestranným odhadem 2
.
b) Vydatný odhad:
Druhou požadovanou vlastností odhadu je, aby se rozdělení výběrové statistiky ˆ s největší
pravděpodobností koncentrovalo blízko odhadovaného parametru . To je zaručeno, když požadujeme,
aby rozptyl odhadu D(ˆ) byl minimální. Odhad, který splňuje oba dva uvedené požadavky,
nazýváme vydatný neboli optimální. Takové odhady nemusí vždy existovat nebo je
lze v některých případech získat jen obtížně. Lze ukázat, že statistiky X P, jsou v případě normality
základního souboru vydatnými odhady svých populačních protějšků.
c) Konzistentní odhad:
Nestrannost odhadu zabezpečuje jen, aby jeho střední hodnota se rovnala odhadovanému parametru,
nedává však odpověď na otázku, jak se odhad přibližuje k hodnotě tohoto parametru.
Odhad, který se v pravděpodobnosti s rostoucím rozsahem výběru n blíží k hodnotě odhadovaného
parametru, nazýváme konzistentní. Matematicky lze konzistenci odhadu ˆ zapsat vztahem
1)|ˆ(|lim
P
n
,
83
tj. pro velké n konverguje odhad ˆ v pravděpodobnosti k parametru . Postačující podmínkou
pro konzistenci nestranného odhadu je
0)ˆ(lim
D
n
.
d) Postačující odhad:
Odhad je postačující (Sufficient), když v sobě zahrnuje veškerou informaci o odhadovaném
parametru, kterou poskytuje náhodný výběr. Znamená to, že žádný jiný odhad nemůže o odhadovaném
parametru dodat více informace.
Výběrové statistiky: výběrový průměr, výběrový úhrn, výběrový podíl a výběrový rozptyl splňují
uvedené vlastnosti a proto je můžeme považovat za nejlepší odhady odpovídajících parametrů
základního souboru.
Intervalové odhady
Intervalový odhad spočívá v nalezení intervalu spolehlivosti neboli konfidenčního intervalu
(Td,Th), který pokrývá neznámý parametr s pravděpodobností 1-. Tato pravděpodobnost 1
se nazývá spolehlivostí neboli koeficientem či úrovní spolehlivosti (Level of Confidence)
intervalového odhadu. Pokud výběr mnohokrát opakujeme, potom právě ve 100(1-)% případů
bude parametr obsažen ve vypočteném intervalu spolehlivosti. Uvedený interval nazýváme
100(1-)%-ním intervalem spolehlivosti pro parametr . Zapisujeme
P(Td < < Th) = 1-.
Číslo volíme obvykle malé (nejčastěji = 0,05 nebo 0,01). Pokud jsou obě meze intervalu
spolehlivosti konečné, nazýváme tento interval dvojstranný. Je-li jedna z těchto mezí nevlastní
(nekonečno), hovoříme pak o jednostranném intervalu spolehlivosti. Speciálně interval spolehlivosti
určený vztahem P(Td < ) = 1-, nazýváme levostranný interva spolehlivosti a interval
určený vztahem P( < Th) = 1-, nazýváme pravostranný interval spolehlivosti. Meze intervalu
spolehlivosti závisí na odhadovaném parametru, použitém náhodném výběru a zejména na jeho
výběrovém rozdělení. V dalším si naznačíme postup, jak odvodit vzorce pro dolní mez Td a
84
horní mez Th intervalů spolehlivosti pro nejčastěji používané parametry v případě malých výběrů
pocházejících z normálně rozdělených základních souborů a v případě velkých výběrů.
Intervaly spolehlivosti pro normální výběr
Předpokládejme nejdříve, že náhodný výběr X1,...,Xn pochází z normálního rozdělení N(,2
),
kde je odhadovaný parametr střední hodnoty a rozptyl 2
je známý. Potom statistika
U
X
n
má rozdělení N(0;1). Proto platí
P u
X
n u
1
2
1
2
1
,
kde u u u
1
2
1
2 2
, jsou kvantily rozdělení N(0;1). Ekvivalentními úpravami této nerovnosti
dostaneme
1
2
1
2
1 n
uX
n
uXP ,
což představuje vzorec pro 100(1-)%-ní interval spolehlivosti pro populační průměr (u-interval).
Tedy meze tohoto intervalu jsou T X u X T X u Xd h
1
2
1
2
( ), ( ) , kde ( )X je
standardní chyba výběrového průměru. Interval můžeme psát ve tvaru ( X -d, X +d), kde
d u X
1
2
( ) nebo ve tvaru = X d.
Ve většině reálných situací je parametr rozptylu 2
neznámý. Potom ho musíme nahradit
odhadem Sx
2
a místo statistiky U pak dostaneme statistiku
T
X
S
n
x
,
85
která má za uvedených předpokladů rozdělení t(n-1). Stejným způsobem jako dříve dostáváme
100(1-)%-ní interval spolehlivosti pro populační průměr (t-interval) ve tvaru
P X t n
S
n
X t n
S
n
x x
1
2
1
2
1 1 1 ( ) ( ) ,
kde t n t n t n
1
2
1
2 2
1 1 1
( ), ( ) ( ) jsou kvantily rozdělení t(n-1).
Podobně dostaneme 100(1- )%-ní pravostranný interval pro populační poměr ve
tvaru
P X t n
S
n
x
1 1 1( )
a 100(1-)%-ní levostranný interval pro parametr
P X t n
S
n
x
1 1 1 ( ) .
K odvození intervalu spolehlivosti pro parametr populačního rozptylu 2
použijeme sta-
tistiku
( )n Sx1 2
2
,
která má za předpokladu normality rozdělení 2
(n-1). Proto platí
P n
n S
nx
2
2
2
2 1
2
2
1
1
1 1( )
( )
( )
,
kde
2
2
1
2
2
1 1( ), ( )n n
jsou kvantily rozdělení 2
(n-1). Úpravou nerovností pomocí ekvivalentních
úprav odtud dostaneme 100(1-)%-ní interval spolehlivosti pro populační rozptyl
2
ve tvaru
86
P
n S
n
n S
n
x x( )
( )
( )
( )
1
1
1
1
1
2
1
2
2
2
2
2
2
.
Odmocněním uvedených nerovností dostaneme odtud interval spolehlivosti pro standardní odchylku
. Intervaly spolehlivosti pro parametr střední hodnoty jsou symetrické se středem v
bodě X a jejich délka 2d s rozsahem souboru n klesá a se zvyšováním hladiny významnosti
roste. Hodnotu d lze interpretovat jako statistickou chybu průměru. Počítá ji Excel a nazývá jí
„konfidence“ (ve statistických funkcích pro u-interval a v Analýze dat pro t-interval). Interval
spolehlivosti pro rozptyl 2
symetrický není.
Určování rozsahu souboru.
Jestliže polovina délky intervalu spolehlivosti pro parametr nesmí překročit hodnotu
, musí být v případě známého rozptylu splněna podmínka
u
n1
2
.
Řešením této nerovnosti dostaneme k tomu požadovaný rozsah souboru
n u
1
2
2
2
2
.
Veličinu nazýváme přípustná chyba. V případě neznámého rozptylu nahradíme 2
odhadem
Sx
2
.
Asymptotické intervaly spolehlivosti
Mějme náhodný výběr X1,...,Xn z libovolného rozdělení s neznámými parametry střední
hodnoty a rozptylu 2
. Nechť rozsah souboru n je velký (n > 30). Potom k odvození intervalu
spolehlivosti pro parametr můžeme použít statistiky
U
X
S
n
x
,
87
která má podle centrální limitní věty rozdělení N(0;1). Odtud dostaneme asymptotický 100(1)%-ní
interval spolehlivosti pro populační průměr (u-interval) ve tvaru
P X u
S
n
X u
S
n
x x
1
2
1
2
1 .
Potřebný rozsah souboru n (pro danou přípustnou chybu ) určíme podle vzorce
n u
Sx
1
2
2
2
2
.
Podobně můžeme s pomocí výběrového poměru P odvodit 100(1-)%-ní interval spolehlivosti
pro populační poměr ve tvaru
P P u
P P
n
P u
P P
n
1
2
1
2
1 1
1
( ) ( )
Požadovanýý rozsah souboru n určíme podle vzorce
n u
P P
1
2
2
2
1
( )
.
Zde P je výběrový poměr, který získáme předvýběrem (popř. hodnotou 0,5).
V případě, že rozsah základního souboru N není podstatně větší než rozsah výběrového souboru
n, musíme vzorce pro parametry a opravit tak, že standardní chybu výběrového průměru (
X ) nebo výběrového poměru (P) násobíme opravným faktorem
N n
N
1
.
V systému R se intervaly spolehlivosti pro průměr a rozptyl dostaneme interaktivně současně
s prováděním parametrických testu (viz následující kapitola). Přesné (pro normální výběr) i
asymptotické intervaly dostaneme po aktivování balíku vsePackage (Komárek 2012) příkazy
estim.mean(x, type=“two.sided“ [„less“, „greater“], conf.level= ), estim.var(x, type=“ „,
88
conf.level= ). Pro poměr počítáme interval spolehlivosti ručně podle uvedených vzorců. A obdobně
počítáme i optimální rozsah výběru. Ověřování normality dat probereme v následující
kapitole.
Příklady: – Viz Hindls a kol. (2007), s. 131-132 a Stuchlý (1999), s. 101-105.
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 107-133.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S.
91-98, 100-105, 107-109. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 117-139. ISBN
80-245-0178-3.
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S.
197-214, 227-235, 237-238. ISBN 80-7261-003-1.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada Publishing, 1999.
S. 57-68. ISBN 80-7169-255-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
121-131, 166-167. ISBN 978-80-86446-40-5.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 103-127. ISBN 80-7187-058-7.
89
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011
(v elektronické podobě – viz https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada Publishing, 1996. S. 195-
208. ISBN 80-7169-089-9.
WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 199-283. ISBN 80-85605-09-0.
Otázky a úkoly
1) Hypermarket Hyper chce pro zkvalitnění služeb poskytovaných zákazníkům zkrátit
dobu jejich čekání u pokladen. Náhodně bylo proto vybráno 10 zákazníků a byla změřena
doba jejich čekání u pokladny (předpokládáme normalitu rozdělení doby čekání).
Výsledky šetření (v sekundách): 50, 65, 30, 45, 45, 35, 55, 70, 65, 50. a) Určete bodový
odhad průměrné doby čekání a ohodnoťte ji standardní chybou průměru. b) V jakých
mezích lze s pravděpodobností 0,95 očekávat průměrnou dobu čekání zákazníka na obsluhu?
c) Jaká je horní hranice doby čekání, která nebude s pravděpodobností 0,95 překročena?
d) Odhadněte bodově a v jakých mezích lze s pravděpodobností 0.95 očekávat
rozptyl (resp. směrodatnou odchylku) doby čekání na obsluhu?
2) Z provozních důvodu sledujeme dobu životnosti žárovek od určitého dodavatele.
Chceme zjistit, kolik žárovek musíme vybrat, abychom odhad střední hodnoty životnosti
provedli s 95% spolehlivostí, jestliže jsme ochotni připustit maximální možnou
chybu ve výši ±35 hodin.
3) Při výrobě určitých komponentů jsme dosud používali některé komponenty dovážené
ze země Z. Ale obchod s touto zemí se velmi zkomplikoval a my jsme byli nuceni změnit
dodavatele. Zajímá nás, zda změnou dodavatele nedošlo i ke změně kvality našich
výrobků. Zatímco dříve bylo mezi našimi výrobky v průměru 5% zmetků, zjistila výstupní
kontrola mezi 250 nově vyrobenými výrobky 16 nevyhovujících. Na základě
95% intervalu spolehlivosti rozhodněte, zda došlo ke změně kvality výrobků.
90
4) Jaký minimální rozsah výběru pro odhad podílu chybně zaúčtovaných položek musíme
navrhnout, chceme-li při 90% spolehlivosti zajistit přípustnou chybu 3%. O možném
podílu chybných položek nemáme při prováděném auditu žádnou informaci.
Úkoly k zamyšlení a diskuzi
1) Když zvětšíme rozsah výběru čtyřikrát, co se stane se standardní chybou průměru?
2) Jaké budou hodnoty kvantilu u u-intervalu pro hladinu významnosti 90% a 99%?
3) Komentujte intervaly spolehlivosti z hlediska vlivu změny hladiny spolehlivosti.
4) Na čem všem záleží velikost optimálního rozsahu výběrového souboru?
Klíč k řešení otázek:
1) Vložíme v R data do souboru cekani proměnné doba (pomocí editoru, tj. z nabídky vybereme
Data – New data set…, do vstupního okna vyplníme: cekani, OK, v Data Editor
ťukneme na var1, ve Variable editor přepíšeme var1 na doba a zaškrtneme type: numeric
a uložíme křižkem v pravém horním rohu, potom zapíšeme do 1.sloupce tabulky data a
vše opět uložíme křížkem v pravém horním rohu).
Po aktivování balíku vsePackage lze bodový a oboustranný intervalový odhad (u-interval
a t-interval) pro populační průměr E(X) = μ dostat příkazem estim.mean(cekani$doba),
napíšeme ho do Script Windows a odešleme ho pomocí Submit. Pokud nezadáme
typ intervalu a hladinu významnosti, počítá R obvyklý oboustranný interval na
hladině významnosti 95%. Výstup z počítače je:
> estim.mean(cekani$doba, type="two.sided", conf.level=0.95)
Data: cekani$doba
Estimate of E(X) = 51
Estimate of sd(X) = 13.08094
Sample size = 10
95% confidence interval for E(X) based on the asymptotical approximation:
(42.89250, 59.1075)
91
95% confidence interval for E(X) based on the assumption of normality:
(41.64246, 60.35754)
Interpretace: a) Bodový odhad průměrné doby čekání je 51 sekund, standardní chyba průměru
je 13,08/√10 = 4,14 sekund, b) intervalový odhad: S 95% spolehlivostí se průměrná doba obsluhy
pohybuje v intervalu od 41,64 do 60,36 sekund. c) Určujeme pravostranné intervaly spolehlivosti.
Napíšeme do vstupního okna příkaz estim.mean(cekani$doba, type="less") a dosta-
neme:
> estim.mean(cekani$doba, type="less",conf.level=0.95)
Data: cekani$doba
Estimate of E(X) = 51
Estimate of sd(X) = 13.08094
Sample size = 10
95% confidence interval for E(X) based on the asymptotical approximation:
(-Inf, 57.80403)
95% confidence interval for E(X) based on the assumption of normality:
(-Inf, 58.58278)
Interpretace: Horní hranice doby čekání, která nebude s 95% pravděpodobností překročena je
58,58 sekundy. d) Počítáme bodový odhad a oboustranný interval spolehlivosti pro rozptyl
(resp. směrodatnou odchylku) doby čekání. Dostaneme ho příkazem: estim.var(cekani$doba).
Výstup:
Data: cekani$doba
Estimate of var(X) = 171.1111
Estimate of std. dev.(X) = 13.08094
Sample size = 10
95% confidence interval for var(X) based on the assumption of normality:
(80.95562, 570.2881)
95% confidence interval for std. dev.(X) based on the assumption of norma-
lity:
(8.997534, 23.88071)
Interpretace: Bodový odhad rozptylu doby čekání je 171,11 s2
, směrodatné odchylky 13,08
sekund. S 95% spolehlivostí se bude rozptyl pohybovat v mezích od 80,95 do 570,29 s2
a směrodatná
odchylka od 9,00 do 23,88 s.
2) Požadovaný rozsah souboru: n = 35 (výpočet viz Marek a kol. 2007, s. 128).
92
3) 0,034 < π < 0,094; interval spolehlivosti pro poměr obsahuje hodnotu 0,05; dá se tedy
předpokládat, že změna dodavatele neměla za následek změnu kvality našich výrobku
(výpočet viz Marek a kol. 2007, s. 130).
4) Při řešení využijeme vztah .7,751
03,0
)5,01(5,0
645,1
)1(
2
2
2
2
2/1
pp
un I za nejméně
příznivých okolností nám rozsah souboru 752 účetních položek zajistí požadovanou
spolehlivost a přesnost odhadu.
93
Kapitola 6: Testování statistických hypotéz
Klíčové pojmy:
statistický test, nulová a alternativní hypotéza, jednostranné a dvoustranné testy, testové
kritérium, testovací statistika, hladina významnosti, chyba 1. a 2. druhu, síla testu, kritický
obor, kritická hodnota, obor přijetí, věcná interpretace testu, parametrické a neparametrické
testy, jednovýběrový u-test o průměru a t-test o průměru, jednovýběrový test
o rozptylu a o poměru, p-hodnota testu, testování pomocí intervalu spolehlivosti, Shapirův-Wilkův
test, grafické metody ověřování normality, Wilcoxonův jednovýběrový test,
jednovýběrové testy v R
Cíle kapitoly:
- pochopení základních pojmů o testování statistických hypotéz;
- porozumění strategie provádění klasických testů proti metodám používání p-hod-
noty;
- zvládnout postup provádění parametrických i neparametrických testů v běžných
situacích s využitím počítačových programů.
Čas potřebný ke studiu kapitoly: 13 hodin
94
Výklad:
Nastínění obsahu kapitoly.
Úvod
Základní pojmy
Základní rozdělení testů
Testování hypotéz o parametrech normálního rozdělení
- Testy o průměru a rozptylu
- p-hodnota testu
Asymptotické testy
Shapirův-Wilkův test normality a grafické ověřování normality dat
Neparametrické testy
Testy v R
Struktura výkladu
Tak Vám nevím, jestli to její mrknutí bylo významné nebo ne.
Hanousek J., Charamza P.: Moderní metody zpracování dat
Úvod
Testování statistických hypotéz patří mezi základní metody statistické indukce a mezi nejjednodušší
metody kvantitativní teorie rozhodování.
- Při řešení testovacího problému hledáme odpověď např. na otázky:
95
- Způsobuje kouření rakovinu?
- Ovlivní reklamní kampaň postoj spotřebitele k nově zaváděnému výrobku?
- Zvyšují vhodné dávky daného hnojiva úrodu brambor?
- Vede nový technologický postup ke změně jakosti výrobku?
- V pozadí těchto otázek stojí parametry (podíl osob postižených rakovinou, podíl zájemců
o nový výrobek, průměrná velikost sklizně, podíl nekvalitních výrobků), jichž se
otázka dotýká. Přejeme si posoudit, zda se tento parametr (označme jej obecně jako )
nějakým systematickým způsobem změní (např. vroste), když v uvažované situaci dojde
k nějaké zásadnější změně (osoba začala kouřit, proběhla reklamní kampaň, bylo
použito intenzivnější hnojení, byl použit nový technologický postup).
- Odpověď na uvedené otázky získáváme z výběru (ne z celé populace) – statistickou in-
dukcí.
Základní pojmy
Statistickou hypotézou je určité tvrzení o parametrech základního souboru (nebo o parametrech
více souborů)
Testem statistické hypotézy nazýváme postup, jímž na základě výsledku zjištěných z náhodného
výběru ověřujeme, zda statistickou hypotézu o populaci lze pokládat za správnou či niko-
liv
- Např. testování změny poměru či průměru v předchozích případech.
Postup statistického testování:
- Formulace hypotéz.
- Výběr testového kritéria a jeho rozdělení.
- Volba hladiny významnosti.
- Vymezení kritického oboru.
- Výpočet hodnoty testového kritéria z měřených hodnot.
- Formulace závěru testu a jeho věcná interpretace.
Formulace hypotéz:
96
- Stavíme proti sobě nulovou hypotézu H0: = 0 proti alternativní hypotéze H1 (či HA):
0, kde 0 je hypotetická hodnota parametru.
- Např. průměrná doba potřebná na určitou pracovní operaci je H0: = 5 min., H1:
5 min.
- V tomto případě hovoříme o dvoustranné alternativě, resp. o dvoustranném testu.
- Jednostranné alternativy:
- levostranná H1: < 0,
- pravostranná H1: > 0.
- Levostranný test: H0: 0 proti H1: < 0,
- Pravostranný test: H0: 0 proti H1: > 0.
Výběr testového kritéria a jeho výběrové rozdělení:
- Testové kritérium - testovací statistika je funkce výběru T = T(x1,...,xn), jejíž rozdělení
je známé Nejčastěji: standardizovaný průměr, standardizovaný poměr apod.
- Obvyklá rozdělení: N(0;1), Studentovo, chi-kvadrát aj.
Volba hladiny významnosti:
- Rozhodování o hypotézách se řídí rozhodovací tabulkou
- Chyba 1. druhu - nesprávné zamítnutí nulové hypotézy.
- Chyba 2. druhu - chybné přijetí (nezamítnutí) nulové hypotézy.
- Ohodnocení těchto chyb pomocí pravděpodobností:
Naše rozhodnutí
Skutečná situace
H0 platí H0 neplatí
Nezamítneme H0
správné rozhodnutí
pravděpodobnost
1 -
chyba II. druhu
pravděpodobnost
Zamítneme H0
chyba I. druhu
pravděpodobnost
hladina významnosti
správné rozhodnutí
pravděpodobnost 1 -
sila testu
97
- Pravděpodobnost chyby 1. druhu:
P(H1 | H0) = .-. hladina významnosti (vyjadřuje se v %).
- Pravděpodobnost chyby 2. druhu:
P(H0 | H1) = .
- Pravděpodobnost, že se nedopustíme chyby 2. druhu:
P(H1 | H1) = 1 - - nazýváme sílou testu (silofunkcí)
Vymezení kritického oboru (kritické oblasti):
- Obor hodnot testového kritéria dělíme na dvě disjunktní oblasti:
- a) Kritický obor W - množina hodnot kriteria T, které jsou při platnosti hypotézy H0
málo věrohodné (chvosty rozdělení statistiky T) a má pravděpodobnost , tj.:
P(T W | H0) = - pravděpodobnost chyby 1. druhu
- Kritickým oborem W u pravostranného testu je pravý chvost, u levostranného levý
chvost a u dvoustranného - oba chvosty rozdělení
- b) Obor přijetí (akceptování, nezamítnutí) H0 - množina hodnot V kritéria T, která při
platnosti hypotézy H0 je hodně věrohodná - má pravděpodobnost 1 - , tj. platí:
P(T V | H0) = 1- .
- Pravděpodobnost chyby 2. druhu potom lze zapsat:
P(T V | H1) = .
- Sílu testu počítáme z podmínky
P(T W | H1) = 1 - .
- Kritické hodnoty testu – body oddělující kritický obor W od oboru přijetí V (=
kvantilům rozdělení testového kritéria).
- Snahou je, aby hodnoty i byly co nejmenší. Ale protože se zmenšováním
hladiny významnosti roste chyba 2. druhu (viz následující obrázek), postupujeme
takto:
- Volíme co nejmenší (0,05 nebo 0,01) a vybereme test, který při zvolené hladině
významnosti maximalizuje sílu testu 1 - . Takový test se nazývá nejsilnější
(určuje se v matematické statistice). představuje riziko nesprávného zamítnutí
nulové hypotézy. Chceme-li toto riziko snížit volíme menší.
98
- Jediný způsob současného snížení i je zvětšení rozsahu výběru n.
Výpočet hodnoty testového kritéria:
Provedeme náhodný výběr n měření x1,...,xn a z těchto měření určíme
hodnotu testového kritéria - jde o nejpodstatnější část statistického tes-
tování.
Formulace závěru testu a jeho věcná interpretace:
- Rozhodnutí provedeme na základě následujícího pravidla:
- Rozhodovací pravidlo:
Je-li T W, zamítneme nulovou hypotézu H0 na hladině významnosti
(na %-ní hladině). Máme zaručeno, že chyba takového rozhodnutí nepřekročí
.
Je-li naopak T V (tj. T W) nezamítneme nulovou hypotézu H0 na
hladině významnosti (budeme jí akceptovat). Skutečnost, že test nepotvrdil
H0 není na závadu, neboť za H0 volíme obvykle tvrzení, které
chceme zamítnout.
Můžeme se přitom dopustit chyby 2. druhu, která může mít dosti velkou
pravděpodobnost .
Proto raději neříkáme, že přijímáme H0.
Obvykle je jen třeba zvýšit rozsah výběru n, aby se snížila chyba 2. druhu
, a test se stal průkaznější.
- Výsledek rozhodnutí věcně interpretujeme
Např. reklamní kampaň přinesla významné zvýšení poměru zájemců o
nový výrobek, intenzivnější hnojení přineslo významné zvýšení průměrné
úrody apod.
- Postup statistického testování můžeme porovnat s postupem u soudu
99
Na následujícím obrázku graficky znázorňujeme základní pojmy ze statistického testování hy-
potéz.
Zdroj: Čermáková 1995
Základní rozdělení testů
Podle předpokladů o rozdělení sledovaného statistického znaku:
1) Parametrické;
2) Neparametrické.
- Parametrické testy jsou založené na předpokladech o charakteru rozdělení statistického
znaku a týkají se výhradně hodnot jednoho nebo několika parametrů daného rozdělení
(např. středních hodnot, rozptylů apod.).
- Nejčastěji předpokládáme normalitu rozdělení.
- Jedná se o početně náročnější, avšak silné testy.
- Neparametrické testy - nevyžadují splnění téměř žádných předpokladů o charakteru rozdělení
statistického znaku. Netýkají se parametrů rozdělení, tj. hypotézy neobsahují
žádná tvrzení o průměrech či rozptylech, ale týkají se jiných charakteristik (např. medi-
ánu).
- Výhoda: mohou být použity pro studium jak kvantitativních tak kvalitativních
znaků a po výpočetní stránce jsou jednoduché a rychlé.
100
- Nevýhoda: mají menší sílu.
Testování hypotéz o parametrech normálního rozdělení
Testy o populačním průměru:
- Předpoklad: x1,...,xn N(;2
), kde 2
je známý parametr.
- Pravostranný test:
- Testujeme H0: = 0 proti alternativě H1 : > 0, (0 je známá hodnota)
- Testové kritérium při H0
- Hypotézu H0 zamítáme na hladině , když U > u1-
Příklad (Arltová a kol. 2003, s. 151-152):
- Lze vyrobit 1 mil. součástek určitého elektronického zařízení se střední životností 900
hodin a směrodatnou odchylkou 225 hodin. Vývojové oddělení ve svých dílnách vyrábí
experimentálně tyto součástky novou technologií a tvrdí, že tak dosáhne vyšší průměrnou
životnost. K ověření tohoto tvrzení byl ze součástek vyrobených novou technologií
pořízen náhodný výběr 100 ks, u nichž průměrná životnost činila 940 hodin. Jeví se
nová technologie na základě těchto výsledku lépe než původní? Nejedná se jen o ná-
hodu?
Řešení:
- Testujeme hypotézu H0: = 900 proti pravostranné alternativě H1: > 900. Vypočítáme
N(0;1)0
n
x
U
.778,1100
225
9009400
n
x
U
101
- Protože U=1,778 > u0,95 = 1,645, zamítáme
H0 na 5%-ní hladině vý-
znamnosti.
- Protože U=1,778 < u0,99 =2,326, nezamítáme
H0 na 1%-ní hladině významnosti
(viz obr.).
- Statistické programy provádějí rozhodnutí
pomocí tzv. p-hodnoty
testu, tj. pravděpodobnosti dosažení
ještě extrémnější (více ve chvostu
rozdělení) hodnoty než je vypočtená
hodnota testového kritéria.
- p-hodnota = P(U 1,778 | H0) = 0,0377 = minimální hladině, na které H0 zamítáme.
- H0 zamítáme, je-li p-hodnota < .
- p-hodnotu lze totiž interpretovat jako pravděpodobnost nesprávného zamítnutí H0. Protože
jsme si ji předem zadali jako , H0 můžeme zamítnout, jen když p-hodnota nepřekročí
.
- Levostranný test:
- Testujeme H0: = 0 proti H1 : < 0
- H0 zamítneme, když U < u nebo, když p-hodnota P(U vypočítaná .hodnota u
| H0)< .
- Dvoustranný test:
- Testujeme H0: = 0, proti alternativní hypotéze H1: 0.
- Použijeme testové kritérium při H0
- H0 zamítneme na hladině významnosti na kritické oblasti
W = {U: U -u1-/2 U u1-/2}, tj. když |U| u1-/2.
- Nebo H0 zamítneme na hladině významnosti , je-li
p-hodnota = P(|U| vyp.hodnota | H0) < .
Podobně používáme p-hodnoty i u dalších testů.
N(0,1)0
n
x
U
102
Pod pojmem klasický statistický test rozumíme testování pomocí kritických hodnot a kritických
oborů.
Případ neznámého rozptylu:
- Použijeme testové kritérium které má při splnění H0 rozdělení t(n-1).
- Pro vymezení kritických oblastí W používáme proto místo kvantilů rozdělení N(0;1)
kvantily rozdělení t(n-1).
- Hovoříme zde o t-testech na rozdíl od dřívějších u-testů.
- Rozhodování v klasických t-testech je znázorněno na následujícím obrázku.
Zdroj: Arltová 2003
Pro hypotetický průměr 0 platí:
- Testování lze provést i pomocí tohoto intervalu spolehlivosti.
- Nulovou hypotézy H0: = 0 zamítneme a přijmeme opačnou oboustrannou alternativu
H1, když 0 padne mimo tento interval spolehlivosti.
Příklad:
- Testujte hypotézu, že průměrný denní výtěžek určité chemikálie ve farmaceutické továrně
je μ = 880 tun proti alternativě, že μ 880 tun. Na vzorku z 50 dní (n=50) jsme
zjistili, že výběrový průměrx = 871 a výběrová směrodatná odchylka s = 21 tun.
,
/ ns
x
T
1)1()1(
2
1
2
1 n
ntX
n
ntXP o
103
Řešení:
- Testujeme nulovou hypotézu H0: μ = 880 proti oboustranné alternativě H1: μ 880 na
hladině významnosti = 0,05.
- Platí T = (x- m0)/(s/n) = (871-880)/(21/ 50) = -3,0305
- Tedy |T| = 3,0305 > t0,975(49) = 2,010, tj. H0 na 5%-ní hladině významnosti zamítáme a
tvrdíme, že denní výtěžek se významně liší od 880 tun.
Test o populačním rozptylu:
- Předpokládejme, že náhodný výběr pochází z normálního rozdělení N(;2
), kde oba
parametry jsou neznámé.
- Testujeme nulovou hypotézu H0: 2
= 0
2
, kde 0
2
je určitá předem zvolená hodnota,
proti alternativě H1: 2
0
2
.
- Použijeme testové kritérium které má při splnění nulové hypotézy rozdělení
2
(n-1)
- Kritický obor testu je
kde v nerovnostech na pravé straně jsou příslušné kvantily rozdělení 2
(n-1).
- Podobně je možno zavést i jednostranné testy
Příklad: – Viz Hindls a kol. (2007), s. 142.
Asymptotické testy
Test o populačním průměru:
- Při velkém rozsahu souboru (n > 30) nemusí být splněn předpoklad o normalitě výběru
ze základního souboru.
- Používáme testové kritérium jehož normalita je zaručena z centrální limitní
věty.
,
)1(
2
0
2
2
xSn
)},1()1(:{W 2
2
1
22
2
22
nn
,
/
μ0
ns
x
U
104
- Rozhodnutí proto provádíme pomocí kvantilů rozdělení N(0;1).
Příklad: – Viz Hindls a kol. (2007), s. 139.
Test o populačním poměru:
- Testujeme hypotézu H0: = 0 proti alternativě H1: 0.
- Použijeme testové kritérium
Toto má při H0 podle Moivreovy-Laplaceovy limitní věty přibližně rozdělení N(0;1).
- Kritickým oborem je
Příklad – viz Hindls a kol. (2007), s. 140.
Shapiro-Wilkův test (SWT) a grafické ověřování normality
Test budeme potřebovat na ověření normality dat vždy při malém počtu měření (n ≤ 30).
Testujeme H0: X má normální rozdělení proti opačné alternativě.
Test (včetně rozdělení testové statistiky), navržený v práci Shapiro a Wilk (1965), využívá
k ověření normality testové statistiky ,2
2
,
x
Normx
S
S
W jenž je podílem dvou odhadů rozptylů: klasického
Sx
2
a odhadu Sx,Norm
2
, který je platným odhadem rozptylu za předpokladu, že data jsou
normálně rozdělena. V případě, že platí nulová hypotéza normality, máme jak v čitateli, tak ve
jmenovateli statistiky W platný odhad rozptylu a W tedy musí být blízké hodnotě 1. Pokud
nulová hypotéza normality neplatí, potom je W výrazněji vzdáleno od 1. Přesný význam slova
„výrazněji“ přitom závisí na rozsahu výběru n. Rozdělení statistiky W při platnosti H0 umožňuje
výpočet p-hodnot a určení tabulek kritických hodnot. p-hodnoty poskytují statistické programy
(např. R) a tabulku kritických hodnot (včetně podrobnějšího popisu testu) poskytuje Hebák
a kol. (2004).
.
)1( 00
0
n
P
U
}.:{
2
1
uUUW
105
Graficky je možno provádět testování normality dat z vyhodnocení krabicového diagramu (symetrie,
malé množství odlehlých hodnot), z porovnání histogramu s křivkou příslušného normálního
rozdělení (symetrie, unimodalita) a z qq-diagramu, do kterého zakreslujeme empirické
kvantily a teoretické kvantily normálního rozdělení N(μ; σ2), počítané podle vztahu
.
1
,
)(2 pupF
Za parametry dosazujeme jejich odhady. Body v grafu by ideálně měly ležet na přímce.
Příklady – viz úkoly.
Neparametrické testy
- Nemá-li X normální rozdělení a počet měření je malý (do 30 měření) používáme místo
t-testu Wilcoxonův test.
- Za charakteristickou hodnotu úrovně používáme obvykle medián Me(X) místo průměrů
Wilcoxonův jednovýběrový test úrovně (WJT)
- Testujeme hypotézu H0: Me(X) = m0 proti alternativní hypotéze H1: Me(X) m0
- Wilcoxonův test
- Počítáme pořadí od nejmenších k největším číslům |xi – m0|.
- R+
a Roznačuje
součet těchto pořadí pro kladné nebo záporné xi – m0.
Nulové hodnoty vynecháváme.
K stejným hodnotám počítáme průměrná pořadí.
- Testové kritérium: T = min (R+
, R-
)
- Příznivé alternativě – nízká hodnota T.
- Kritická oblast: W = { T: T T/2}, kde T/2 je 100(/2)% kvantil jednvýběrové Wilcoxonovy
statistiky T (v R qsignrank(p, n)) – viz tab. VI. v dodatku.
- Pravostranný test H1:Me(X)>m0 , W = {T=R:
R
T}
106
- Levostranný test H1:Me(X)< m0 , W = {T=R+
: R+
T}
- Podrobnější zavedení testu a příklady - viz Stuchlý (2004), s. 35-37, 167 nebo
Blatná (1996), s. 86-91, 179.
Jednovýběrové testy v R
- SWT (test normality)
- Provádíme v Statistics+Summaries+Shapiro-Wilks test of normality
- Grafické ověření normality dat provedeme v R Commanderu takto:
- Vybereme z nabídky Graphs
Boxplot
Quantile-comparison plot
Histogram (zaškrtneme densities)
Za příkaz histogramu připíšeme
x<-a:b
lines(x, dnorm(data$pr, mean(data$pr), sd(data$pr))
Zde data$pr je proměná „pr“ z datového souboru „data“, v kterém je proměnná
„pr“ uložena a interval a:b je celočíselné rozmezí, v kterém se
„pr“ pohybuje.
Histogram dostaneme také příkazem:
hist(data$pr, scale="density", breaks="Sturges", col= "darkgray", ylim
=c(0,0.045))
- t-test střední hodnoty
- Při normalitě dat provádíme v Statistcs+Means+Single-sample t-test
- Asymptotický test po aktivaci balíku vsePackage příkazem:
asymp.mean.test(x, mu= ),
resp.: asymp.mean.test(x, mu= , conf.level= )
Pro pravostranný test: asymp.mean.test(x, mu= , type ="greater")
Pro levostranný test: asymp.mean.test(x, mu= , type =„less")
- Wilcoxonův jednovýběrový test
- Při malém výběru a nenormalitě dat
107
- Provádíme příkazem: wilcox.test(x, mu= )
- Test variability
- Provádíme příkazem: onesample.var.test(x, sd= ) nebo onesample.var.test(x,
var= ) po aktivaci balíku vsePackage.
- Test o poměru u alternativní proměnné
- Např. podíl mužů proti ženám
- Provádíme v Statistics+Proportion+Single-sample proportion test, popř. příkazem
prop.Z.test(x, n, p= , alternative=" ", conf.level= ) po aktivaci balíku vse-
Package
- Zavedení podmnožiny dat podle určité proměnné (odpovídá filtrování v Excelu):
Data+Active data set+Subset active data set.
Excel jednovýběrové testy nezahrnuje.
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 133-142.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S.
111-115, 117-122, 125-127. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 140-158, 171-
173. ISBN 80-245-0178-3.
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
BLATNÁ, D. Neparametrické metody. Praha: VŠE 1996. ISBN 80-7079-607-3.
108
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S.
256-263. ISBN 80-7261-003-1.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 69-73.
ISBN 80-7169-255-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
132-139, 167-168. ISBN 978-80-86446-40-5.
SEGER, J. a HINDLS, R. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 127-137. ISBN 80-7187-058-7.
STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 35-
37. ISBN 80-245-0153-8.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 209-222, 226-
222, 226-230. ISBN 80-7169-089-9.
WONNACOT, T. H. a WONNACOT, R. J. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 310-350. ISBN 80-85605-09-0.
Otázky a úkoly
Pro úkoly v této kapitole budeme používat datový soubor studenti.dat (popř. studenti.csv), který
je v studijních materiálech na IS VŠTECB
1) Na hladině významnosti 5% otestujte normalitu rozdělení výšky studentů studujících na
pražských fakultách VŠE. Grafickými metodami ověřte získaný výsledek.
2) Pomocí vhodného testu zjistěte, zda průměrná výška studentů studujících na pražských
fakultách VŠE je různá od 178 cm. Rozhodnutí proveďte pomocí a) kritického oboru,
109
b) intervalu spolehlivosti, c) p-hodnoty. Při rozhodování použijte hladinu významnosti
5%. Změní se rozhodování na hladině významnosti 1% či 10%?
3) Pomocí vhodného testu zjistěte, zda průměrná výška studentů studujících na pražských
fakultách VŠE je nižší než 180 cm. Rozhodnutí proveďte pomocí a) kritického oboru,
b) intervalu spolehlivosti, c) p-hodnoty. Při rozhodování použijte hladinu významnosti
5% a 1%.
4) Pomocí vhodného testu zjistěte, zda průměrná váha studentů na VŠE je 75 kg.
5) Pomocí vhodného testu zjistěte, zda směrodatná odchylka výšky studentů studujících
na pražských fakultách VŠE je a) 11,5 cm, b) nižší než 11.5. Při rozhodování použijte
hladinu významnosti 5% a 10%. Při volbě vhodného testu nezapomeňte ověřit jeho
předpoklady. Pokud jste zvolili parametrický test, určete odpovídající interval spolehli-
vosti.
6) Pomocí vhodného testu zjistěte, zda u studentů cestujících vlakem je typická vzdálenost
od školy a) 220 km, b) méně než 220 km. Při rozhodování použijte hladinu významnosti
5% a 10%. Při volbě vhodného testu nezapomeňte ověřit jeho předpoklady. Pokud jste
zvolili parametrický test, určete odpovídající interval spolehlivosti.
7) Testujte hypotézu, že typický podíl studentů cestujících vlakem je 60% proti alternativě,
že je menší.
Úkoly k zamyšlení a diskuzi
1) Diskutujte o analogii statistického testování s rozhodováním u soudu.
2) Zamyslete se nad tím, jak souvisí statistická přejímací kontrola s testováním statistických
hypotéz?
Klíč k řešení otázek:
1) Testujeme nulovou hypotézu H0: výška má normální rozdělení proti opačné alternativě
H1. Použijeme v R Commanderu Shapiro-Wilkův test.
110
Výstup:
> shapiro.test(studenti$vyska)
Shapiro-Wilk normality test
data: studenti$vyska
W = 0.9816, p-value = 0.4751
Závěr: Nezamítáme H0. Výška studentů se řídí normálním rozdělením.
Graficky ověříme normalitu proměnné „vyska“ v R pomocí grafu histogramu, krabicového
diagramu a qq-diagramu. Použijeme příkazy (nebo postupujeme interaktivně z nabídky
Graphs):
hist(studenti$vyska, scale="density", breaks="Sturges", col="darkgray")
x<-150:200
lines(x,dnorm(x, mean(studenti$vyska),sd(studenti$vyska)))
boxplot(studenti$vyska, ylab="test")
qq.plot(studenti$test, dist= "norm", labels=FALSE)
a dostaneme následující grafy,
což potvrzuje normalitu proměnné výška.
2) Testujeme H0: μ=178 proti H1: μ≠178. Použijeme oboustranný jednovýběrový t-test.
Výstup:
> t.test(studenti$vyska, alternative='two.sided', mu=178, conf.level
=.95)
One Sample t-test
data: studenti$vyska
t = -1.4187, df = 61, p-value = 0.1611
alternative hypothesis: true mean is not equal to 178
111
95 percent confidence interval:
173.8805 178.7001
sample estimates:
mean of x
176.2903
> qt(c(0.975), df=61, lower.tail=TRUE)
[1] 1.999624
Závěry:
a) |t|=1,42 α=0,05
H0 nezamítáme na 5% hladině významnosti, tj. test neprokázal, že průměrná
výška studentů je odlišná od 178 cm. Závěr platí i na hladinách 1% a 10% (podle
c).
3) Testujeme H0: μ = 180 proti H1: μ < 180. Použijeme levostranný jednovýběrový t-test.
Výstup:
> t.test(studenti$vyska, alternative='less', mu=180, conf.level =.95)
One Sample t-test
data: studenti$vyska
t = -3.0782, df = 61, p-value = 0.001559
alternative hypothesis: true mean is less than 180
95 percent confidence interval:
-Inf 178.3032
sample estimates:
mean of x
176.2903
> qt(c(0.05), df=61, lower.tail=TRUE)
[1] -1.670219
Závěry:
a) t=-3,08<-1,67
b) 180 (-∞, 178,3)
c) p-hodnota= 0,00156 < α = 0,05
H0 na 5% hladině významnosti zamítáme, tj. test prokázal, že průměrná výška
studentů je menší než 180 cm. Na 1% hladině významnosti dostaneme stejný
závěr (p-hodnota < 0,01).
112
4) Ukážeme nejdříve SWT, že váha studentů se neřídí normálním rozdělením:
> shapiro.test(studenti$vaha)
Shapiro-Wilk normality test
data: studenti$vaha
W = 0.9221, p-value = 0.0007557
Máme 62 měření, můžeme použít asymptotický test o průměru. Testujeme hypotézu H0:
μ = 75 proti opačné hypotéze H1. Odešleme příkaz asymp.mean.test(studenti$vaha,
mu=75)
Výstup:
> library(vsePackage)
> asymp.mean.test(studenti$vaha, mu=75)
Asymptotical test for the expected value
Alternative hypothesis: true mean is not equal to 75
Data var1
Z = -2.54766, p-value = 0.01084481
Estimate of the true mean = 70.5
95% confidence interval: (67.03806, 73.96194)
Závěr: Na 5% hladině významnosti zamítneme H0, tj. průměrná váha studentů na VŠE
není 75 kg.
5) a) Pro výšku studentů testujeme hypotézu H0: σ = 11,5 proti opačné alternativě H1. Použijeme
test o populačním rozptylu (směrodatné odchylce). Podmínky na jeho použití
(normalita výšek) je splněna. V R používáme příkaz onesample.var.test(studenti$vyska,
sd=11.5)
Výstup:
> library(vsePackage)
> onesample.var.test(studenti$vyska, sd=11.5)
One-sample test for the variance of normal data
Alternative hypothesis: true variance is not equal to 132.25
true std. dev. is not equal to 11.5
Data: studenti$vyska
SS = 41.53326, p-value = 0.05324797
Estimate of the true variance = 90.04548
95% confidence interval: (65.02138, 132.9868)
Estimate of the true std. dev.= 9.48923
95% confidence interval: (8.063583, 11.53199)
113
Závěr: H0 na 5% hladině i 10% významnosti nezamítáme, tj. směrodatná odchylka
výšky studentů není 11,5; 95% interval spolehlivosti je (8,06;11,53).
b) Pro výšku studentů testujeme hypotézu H0: σ = 11,5 proti alternativě H1: σ < 11,5 .
Použijeme příkaz onesample.var.test(studenti$vyska, sd=11.5, alternative="less")
Výstup:
> library(vsePackage)
> onesample.var.test(studenti$vyska, sd=11.5, alternative="less")
One-sample test for the variance of normal data
Alternative hypothesis: true variance is less than 132.25
true std. dev. is less than 11.5
Data: studenti$vyska
SS = 41.53326, p-value = 0.02662398
Estimate of the true variance = 90.04548
95% confidence interval: (0, 124.7284)
Estimate of the true std. dev.= 9.48923
95% confidence interval: (0, 11.16819)
Závěr: H0 na 5% i 10% hladině významnosti zamítáme, tj. směrodatná odchylka výšky
studentů je nižší než 11,5. 95% interval spolehlivosti pravostranný: (0; 11,17).
6) Nejdříve zavedeme podsoubor studentů, kteří cestují do školy vlakem takto:
V nabídce Data – Active data set – Subset active data set vyplníme Subset expression:
doprava==“V“ a Name for data set: vlak (filtrování v R) a testujeme SWT normalitu
proměnné bydliště.
Výstup:
> vlak <- subset(studenti, subset=doprava=="V")
> shapiro.test(vlak$bydliste)
Shapiro-Wilk normality test
data: vlak$bydliste
W = 0.7851, p-value = 0.0001296
Proměnná není normálně rozdělená. Testujeme H0: Me(bydliště)=220 proti opačné H1.
Použijeme oboustranný Wilcoxonův jednovýběrový test příkazem wilcox.test(vlak$bydliste,
mu=220)
Výstup:
> wilcox.test(vlak$bydliste, mu=220)
Wilcoxon signed rank test with continuity correction
data: vlak$bydliste
114
V = 141, p-value = 0.808
alternative hypothesis: true location is not equal to 220
Závěr: Na 5% hladině významnosti nezamítáme H0, tj. test neprokázal, že typická vzdálenost
bydliště studentů, dopravujících se do školy vlakem, se liší od 220 km.
(b) Testujeme H0: Me(bydliště) = 220 proti pravostranné H1: Me(bydliště) < 220. Použijeme
levostanný WJT. Odešleme příkaz wilcox.test(vlak$bydliste, mu=220, alternative=
"less")
Výstup:
> wilcox.test(vlak$bydliste, mu=220, alternative="less")
Wilcoxon signed rank test with continuity correction
data: vlak$bydliste
V = 141, p-value = 0.404
alternative hypothesis: true location is less than 220
Závěr: H0 nezamítáme na 5% hladině významnosti, tj. test neprokázal, že typická vzdálenost
bydliště studentů, dopravujících se do školy vlakem, je menší než 220 km. Oba
závěry platí i na 10% hladině významnosti.
7) Testujeme hypotézu H0: π = 0,6 proti alternativě H1: π < 0.6. Použijeme asymptotický
test o populačním poměru. Pomocí Statistics – Summaries – Active dataset zjistíme, že
z 62 studentů jezdí jich vlakem 25 (proměnná „doprava“ nabývá hodnoty „T“). K provedení
testu odešleme příkaz: prop.Z.test(25, 62, p=0.6 , alternative ="less")
Výstup:
> library(vsePackage)
> prop.Z.test(25, 62, p=0.60 , alternative="less")
1-sample proportions test based on asymptotical normality
Alternative hypothesis: true pi is less than 0.6
Data: 25 successes out of 62 trials
Z = -3.162703, p-value = 0.0007815595
Estimate of the proportion of successes: 0.4032258
Estimated SE of the estimate: 0.06229932
95 % confidence interval for the proportion of successes:
(0, 0.5076619)
Závěr: Zamítáme H0 na 5% hladině významnosti. Test prokázal na 5% hladině významnosti,
že typický poměr studentů jezdících do školy vlakem je menší než 60%.
115
Kapitola 7: Dvouvýběrové testy
Klíčové pojmy:
dvouvýběrové testy, dvouvýběrový F-test o shodě rozptylů, dvouvýběrový u-test o shodě
průměrů, dvouvýběrový t-test o shodě průměrů, zobecněný dvouvýběrový test o shodě
průměrů, dvouvýběrový asymptotický u-test o shodě průměrů a o shodě poměrů, dvouvýběrový
t-test o shodě průměru pro závislé výběry, dvouvýběrový Wilcoxonův test pro
závislé a pro nezávislé výběry, Mannův-Whitneyův test, Kolmogorovův-Smirnovův dvouvýběrový
test
Cíle kapitoly:
- pochopení pojmu dvouvýběrový test jako prostředek analýzy numerické proměnné
na proměnné alternativní;
- naučit se používat dvouvýběrové testy parametrické i neparametrické;
- umět rozlišit, kdy je který test potřebný použít.
Čas potřebný ke studiu kapitoly: 11 hodin
Výklad:
Nastínění obsahu kapitoly.
Testy o shodě parametrů dvou nezávislých i závislých normálních souborů
- Testy o shodě rozptylů a středních hodnot
116
Asymptotické testy o shodě parametrů dvou souborů
- Testy o shodě průměru a poměrů
Neparametrické testy
- Mannův-Whitneyův a Wilcoxonův dvouvýběrový test
- Kolmogorovův-Smirnovův dvouvýběrový test
Dvouvýběrové testy v R a Excelu
Struktura výkladu
Hypotézy jsou lešením, které se staví před budovou a pak se strhává, je-li budova postavena.
Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou
pravdu, podobně jako nelze pokládat lešení za stavbu samu.
J.W.Goethe
Testy o shodě parametrů dvou normálních soubor.
Předpokládejme nejdříve, že jsou dané dva nezávislé náhodné výběry x1,...,xm a y1,...,yn, které
pocházejí z normálních rozdělení N(1,1
2
) a N(2,2
2
)
Dvouvýběrový F-test o shodě populačních rozptylů:
- Testujeme hypotézu H0: 1
2
=2
2
proti alternativě H1: 1
2
2
2
- Použijeme testové kritérium F=s1
2
/s2
2
F(m-1,n-1) , při H0.
- H0 zamítáme, když FF1- α/2(m-1,n-1).
- Výrazy uvedené na pravých stranách nerovností jsou kvantily Fisherova rozdělení
F(m-1, n-1).
- Tento test je důležitý pro správné vymezení, který test o průměrech použijeme.
Grafické znázornění F-testu (testování shody rozptylů):
117
Test o shodě populačních průměrů:
Předpokládejme nejdříve, že rozptyly : 1
2
, 2
2
jsou známé.
- Testujeme hypotézu H0: 1= 2 proti alternativě H1: 1 2.
- Použijeme testové kritérium
- při platnosti H0
- H0 zamítáme, když
- Testujeme-li hypotézu H0: 1= 2 proti pravostranné alternativě H1: 1> 2, zamítáme
H0, když U > u1-.
- Testujeme-li hypotézu H0: 1= 2 proti levostranné alternativě H1: 1< 2, zamítáme H0,
když U < -u1-.
Jsou-li populační rozptyly neznámé ale stejné použijeme kritérium
- Při platnosti H0 je Tt(m+n-1). Rozhodnutí proto provedeme pomocí příslušných kvantilů
tohoto rozdělení – jde o klasický dvouvýběrový t-test.
Příklad: – Viz Stuchlý (1999a), s. 122.
Jsou-li populační rozptyly neznámé a různé použijeme kritérium
)1;0(
σσ 2
2
2
1
N
nm
yx
U
.
2
1
uU
2
)1()1(
kde,
22
2
nm
SnSm
S
nm
mn
S
YX
T yx
2222
222
22
1
1
1
1
νkde),ν(t
n
S
nm
S
m
n
S
m
S
n
S
m
S
YX
T
yx
yx
yx
118
při H0 a k rozhodnutí proto použijeme kvantily tohoto rozdělení – jde o zobecněný dvouvýběrový
t-test (Welchova aproximace).
Příklad: – viz Stuchlý (1999a), s. 123.
Jsou-li oba výběry normální závislé s m = n (párová měření), počítáme Di = xi – yi a test provádíme
jako jednovýběrový test o parametru průměru aplikovaném na tyto rozdíly – jde o párovy
dvouvýběrový t-test.
Příklad – Viz Stuchlý (1999a), s. 124.
Asymptotické dvouvýběrové testy
Jsou-li rozsahy obou souborů velké (m > 30, n > 30), můžeme upustit od předpokladu normality
obou souboru.
Asymptotický u-test o shodě populačních průměrů:
- V důsledku centrální limitní věty testové kritérium
má rozdělení N(0;1). Tudíž k rozhodnutí používáme u-kvantily.
R tento test neobsahuje. Proto zde používáme t-test.
Asymptotický dvouvýběrový test o populačních poměrech:
Předpokládejme, že máme dva velké výběry x1,...,xm a y1,...,yn (m, n jsou velké), které pocházejí
z alternativních rozdělení A(1) a A(2), kde 1, 2 jsou neznámé parametry, představující
populační poměry. Označme p1, p2 odpovídající výběrové poměry.
- Testujeme hypotézu H0: 1 = 2 proti alternativě H1: 1 2. Použijeme testové kritérium
- které má při H0 rozdělení N(0;1).
m
S
n
S
YX
U
yx
22
,*kde,
)
11
*)(1(*
2121
nm
npmp
p
nm
pp
pp
U
119
- Nulovou hypotézu H0 proto zamítáme na kritickém oboru
W = {U: |U| > u1-/2}.
- Podobně postupujeme při jednostranných testech.
Příklad: – Viz Stuchlý (1999a), s. 125.
Neparametrické testy
Budeme se nejprve zabývat testy o shodě úrovní.
Porovnávání úrovní při neparametrických testech se obvykle provádí porovnáváním mediánů
Me(Xi) místo průměrů i.
Rozlišujeme:
- Závislé výběry – stejné rozsahy výběrů, pro 2 výběry – párová měření.
- Nezávislé výběry – mohou být různé rozsahy výběrů.
Testy úrovně pro dva závislé výběry:
- Testujeme hypotézu H0: Me(X) = Me(Y) proti alternativní hypotéze H1: Me(X) Me(Y)
Wilcoxonův párový test:
- Počítáme pořadí od nejmenších k největším číslům |xi – yi|,
- T+
a Toznačuje
součet těchto pořadí pro kladné nebo záporné xi – yi.
- Nulové hodnoty vynecháváme.
- K stejným hodnotám počítáme průměrná pořadí.
- Testové kritérium: T = min (T+
, T—
).
- Kritická oblast: W = { T: T Tw;/2}, kde Tw;/2 je 100/2-procentní kvantil
jednovýběrové Wilcoxonovy statistiky Tw (viz tab. VI. v dodatku).
Pravostranný test H1:Me(X)>Me(Y), W = {T:
T
Tw;}.
Levostranný test H1:Me(X) Me(Y), W = { T1: T1 < k}
- Levostranná alternativa H1:Me(X) < Me(Y), W = { T2: T2 < k}
Určitou modifikací MWT je dvouvýběrový Wilcoxonův test (DWT), který používá R.
- Jeho testovací statistika je
- Při H0 má W rozdělení W(n,m), jehož kvantily jsou tabelované (a počítá je i R pomocí
přikazu qwilcox(p,n,m)).
- Asymptotická verze DWT
používá testové kritérium
které má při H0 rozdělení N(0,1).
Příklad:
- Mezinárodní korporace plánuje otevřít svoji pobočku v Řecku. Zabezpečení jejího provozu
bude vyžadovat, aby se do Řecka přestěhoval větší počet pracovníků. Vedení korporace
se rozhodlo nabídnout pracovníkům, kteří přicházejí do úvahy, intenzívní program
výuky řečtiny. Při předcházejícím kurzu italštiny využili program poskytnutý firmou
Lingua. Podle názoru jednoho z ředitelů efektivnější výuku cizích jazyků poskytuje
společnost Trend. Proto se rozhodli otestovat nulovou hypotézu, že oba programy jsou
stejně efektivní proti alternativě, že studenti, kteří absolvovali program poskytovaný
.
2
)1(
1
nn
RW
,
)1(
12
mnnm
W
Z
122
společností Trend, dosahují lepší výsledky. Náhodným výběrem vybrali výsledky závěrečných
testů 14 studentů, kteří absolvovali program společnosti Trend a 15 studentů,
kteří absolvovali program společnosti Lingua. Závěrečný test byl v obou skupinách
stejný a jeho výsledky jsou následující:
- Trend xi 85 87 92 98 90 88 75 72 60 93 88 89 62 73 (bodů).
- Lingua yi 65 57 74 43 39 88 62 69 70 72 59 60 80 83 50 (bodů).
- Potvrzují výsledky výběrového šetření tvrzení jednoho z ředitelů, že program společnosti
Trend je lepší než program společnosti Lingua?
Řešení:
- Jedná se o nezávislé náhodné výběry, proto použijeme MWT. Nejdříve uspořádáme výsledky
závěrečného testu vzestupně podle velikostí a přiřadíme jim pořadová čísla.
- Trend 60 62 72 73 75 85 87 88 89 90 92 93 98
88.
- Lingua 39 43 50 57 59 60 62 65 69 70 72 74 80 83 88.
- Protože hodnota 60 je v pořadí na 6. a 7. místě, její pořadové číslo bude průměr z těchto
dvou pořadí (6+7)/2 = 6,5. Podobně pořadí hodnoty 62 je (8+9)/2 = 8,5, pořadí hodnoty
72 je (13+14)/2 = 13,5 a pořadí hodnoty 88 je (22+23+24)/3 = 23. Pořadí hodnot v obou
skupinách jsou následovné:
- Trend 6,5 8,5 13,5 15 17 20 21 23 23 25 26 27 28 29.
- Lingua 1 2 3 4 5 6,5 8,5 10 11 12 13,5 16 18 19 23.
- Součet pořadí pro společnost Trend je R1 = 282,5 a pro společnost Lingua R2 = 152,5.
- Dále vypočítáme:
- Testujeme hypotézu H0: Me(X) = Me(Y) proti pravostranné alternativě H1: Me(X)
> Me(Y), použijeme testové kritérium T = T1 = 32,5. V tab. VII v. dodatku najdeme
pro = 0,05 kritickou hodnotu k = k0,05 = 67. Protože T1 = 32,5 < k0,05 = 67, zamítáme
na 5% hladině významnosti hypotézu H0 proti pravostranné alternativě H1. Znamená to,
tvrzení jednoho z ředitelů korporace je správné.
32,5,282,5-14.15/214.15
2
)1(
11
R
mm
mnT
177,5.152,5-15.16/214.15
2
)1(
22
R
nn
mnT
123
- Při použítí DWT počítáme testové kritérium
- Horní kvantil Wilcoxonova dvojvýběrového rozdělení w0,95(14,15) = 143 (v R použijeme
příkaz qwilcox(0.95,14,15)). Testovací statistika ho překročí, proto H0 zamítáme
a přijímáme pravostrannou alternativu.
- Asyptotická verze DWT používá testové kritérium
- které překročí hodnotu u0,95 = 1,645 , tj. dostáváme stejný závěr.
- Výpočet pomocí DWT nabízí R. Výstup z počítače je:
> wilcox.test(test ~ společnost, alternative="greater", data=jazyk)
Wilcoxon rank sum test with continuity correction
data: test by společnost
W = 177.5, p-value = 0.0008303
alternative hypothesis: true location shift is greater than 0
> qwilcox(0.95,14,15)
[1] 143
Kolmogorovův-Smirnovův dvouvýběrový test (KSDT) – test shody rozdělení
- Testujeme hypotézu H0: dva výběry x1,…,xm a y1,…yn pocházejí ze stejných rozdělení
proti opačné alternativě.
- Srovnáme všechna měření do neklesající posloupnosti z1,...,zm+n.
- Z výběrů vypočítáme empirické distribuční funkce Fm(z) a Gn(z) – tj. kumulové relativní
četnosti jednotlivých výběrů.
- Testové kritérium je
- Kritický obor: W= {D: D d1-}, kde d1- jsou kvantily KSDT (viz tabulka VIII. v
dodatku).
.5,177
2
15.14
5,282
2
)1(
1
mm
RW
,747,7
)1(
12
nmmn
W
Z
|)()(|sup nm
z
zGzFD
124
Příklad:
Bylo vybráno 13 polí stejné kvality. Na 5 z nich se zkoušel nový způsob hnojení, zbývajících 8
bylo ošetřeno běžným způsobem. Výnosy pšenice uvedené v tunách na hektar jsou označeny xi
u nového a yi u běžného způsobu hnojení.
xi: 5,0 4,5 4,2 5,4 4,4
yi: 5,7 5,5 4,3 5,9 5,2 5,6 5,8 5,1
Testujte hypotézu H0: oba výběry pocházejí ze stejného rozdělení proti opačné alternativě H1
Řešení.
Použijeme KST pro dva výběry. Potřebné výpočty jsou provedeny v následující tabulce. Hodnota
testového kritéria je D F x G x sup | ( ) ( )|
x
n m
= 0,675. V tab. VIII. v dodatku najdeme pro
n = 5, m = 8, = 0,05 odpovídající kvantil d0,95 = 0,75. Protože D < d0,95, nezamítáme hypotézu
H0, že oba výběry pocházejí ze základních souborů se stejnými distribučními funkcemi.
Dvouvýběrové testy je možno používat jako prostředek analýzy závislostí numerické proměnné
na alternativní.
Výnosy zi
Četnost
xi
Četnost
yi
Kumulovaná
četnost
xi
Kumulovaná
četnost
yi
Fn(zi) Gm(zi) |Fn(zi)-Gm(zi)|
4,2 1 0 1 0 0,2 0 0,2
4,3 0 1 1 1 0,2 0,125 0,075
4,4 1 0 2 1 0,4 0,125 0,275
4,5 1 0 3 1 0,6 0,125 0,475
5,0 1 0 4 1 0,8 0,125 0,675
5,1 0 1 4 2 0,8 0,25 0,55
5,2 0 1 4 3 0,8 0,375 0,425
5,4 1 0 5 3 1 0,375 0,625
125
5,5 0 1 5 4 1 0,5 0,5
5,6 0 1 5 5 1 0,625 0,375
5,7 0 1 5 6 1 0,75 0,25
5,8 0 1 5 7 1 0,875 0,125
5,9 0 1 5 8 1 1 0
Součet 5 8
Řešení v R:
Načteme data do souboru vynosy.dat. Použijeme příkaz: ks.test(vynosy$x,vynosy$y). Výstup:
> ks.test(vynosy$x,vynosy$y)
Two-sample Kolmogorov-Smirnov test
data: vynosy$x and vynosy$y
D = 0.675, p-value = 0.07925
alternative hypothesis: two-sided
Dvouvýběrové testy v R a v Excelu
Pro nezávislé výběry:
1) Paramerické testy:
t.test(x, y, mu= , var.equal=T)
t.test(x, y, mu= , var.equal=F)
t.test(y~factor, mu= , var.equal=T)
t.test(y~factor, mu= , var.equal=F)
var.test(x, y, ratio= )
var.test(y~factor, mu= )
2) Neparametrické testy
126
wilcox.test(x, y, mu= )
wilcox.test(y~factor, mu= )
ks.test(x, y)
Pro závislé výběry
3) Parametrický test:
t.test(x, y, mu= , paired=T)
4) Neparametrický test:
wilcox.test(x, y, mu= , paired=T)
Dvouvýběrový asyptotický test o poměrech (relativních četnostech):
Po aktivaci balíku vsePackage lze provádět příkazem
prop.diff.test(x, n, diff= , alternative= )
Viz Otázky a úkoly č. 5.
To jsou příkazy, pomocí kterých je možno jednotlivé testy vykonávat. Většina dvouvýběrových
testů v R je možno provádět interaktivně přímo z nabídek.
Dvouvýběrové testy v Excelu: Excel nabízí v Analýze dat všechny dvouvýběrové parametrické
testy úrovně. Neparametrické testy neuvádí.
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 144-150.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S.
115-119, 122-125, 128-129. ISBN 80-7079-754-1.
127
Doporučené studijní zdroje:
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 159-178, 171-
173. ISBN 80-245-0178-3.
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
BLATNÁ, D. Neparametrické metody. Testy založené na pořádkových a pořadových statistikách.
Praha: VŠE, 1996. S. 94-98, 102-117. ISBN 80-7079-607-3.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S.
268-274, 283-286, 289-290. ISBN 80-7261-003-1.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 73-79.
ISBN 80-7169-255-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
140-154, 167-168. ISBN 978-80-86446-40-5.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 138-147. ISBN 80-7187-058-7.
STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 37-
43, 53, 57-58, 60. ISBN 80-245-0153-8.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/)
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 223-226. ISBN
80-7169-089-9.
Otázky a úkoly
1) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda výška studentů
závisí na jejich pohlaví.
128
2) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu ověřte, zda ženy jsou
v průměru o 20 kg lehčí než muži.
3) U 10 dvojčat byla zjištěna následující porodní váha (v gramech)
starší 2440 3500 2820 2540 2650 2690 2750 2750 2650 2200
mla-
dší
2700 3080 2200 2700 2550 2350 3500 2500 2420 2520
Pomocí vhodného testu zjistěte, zda porodní váha u staršího z dvojčat je vyšší než porodní
váha mladšího z dvojčat.
4) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda typický
rozdíl výšky a váhy studentů studujících na VŠE je 90.
5) V souvislosti s kontrolováním své osobní váhy získaly v posledních letech na popularitě
dietní nápoje. Inzerenti těchto nápojů se domnívají, že muži dávají přednost nedietním
nápojům mnohem častěji než ženy. K ověření této domněnky byl vybrán náhodný výběr
n = 300 mužů, kteří pijí kolu, a bylo zjištěno, že 192 z nich pije obyčejnou kolu a zbývajících
108 dietní kolu. V obdobném souboru 300 žen pije 144 obyčejnou kolu a 156
dietní kolu. Ověřte předpoklad inzerentů na hladině významnosti 0, 05.
6) Použijeme data ze souboru studenti.dat. Pomocí vhodného testu zjistěte, zda bodové
rozložení ve statistickém testu je stejné pro angličtináře i neangličtináře.
Úkoly k zamyšlení a diskuzi
1) Diskutujte o podmínkách používání jednotlivých testů.
2) Zamyslete se nad tím, jak používat jednotlivé testy v manažerské praxi.
129
Klíč k řešení otázek:
1) Nejdříve dvouvýběrovým F-testem (Statistics – Variance - Two-variances F-test) zjistíme,
zda rozptyly výšek u mužů a žen se liší, tj. testujeme H0: σ1
2
= σ2
2
proti opačné
alternativě H1.
Výstup:
> tapply(studenti$vyska, studenti$pohlavi, var, na.rm=TRUE)
M Z
36.39572 44.18519
>var.test(vyska~pohlavi,alternative='two.sided',conf.level=.95,data=studenti)
F test to compare two variances
data: vyska by pohlavi
F = 0.8237, num df = 33, denom df = 27, p-value = 0.5908
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3902931 1.6919592
sample estimates:ratio of variances 0.8237087
Závěr: Nezamítáme H0, tj. výstup ukazuje, že rozptyly výšek jsou stejné.
K testování shody průměrných výšek použijeme dvojvýběrový t-test (Statistics – Means
- Independent samples t-test) a zaškrtneme vyska a Assume equal variances?: Yes. Testujeme
H0: μ1 = μ2 proti opačné alternativě H1.
Výstup:
>t.test(vyska~pohlavi,alternative='two.sided',conf.level=.95,var.equal=TRUE,
data=studenti)
Two Sample t-test
data: vyska by pohlavi
t = 8.8125, df = 60, p-value = 2.044e-12
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
10.98137 17.43039
sample estimates:
mean in group M mean in group Z
182.7059 168.5000´
130
Závěr: H0 zamítáme na 5% hladině významnosti, tj. výstup ukazuje, že průměrné výšky
se liší a tedy výška studentů závisí na pohlaví. (Normalitu výšek v obou souborech prokážene
SWT – viz úkol 1 v předchozí kapitole.) Stejné výsledky dostaneme i pomocí
Analýzy dat v Excelu.
2) SWT lze ověřit, že váhy v souboru mužů i v souboru žen se neřídí normálním rozdělením.
Proto použijeme Wilcoxonův dvouvýběrový test v Statistics – Nonparametric tests
– Two-sample Wilcoxon test. Po jeho provedení doplníme ještě do příkazu mu=20. Testujeme
H0: Me(vaha mužů) - Me(vaha žen) = 20 proti opačné alternativě H1.
Výstup:
wilcox.test(vaha ~ pohlavi, mu=20, alternative="two.sided", data=studenti)
Wilcoxon rank sum test with continuity correction
data: vaha by pohlavi
W = 602, p-value = 0.07542
alternative hypothesis: true location shift is not equal to 20
Závěr: Test těsně nulovou hypotézu nezamítnul. Na 5% hladině významnosti jsme neprokázali,
že typický rozdíl vah studentů a studentek se liší od 20 kg. Stejné výsledky
dostaneme i pomocí Analýzy dat v Excelu.
3) Vložíme data do souboru dvojcata proměnných starsi a mladší pomocí editoru. Testujeme
nejdříve normalitu dat pomocí SWT. Výstup:
> shapiro.test(dvojcata$mladsi)
Shapiro-Wilk normality test
data: dvojcata$mladsi
W = 0.8578, p-value = 0.0719
> shapiro.test(dvojcata$starsi)
Shapiro-Wilk normality test
data: dvojcata$starsi
W = 0.8787, p-value = 0.1262
Závěr: Oba soubory se řídí normálním rozdělením a jsou závislé. Použijeme proto dvouvýběrový
párový t-test (Statistics – Means – Paired t-test). Testujeme hypotézu H0: μst
– μml = 0 proti H1: μst – μml > 0
Výstup:
131
>
t.test(dvojcata$mladsi, dvojcata$starsi, alternative='greater',
+ conf.level=.95, paired=TRUE)
Paired t-test
data: dvojcata$mladsi and dvojcata$starsi
t = 0.3596, df = 9, p-value = 0.3637
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-192.6179 Inf
sample estimates:
mean of the differences
47
Závěr: H0 nezamítáme. Znamená to, že jsme na 5% hladině významnosti neprokázali,
že starší dvojče má těžší porodní váhu než dvojče mladší. Stejné výsledky dostaneme i
pomocí Analýzy dat v Excelu.
4) Nejdříve ověříme SWT, že uvažovaný rozdíl se neřídí normálním rozdělením: použijeme
příkaz shapiro.test(studenti$vyska-studenti$vaha).
Proto použijeme Wilcoxonův párový test (Statistics - Nonparametric tests – Pairedsamples
Wilcoxon test) a do příkazu ještě dopíšeme mu=90. Testujeme H0: Me(vyska)
– Me(vaha) = 90 proti opačné H1.
Výstup:
> wilcox.test(studenti$vyska, studenti$vaha, mu=90, alternative='two.sided',
paired=TRUE)
Wilcoxon signed rank test with continuity correction
data: studenti$vyska and studenti$vaha
V = 1953, p-value = 7.603e-12
alternative hypothesis: true location shift is not equal to 90
Závěr: Na 5% hladině významnosti zamítáme H0. Výstup ukazuje, že typický rozdíl
není 90.
Testujeme H0 πm-πz = 0 proti alternativě H1: πm-πz > 0. Použijeme asymptotický dvouvýběrový
test o poměrech. Řešení získáme v R Commanderu po aktivaci balíku vsePackage
příkazem:
prop.diff.test(x=c(144,192), n=c(300,300),diff=0,alternative="greater")
Výstup:
132
> library(vsePackage)
> prop.diff.test(x=c(144,192), n=c(300,300),diff=0,alternative="greater" )
Difference of proportions test based on asymptotical normality
Data: c(144, 192)
Alternative hypothesis: true pi(1) - pi(0) is greater than 0
Success = x
Z = 4, p-value = 3.167124e-05
Sample estimates of proportions of successes:
0 1
0.48 0.64
Estimate of the difference of proportions: 0.16
Estimated SE of the estimate: 0.04
95% confidence interval for the difference of proportions:
(0.09420585, 1)
> qnorm(c(0.95), mean=0, sd=1, lower.tail=TRUE)
[1] 1.644854
Závěr: Zamítáme H0, tj. potvrdila se domněnka inzerentů, že muži vypijí více nedietních
nápojů než ženy.
5) Pomocí příkazů:
skup1 <- subset(data, data$jazyk=="A")
skup2 <- subset(data, data$jazyk!="A")
Rozdělíme studenty na skupinu1 angličtinářů a skupinu2 neangličtinářů. K testování
shody rozdělení použijeme Kolmogorovův-Smirnovův dvouvýběrový test. Testujeme
H0: bodové rozdělení ve statistickém testu je stejné v skupině angličtinářů jako ve skupině
neangličtinářů proti opačné alternativě. Aktivujeme balík vsePackage příkazem
library(vsePackage). Samotný test provedeme příkazem: ks.test(skup1$test,
skup2$test).
Výstup:
> ks.test(skup1$test, skup2$test)
Two-sample Kolmogorov-Smirnov test
data: skup1$test and skup2$test
D = 0.224, p-value = 0.523
alternative hypothesis: two-sided
Závěr: Nezamítáme H0, tj. test neprokázal významný rozdíl rozdělení bodového hodnocení
ve statistickém testu mezi skupinou angličtinářů a neangličtinářů.
133
134
Kapitola 8: Další testy a analýza rozptylu
Klíčové pojmy:
chi-kvadrát testy, testy dobré shody, testování shody empirických a teoretických četností,
testování nezávislosti v kontingenční tabulce, kontingenční koeficienty, KolmogorovůvSmirnovův
jednovýběrový test, jednofaktorová analýza rozptylu, celková, meziskupinová
a vnitroskupinová suma čtverců, poměr determinace, homoskedasticita, Bartletův test,
tabulka analýzy rozptylu, Kruskalův-Wallisův test
Cíle kapitoly:
- pochopení principu chi-kvadrát testů;
- provádění dalších neparametrických testů;
- princip a používání analýzy rozptylu.
Čas potřebný ke studiu kapitoly: 11 hodin
Výklad:
Nastínění obsahu kapitoly.
Úvod
Chi-kvadrát testy
135
- Testování shody empirického rozdělení s rozdělením teoretickým
- Testování nezávislosti v kontingenční tabulce
Kolmogorovův-Smirnovův test pro jeden výběr
Příkazy pro další testy v R
Jednofaktorová analýza rozptylu
Kruskalův-Wallisův test
Struktura výkladu
Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů
Samuel Butler
Úvod
V dosud probraných parametrických testech vycházíme vždy ze znalosti rozdělení základního
souboru, z kterého jsme pořídily náhodný výběr (např. předpoklad normality).
Musíme proto umět tento předpoklad ověřit:
- Testujeme shodu mezi předpokládaným rozdělením a rozdělením empirickým.
Používáme k tomu testy dobré shody.
- Např. shodu empirického rozdělení s normálním rozdělením ověřujeme SWT.
Patří do velmi početné skupiny neparametrických testů.
Předpoklady na použití neparametrických testů jsou menší.
- Neparametrické testy jsou robusnější, tj. kvalita výsledků je méně závislá na povaze
konkrétních dat a na narušení předpokladů kladených na tato data.
136
Síla neparametrických testů je obvykle slabší, tj. dochází častěji k chybnému nezamítnutí nepravdivé
nulové hypotézy.
Chi-kvadrát testy
Používáme je nejčastěji jako testy dobré shody
- Mají širší použití:
- Testy nezávislosti dvou znaků (v kontingenční tabulce).
- Testy homogenity (shody) rozdělení 2 výběrových souborů.
- Testy o shodě 2 nebo více populačních poměrů.
a) Chi-kvadrát test dobré shody
- Ověřujeme jím předpoklad, že rozdělení základního souboru, z něhož byl výběr pořízen,
je určitého konkrétního typu.
- Testujeme hypotézu H0, že náhodný výběr
- pochází z předpokládaného rozdělení (normálního, Poissonova aj.), které má r
1 neznámých parametrů (tzv. neúplně specifikovaný model), popř. toto rozdělení
je určeno i s parametry (tzv. úplně specifikovaný model),
- nebo tvoří určité intuitivně formulované teoretické rozdělení (viz příklad 2),
proti opačné alternativě H1.
Postup chi-kvadrát testu dobré shody:
- Náhodný výběr o rozsahu n roztřídíme do k tříd.
- Označme ni absolutní empirické četnosti těchto tříd.
- Při splnění H0 je znám tvar rozdělení sledovaného znaku X.
- Odhadneme parametry tohoto rozdělení.
- Potom určíme pravděpodobnosti jednotlivých tříd i pomocí odhadů
- pi = P(Xi-té třídy).
- Z nich určíme teoretické (očekávané) četnosti ni’= npi.
- Vypočteme testové kritérium:
k
i i
ii
n
nn
1
2
2
.
)(
137
- Při platnosti H0 má testové kritérium χ2
rozdělení 2
(k-r-1), kde k je počet tříd a r je
počet odhadovaných parametrů.
- Kritický obor testu je
- Pro korektní použítí testu je požadováno splnění podmínek:
n je dostatečně velké (n 50) a npi = ni’ > 5 pro i = 1,…,k.
- Není-li splněna 2. podmínka, je potřebné některé třídy spojit.
- Test používáme nejčastěji na testování hypotéz:
H0: X N(,2
), kde odhadneme
H0: X Po(), kde odhadneme
H0: empirické rozdělení četností je shodné se zadaným rozdělením.
- Chi-kvadrát test je rovnocenný s u-testem o shodě poměrů.
Příklad 1: Viz Stuchlý (1999a), s. 131-133.
Příklad 2: Třetí sloupec tabulky udává strukturu korunových úvěrů klientů ČR v roce 1995
v členění podle účelu. Jeden z bankovních ústavů poskytující korunové úvěry potřebuje operativně
znát, zda i v jeho klientele je rozložení shodné s celostátní strukturou.
Provedl náhodný výběr 253 úvěrových smluv a ověřuje nulovou hypotézu o shodě. Údaje i
potřebné propočty jsou v tabulce. Počet tříd k = 6. Testové kritérium χ2 = 9,476. Kritický obor
je omezen zdola kvantilem 2
0,95(5) = 11,1. Protože χ2 < 11,1, nezamítáme na 5% hladině významnosti
nulovou hypotézu. Test neprokázal rozdíly v struktuře úvěrů.
Korunové úvěry
klientů podle účelu
Počet
úvěrů ni
Celostátní úvěrová
struktura pi ni’ = n pi '
)'( 2
i
ii
n
nn
- provozní 92 35,6% = 0,356 90,068 0,041
- investiční 63 26,2% = 0,262 66,286 0,163
- hypotekární 4 0,4% = 0,004 1,012 8,822
- privatizační 11 3,9% = 0,039 9,867 0,130
- na přechodný nedostatek
zdrojů
24 9,0% = 0,090 22,770 0,066
- ostatní 59 24,9% = 0,249 61,997 0,254
Celkem 253 100% = 1,000 253,000 9,476
)}.1(:{ 2
1
22
rkW
;ˆ,ˆ 22
xsx
;ˆ x
138
b) Test nezávislosti dvou znaků
Provedeme dvoustupňové třídění do kontingenční tabulky:
A \ B B1 B2 . . . . . Bs Součet
A1
A2
. . .
Ar
n11 n12 . . . . . n1s
n21 n22 . . . . . n2s
. . . . . . . . . . .
nr1 nr2 . . . . . nrs
n1.
n2.
. . .
nr.
Součet n.1 n.2 . . . . . n.s n
přičemž znak X třídíme do r skupin A1,…,Ar a znak Y do s skupin B1,…,Bs. Tabulka obsahuje
absolutní sdružené četnosti nij a součtové (marginální) četnosti ni. (součty řádků), i = 1,…,r a n.j
(součty sloupců), j = 1,…,s.
Testujeme nulovou hypotézu H0: Znaky X, Y jsou nezávislé proti opačné alternativě H1.
Testové kritérium
při dostatečně velkém rozsahu souboru
a při dostatečně velkých očekávaných četnostech
(požadujeme, aby nij’ 1) má při H0 rozdělení 2
((r-1)(s-1)).
Odtud dostaneme kritický obor testu
Podobně testujeme homogenitu výběrů (tj. předpoklad, že výběry pocházejí ze stejného rozdělení
pravdepodobnosti).
Míry síly závislosti kvalitativních proměnných:
Pearsonův kontingenční koeficient
r
i
s
j ji
ji
ij
n
nn
n
nn
n
1 1 ..
2
..
2
i j
ijnn
n
n
n
n
nn
ji
ij
..
'
))}.1)(1((:{W 2
1
22
sr
2
2
n
C
139
- Při nezávislosti znaků je C = 0, velké C znamená silnou závislost.
Cramérův kontingenční koeficient
- Zde m = min(r,s), r je počet řádků, s je počet sloupců kontingenční tabulky.
- Platí 0 matrix(c(), r, s, byrow=T[F]), zadání tabulky maticí typu r x s po řádcích [sloupcích].
Testování nezávislosti v kontingenční tabulce:
chisq.test (tab), testování nezávislosti v kontingenční tabulce;
pearson.indep.test(tab), testování nezávislosti v kontingenční tabulce po aktivaci balíku vsePackage,
počítá i koeficienty kontingence (tabulku lze zadat v nabídce Statistics – Contingency
tables – Enter and analyse two-way table).
Analýza rozptylu (AR)
Úvod
Analýza rozptylu zkoumá, zda číselná veličina Y (odezvová veličina) závisí na kategoriálních
(kvalitativních) proměnných Xi (faktory).
Rozhodnutí se provádí na základě rozkladu rozptylu, resp. odpovídajícího součtu čtverců.
AR byla zavedena R. A. Fisherem (v r. 1912) k sledování vlivů různých úrovní určitého faktoru
na úrodu uvažované plodiny.
Anglický název: Analysis of variance (ANOVA).
142
Jednofaktorová analýza rozptylu (JAR)
Sledovaná statistická veličina Y je ovlivňována jen jedním faktorem X uvažovaným na k úrov-
ních.
- Např. závislost úrody na hnojivu, tržby a prodavači, hodinové mzdy na kvalifikační
třídě, investic na vzdělání respondenta.
Podle úrovní daného faktoru X jsou pozorování znaku Y rozdělena do k skupin o ni pozorováních,
ni = n:
Skupina Hodnoty znaku y Průměry sku-
pin
1 y11, y12,..., 11ny 1y
2 y21, y22,..., 22ny 2y
. . . . . . . . . . . . . . . . . . .
k yk1, yk2,..., kkny
ky
Základní myšlenka JAR:
Rozklad rozptylu veličiny Y:
- na meziskupinový a vnitroskupinový.
- Místo rozptylu používáme v AR jen příslušné součty čtverců.
Součet čtvercových odchylek n hodnot veličiny Y od jejich průměru (celkový součet Sy) rozkládáme
na součet meziskupinový Sy,m (rozptyl skupinových průměrů) a vnitroskupinový (reziduální
= zbytkový) Sy,v , tj.
Sy = Sy,m + Sy,v ,
k
i
n
j
ij
k
i
n
j
ij
k
i
n
j
ij
iii
y
n
yynyyy
1 1
2
1 1
2
1 1
2
y
1
kde,)(S
,)(S 2
1
2
1
2
my, ynnynyy
k
i
ii
k
i
ii
k
i
ii
k
i
n
j
ij
k
i
n
j
iij nyyyy
ii
1
2
1 1
2
1 1
2
vy, )(S
143
Interpretace těchto součtů:
celkový součet čtverců Sy charakterizuje celkovou měnlivost (variabilitu) hodnot sledovaného
znaku Y;
meziskupinový součet čtverců Sy,m - měnlivost mezi skupinami (vliv jednotlivých úrovní faktoru
x);
vnitroskupinový součet čtverců Sy,v - měnlivost v skupinách (tj. nevysvětlená variabilita, způsobená
náhodnými vlivy). Nazýváme ho také reziduální součet čtverců SR.
- Mírou těsnosti (síly) závislosti Y na x je tzv. poměr determinace P2
= Sy,m/Sy.
- Platí: 0 P2
1. Čím silnější je závislost (čím větší podíl na celkové variabilitě má
meziskupinová variabilita) tím více se P2
blíží k 1 (samotné P nazýváme korelační poměr
– představuje neobecnější míru síly závislosti).
- Hodnota P2
= 0 odpovídá rovnosti všech skupinových průměrů (nulové meziskupinové
variabilitě) a P2
= 1 nulové vnitroskupinové variabilitě.
K jednotlivým součtům čtverců můžeme definovat tzv. stupně volnosti.
- Počet stupňů volnosti součtu čtverců m veličin je určen tím, kolik z těchto veličin je
nezávislých. Existuje-li mezi m veličinami c lineárních vztahů, má součet čtverců těchto
m veličin m – c stupňů volnosti.
Lze ukázat, že Sy má = n - 1, Sy,m má 1 = k - 1 a Sy,v má 2 = n - k stupňů volnosti (platí =
1 + 2).
Předpoklady použití ANOVA:
- Výběry ve skupinách musí být nezávislé a pochází ze základních souborů s rozdělením
N(i;i
2
), které mají stejné rozptyly, tj. platí, že 1
2
= 2
2
= … = k
2
, tzv. homoskedas-
ticita.
- Homoskedaticitu ověřuje Bartlettův test (viz Seger a Hindels 1995, s. 162-163) nebo
Levenův test v R a normality SWT nebo grafickými metodami. Aplikujeme je na rezidua
(odhady chyb měření v modelu).
144
Test hypotézy o neexistenci vlivu faktoru (neboli o nezávislosti znaku Y na zkoumaném faktoru
x) umožní zobecnit závěr o rozdílnosti či podobnosti skupinových průměrů na celou populaci.
Pomocí JAR testujeme nulovou hypotézu H0: 1 = 2 = … = k proti opačné alternativě H1
- Jiná interpretace JAR: H0: odezvová veličina nezávisí na faktorech.
Použijeme testové kritérium
které má při H0 rozdělení F(k-1;n-k).
Alternativní hypotéze jsou příznivé vysoké hodnoty F.
Proto H0 zamítáme, když F > F1-(k-1;n-k), kde F1-(k-1;n-k) je kvantil příslušného F-rozdělení
a interpretujeme to tak, že faktor x působí významně na odezvovou veličinu Y (resp. kvantitativní
veličina Y závisí na hodnotách kvalitativní proměnné x).
Hodnoty náhodné veličiny (odezvy) Y lze vyjádřit ve tvaru yij=μ+αi+εij, i=1,…,k, j=1,…,ni,
(model analýzy rozptylu)
kde yij je j-té pozorování odezvy Y při i-té úrovni faktoru x, μ = E(Y),
αi je efekt (vliv) i-té úrovně faktoru na odezvovou veličinu Y,
εij jsou náhodné chyby.
μ odhadujeme výběrovým průměrem
αi rozdílem skupinového a celkového průměru
Hodnoty yij odhadujeme vyrovnanými hodnotami ŷij (v R fittted.values(model)),
chyby εij odhadujeme rozdílem empirických (naměřených) a vyrovnaných hodnot eij =
yij – ŷij (tzv. residua – v R residuals(model)).
Výpočet provádíme obvykle do následující tabulky ANOVA:
,
)/(S
)1/(S
F
vy,
my,
kn
k
y
.. yyi
Zdroj měnlivosti Součet čtverců Stupně volnosti
Průměrný součet
čtverců
Testové kritérium
Faktor Sy,m =
k
i
ii yyn
1
2
)( k - 1 Sy,m/(k-1)
)](/
)1(/
,
,
knS
kS
F
vy
my
Rezidua Sy,v =
k
i
n
j
iij
i
yy
1 1
2
)( n - k Sy,v/(n – k)
Celkový Sy =
k
i
n
j
ij
i
yy
1 1
2
)( n - 1
145
Při zamítnutí H0 provádíme vícenásobná porovnávání např. Tukeyovo metodou (zjišťujeme,
které dvojice úrovní faktorů způsobily zamítnutí H0) a můžeme počítat také intervaly spolehlivosti
pro jednotlivé třídy – viz R.
Podobným způsobem můžeme provádět i vícefaktorovou analýzu rozptylu.
Poznámky:
Předpoklad normality rozdělení se ověřuje obvykle SWT na rezidua nebo některou z počítačových
grafických metod. Odchylky skutečného rozdělení znaku Y od normálního rozdělení nemají
velký vliv na rozdělení statistiky F, kromě případu výskytu extremních hodnot v jednotlivých
výběrech.
Ověření homoskedasticity (shody rozptylů): Pokud nelze pro nedostatečně obsazené skupiny
použít Bartlettův test, můžeme použít Levenův test nebo použijeme k ověření bodový diagram
(závislost reziduí na úrovních faktorů) popř. odhadneme nesplnění zhruba posouzením hodnot
výběrových rozptylů si
2
.
Při nejistotě splnění předpokladů normality a homoskedesticity dat, můžeme místo AR použít
Kruskalův-Wallisův test (KWT) – viz Stuchlý (2004), s. 44-46.
Analýza rozptylu v R:
1. ANOVA (v nabídce Models je podrobná analýza číselná i grafická v modelu):
model <- aov(y~x), uložení výsledků AR do objektu model (nebo interaktivně v Statistics-Means-One-way
ANOVA);
factor(x, levels=c(), labels=c()), zadání a označení úrovní faktoru
fitted.values(model), výpis vyrovnaných hodnot z AR
TukeyHSD(model), provedení Tuckeyovo vícenásobného porovnávání
2. rezidua a grafy reziduí:
residials(model), výpis reziduí AR;
resplot(model, type=“e-yhat“, xterm= , lowess= F, hline=T), graf závislosti reziduí na vyrovnaných
hodnotách;
resplot(model, type=“e-x“, xterm= , lowess= F, hline=T), graf závislosti reziduí na faktoru;
146
resplot(model, type=“e-time“, xterm= , lowess= F, hline=T), graf závislosti reziduí na čase.
3. Barttletův a Levenův test homoskedasticity:
bartlett.test(y ~ x);
levene.test(y ~ x,data = ).
4. Kruskalův-Wallisův test:
kruskal.test(y ~ x, data = );
kruskal.test(y , x, data = ).
Příklad 6 (Stuchlý 1999a): V následující tabulce jsou uvedeny měsíční tržby tří prodavačů v tis.
Kč. Na hladině významnosti 0.05 testujte hypotézu o shodě průměrných měsíčních tržeb u
všech tří prodavačů proti opačné alternativě. Odhadněte celkovou průměrnou tržbu a efekty
jednotlivých prodavačů na průměrné tržbě. Intenzitu závislosti charakterizujte korelačním poměrem.
Ověřte podmínky potřebné pro použití analýzy rozptylu.
Řešení. Použijeme výpočty v následující tabulce:
Prodavač číslo Měsíční tržby yij
yi yi
2
yij
j
n
2
1
1 15 10 9 5 16 11 121 687
2 15 10 12 11 12 12 144 734
3 19 12 16 16 17 16 256 1306
Součet 39 521 2727
Testujeme nulovou hypotézu H0: 1 = 2 = 3 proti opačné alternativě H1. Při ručním výpočtu
je výhodné přepsat si zavedené sumy čtverců tak, jak je uvedeno dále
y
m
yi
i
m
1 1
3
39 13
1
. ,
147
m
i
imy ynmynS
1
222
., ,7013.5.3260513.5.3521.5
m
i
n
j
m
i
iijvy ynyS
1 1 1
2
.
2
, ,122521.52727
m
i
n
j
ijy ynmyS
1 1
222
.19213.5.32727
Protože platí
,89,3)12,2(44,3
14,10
35
4.3/122
2/70
)]1([/
)1(/
95,0
,
,
F
nmS
mS
F
vy
my
nezamítáme nulovou hypotézu H0. Znamená to, že v tržbách jednotlivých prodavačů není statisticky
významný rozdíl, tj. tržby nezávisí na faktoru prodavač.
Odhadneme ještě parametry modelu:
yˆ = 13, yy .11
ˆ = 11-13 = -2, yy .22
ˆ = 12-13 = -1, yy .33
ˆ =16-13 =3.
Celkový průměr tržeb je 13 tis. Kč a efekty, jakými se jednotlivý prodavači podílejí na celkovém
průměru jsou - 2, -1 a 3 tis. Kč.
Určení meziskupinové sumy čtverců přibližuje její grafické znazornění v následujícím grafu.
V levé části grafu jsou pomocí mediánú znázorněny skupinové průměrné tržby a v pravé části
grafu je krabicovým diagramem znázorněna jejich variabilita, představující meziskupinovou
variabilitu.
148
Úlohu je možno řešit na počítači např. pomocí programu R. Dostáváme:
> AnovaModel.1 <- aov(trzba ~ prodavac, data=trzby)
> summary(AnovaModel.1)
Df Sum Sq Mean Sq F value Pr(>F)
prodavac 2 70 35.00 3.443 0.0658 .
Residuals 12 122 10.17
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> numSummary(trzby$trzba , groups=trzby$prodavac, statistics=c("mean",
"sd"))
mean sd % data:n
P1 11 4.527693 0 5
P2 12 1.870829 0 5
P3 16 2.549510 0 5
> sqrt(70/(70+122))
[1] 0.6038074
Korelační poměr P = 0,604. Tedy na 5% hladině významnosti není závislost tržeb na prodavačích
významná, ale intenzita závislosti je více jak středně silná (malá variabilita dat).
149
Načteme k datům rezidua a ověříme, zda jsou splněny podmínky pro použítí analýzy rozptylu:
> trzby$residuals <- with(trzby, residuals(AnovaModel.1))
> shapiro.test(trzby$residuals)
Shapiro-Wilk normality test
W = 0.9659, p-value = 0.7931
> bartlett.test(residuals ~ prodavac, data=trzby)
Bartlett test of homogeneity of variances
Bartlett's K-squared = 2.9245, df = 2, p-value = 0.2317
> dwtest(trzba ~ prodavac, alternative="two.sided", data=trzby)
Durbin-Watson test
DW = 2.2377, p-value = 0.9372
alternative hypothesis: true autocorrelation is not 0
Testy ukazují na to, že požadované podmínky jsou splněny.
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 151-165,
210-212. ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE, 1999. S.
130-140, 142-145, 147-148. ISBN 80-7079-754-1.
Doporučené studijní zdroje:
ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985. S. 147-157, 209-217, 231-2.
150
ARLTOVÁ, M. a kol. Příklady k předmětu Statistika A. Praha: VŠE, 2003. S. 178-185. ISBN
80-245-0178-3.
BLATNÁ, D. Neparametrické metody. Testy založené na pořádkových a pořadových statistikách.
Praha: VŠE, 1996. S. 117-125. ISBN 80-7079-607-3.
CYHELSKÝ, L. a kol. Elementární statistická analýza. Praha: Management Press, 2001. S.
279-283. ISBN 80-7261-003-1.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 79-81,
102-105, 112-122. ISBN 80-7169-255-7.
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 14-19, 22-27, 37-43. ISBN 80-7261-013-9.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
155-165, 169-170, 181-192, 203-210. ISBN 978-80-86446-40.
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita v Brně, 1995. S. 137-142. ISBN 80-7157-166-0.
PECÁKOVÁ, I. Statistika v terénních průzkumech. Praha: Professional Publishing, 2008. S.
116-128. ISBN 978-80-86946-74-0.
ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 50-56.
ISBN 978-80-245-1514-4.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 147-163, 216-219. ISBN 80-7187-058-7.
STUCHLÝ, J. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE, 2004. S. 44-
47. ISBN 80-245-0153-8.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/)
WONNACOT, T.H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 352-364. ISBN 80-85605-09-0.
151
Otázky a úkoly
1) Použijte data ze souboru casopis.dat. Zjistěte, zda výběr respondentů odpovídá ohledně
vzdělání a) celostátnímu údaji, tj. že podíl základoškoláků, středoškoláků a vysokoškoláků
je v poměru 7:9:4, b) je v stejném poměru.
2) Použijeme opět data ze souboru časopis.dat. Zjistěte, zda zájem o časopis závisí na vzdělání.
V případě, že ano, určete koeficienty kontingence a vhodně je okomentujte.
3) Použijeme data ze souboru vydaje.dat. Rozhodněte, zda výše výdajů za zboží A závisí
na vzdělání respondenta (neopomeňte ověřit předpoklady testu). Pokud ano, proveďte
hlubší analýzu pomocí metody mnohonásobného porovnávání.
Úkoly k zamyšlení a diskuzi
1) Zamyslete se nad tím, jak souvisí uspořádání údajů v kontingenční tabulce se závislostí
jednotlivých proměnných.
2) Diskutujte o podmínkách na použití AR.
Klíč k řešení otázek:
1) Použijeme test o shodě poměrů. Příkaz: pearson.test(x=c(), p=x()).
Použijeme příkazy:
summary(casopis)
Výstup:
id zajem vzdelani pohlavi vek vekint
Min. : 1.0 ano: 167 SS: 433 muz : 951 Min. :15.00 (0,25] :310
1st Qu.: 500.8 ne :1833 VS: 426 zena:1049 1st Qu.:31.00 (25,40]:698
Median :1000.5 ZS:1141 Median :40.00 (40,60]:800
Mean :1000.5 Mean :40.81 (60,85]:192
152
3rd Qu.:1500.2 3rd Qu.:51.00
Max. :2000.0 Max. :85.00
table(casopis$zajem,casopis$vzdelani)
SS VS ZS
ano 63 69 35
ne 370 357 1106
a) Testujeme H0: πSS : πVS : πZS = 9:4:7 proti opačné alternativě H1.
Test provedeme příkazem:
pearson.test(x=c(63,69,35), p=c(9/20,4/20,7/20))
Výstup a závěr:
Pearson's chi-squared test
Data: c(63, 69, 35)
Hypothetical probabilities: 0.45, 0.2, 0.35
X2 = 49.31737, df = 2, p-value = 1.953755e-11
Observed counts:
63, 69, 35
Expected counts:
75.15, 33.4, 58.45
Estimated probabilities:
0.3772455, 0.4131737, 0.2095808
Pearson residuals:
-1.401560, 6.159944, -3.06726
Pearson squared residuals:
1.964371, 37.94491, 9.408084
Zamítáme H0, tj. výběr respondentů vzhledem ke vzdělání neodpovídá celostátnímu
rozložení.
Po vyfiltrování podmnožiny studentů, kteří mají zájem o časopis, lze test provést i v Statistics-Summaries-Frequency
distribution (a zaškrtnutím Chi-squared-goodnes-of-fit
test a zadáním očekávaných četností pro jednotlivé kategorie vzdělání).
b) Obdobně dostaneme:
X-squared = 11.8323, df = 2, p-value = 0.002696
H0 zamítáme, tj. výběr respondentů vzhledem ke vzdělání není ve stejném poměru.
153
2) Jde o test nezávislosti v kontingenční tabulce: Kontingenční tabulku vytvoříme v interaktivní
nabídce (Statistics – Contingency tabeles – Two-way table + označíme proměnné
a název tabulky: .Table). Současně se provede i chi-kvadrát test. Pokud chceme
ještě určit koeficienty kontingence, použijeme po aktivizaci balíku vsePackege příkaz:
pearson.indep.test (.Table).
Výsledky:
>.Table <- xtabs(~zajem+vzdelani, data=casopis)
> .Table
vzdelani
zajem SS VS ZS
ano 63 69 35
ne 370 357 1106
> .Test <- chisq.test(.Table, correct=FALSE)
> .Test
Pearson's Chi-squared test
data: .Table
X-squared = 97.6307, df = 2, p-value < 2.2e-16
Pomocí příkazu: pearson.indep.test(.Table) dostaneme mj.:
Pearson's chi-squared test of independence
Data: .Table
X2 = 97.6307, df = 2, p-value = 6.306132e-22
Contingency coefficients:
Pearson: 0.215739
Pearson (maximum): 0.7071068
Cramer: 0.2209420
Závěr: Zamítáme nulovou hypotézu H0 o nezávislosti zájmu o nový časopis na vzdělání.
Závislost je významná, ale intenzita vyjádřená koeficienty kontingence této závislosti je
nízká.
3) Analýzu provedeme pomocí jednofaktorové analýzy rozptylu (JAR) - závislost kvantitativní
proměnné (odezva) na kvalitativní (faktor, ošetření). JAR provádíme interaktivně
(Statistics – Means – One-way ANOVA, označíme faktor a odezvu). Výsledky se uloží
pod názvem modelu a současně pomocí summary(model) jsou vypsané základní výsledky.
V nabídce Model můžeme provádět další rozsáhlou výpočetní i grafickou analýzu
– testy a grafy na ověřování podmínek (převážně aplikovanou na residua). Pokud
154
H0 zamítneme, provádíme příkazem TukeyHSD(model) Tukeyovo vícenásobné porovnávání.
Normalitu testujeme SWT a homoskedasticitu Bartlettovým testem (interaktivně
z Variance). Pokud nejsou splněny podmínky, lze použít Kruskalův-Wallisův test
též z interaktivní nabídky (z Nonparametric tests). Data musí být uspořádána do 2
sloupců (v jednom odezva a v druhém faktor).
Načteme data. Popsaným způsobem dostaneme model závislosti výdajů za zbozi A na
vzdělání ve tvaru:
> AnovaModel.1 <- aov(zbozi.A ~ vzdelani, data=vydaje)
> summary(AnovaModel.1)
Df Sum Sq Mean Sq F value Pr(>F)
vzdelani 2 38936 19468 51.125 < 2.2e-16 ***
Residuals 997 379650 381
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> numSummary(vydaje$zbozi.A , groups=vydaje$vzdelani, statistics=c("mean",
+ "sd"))
mean sd n
SS 5103.487 19.82091 690
VS 5118.764 18.37047 199
ZS 5101.495 19.57358 111
Závěr: Nulovou hypotézu o nezávislosti těchto výdajů na vzdělání zamítáme. Krabicový
diagram na následujícím obrázku potvrzuje výsledky testu. Výrazněji zamítnutí shody
potvrzuje skupinový krabicový diagram a graf průměrů Výdajů za zboží A (Graphs –
Plot of means, označime vzdelani a zbozi A, zaskrtneme Conf.intervals).
155
Příkazem TukeyHSD(AnovaModel.1) provedeme ještě Tukeyovo vícenásobné porovnávání.
Výstup:
> TukeyHSD(AnovaModel.1)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = zbozi.A ~ vzdelani, data = vydaje)
$vzdelani
diff lwr upr p adj
VS-SS 15.276863 11.591363 18.962362 0.0000000
ZS-SS -1.991461 -6.675568 2.692646 0.5783367
ZS-VS -17.268324 -22.694443 -11.842204 0.0000000
Znamená to, že významné rozdíly jsou mezi průměrnými výdaji základoškoláků a vysokoškoláků
a mezi výdaji vysokoškoláků a středoškoláků (p-hodnoty jsou nulové).
Ověření podmínek pro AR: Pomocí Data – Manager variables in activ data set – Compute
new variable (a vyplněním New variable name: residuals; Expression to compute:
residuals(AnovaModel.1) přidáme k datům sloupec reziduí. Na ně aplikujeme SWT o
normalitě a Bartlettův test o homoskedasticitě. Výstupy:
shapiro.test(vydaje$residuals)
Shapiro-Wilk normality test
data: vydaje$residuals
W = 0.9977, p-value = 0.1867
> bartlett.test(residuals.AnovaModel.1 ~ vzdelani, data=vydaje)
Bartlett test of homogeneity of variances
data: residuals.AnovaModel.1 by vzdelani
Bartlett's K-squared = 1.7246, df = 2, p-value = 0.4222
Normalita a homoskedasticita reziduí nebyla zamítnuta.
Poslední výsledky ověříme ještě graficky. Z Graphs – Strip chart – zaškrtneme Jiter a
dostaneme graf závislosti reziduí na faktoru vzdělání (homoskedasticita). V Graph –
Quantile-comparision dostaneme qq-diagram (normalita):
156
Grafy potvrzují splnění předpokladů potřebných k použití AR. Na doplnění ještě provedeme
KWT:
> kruskal.test(zbozi.A ~ vzdelani, data=vydaje)
Kruskal-Wallis rank sum test
data: zbozi.A by vzdelani
Kruskal-Wallis chi-squared = 88.5283, df = 2, p-value < 2.2e-16
Závěry jsou stejné jako testu v JAR. Základní výsledky JAR lze získat i v Excelu použitím
jednofaktorové analýzy z Analýzy dat (odezvová veličina musí být zapsána ve
zvláštních sloupcích pro každou úroveň faktoru).
157
Kapitola 9: Jednoduchá lineární regrese a korelace
Klíčové pojmy:
regresní přímka, závislost funkční a statistická, regrese, korelace, elementární popis závislostí,
bodový diagram, graf podmíněných průměrů, teoretická a empirická regresní
přímka, metoda nejmenších čtverců, systém normálních rovnic, korelační a regresní koeficient,
koeficient determinace a jeho interpretace, predikce, interpretace odhadnutých
regresních parametrů, nelineární regrese
Cíle kapitoly:
- pochopení principů jednoduché lineární regrese;
- být schopni odhadnout a interpretovat parametry regresní přímky;
- umět vypočítat a interpretovat ukazatele síly jednoduché lineární závislosti;
- naučit se využívat regresi k analýze a k predikci.
Čas potřebný ke studiu kapitoly: 10 hodin
Výklad:
Nastínění obsahu kapitoly.
Úvod
158
Elementární popis závislostí
Regresní přímka a její odhad
Metoda nejmenších čtverců
Síla lineární závislosti
Interpretace odhadnutých regresních parametrů
Další typy regresních funkcí
Vyrovnání regresní přímky v Excelu a v R
Struktura výkladu
Regresní a korelační analýza umožňuje výrazně
rozvinout způsob vašeho statistického myšlení a
navršit kvalitu a efektivnost práce s ekonomickými daty
R.Hindls
Úvod
Budeme se zabývat studiem závislostí statistických veličin.
Závislost funkční (pevná, deterministická):
- v matematice, fyzice, technické praxi;
- vzájemné jednoznačné přiřazení;
- např. objem koule , dráha volného pádu
2
2
gt
s .
Závislost statistická (volná, nedeterministická):
- obecnější závislost studovaná ve statistice;
3
3
4
rV
159
- při změnách jedné veličiny dochází ke změnám podmíněných středních hodnot druhé
veličiny;
- Např. závislost středních výdajů rodiny na počtu členů rodiny, poptávky na ceně apod.
- Závislost je ovlivňována řadou dalších nekontrolovatelných vlivů i chyb (příjmy a velikost
rodiny, její návyky apod.).
Studiem statistických závislostí se zabývá regresní a korelační analýza
- Pojem regrese - zaveden F. Galtonem koncem 19. století.
- Vyšetřoval závislost výšky synů na výšce jejich otců;
- zjistil tendenci jit ve výšce zpět k celkovému průměru;
- původní význam slova "regression" byl proto návrat zpět.
- Regresní analýza - zkoumání průběhu statistické závislosti, tj. závislosti změn podmíněných
průměrů vysvětlované proměnné na změnách vysvětlující proměnné.
- Vysvětlujících proměnných může být více;
- hledáme tvar tzv. regresní funkce, jejímž grafem je odpovídající regresní křivka;
- na základě náhodného výběru najdeme empirickou regresní funkci, která představuje
její odhad, a provádíme její analýzu.
- Korelační analýza - určování stupně síly (intenzity) s jakou se statistická závislost projevuje
a vypočítat a interpretovat číselné charakteristiky (míry) této závislosti.
- Obě disciplíny se vzájemně prolínají a budeme je probírat souběžně.
Elementární popis závislostí
Metody popisu:
- korelační tabulka a její graf;
- bodový (rozptylový) diagram;
- graf podmíněných průměrů (popř. i rozptylu).
Příklad 1: Viz Stuchlý (1999b), s. 8-9.
160
Regresní přímka a její odhad
Statistickou lineární závislost vysvětlované náhodné veličiny Y (regresand) na jedné vysvětlující
veličině X (regresor) zapisujeme rovnicí (teoretický neboli populační regresní model)
E(Y|x) = 0 + 1 x,
kde 0 a 1 jsou regresní parametry (absolutní člen a směrnice). Podmínku v střední hodnotě
obvykle vynecháváme.
- Např. závislost průměrné poptávky Y na ceně x.
Jde o lineární regresní funkci a jejím grafem je regresní přímka.
Hlavní úloha: odhad regresních parametrů.
Použijeme k tomu dvourozměrný náhodný výběr dvojic n pozorování (x1,y1), (x2,y2),....,(xn,yn).
Rovnici přepíšeme do stochastického tvaru:
yi = 0 + 1 xi + i = E(Y|xi) + i , i = 1,…,n,
kde i představuje náhodné složky (chyby měření).
Regresní koeficienty odhadneme metodou nejmenších čtverců (MNČ). Jejich odhady označíme
b0 a b1
Odhadnutá regresní funkce je
což představuje výběrový (empirický) regresní model
Jiný tvar zápisu modelu
yi = b0 + b1 xi + ei,
kde ei = yi –(b0 + b1xi) jsou odhady náhodné složky - tzv. rezidua = empirická (naměřená)
hodnota minus vyrovnaná hodnota;
,1,...,,ˆˆˆ i1010 nixbbxy ii
161
residuals = empirical – fitted values.
Grafem je odhadnutá (empirická) regresní přímka
Metoda nejmenších čtverců
Grafické znázornění vyrovnání MNČ: Za optimální vyrovnání volíme to, které minimalizuje
součet čtverců reziduí (naznačené čtverce).
Zdroj: Komárek 2007a
162
Matematický princip MNČ:
b0, b1 dostaneme minimalizací funkce
Představuje součet čtverců rozdílů mezi empirickými a vyrovnanými
hodnotami regresandu.
Derivováním podle proměnných b0, b1, položením těchto
rovnic nule a úpravou dostaneme systém normálních rovnic
(SNR) pro neznámé parametry
b0 n + b1 xi = yi ,
b0 xi + b1 xi
2
= xi yi .
Řešením SNR dostaneme MNČ-odhady regresních parametrů
S využitím kovariance a dalších výběrových charakteristik odtud dostaneme hledané odhady
kde jsou výběrové průměry, je výb. rozptyl
a je výběrová kovariance.
Síla lineární závislosti:
Jako míra síly (intenzity) lineární závislosti Y na X se používá korelační koeficient
Zde sx , sy jsou výběrové směrodatné odchylky a
.)()S( 2
i10
n
1=i
i10, xbbybb
,22
2
0
ii
iiiii
xxn
yxxxy
b
.221
ii
iiii
xxn
yxyxn
b
,)(ˆ,, 11021 xxbyyxbyb
s
s
b
x
xy
n
i
i
n
i
i y
n
yx
n
x
11
1
,
1 2
1
22
1
2 1
)(
1
xx
n
xx
n
s
n
i
i
n
i
ix
n
i
ii
n
i
iixy yxyx
n
yyxx
n
s
11
1
))((
1
yx
xy
yx
ss
s
r
n
i
ii
n
i
iixy yxnyx
n
yyxx
n
s
11
1
))((
1
163
je výběrová kovariance. Význam a interpretace ryx je znám z popisné statistiky. Pro ruční výpočet
lze použít vzorec
Síla obecné závislosti se obvykle také popisuje koeficientem determinace R2
, který u regresní
přímky je roven čtverci korelačního koeficientu.
Interpretace R2
:
- Udává, jakou část změn vysvětlované proměnné je možno vysvětlit změnami vysvětlující
proměnné (obvykle se vyjadřuje v %).
Regresní rovnici lze použít na předpověď (predikci) hodnoty vysvětlované proměnné y, když
za x dosadíme do regresní rovnice zadanou hodnotu vysvětlující proměnné.
Příklad 2: V určité obci s 55 obyvateli byl proveden průzkum poptávky Y po určité zbožní
komoditě v závislosti na ceně xi. Při ceně 1 Kč byla poptávka u 7 obyvatel v množstvích 45, 46,
47, 48, 49, 50 a 51 kusů, při ceně 2 Kč byla poptávka u 5 obyvatel v množstvích 44, 45, 46, 47,
48 kusů. Další údaje o této poptávce v závislosti na ceně jsou uvedeny v 1. a 2. sloupci následující
tabulky. Doplníme do tabulky podmíněné hodnoty poptávky v závislosti na ceně E(Y | xi).
Znázorníme do jednoho obrázku bodový diagram závislosti poptávky na ceně a vypočítané
podmíněné průměry. Spojíme tyto průměry populační regresní čarou (regresní přímka). Řešení
provedeme do tabulky:
,
//
/
n
1=i
2n
1=i
i
2
i
n
1=i
2n
1=i
i
2
i
n
1=i
i
n
1=i
i
n
1=i
ii
yx
nyynxx
nyxyx
r
Cena [Kč] xi Poptávka [kusů] Y Počet zákazníků E(Y | xi)
1 45 46 47 48 49 50 51 7 48
2 44 45 46 47 48 5 46
3 40 42 44 46 48 5 44
4 35 38 42 44 46 47 6 42
5 36 39 40 42 43 5 40
6 32 35 37 38 39 42 43 7 38
7 32 34 36 38 40 5 36
8 31 32 33 34 35 36 37 7 34
9 28 30 32 34 36 5 32
10 29 30 31 3 3
Součet 55
164
Závislost poptávky Y na ceně X:
Příklad 3: Pro data z předcházejícího příkladu byl proveden náhodný výběr. Jeho výsledek je v
1. a 2. sloupci následující tabulky. Odhadneme rovnici příslušné výběrové regresní funkce.
Data a výpočty jsou v tabulce:
Základní číselné charakteristiky:
xi yi xiyi xi
2
i
ˆy ei ei
2
yi
2
1 49 49 1 47,509 1,4909 2,2228 2401
2 45 90 4 45,352 -0,3515 0,1236 2025
3 44 132 9 43,194 0,8061 0,6497 1936
4 39 156 16 41,036 -2,0364 4,1468 1521
5 38 190 25 38,879 -0,8788 0,7723 1444
6 37 222 36 36,721 0,2788 0,0777 1369
7 34 238 49 34,564 -0,5637 0,3177 1156
8 33 264 64 32,406 0,5940 0,3528 1089
9 30 270 81 30,248 -0,2484 0,0617 900
10 29 290 100 28,091 0,9091 0,8265 841
55 378 1901 385 378,000 0 9,5515 14682
x
n
xi
i
n
1
5 5
1
, , y
n
yi
i
n
1
37 8
1
, ,
s
n
x xx i
i
n
2 2
1
2 21
38 5 55 8 25
, , , , sy
2
1
14682 37 8 39 362
1
2 2
n
y yi
i
n
, .
sx = 2,87, sy = 6,27,
s
n
x y xyi i
i
n
yx
1
190 1 5537 8 17 8
1
, , . , ,
165
Odhady regresních parametrů:
b
s
sx
1 2
17 8
8 25
2 1576
yx ,
,
, , b y b x0 1 37,8 - (-2,1576).5,5 = 49,6670.
Odhad regresní přímky:
)(ˆ 1 xxbyy = 37,8 - 2,1576(x - 5,5) = 49,6770 - 2,1576 x.
Výběrová závislost poptávky Y na ceně x:
Síla lineární závislosti
Korelační koeficient:
Znamená to, že síla lineární závislosti je velká a nepřímá (s růstem ceny klesá poptávka) – viz
obrázek.
Koeficient determinace R2
= (-0,989)2
= 0,978
Znamená to, že změnami cen je vysvětleno 97,8% změn poptávky.
.989,0
27,6.87,2
8,17
10/3781468210/55385
10/551901
//
/
22
n
1=i
2n
1=i
i
2
i
n
1=i
2n
1=i
i
2
i
n
1=i
i
n
1=i
i
n
1=i
ii
yx
nyynxx
nyxyx
r
166
Interpretace odhadnutých regresních parametrů
Důležitá je směrnice regresní přímky b1. Nazýváme jí regresním koeficientem.
Udává, o kolik se změní vysvětlovaná proměnná, když se vysvětlující proměnná změní o jed-
notku.
Absolutní člen b0 má význam jen v některých situacích.
V uvedeném př. 3: je rovnice regresní přímky E(Y)=49,7-2,16x.
Interpretace b1: Zvětší-li se cena o 1 Kč, sníží se poptávka v průměru o 2,16 ks.
Interpretace b0: Poptávka při nulové ceně je v průměru 49,7 ks.
Predikce: Při ceně x=5,50Kč je předpověď poptávky y=49,7-2,16.5,50=37,8 ks.
Další typy regresních funkcí
Pokud vidíme z bodového diagramu, že mezi proměnnými je nelineární statistická závislost,
můžeme často i tuto nelineární regresní funkci pomocí vhodné transformace převést na lineární
a tuto potom vyrovnat MNČ.
Např. funkci y = a + b/z + e převedeme na regresní přímku transformací x = 1/z.
Exponenciální závislost y = ea+bz+e
nebo mocninnou y = azb
převedeme na lineární logaritmováním
této rovnice.
Příklad 4: Viz Stuchlý (1999b), s. 41-42.
Vyrovnání regresní přímky v Excelu a v R
Regresní přímka v Excelu:
- Vyrovnání lineární regresní funkce i korelační koeficient: Analýza dat – Regrese.
- Korelační koeficient dostaneme i pomocí statistické funkce Corel.
167
Regresní přímka v R:
- V Statistics – Fit model - Linear regression vytvoříme i odhadneme model.
- Graf dostaneme v Graphs – Scatterplot (necháme zaškrtnuté jen Least-squares line.
- Bodovou předpověď dostaneme příkazem:
predict(model, newdata=data.frame( prom= ).
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 169-210.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999.
S. 5-15, 21-22, 25-26, 41-43. ISBN 80-7079-035-0.
Doporučené studijní zdroje:
GIBILISCO, S. Statistika bez předchozích znalostí. Brno: Computer Press, 2009. S. 152-177,
216-225. ISBN 978-80-251-2465-9.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 122-132,
146-154. ISBN 80-7169-255-7.
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 19-32, 44-59, 72-77. ISBN 80-7261-013-9.
JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 9-14, 31-32, 37-39, 54-57.
ISBN 80-7079-328-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
213-215, 222-236, 249-250. ISBN 978-80-86446-40.
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita, 1995. S. 94-112. ISBN 80-7157-166-0.
168
ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 56-58.
ISBN 978-80-245-1514-4.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 167-187, 202-214. ISBN 80-7187-058-7.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 309-325. ISBN
80-7169-089-9.
WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 388-407, 487-500, 514-522. ISBN 80-85605-09-0.
Otázky a úkoly
1) Pracovník personálního oddělení určitého podniku zkoumá, zda existuje vztah mezi počtem
dní absence v práci a věkem pracovníka. Náhodně vybere pracovní záznamy 10
pracovníků a získá údaje o jejich věku xi (v letech) a počtu dní yi, v kterých nenastoupili
do práce v době jednoho kalendářního roku. Údaje jsou v následující tabulce:
xi 27 61 37 23 46 58 29 36 64 40
yi 15 6 10 18 9 7 14 11 5 8
Určete: a) bodový odhad regresní přímky (napište i systém normálních rovnic), b) charakteristiky
popisující sílu této závislosti a interpretujte jejich význam, c) interpretujte
odhadnutý regresní koeficient, d) odhadněte průměrný počet dní absence pro 26-ti letého
pracovníka.
2) Hodláte prodat auto, které má najeto 30000 km, a chcete si udělat představu o jeho
prodejní ceně. V bazaru stojí 50 aut téže značky, údaje o ceně a počtu najetých kilometru
naleznete v datovém souboru ojetiny.dat, resp. ojetiny.csv. V souboru jsou následující
169
údaje: id (identifikační číslo ojetého auta), cena (cena ojetého auta v tis. Kč), najeto
(počet najetých kilometrů v tis. km). Pomocí vhodného obrázku a charakteristiky popište
míru závislosti mezi cenou ojetého auta a počtem najetých km.
3) Pro zadání z předchozího úkolu na základě modelu regresní přímky proveďte následující
kroky: a) Odhadněte průměrnou cenu nového auta. b) Odhadněte, jak se průměrná
cena auta změní s každými 10000 najetými kilometry. c) Pomocí vhodné charaktristiky
posuďe vhodnost modelu. d) Rádi byste prodali vaše auto za 150000 Kč. Odpovídá vaše
představa cenám ojetin v bazaru? Své rozhodnutí zdůvodněte.
4) Vyrovnejte data ze souboru ojetiny.csv regresní hyperbolou. Porovnejte kvalitu tohoto
vyrovnání s vyrovnáním regresní přímkou.
Úkoly k zamyšlení a diskuzi
1) Při pokusu najít přímku proloženou MNČ v bodovém diagramu použijeme počítačový
program. Ten nám ovšem ukáže, že žádná taková přímka neexistuje. Když si graf prohlédneme,
zjistíme, že body jsou rozprostřeny po celém prostoru. Korelace mezi dvěma
proměnnými se očividně a) nachází mezi 0 a +1, b) se rovná 0, c) nachází mezi -1 a 0,
d) rovná -1. Které z uvedených tvzení platí?
2) Uvažujme lineární regresní závislost mezi ziskem a prodejem. Jaké hodnoty mohou
v tomto případě nabývat regresní parametry: negativní nulové nebo pozitivní? Jaká je
jejich ekonomická interpretace?
Klíč k řešení otázek:
1) Regresní přímka: a) 21,578 - 0,268x, (10b0+421b1=103, 421b0+19661b1=3817); b) r =
-0,9325, R2
= 0,8692; c) Zvýší-li se věk pracovníka o 1 rok, sníží se průměrná roční
absence o 0,268 hodin; d) 14,6 dní. Podrobné řešení viz Stuchlý (1999b), s. 25-26.
2) Regresní přímka v Excelu: V Analýze dat použijeme nabídku Regrese. Ve vstupním
okně vypíšeme: Vstupní oblast Y: B1:B51 (odkaz na ceny); Vstupní oblast X: B1:B51
(odkaz na najeto). Zaškrtneme Popisky a Graf regresní přímky. Z Výstupu:
Regresní statistika
170
Násobné R 0,808076 korelační koeficient
Hodnota spolehlivosti R 0,652988 koeficient determinace
Nastavená hodnota spolehlivosti
R 0,645758 korigovaný koeficient determinace
Chyba stř. hodnoty 62,03298 residuální standartní chyba
Pozorování 50 počet měření
Koefi-
cienty
Hranice 374,7484
najeto -3,18673
Na obrázku je bodový diagram a odhadnutá regresní přímka. Korelační koeficient lze
určit v Analýze dat z nabídky Korelace (přejedeme oba sloupce dat).
Dostaneme r = -0,808. Interpretace: Mezi cenami a počtem najetých kilometrů je silná
nepřímá lineární závislost.
3) Z počítačového výstupu k 2. úkolu dostáváme: a) Průměrná cena nového auta je 375 tis.
Kč; b) S každými 10 000 najetými km klesne průměrná cena o 32 tis. Kč; c) Koeficient
determinace je R2
= 0,653. Jeho interpretace: Změnami v počtu najetých km je lineárním
modelem vysvětleno 65,3% změn cen; d) Předpověď dostaneme dosazením za najeto =
30 tis. Kč do regresní rovnice: průměrná cena = 374,7 – 3,2.najeto = 374,7 – 3,19.30 =
0
100
200
300
400
500
600
0 100 200
cena
najeto
Závislost ceny na najetých km
cena
Očekávaná cena
171
279 tis. Kč. Tedy vaše cena 150 tis. Kč představuje značné podhodnocení ceny prodávaného
auta.
4) Regresní přímka v R: Odhadujeme model střední cena = β´0+β1.(1/najeto). Postupujeme
obdobně jako v úkolu 2, jen místo proměnné najeto použijeme její převrácenou hodnotu,
kterou dopočítáme v Excelu. Výstup z Excelu:
Regresní statistika
Násobné R 0,902415
Hodnota spolehlivosti R 0,814352
Nastavená hodnota spolehlivosti
R 0,810484
Chyba stř. hodnoty 45,37278
Pozorování 50
Koefi-
cienty
Hranice 78,52338
1/najeto 4752,269
172
Rovnice odhadnuté závislosti: střední cena = 78,5 + 4752,3.(1/najeto). Koeficient determinace
R2
= 0,902 i obrázek ukazují, že regresní hyperbola představuje lepší vyrovnání
než regresní přímka.
173
Kapitola 10: Statistická indukce v regresním modelu
Klíčové pojmy:
statistická indukce v regresním modelu, residuální rozptyl, standardní chyba odhadu,
standardní normální model, standardní chyby regresních parametrů, intervaly spolehlivosti
a testy pro regresní parametry, index determinace, bodová a intervalová předpověď,
predikční chyba, homoskedasticita, heteroskedasticita, autokorelace, Levenův test,
Breutch-Paganův test, Durbinův-Watsonův test, residuální analýza
Cíle kapitoly:
- uvědomit si možnosti provádění statistické indukce v regresi;
- umět ověřovat předpoklady pro použití statistické indukce v regresi;
- naučit se interpretovat výsledky statistické indukce v regresi.
Čas potřebný ke studiu kapitoly: 11 hodin
Výklad:
Nastínění obsahu kapitoly.
Odhady náhodné složky
Standardní normální regresní model (SNRM)
174
Vlastnosti odhadů v SNRM
Statistická indukce v SNRM
- Intervaly spolehlivosti
- Testy
Míry síly závislosti
Použití modelu na předpověď
Ověřování podmínek SNRM
Struktura výkladu
Suave est ex magno tollere acervo
Milo jest bráti z velkého množství
Horatius
Odhady náhodné složky
Náhodné složky i , (i = 1, …,n) odhadujeme pomocí reziduí
- Tedy rezidua jsou rozdíly empirických a vyrovnaných hodnot.
Nestranný odhad rozptylu náhodné složky:
- Je to residuální součet čtverců dělený odpovídajícími stupni volnosti n-2.
- Odmocněním dostaneme s - standardní chybu odhadu (SEE).
- Charakterizuje přesnost odhadu regresního modelu.
Standardní normální regresní model
Též klasický regresní model popsaný rovnicí Yi = β0+ β1xi + εi, v kterém jsou plněny podmínky:
iii yye ˆ
.)ˆ(
2
1
ˆ
1
222
n
i
ii syy
n
175
- náhodné složky i jsou nezávislé,
- mají rozdělení N(0; 2
).
Vlastnosti odhadů v SNRM
- V standardním normálním regresním modelu pro n=1,…,n platí:
- Rozptyly odhadnutých parametrů b0 a b1 obsahují neznámý parametr 2
. Po jeho náhradě
odhadem s2
a odmocnění dostaneme standardní chyby odhadnutých regresních
parametrů:
- Představují odhadnuté směrodatné odchylky odhadů parametrů b0 a b1.
- Charakterizují přesnost odhadnutých regresních parametrů.
Statistická indukce v SNRM
Intervaly spolehlivosti pro regresní parametry (i = 0, 1):
P(bi-t1-/2(n-2)s(bi)i bi+t1-/2(n-2)s(bi))=1-.
Interval spolehlivosti pro rozptyl náhodných složek:
Statistické testy v regresním modelu:
Testování významnosti regresních parametrů:
,10 iii exbby
b0 N(0;
2
2
x
n s
i
2
x
2
), b1 N(1;
2
n sx
2
),
2
1
2
2
1
n
i
ie
2
(n-2).
s(bo) = s
x
n s
i
x
2
2 2
, s(b1) = s
1
2
n sx
.
.1
)2(
)2(s
)2(
)2(s
P 2
/2
2
2
2
/21
2
n
n
n
n
176
- Testujeme hypotézu H0: i = 0 proti alternativní hypotéze H1: i 0 (i = 0, 1) na hladině
významnosti .
- Hypotézu H0 zamítáme na kritickém oboru W = {T = bi/s(bi): |T| > t1-/2(n-2)}.
- Je-li předem známé, že i > 0 nebo i < 0, používáme potom jednostranné testy.
Zobecnění testů významnosti:
- Testujeme hypotézu H0: i = i*, kde i* je určitá předem zvolená konstanta, proti H1:
i i*. Testování provádíme stejným způsobem, jen místo dřívějšího testového kritéria
používáme kritérium T = (bi - i*)/s(bi).
Míry síly závislosti
Koeficient determinace: Definujeme vztahem
- Zde
.12
y
R
y
T
S
S
S
S
R
S y yi
i
n
y
( )2
1
je celkový součet čtverců,
n
i
iT yyS
1
2
)ˆ(
teoretický součet čtverců neboli
součet čtverců vysvětlený regresí,
n
i
iR yyS
1
2
i )ˆ(
reziduální součet čtverců neboli
součet čtverců regresí nevysvětlený
177
Koeficient korelace:
Použití regresního modelu na předpověď
- Předpověď bodová:
- dostaneme jí dosazením za x do předpovědní rovnice.
- Předpověď intervalová:
- Predikční interval (pro Y):
- Predikční chyba:
- Je možno počítat i přesnější konfidenční interval pro E(Y).
- Konfidenční chyba:
Příklad: Statistická indukce v modelu regresní přímky: Z tabulky u příkladu 3 (závislost poptávky
q na ceně p) z kap. 9 dostáváme:
a) Odhad rozptylu 2
náhodných složek a všech standardních chyb:
b) Intervaly spolehlivosti pro regresní parametry:
P(bi-t1-/2(n-2)s(bi) i bi+t1-/2(n-2)s(bi))=1-, i = 0, 1.
yx
yx
yx
ss
s
r
1))()2()()2(( 2/12/1 PPPP ysntyYysntyP
2
x
2
)(1
1)(
sn
xx
n
sys P
2
x
2
)(1
)(
sn
xx
n
sys c
1,0926,=s,1939.15515.9
210
1
2
1
)ˆ(
2
1
ˆ
1 1
2222
n
i
n
i
iii e
n
yy
n
s
,7464.0
25,8.100
385
0926.1)( 22
2
0
x
i
sn
x
bs
.1203.0
25.810
1
0926.1
1
)( 21
xsn
bs
178
P(-2,1576-2,306.0,1203 1 -2,1576+2,306.0,1203) = 0,95,
tj. P(-2,435 1 -1,880)=0,95,
P(49,667-2,306.0,7464 0 49,667+2,306.0,7464) = 0,95,
tj. P(47,946 0 51,388)=0,95,
c) Test významnosti regresních parametrů:
T = b1/s(b1) = -2,1576/0,1203 = -17,94,
|T| = 17,97 > t0,975(8) = 2,306,
T=b0/s(b0)=49,667/0,7464=66.54
|T| = 66.54 > t0,975(8)=2,306,
tj. oba koeficienty jsou statisticky významné
d) Koeficient (index) determinace a korelační koeficient:
e) Prezentaci výsledků:
= 49,6670 - 2,1576 xi ; R2
= 0,9757
se = (0,7464) 0,1203) , s.v. = 8
t = (66,538) (-17,935)
f) Předpověď (predikci):
a) bodovou: pro x = 5,5 je y = 49,6670 - 2,1576.5,5 = 37,799,
b) intervalovou:
predikční chyba:
R2
= I
S
S
S
S
T
y
R
y
yx
2
1 = 1 - 9,5515/(10.39,39) = 0,9757,
r
s
s s
yx
yx
x y
= -17,8/(2,87.6,27) = 0,989.
yˆ
2
x
2
)(1
1)(
sn
xx
n
sys P
= 1,0926 1
1
10
55 55
108 25
2
( , , )
. ,
= 1,146,
1))()2()()2(( 2/12/1 PPPP ysntyYysntyP
179
predikční interval:
P(37,799-2,306.1,146 Y 37,799+2,306.1,146) = 0,95,
tj. P(35,156 Y 40,442) = 0.95
Základní výsledky je možno získat i v Excelu:
Ověřování podmínek SNRM
Normalita chyb:
- SWT aplikovaným na rezidua.
- QQ-diagram reziduí.
Homoskedasticita chyb (rozptyl se nemění s i)
- Levenovým nebo Breusch-Paganovým testem (v R).
- Grafem závislosti reziduí na pořadí měření nebo na hodnotách vysvětlované proměnné,
krabicový diagram.
Nezávislost chyb (nepřítomnost autokorelace = sériová závislost).
- Durbinůvo-Watsonovým testem (DWT) reziduí - viz Hindls (2007), s. 320.
- Grafem závislosti reziduí na pořadí měření nebo proměnných.
Z grafu reziduí je možno usuzovat na následující problémy v regresním modelu (residuální ana-
lýza):
180
Zdroj: Komárek 2007a
Odstraňování problémů v regresním modelu:
Nenormalita chyb:
- Použijeme jiný model nebo transformovaný model.
Heteroskedasticita chyb:
- Odstraníme odlehlá pozorování.
- Místo MNČ použijeme metodu vážených nejmenších čtverců (viz Stuchlý 2000).
Porušená nezávislost chyb:
- Použijeme pokročilejší metody odhadu (zobecněná metoda nejmenších čtverců,
ARIMA metody, metoda maximální věrohodnosti – viz Stuchlý 2000).
R-kové příkazy:
- Regresní modely (v Statistics - Linear model…):
lm(y~x, data=);
lm(y~I(1/x), data=);
lm(y~I(log(x),data=);
lm(y~I(sqrt(x), data=);
lm(y~x+I(x^2), data=).
- Odhady a testy regresních parametrů (po aktivaci balíku vsePackage):
lmbeta.test(model, beta.null= , alternative= , conf.level= )
181
- Předpovědi (predikční a konfidenční):
predict(model, newdata=data.frame(x= ), interval=„prediction“, level= );
predict(model, newdata=data.frame(x= ), interval=„confidence“, level= ).
- Levenův test:
skupiny <- (data$x >= median(data$x));
levene.var.test(residuals(model)~skupiny).
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 226-234.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999.
S. 17-22, 25-27. ISBN 80-7079-035-0.
Doporučené studijní zdroje:
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 132-138,
140-142. ISBN 80-7169-255-7.
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 59-68. ISBN 80-7261-013-9.
JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 39-46. ISBN 80-7079-
328-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
215-222. ISBN 978-80-86446-40.
182
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita, 1995. S. 114-118, 120-123. ISBN 80-7157-166-0.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 193-197, 236-243. ISBN 80-7187-058-7.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 325-330. ISBN
80-7169-089-9.
WONNACOT, T.H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 408-429, 500-512. ISBN 80-85605-09-0.
Otázky a úkoly
1) V úkolu 1 kap. 9 jsme odhadli závislost mezi počtem dní absence y a věkem pracovníka
x (v letech) lineární regresní funkcí tvaru E(Y) = 21,59 – 0,27x a sílu lineární závislosti
popsali korelačním koeficientem r = -0,933. a) Testujte významnost regresního koeficientu
a určete příslušný interval spolehlivosti. b) odhadněte bodově i intervalově průměrný
počet dní absence pro 26-ti letého pracovníka, c) odhadněte bodově i intervalově
počet dní absence v letech pro jednoho 26-ti letého pracovníka.
2) V úkolech 2-3 kap. 9 jsme řešili v Excelu základní zadání z regrese a korelace. Nyní si
vyřešte v R tato zadání, rozšířená o statistickou indukci. Tedy hodláte prodat auto, které
má najeto 30000 km, a chcete si udělat představu o jeho prodejní ceně. V bazaru stojí
50 aut téže značky, údaje o ceně a počtu najetých kilometru naleznete v datovém souboru
ojetiny.dat. a) Pomocí vhodného obrázku a charakteristiky popište míru závislosti
mezi cenou ojetého auta a počtem najetých km. b) Odhadněte bodově a intervalově
vprůměrnou cenu nového auta. c) Odhadněte bodově a intervalově, jak se průměrná
cena auta změní s každými 10000 najetými kilometry. d) Otestujte, zda cena auta závisí
183
na počtu najetých kilometrů. e) Otestujte, zda cena auta klesá s počtem najetých kilometrů.
f) Odhadněte bodově a intervalově průměrnou cenu aut, které mají najeto stejně
jako vaše auto, tj. 30000 km. g) Rádi byste prodali vaše auto za 150000 Kč. Odpovídá
vaše představa cenám ojetin v bazaru? Své rozhodnutí zdůvodněte. h) Ověřte předpoklady
regresní analýzy.
3) Porovnání modelů. Vyberte pro data ze souboru ojetiny2.dat nejvhodnější jednovýběrovou
regresní funkci pro závislost ceny ojetého auta na počtu najetých km. Použijeme
tyto regresní funkce: a) přímku, b) odmocninovou funkce, c) hyperbolu, d) logaritmickou
funkci, e) kvadratickou funkci. Rozhodování provedeme pomocí R2
, s a bodového
diagramu. Řešte úlohu v R.
Úkoly k zamyšlení a diskuzi
1) Uvažujte o analogii mezi jednovýběrovým t-testem o průměru a testy o regresních pa-
rametrech.
2) Pokuste se řešit předcházející řešený úkol 2 pomocí regresní hyperboly.
Klíč k řešení otázek:
1) Statistická indukce v regresním modelu: a) Testujeme hypotézu H0: 1 = 0 proti jednostranné
alternativě H1: 1 < 0 na hladině významnosti = 0,05. K tomu účelu použijeme
testové kritérium T = b1/s(b1) = -0,2681/0,0367 = -7,305. Protože platí T < -t0,95(8)
= -1,860, zamítáme nulovou hypotézu a tvrdíme, že lineární vztah mezi počtem dní absence
pracovníka a věkem pracovníka je na 5%-ní hladině významnosti statistiky významný;
P(-0,353 1 -0,183) = 0,95. b) E(Y|x=26) = 14,62, P(12,81 E(Y|x = 26)
16,42) = 0,95; c) P(10,48 Yn 18,75) = 0,95. Podrobněji viz Stuchlý (1999b), s. 26.
184
2) Úlohy budeme řešit v R-ku pomocí příkazů (většinu kroků je možno řešit interaktivně,
tj. z nabídky). Aktivujeme balík vsePackage a načteme data ze souboru ojetiny.dat.
a) Bodový diagram s regresní přímkou dostaneme nabídky Graphs-Scatterplot (označíme
cena a najeto a zrušíme Marginal boxplot a Smooth Line, napíšeme do x-axis label:
počet najetých km [tis. km] a do y-axis label: cena ojetého auta [tis. Kč] nebo použijeme
příkaz (pokud chceme mít i hlavní nadpis):
scatterplot(cena~najeto, reg.line=lm, smooth=F, main=“Bodový diagram“, xlab=“počet najetých km [tis. km]”,
ylab=”cena ojetého auta [tis. Kč]”, boxplot=F, span=0.5, data=ojetiny)
Korelační koeficient příkazem cor(ojetiny$najeto, ojetiny$cena):
> cor(ojetiny$najeto, ojetiny$cena)
[1] -0.8080765
Regresní přímku dostaneme v nabidce Statistics-Fit models-Linear regression…
(zaškrtneme cenu a najeto a stiskneme OK):
> RegModel.1 <- lm(cena~najeto, data=ojetiny)
> summary(RegModel.1)
Call:
lm(formula = cena ~ najeto, data = ojetiny)
Residuals:
185
Min 1Q Median 3Q Max
-117.21299 -45.94419 -0.09883 39.69985 181.49233
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 374.7484 18.1188 20.683 < 2e-16 ***
najeto -3.1867 0.3353 -9.504 1.30e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 62.03 on 48 degrees of freedom
Multiple R-squared: 0.653,Adjusted R-squared: 0.6458
F-statistic: 90.32 on 1 and 48 DF, p-value: 1.304e-12
Testy a interval spolehlivosti pro regresní parametry dostaneme příkazem
lmbeta.test(RegModel.1):
> library(vsePackage)
> lmbeta.test(RegModel.1)
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
(Intercept) 374.748379 18.1188041 0.95 two.sided 338.318082 411.178676
najeto -3.186725 0.3353081 0.95 two.sided -3.860908 -2.512543
Beta H0 t value p value
(Intercept) 0 20.682843 1.490125e-25
najeto 0 -9.503872 1.304310e-12
Interpretace regresních parametrů:
b) Průměrná cena nového auta je 375 tis. Kč, intervalově od 338 do 411 tis. Kč
c) S každými 10 000 najetými km klesne cena o 32 tis. Kč, intervalově od 25,1 do 38,6
tis. Kč
d) Testujeme hypotézu H0: β1=0 vs.H1: β1≠0. |T| = 9,5, p-hod.=1,3.10-12
. H0 zamítáme,
tj. regresní koeficient je významný, proto cena auta závisí na počtu najetých km.
e) Testujeme hypotézu H0: β1=0 vs. H1: β1<0. Pro levostranný test použijeme příkaz
lmbeta.test(RegModel.1, beta.null=0, alternative="less"):
> lmbeta.test(RegModel.1, beta.null=0, alternative="less")
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up Beta
H0 t value p value
(Intercept) 374.748379 18.1188041 0.95 less -Inf 405.137676
0 20.682843 1.000000e+00
186
najeto -3.186725 0.3353081 0.95 less -Inf -2.624339
0 -9.503872 6.521548e-13
> qt(0.05,48)
[1] -1.677224
>
Závěr: T = -9,5 < -1,67, p-hod.=6,5.10-13
, proto H0 zamítáme, což znamená, že cena auta
významně klesá s počtem najetých kilomertů.
f) Bodovou a intervalovou předpověď střední ceny při 30 tis. najetými km dostaneme
příkazem predict(RegModel.1, newdata=data.frame(najeto=30), interval= " confi-
dence"):
> predict(RegModel.1, newdata=data.frame(najeto=30), interval=" confidence )
fit lwr upr
[1,] 279.1466 258.0078 300.2854
Závěr: Průměrná cena aut s najetými 30 tis.km je 279 tis.Kč, intervalově od 258 do 300
tis. Kč.
g) Bodovou i intervalovou predikci ceny vašeho auta dostaneme příkazem predict(RegModel.1,
newdata=data.frame(najeto=30), interval="prediction"):
> predict(RegModel.1, newdata=data.frame(najeto=30), interval="prediction")
fit lwr upr
[1,] 279.1466 152.6423 405.6509
>
Závěr: Cena Vašeho auta by měla být 279 tis.Kč, intervalově od 152,6 do 405,6 tis.Kč.
Interval je šírší (méně přesný). Vaše představa o ceně je podhodnocená.
h) Ověření předpokladu pro korektnost použití statistické indukce v regresi: Výpočetně
testujeme normalitu reziduí SWT, homoskedasticitu reziduí Levenovo nebo BreuschPaganovým
testem a nezávislost reziduí Durbinovo-Watsonovým testem. Příkazy:
shapiro.test(residuals(RegModel.1))
skupiny <- (ojetiny$najeto >= median(ojetiny$najeto))
levene.var.test(residuals(RegModel.1)~skupiny)
bptest(cena ~ najeto, studentize=FALSE, data=ojetiny)
dwtest(cena ~ najeto, alternative="two.sided", data=ojetiny)
Výstupy:
> shapiro.test(residuals(RegModel.1))
Shapiro-Wilk normality test
data: residuals(RegModel.1)
187
W = 0.9848, p-value = 0.7648
> skupiny <- (ojetiny$najeto >= median(ojetiny$najeto))
> levene.var.test(residuals(RegModel.1)~skupiny)
Levene test of homogeneity of variances
data: residuals(RegModel.1) by skupiny
Levene's F = 0.4992, num df = 1, denom df = 48, p-value = 0.4832
> qf(0.95,1,48)
[1] 4.042652
> bptest(cena ~ najeto, studentize=FALSE, data=ojetiny)
Breusch-Pagan test
data: cena ~ najeto
BP = 2.0503, df = 1, p-value = 0.1522
> dwtest(cena ~ najeto, alternative="two.sided", data=ojetiny)
Durbin-Watson test
data: cena ~ najeto
DW = 2.2445, p-value = 0.3847
alternative hypothesis: true autocorelation is not 0
p-hodnoty všech těchto testů jsou vysoké. Proto nezamítáme nulové hypotézy o normalitě,
homoskedasticitě a nezávislosti reziduí. Podmínky na použití statistické indukce v
regresi jsou splněny. Z grafických ověřovacích metod použijme QQ-diagram a bodový
diagram závislosti reziduí na vyrovnaných hodnotách. Použijeme příkazy:
par(mfrow=c(1,2), bty="n")
qqnorm(residuals(RegModel.1), main="normalni QQ graf pro rezidua", xlab="teoreticke kvantily
N(0,1)", ylab="vyberove kvantily", pch=16)
abline(a=mean(residuals(RegModel.1)), b=sd(residuals(RegModel.1)), col="blue")
resplot(RegModel.1,"e-yhat", lowess=T, main="Rezidua vs. vyrovnane hodnoty", xlab="odhad ceny
ojeteho auta [tis. Kc]", ylab="rezidua [tis. Kc]", pch=16)
Výstup:
QQ-diagram potvrzuje normalitu a bodový diagram reziduí ukazuje, že na vyrovnání
dat nebyla použita optimální regresní funkce (residua by měla náhodně kolísat okolo
nuly). Lepší výsledky než regresní přímka by dala regresní hyperbola.
188
3) Porovnání regresních modelů: Načteme data do R. Následujícími příkazy vytvoříme a
vypíšeme výsledky pro jednotlivé regresní modely:
model01 <- lm(cena~najeto, data=ojetiny2)
model02 <- lm(cena~I(sqrt(najeto)), data= ojetiny2)
model03 <- lm(cena~I(1/najeto), data= ojetiny2)
model04 <- lm(cena~I(log(najeto)), data= ojetiny2)
model05 <- lm(cena~najeto+I(najeto^2), data= ojetiny2)
summary(model01)
summary(model02)
summary(model03)
summary(model04)
summary(model05)
Z jednotlivých výstupů můžeme shrnout tyto výsledky pro odhadnuté funkce:
a) y = 458,5 – 5,8x + e, R2
= 0,762, s = 65,4
b) y = 634,7 - 67,5√x + e, R2
= 0,850, s = 51,9
c) y = 130,4+2689,7/x + e R2
= 0,791, s = 61,27
d) y = 851,5-169,7ln(x)+e R2
= 0,890, s = 44,42
e) y = 589,9-15,8x+0,134x2
+e R2
= 0,913, s = 39,9
K sestrojení bodových diagramů použijeme příkazy:
par(mfrow=c(3,2))
usek <- seq(5,75,by=0.1)
189
plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni primka", ylab="cena auta [tis. Kc]",
xlab="najeto [tis. km]")
lines(usek, predict(model01, newdata=data.frame(najeto=usek)))
plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni odmocnina", ylab="cena auta [tis. Kc]",
xlab="najeto [tis. km]")
lines(usek, predict(model02, newdata=data.frame(najeto=usek)))
plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni hyperbola", ylab="cena auta [tis. Kc]",
xlab="najeto [tis. km]")
lines(usek, predict(model03, newdata=data.frame(najeto=usek)))
plot(ojetiny2$cena~ ojetiny2$najeto, pch=16, main="Regresni logaritmus", ylab="cena auta [tis. Kc]",
xlab="najeto [tis. km]")
lines(usek, predict(model04, newdata=data.frame(najeto=usek)))
plot(ojetiny2$cena~ojetiny2$najeto, pch=16, main="Regresni parabola", ylab="cena auta [tis. Kc]",
xlab="najeto [tis. km]")
lines(usek, predict(model05, newdata=data.frame(najeto=usek)))
Výstup:
Závěr: Nejlepší vyrovnání poskytuje regresní parabola (kvadratická funkce).
190
Kapitola 11: Vícerozměrná regrese
Klíčové pojmy:
vícerozměrná regrese, obecný lineární model, absolutní a relativní pružnosti, elasticity,
B-keficienty, reziduální rozptyl, standardní normální model, F-testy v regresních modelech,
koeficient (index) mnohonásobné determinace, koeficient parciální a mnohonásobné
korelace, korigovaný koeficient determinace, intervaly spolehlivosti pro korelační koeficient,
testy o korelačních koeficientech, multikolinearita, umělé proměnné v regresi
Cíle kapitoly:
- pochopení pojmu vícenásobná regrese a korelace;
- porozumění základním cílům strategie analýz závislostí numerických proměn-
ných;
- znalost metod odhadů vícerměrných modelů;
- naučit se pomocí umělých proměnných zahrnovat mezi regresory i nominální pro-
měnné.
Čas potřebný ke studiu kapitoly: 13 hodin
191
Výklad:
Nastínění obsahu kapitoly.
Vícerozměrná regrese
Interpretace regresních koeficientů
Statistická indukce v regresní analýze
Použití modelu na předpověď
Ukazatele síly vícerozměrné lineární závislosti
Statistická indukce v korelační analýze
Ověřování podmínek SLRM
Umělé proměnné v regresi
Struktura výkladu
Durante causa, durant effectus – cesante causa, cessant effectus
Dokud trvá příčina, trvá důsledek – ustává-li příčina, ustává také důsledek
Bacon
Vícerozměrná regrese
Obecný lineární model:
yj = 0 + 1x1j+2x2j+...+pxpj+ j, j=1,2,...,n;
- obsahuje p vysvětlujících proměnných (regresorů), p+1 neznámých parciálních regresních
parametrů a náhodnou složku;
- 1, 2, …, p nazýváme dílčí (parciální) regresní koeficienty (tzv regresní nadrovina).
Příklad: Pro p = 2 - závislost výnosů y na ceně x1 a nákladech na reklamu x2.
192
yj = 0 + 1x1j+2x2j + j, j = 1,2,...,n,
- Jde o tzv. regresní rovinu.
- Přesnější označení regresních koeficientů: βyx1.x2 , βyx2.x1.
Regresní parametry odhadujeme opět MNČ.
- Jejich ruční výpočet je komplikovaný (opírá se o maticový zápis).
- Používáme proto vhodný statistický program.
Odhadnutý regresní model
= b0 + b1x1 + b2x2 + ... + bpxp
Interpretace dílčích parciálních regresních koeficientů bj a použití výsledků k analýze:
- Když se zvětší xi (i = 1,…,p) o jednotku a ostatní vysvětlující proměnné zůstanou stejné,
udává bi, o kolik se v průměru změnila hodnota vysvětlované proměnné y.
- Ekonomický význam
- Udávají empirické absolutní pružnosti:
- Lze pomocí nich počítat okamžité relativní pružnosti (elasticity):
- Protože definici relativní pružnosti lze numericky aproximovat vzorcem (tzv.
empirické elasticity):
plyne odtud, že relativní pružnosti vyjadřují separovanou procentuální změnu
vysvětlované proměnné y odpovídající jednotkové procentuální změně vysvětlující
proměnné Xi.
B-koeficienty:
- Pro i= 1,...,p jsou definovány vzorci
yˆ
.
i
i
x
y
b
.,...,1,
yln
ln
:E i
i
iii
i pi
x
x
y
x
y
x
y
,,...,1,
100
x
100
:E
i
iii
i pi
x
y
y
x
y
x
y
.
y
x
iyx
i
i
s
s
bB
193
- Představují též dílčí korelační koeficienty.
- Lze je také počítat jako
- parciální regresní koeficienty mezi odpovídajícími standardizovanými proměn-
nými,
- nebo pomocí párových korelačních koeficientů.
- Používáme je k výpočtu veličin
které udávají, jak se podílí změny jednotlivých vysvětlujících proměnných na variabilitě
(změnách) vysvětlované proměnné.
- Intenzitu vlivu jednotlivých proměnných lze vyjádřit v procentech.
- Příklad na interpretaci - Hindls (2007), s. 218-219 nebo Stuchlý (1999b), s. 52.
Odhad rozptylu náhodné složky:
- Provádíme opět reziduálním rozptylem
kde ej jsou rezidua (rozdíly naměřených a odhadnutých hodnot vysvětlované pro-
měnné).
- Tento odhad je nestranným odhadem.
- Další regresní analýza se provádí obdobně jako v modelu regresní přímky.
- V dalším upozorníme na případné rozdíly.
Statistická indukce v regresmí analýze
Standardní regresní model:
Splňuje podmínky standardizace, tj. pro j = 1,2,...,n platí:
1) náhodné složky j mají normální rozdělení (normalita),
2) E(j) = 0 (vhodnost lineárního modelu - kolísání chyb kolem nuly),
3) D(j) = 2
(homoskedasticita),
4) cov (j,k) = 0 j k (nezávislost, resp. nekorelovanost chyb),
,
||
||
p
1=i
yx
yx
i
i
B
B
n
j
je
pn
s
1
22
1
1
194
5) proměnné xi (i = 0,1,...,p) a x0 (vektor jedniček) jsou nenáhodné a vzájemně lineárně
nezávislé (v modelu není multikolinearita).
Potom MNČ-odhad je nejlepší lineární nestranný odhad (BLUE) regresních parametrů a statistickou
indukci (intervaly spolehlivosti a testy) můžeme provádět obdobně jako v modelu regresní
přímky.
100(1-)% intervaly spolehlivosti pro regresní parametry:
P(bi - t1-/2(n-p-1) s(bi) i bi + t1-/2(n-p-1) s(bi)) = 1 - , i = 0,1,...,p.
Testy o regresních parametrech:
- Pro i = 0,1,...,p testujeme hypotézy H0: i = 0 proti alternativním hypotézám H1: i 0
na hladině významnosti .
- H0 zamítáme na kritickém oboru W = {T = bi/s(bi): |T| > t1-/2(n-p-1)}.
- Nezamítnutí H0 interpretujeme jako statistickou nevýznamnost regresního parametru
i.
- Znamená to, že na proměnnou Y buď nepůsobí významně proměnná Xi (je jí
třeba z modelu vypustit) nebo nemáme vhodná data.
- Testy je možno zobecnit.
Celkový F-test o regresním modelu:
Testujeme hypotézu H0: 1= 2= ... = p = 0 proti alternativní hypotéze H1, že aspoň jeden
z těchto koeficientů je nenulový. Jde o celkový F-test.
Testové kritérium:
- Zde ST je teoretický či regresí vysvětlený a SR je reziduální součet čtverců. Jsou počítány
v speciální analýze rozptylu.
- Kritický obor: W = {F: F > F1-(p;n-p-1)}.
Na postupném vynechávání nevýznamných regresorů je založena tzv. metoda stupňovité re-
grese.
)1/()ˆ(
/)ˆ(
1
2
2
pnyy
pyy
pn
S
p
S
F
jj
j
R
T
195
Zobecnění celkového F-testu:
V modelech s více vysvětlujícími proměnnými je možno uvedený test zobecnit tak, že testujeme
hypotézu, že jen posledních r parametrů je statisticky nevýznamných, tj. hypotézu H0: p
= p-1 = ... = p-r+1 = 0 proti opačné alternativě H1.
Označme Rr
2
koeficient determinace redukovaného modelu.
K testování použijeme testové kritérium
Kritický obor: W = {F: F > F1-(r;n-p-1)}.
Předpovědi v regresním modelu
Bodová předpověď pro X1=x1*, X2=x2* ,…, Xp=xp* (kde hvězdičkované hodnoty jsou hodnoty
regresorů, v kterých počítáme předpověď) je
y* = b0+b1x1*+b2x2*+...+bpxp*
Predikční interval pro jednotlivé hodnoty Y, resp. konfidenční interval pro E(Y), počítáme pomocí
statistického programu jako u regresní přímky, jen musíme zadat hodnoty všech regresorů
(hvězdičkové hodnoty).
Ukazatelé síly vícenásobné lineární závislosti
Koeficient (index) mnohonásobné determinace
Po převedení na procenta udává, kolik procent změn vysvětlované proměnné lze vysvětlit změnami
vysvětlujících proměnných.
)1,(
)1/()1(
/)(
2
22
pnrF
pnR
rRR
F r
.
)(
1
)(
)ˆ(
2
j
2
j
2
j
2
j2
yy
e
yy
yy
R
196
Koeficient mnohonásobné korelace r:
Dostaneme ho odmocněním koeficientu mnohonásobné determinace. Platí 0 r 1.
Vícenásobná lineární závislost se popisuje i dílčí korelační koeficienty - viz Hindls (2007), s.
220-222.
Statistická indukce v korelační analýze
Test významnosti koeficientu determinace:
Je ekvivalentní s testem o významnosti celého modelu.
Testujeme hypotézu H0: R2
= 0 proti alternativě H1: R2
0.
Testové kritérium:
Kritický obor: W = {F: F > F1-(p;n-p-1)}.
Korigovaný (adjustovaný) koeficient determinace:
Platí a odtud dostáváme, že platí
Při zvyšování počtu vysvětlujících proměnných se automaticky zvyšuje i R2
, i když kvalita
modelu se nemusí zlepšovat. Proto při porovnávání kvality modelů s různým počtem proměnných
je lepší používat korigovaný koeficient determinace.
Intervaly spolehlivosti pro korelační koeficient:
Viz Hindls (2007), s. 230-232.
Testy o korelačních koeficientech:
Viz Hindls (2007), s. 234-238.
.
)1/()1(
/
2
2
pnR
pR
F
n
1j=
2
j
n
1j=
2
j
2
)1/()(
)1/()ˆ(
1
nyy
pnyy
R
1
)1( 222
pn
p
RRR .22
RR
197
Příklady: Viz Stuchlý (1999b), s. 50-58.
V ekonomické praxi potřebujeme často odhadnout i nelineární regresní model (např. CobbDouglasovu
produkční funkci). Obvykle používáme k tomu logaritmickou transformaci. Viz
Hindls (2007), s. 223-224.
- Pokud nelze model linearizovat – používáme nelineární MNČ (např. v R).
Ověřování podmínek SNRM
Ověřování provádíme obdobně jako u regresní přímky. Navíc musíme ověřit, zda v modelu
není multikolinearita.
Pokud je mezi regresory lineární závislost, říkáme, že v modelu je perfektní multikolinearita.
Model MNČ pak nelze odhadnout (závislý regresor musíme vynechat).
Jsou-li regresory silně skorelované, je v modelu silná multikolinearita a odhad získaný MNČ
nemá dobré statistické vlastnosti. Viz Hindls (2009), s. 224-226.
Umělé proměnné v regresi
Vícerozměrná regrese s kvantitativními i kvalitativními regresory:
Používá se v analýze dat ke zkoumání závislosti numerické proměnné na numerických i nominálních
proměnných.
Pokud dáváme do lineárního modelu více vysvětlujících proměnných (regresorů), rozhoduje o
tom, které proměnné do modelu zařadit, příslušný párový korelační koeficient mezi vysvětlovanou
proměnou (Y) a regresorem (určíme ho z korelační matice).
Při zařazování kvalitativní proměnné (např. pohlaví, vzdělání) používáme umělé proměnné
(UmP) pro její úrovně. Nabývají hodnoty 1, pokud kvalitativní proměnná nabude této úrovně a
hodnotu 0 v opačném případě. Aby v regresním modelu nebyla multikolinearita (lineární závislost
regresorů), musí být počet UmP roven počtu úrovní minus jedna.
198
Úroveň s vynechanou umělou proměnnou nazýváme referenční (obvykle první nebo poslední
úroveň).
Odhadnuté regresní koeficienty u umělých proměnných udávají, o kolik se změní průměrná
hodnota Y, když úroveň UmP přešla z referenční úrovně na uvažovanou úroveň. Např. vzdělání
se změnilo ze ZS na SS.
Do modelu můžeme zahrnovat i interakce (spolupůsobení) kvantitativní s kvalitativní proměnnou
(odhadnutý koeficient u intraktivní proměnné se interpretuje jako změna směrnice při dané
úrovni kvalitativní proměnné).
Příklady: Viz Stuchlý (2000), s. 49-53 a úkoly řešené na konci kapitoly.
Vícerozměrná regrese v R
Bodový diagram s vyrovnáním MNČ (viz Úkol 3)
hodnoty <- 0:cislo
plot(data$x,data$y,pch=16,xlab=„ “,ylab=„ “,main=„ “,ylim=c( , ),col=„barva“)
lines(hodnoty, predict(model, newdata=data.frame(x1= ,x2= )), col=„barva“)
points(data$x,y,pch= ,xlab=„ “,ylab=„ “,main=„ “,ylim=c( , ),col=„barva“), legend(
, ,legend=c(„ “,„ “,…), col=c(„ “,„ “,…),pch=16)
Regresní rovina:
lm(y~x1+x2, data=název)
Model regresní roviny s interakcemi:
lm(y~x1*x2, data= )
Vícerozměrná regrese:
lm(y~x1+x2+x3+…, data= )
Testování podmodelu:
anova(submodel,model)
Durbinův-Watsonův test:
durbin.watson(residuals(model))
Reziduální grafy:
resplot(model, „e-yhat“,…)
199
resplot(model, „e-x“, xterm=„x1“,…)
Všechny regresní modely lze také získat interaktivně ze Statistics-Fit model-Linear model…
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 213-226,
230-241. ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999.
S. 23-25, 47-60. ISBN 80-7079-035-0.
Doporučené studijní zdroje:
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 138-146,
154-160. ISBN 80-7169-255-7.
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 77-85. ISBN 80-7261-013-9.
JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 46, 76-87, 106-126. ISBN
80-7079-328-7.
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
239-258, 265-275. ISBN 978-80-86446-40.
MINAŘÍK, B. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a lesnická
universita, 1995. S. 124-136. ISBN 80-7157-166-0.
SEGER, J. a R. HINDLS. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 219-236, 240-241, 244-253. ISBN 80-7187-058-7.
200
STUCHLÝ, J. Ekonometrie. J. Hradec: VŠE, 2000. S. 31-41, 49-56.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 431-470, 537-556. ISBN 80-85605-09-0.
Otázky a úkoly
1) Lékař léčí určitou nemoc dvěma druhy léku. Domnívá se, že pokud budou pacienti užívat
oba léky společně ale v různých dávkách, potom se zkrátí počet hodin léčby. Lékař
se rozhodne ověřit svůj předpoklad, a aby zachoval stejné podmínky experimentu,
umístí v nemocnici 16 náhodně vybraných pacientů s danou nemocí a začne podávat
léky formou injekcí se stanovenými dávkami v ml. Tyto údaje pečlivě zaznamenává
spolu s celkovým počtem hodin léčby, po kterých je pacient opět zdravý. Údaje jsou
uvedeny v souboru lecba.xlsx. a) MNČ odhadněte závislost počtu hodin léčby z na
množství prvního léku x v ml a množství druhého léku y v ml a interpretujte získané
regresní koeficienty. b) Určete a interpretujte standardní chybu modelu. c) Testujte statistickou
významnost obou parciálních regresních koeficientů, interpretujte jejich standardní
chyby a testujte model jako celek. d) Určete intervaly spolehlivosti pro parciální
regresní koeficienty. e) Určete, jak se na léčbě podílely jednotlivé léky. f) Určete a interpretujte
koeficient mnohonásobné determinace počtu hodin léčby. Vypočítejte i adjustovaný
koeficient determinace. g) Proveďte bodovou a intervalovou predikci počtu
hodin léčby pacienta a průměrného počtu hodin léčby pacienta při dávce prvního léku
x = 1 ml a dávce druhého léku y = 2 ml.
2) Použijeme data ze souboru ojetiny2.dat. Na základě modelu vícenásobné regrese, kdy
vysvětlovaná proměnná cena v tisících Kč a obě vysvětlující proměnné (počet najetých
kilometrů v tisících km a stáří auta v měsících) vstupují do modelu lineárně, proveďte
následující kroky: a) Odhadněte bodově i intervalově průměrnou cenu nového auta. b)
Odhadněte bodově i intervalově, jak se liší průměrná cena stejně starých aut, pokud
jedno auto má najeto o 5000 km více než druhé. c) Otestujte zda cena auta klesá (i)
201
s počtem najetých km (po vyloučení vlivu stáří auta); (ii) se stářím auta (po vyloučení
vlivu najetých km). d) Rozhodněte, zda průměrná cena aut, která po zakoupení stojí
pouze v garáži, klesá s každým rokem o 40 tisíc Kč. e) Odhadněte bodově i intervalově
cenu vašeho auta, které má najeto 30 tisíc km a je staré 2 roky. f) Ověřte předpoklady
regresní analýzy.
3) V souboru platy.dat jsou k dispozici údaje o platech (výše měsíční mzdy v Kč) u 100
náhodně zvolených zaměstnanců velké firmy. Kromě výše platu se v datovém zaznamu
uvádí rovněž počet odpracovaných let u firmy a dosažené vzdělání zaměstnance (ZS –
základoškolské, SS – středoškolské a VS - vysokoškolské). a) Odhadněte funkční předpis
závislosti platu zaměstnance (i) se ZS vzděláním, (ii) se SS vzděláním, (iii) s VS
vzděláním. b) Odhadněte bodově i intervalově průměrný přírůstek platu za každý odpracovaný
rok za předpokladu, že zaměstnanec již při zaměstnání nestuduje. c) Otestujte,
zda plat ve firmě po vyloučení vlivu vzdělání roste s počtem odpracovaných let
ve firmě. d) Otestujte, zda je rozdíl mezi průměrnými platy ZS a (i) SS, (ii) VS je statisticky
významný. V případě že ano, odhadněte bodově i intervalově tento rozdíl. e)
Otestujte, zda plat ve firmě po vyloučení vlivu odpracovaných let závisí na vzdělání
zaměstnance.
Úkoly k zamyšlení a diskuzi
1) Zamyslete se nad tím, jak zapsat výsledky ve vícenásobné regresi a korelaci pomocí
matic.
2) Uvažujte o souvislosti JAR a jednoduché lineární regrese, která má za vysvětlující proměnnou
kvalitativní veličinu.
Klíč k řešení otázek:
1) Regresní rovina v Excelu: a) zˆ = 46,8973 - 1,4528x - 1,3702y, b) 2,52, c) významné, d)
-2,68 1 -0,22, -2,00 2 -0,74, e) 35,3% a 64,7%, f) 0,68 a 0,63, g) 42,70 ± 2,99.
202
Podrobný výpočet – viz Stuchlý (1999b), s. 50-53. Základní výsledky získáme v Excelu
použitím Regrese z Analýzy dat:
2) Regresní rovina v R: Odhadujeme regresní rovinu s rovnicí E(Y) = β0+β1x1+β2x2, kde
Y cena auta (tis. Kč), x1 je najeto (roků) a x2 je stáří auta (měsíců). Načteme měření do
datového rámce data. Obvykle začínáme výpočtem korelační matice (Statistics-Summaries-Correlation
matrix; podržíme Ctrl a zaškrtneme cena, najeto, stari):
> cor(data[,c("cena","najeto","stari")], use="complete.obs")
cena najeto stari
cena 1.0000000 -0.8728738 -0.6733943
najeto -0.8728738 1.0000000 0.3666705
stari -0.6733943 0.3666705 1.0000000
Závěr: Mezi cenou a oběma regresory (najeto a stáří) je dosti silná lineární nepřímá
závislost (-0,873; -0,673). Mezi oběma regresory není významná multikolinearita (r =
0,367).
Interpretace regresních parametrů: Použijeme příkazy library(vsePackage), model.v1
<- lm(cena~najeto+stari, data=data) a lmbeta.test(model.v1)):
> lmbeta.test(model.v1)
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
(Intercept) 525.725902 13.8625756 0.95 two.sided 497.837997 553.613807
najeto -4.815436 0.3198214 0.95 two.sided -5.458834 -4.172039
stari -3.611565 0.4249370 0.95 two.sided -4.466428 -2.756702
Beta H0 t value p value
(Intercept) 0 37.92411 6.719919e-37
najeto 0 -15.05664 1.321060e-19
203
stari 0 -8.49906 4.631383e-11
a) Průměrná cena nového auta je 525,7 tis.Kč, tj. od 498,8 do 553,6 tis. Kč.
b) O 5x4,82 = 24,1 tis. Kč.
c) Levostranné testy o regresních koeficientech: Použijeme příkazy lmbeta.test(model.v1,
beta.null=0, alternative="less") a qt(0.95,47):
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
(Intercept) 525.725902 13.8625756 0.95 less -Inf 548.986289
najeto -4.815436 0.3198214 0.95 less -Inf -4.278800
stari -3.611565 0.4249370 0.95 less -Inf -2.898552
Beta H0 t value p value
(Intercept) 0 37.92411 1.000000e+00
najeto 0 -15.05664 6.605298e-20
stari 0 -8.49906 2.315692e-11
> qt(0.95,47)
[1] 1.677927
Závěr: (i) Testujeme H0: β1=0 vs. H1:β1<0, T= -15, p-hodnota = 6,61.10-20
, (ii) Testujeme
H0: β2=0 vs. H1:β2<0, T=-8,5, p-hodnota = 2,32.10-11
. V obou případech H0 zamítáme,
tj, cena významně klesá s počtem najetých km i se stářím auta.
d) Testujeme hypotézu H0: β2 = -40/12 (měsíční pokles ceny v tis. Kč) proti H1: β2≠-
3,3. Použijeme příkaz lmbeta.test(model.v1, beta.null=-40/12):
> lmbeta.test(model.v1, beta.null=-40/12)
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
(Intercept) 525.725902 13.8625756 0.95 two.sided 497.837997 553.613807
najeto -4.815436 0.3198214 0.95 two.sided -5.458834 -4.172039
stari -3.611565 0.4249370 0.95 two.sided -4.466428 -2.756702
Beta H0 t value p value
(Intercept) -3.333333 38.1645699 5.038805e-37
najeto -3.333333 -4.6341587 2.863838e-05
stari -3.333333 -0.6547604 5.158137e-01
Závěr: T=-0,655, p-hodnota = 0,51, tj. H0 nezamítáme, tj. cena auta s každým rokem
klesá o 40 tis.Kč (s každým měsícem klesá o 40/12 = 3,3 tis. Kč).
e) Bodová a intervalová predikce: Použijeme příkaz predict(model.v1, newdata =
data.frame(najeto=30, stari=24), interval="prediction"):
204
>predict(model.v1,newdata=data.frame(najeto=30,stari=24),interval= "pre-
diction")
fit lwr upr
1 294.5852 210.1766 378.9938
Závěr: Předpověď ceny auta, které má najeto 30 000 km a je staré 2 roky je 294,6 tis.
Kč, tj. od 210,2 do 379 tis. Kč.
f) Ověření předpokladů regresní analýzy: Použijeme příkazy
shapiro.test(residuals(model.v1))
skup1 <- (data$najeto >= median(ojetiny2$najeto))
skup2 <- (data$stari >= median(ojetiny2$stari))
levene.var.test(residuals(model.v1)~skup1)
qf(0.95,1,48)
levene.var.test(residuals(model.v1)~skup2)
Výstupy:
> shapiro.test(residuals(model.v1))
Shapiro-Wilk normality test
data: residuals(model.v1)
W = 0.9725, p-value = 0.2904
> skup1 <- (ojetiny2$najeto >= median(data$najeto))
> skup2 <- (ojetiny2$stari >= median(data$stari))
> levene.var.test(residuals(model.v1)~skup1)
Levene test of homogeneity of variances
data: residuals(model.v1) by skup1
Levene's F = 0.0144, num df = 1, denom df = 48, p-value = 0.905
> levene.var.test(residuals(model.v1)~skup2)
Levene test of homogeneity of variances
data: residuals(model.v1) by skup2
Levene's F = 1.9953, num df = 1, denom df = 48, p-value = 0.1642
> dwtest(cena ~ najeto + stari, alternative="two.sided", data=data)
Durbin-Watson test
data: cena ~ najeto + stari
DW = 1.8534, p-value = 0.6151
alternative hypothesis: true autocorelation is not 0
Závěr: Podmínky SNLM jsou splněny. Grafické ověření:
prumer.r1 <- mean(residuals(model.v1))
205
odchylka.r1 <- sd(residuals(model.v1))
par(mfrow=c(1,2))
qqnorm(residuals(model.v1), main="normalni QQ graf pro rezidua", xlab="teoreticke kvantily N(0,1)",
ylab="vyberove kvantily", pch=16)
abline(a=prumer.r1, b=odchylka.r1, col="blue")
resplot(model.v1,"e-yhat",lowess=T, main="Rezidua vs. vyrovnane hodnoty", xlab="odhad ceny ojeteho
auta [tis. Kc]", ylab="rezidua [tis. Kc]", pch=16)
dev.off()
Grafický výstup potvrzuje normalitu a homoskedasticitu reziduí a ukazuje, že použití
lineárního modelu není optimální.
3) Jde o model vícerozměrná regrese s kvantitativní i kvalitativní proměnnou (umělé proměnné).
Plat je vysvětlován kvantitativní proměnnou odpracováno a kvalitativní proměnnou
vzdělání (3 úrovně, použijeme 2 umělé proměnné). Můžeme uvažovat 2 typy
modelu: I. Model bez interakcí kvantitativní a kvalitativní proměnné II. model s interakcemi
těchto proměnných. Budeme nejdříve uvažovat model I. Ohadujeme model
E(Y) = β0+β1x1+β2x2+ β3x3, kde Y je plat, x1 odpracováno, x2 a x3 jsou umělé proměnné
pro vzdělání SS a VS. Načteme data do souboru platy a aktivujeme balík vsePackage.
K řešení použijeme program:
platy$vzdelani <- factor(platy$vzdelani, levels=c("ZS","SS","VS"))
zs <- subset(platy, platy$vzdelani=="ZS")
ss <- subset(platy, platy$vzdelani=="SS")
vs <- subset(platy, platy$vzdelani=="VS")
###################################################### model bez interakce
206
### a)
modelbez <- lm(plat~odpracovano+vzdelani, data=platy, x=TRUE)
summary(modelbez)
hodnoty <- 0:36
par(mfrow=c(1,1))
plot(zs$odpracovano, zs$plat, pch=16, xlab="odpracovano [roky]", ylab="plat [Kc]", main="Model
bez interakce", ylim=c(20000,34000), col="blue")
lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="ZS")),
col="blue")
points(ss$odpracovano, ss$plat, pch=16, col="darkgreen")
lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="SS")),
col="darkgreen")
points(vs$odpracovano, vs$plat, pch=16, col="red")
lines(hodnoty, predict(modelbez, newdata=data.frame(odpracovano=hodnoty, vzdelani="VS")),
col="red")
legend(5, 32000, legend=c("VS", "SS", "ZS"), col=c("red", "darkgreen", "blue"), pch=16)
### b)
lmbeta.test(modelbez)
### c)
lmbeta.test(modelbez, beta.null=0, alternative="greater")
### d)
lmbeta.test(modelbez)
### e)
modelbez.kvant <- lm(plat~odpracovano, data=platy)
summary(modelbez.kvant)
anova(modelbez.kvant,modelbez)
Výstupy: a)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
207
(Intercept) 19739.256 120.273 164.12 <2e-16 ***
odpracovano 270.677 6.186 43.76 <2e-16 ***
vzdelani[T.SS] 1620.304 150.903 10.74 <2e-16 ***
vzdelani[T.VS] 4663.840 143.069 32.60 <2e-16 ***
E(Y)=19739,3+270,7x1+1 620,3x2+4 663,8x3
ZS: E(Y|x2=0, x3=0)=19739,3+270,7x1
SS: E(Y|x2=1,x3=0)=19739,3+270,7x1+1620,3=21359,6+270,7x1
VS: E(Y|x2=0,x3=1)=19739,3+270,7x1+4 666,8=24403,1+270,7x1
Graf:
b)
lmbeta.test(modelbez)
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
Beta H0 t value p value
(Intercept) 19739.2556 120.273059 0.95 two.sided 19500.5155 19977.9957
0 164.12034 2.136450e-119
odpracovano 270.6767 6.186181 0.95 two.sided 258.3973 282.9562
0 43.75506 3.239238e-65
vzdelani[T.SS] 1620.3036 150.903039 0.95 two.sided 1320.7634 1919.8438
0 10.73738 3.911054e-18
vzdelani[T.VS] 4663.8399 143.068946 0.95 two.sided 4379.8503 4947.8295
0 32.59855 1.016458e-53
208
Roční přírůstek platu je 270,7 Kč, intervalově od 258,4 do 283 Kč.
c)
> lmbeta.test(modelbez, beta.null=0, alternative="greater")
Estimate Std. Error Conf. Alternative Estim. Low Estim. Up
Beta H0 t value p value
(Intercept) 19739.2556 120.273059 0.95 greater 19539.4963 Inf
0 164.12034 1.068225e-119
odpracovano 270.6767 6.186181 0.95 greater 260.4022 Inf
0 43.75506 1.619619e-65
vzdelani[T.SS] 1620.3036 150.903039 0.95 greater 1369.6715 Inf
0 10.73738 1.955527e-18
vzdelani[T.VS] 4663.8399 143.068946 0.95 greater 4426.2194 Inf
0 32.59855 5.082288e-54
Testujeme H0: β1=0 vs. H1:β1>0, T=43,8, p-hod.=1,62.10-65
, H0 zamítáme, plat ve firmě
po vyloučeni vlivu vzdělání roste
d)
SS: Testujeme H0:β2=0 vs. H1:β2>0, T=10,7, p-hod.=1,96.10-18
, H0 zamítáme;
VS: Testujeme H0:β3=0 vs. H1:β3>0, T=33,0, p-hod.=5,08.10-54
, H0 zamítáme.
Je významný rozdíl mezi platy SS a ZS a také je významný rozdíl mezi platy ZS aVS.
e)
> modelbez.kvant <- lm(plat~odpracovano, data=data)
anova(modelbez.kvant,modelbez)
Analysis of Variance Table
Model 1: plat ~ odpracovano
Model 2: plat ~ odpracovano + vzdelani
Res.Df RSS Df Sum of Sq F Pr(>F)
1 98 431841761
2 96 35225594 2 396616167 540.45 < 2.2e-16 ***
Testujeme H0: β2=β3=0 proti opačné alternativě. Je F=540,5, p-hod.=2,2.10-16
, H0 zamítáme,
plat po vyloučení vlivu odpracovaných let závisí významně na vzdělání.
Uvedeme dále ještě stručně výstupy řešení pro model II. Odhadujeme regresní model
s interakcemi E(Y)=β0+β1x1+ β2x2+ β3x3+ β4x1x2+ β5x1x3.
209
> modelint <- lm(plat ~ odpracovano*vzdelani, data=platy)
> summary(modelint)
Call:
lm(formula = plat ~ odpracovano * vzdelani, data = platy)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19981.130 134.813 148.213 < 2e-16 ***
odpracovano 249.101 9.246 26.940 < 2e-16 ***
vzdelani[T.SS] 1567.071 194.035 8.076 2.21e-12 ***
vzdelani[T.VS] 3871.227 201.409 19.221 < 2e-16 ***
odpracovano:vzdelani[T.SS] 3.910 12.956 0.302 0.763
odpracovano:vzdelani[T.VS] 67.697 13.575 4.987 2.80e-06 ***
---
Residual standard error: 531.4 on 94 degrees of freedom
Multiple R-squared: 0.9774, Adjusted R-squared: 0.9762
F-statistic: 813.8 on 5 and 94 DF, p-value: < 2.2e-16
Regresní funkce pro model s interakcemi:
E(Y)=19981,1+249,1x1+1567,1x2+3871,2x3+3,9x1x2+67,7x1x3
ZS: E(Y|x2=0, x3=0)=19981,1+249,1x1
SS: E(Y|x2=1,x3=0)= 19981,1+249,1x1+1567,1+3,9x1 = 21548,2+253x1
VS: E(Y|x2=0,x3=1)= 19981,1+249,1x1+3871,2+67,7x1 = 23852,2+316,8x1
Graf:
plot(zs$odpracovano, zs$plat, pch=16, xlab="odpracovano [roky]", ylab="plat
[Kc]", main="Model s interakci", ylim=c(20000,34000), col="blue")
lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="ZS")),
col="blue")
points(ss$odpracovano, ss$plat, pch=16, col="darkgreen")
lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="SS")),
col="darkgreen")
points(vs$odpracovano, vs$plat, pch=16, col="red")
lines(hodnoty, predict(modelint, newdata=data.frame(odpracovano=hodnoty, vzdelani="VS")),
col="red")
legend(5, 32000, legend=c("VS", "SS", "ZS"), col=c("red", "darkgreen", "blue"),
pch=16)
210
Graf (jen pro model s interakcemi) můžeme získat jednodušším způsobem (interaktivně) v nabídce
Graphs – Scatterplot po vyplnění vstupního okna: x-variable: odpracovano, y-variable:
plat, odškrtnout: Marginal Box a Smooth line, stisknout: Plot by groups…a potom OK. Výstup
v R-Console má tvar:
211
Porovnáními modelu bez interakcí s modelem s interakcemi:
> anova(modelbez,modelint)
Analysis of Variance Table
Model 1: plat ~ odpracovano + vzdelani
Model 2: plat ~ odpracovano * vzdelani
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 35225594
2 94 26539416 2 8686177 15.383 1.662e-06 ***
---
Testujeme hypotézu H0: β4= β5 = 0 proti opačné alternativě H1. Testovací statistika F =
15,4 a p-hodnota = 1,67.10-6
. Tedy H0 zamítáme, tj. interakce v modelu jsou významné.
Model má i vyšší korigovaný koeficient determinace (modelem je vysvětleno 97,6%
změn platů).
212
Kapitola 12: Úvod do analýzy časových řad
Klíčové pojmy:
časová řada, intervalová a okamžiková časová řada, diference, absolutní a relativní přírůstky,
tempa růstu, řetězové a bazické indexy, modely časových řad, trendová, sezónní,
náhodná složka, trendové funkce, vyrovnání tredové funkce, lineární, kvadratický, exponenciální,
modifikovaný exponenciální, logistický trend a gompertzova křivka, střední
kvadratická chyba (MSE), prosté a centrované klouzavé průměry
Cíle kapitoly:
pochopení pojmu časová řada a její číselné charakteristiky;
porozumění základním cílům strategie modelování časových řad;
naučit se metodám vyrovnávání časové řady;
být schopni elementárního prognózování časové řady.
Čas potřebný ke studiu kapitoly: 8 hodin
Výklad:
Nastínění obsahu kapitoly.
Časové řady
Číselné charakteristiky časových řad
Složené cenové indexy
213
Modelování časových řad
Trendové funkce
Klouzavé průměry
Struktura výkladu
Inflace je jako zubní pasta – jakmile jednou vyleze z tuby,
těžko se někomu podaří nacpat ji zpátky.
Karl-Otto Pohl
Časové řady
Časová řada yt, t = 1,2,…,n:
- je posloupnost věcně a prostorově srovnatelných pozorování, která jsou jednoznačně
uspořádána v čase.
- Příklady z ekonomie:
- vývoj HDP, míry inflace, nezaměstnanosti a počtu volných míst, kurzu měny,
peněžních zásob, cen akcií, obchodování s akciemi apod.
- časové řady publikované státní statistikou
v statistických ročenkách, statistických přehledech a bulletinech apod.
- Analýza časových řad – soubor metod, které slouží k jejich popisu nebo předvídání jejich
budoucího chování.
- Dělení časových řad podle časového hlediska:
- intervalové (měřené v určitých časových intervalech u stejného objektu),
- okamžikové či průřezová data (měřené k určitému časovému okamžiku u různých
objektů).
Číselné charakteristiky časových řad
Pro intervalové časové řady:
- používáme součty (úhrny) a průměry,
- očisťujeme je od kalendářních variací (Příklad: – Viz Hindls 2007, s. 247-248).
Pro okamžikové časové řady používáme:
- Chronologický průměr: (Příklad: Viz Hindls 2007, s. 248-249)
- Zpřehlednění časové řady – graf časové řady
- Diference (přírůstky):
214
yt = yt - yt-1, t = 2,3,...,n
(2)
yt = yt - yt-1 = yt - 2yt-1 + yt-2, t = 3,4,...,n, atd.
- Relativní přírůstky
- Koeficienty neboli tempa růstu (řetězové indexy)
- Bazické indexy
,...,2,1,,
0
nt
y
y
i t
t
kde y0 je hodnota srovnávané veličiny ve výchozím (bazickém) období (např. indexy
cen, inflace apod.).
Průměrné charakteristiky:
- Průměrný absolutní přírůstek
- Průměrný koeficient růstu
Další charakteristiky:
- klouzavé úhrny a průměry;
- Příklady – Viz Stuchlý (1999b), s. 63-65.
Složené cenové indexy
Složené cenové indexy jsou objemově vážené indexy.
Laspeyresův index – používá váhy (množství) z běžného období
Paascheův index – používá váhy z běžného období
Zde p jsou ceny a q množství.
,,,3,2,
y 1-t
t
t nt
y
.,,3,2,
y 1-t
t
t nt
y
k
.
1-n1
1 1n
n
2=t
t
yy
y
n
.1-n
1
1-n
n32
y
y
kkkk n
.
00
01)(
qp
qp
I L
p
.
10
11)(
qp
qp
I P
p
215
Příklad. Racionalizace práce firmy v oblasti úklidu, zásobování a pomocných kancelářských
prací.
Hod. sazba
v zákl.
období v € p0
Odprac.
hodiny v zákl.
období q0
Hod. sazba
v běžn. období
v € p1
Odprac.
hodiny v běžn.
období q1
p0q0 p1q0 p0q1 p1q1
2 4000 1,9 5500 8000 7600 11000 10450
2,5 2000 3 2100 5000 6000 5250 6300
3,5 6000 3,75 7000 21000 22500 24500 26250
Součet 34000 36100 40750 43000
Laspayresův index hodinových sazeb
.
Kdyby u firmy bylo v běžném období odpracováno na uvedených pracích stejné množství hodin
jako v základním období, pak by náklady na tyto práce stouply v důsledku zvýšení hodinových
sazeb o 6,2% (použili jsme jako váhy počty odpracovaných hodin v základním období).
Paasheův index hodinových sazeb
Kdyby v běžném období bylo odpracováno na uvedených pracích množství hodin z běžného
období, pak by náklady na tyto práce vzrostly o 5,5% (použili jsme jako váhy počty odpracovaných
hodin v běžném období). Kompromisem je Fisherův index (geom.průměr).
Modelování časových řad
Modely:
- Aditivní model:
yt = Tt + St + Ct + t,
- Tt je trendová, St je sezónní, Ct je cyklická a t je náhodná složka.
062,1
34000
36100
0
01
Oqp
qp
.055,1
40750
43000
10
11
qp
qp
216
- Multiplikativní model
yt = Tt St Ct t .
- Multiplikativní model lze převést logaritmováním na aditivní model.
Volbu vhodné trendové funkce lze provádět pomocí R.
Trendovou funkci lze použít k predikci (předpovědi) hodnot časové řady.
Trendové funkce
Model pro časovou řadu bez sezónní a cyklické složky:
Yt = Tt + εt (t = 1,2,…,n)
Trend Tt budeme modelovat vhodnou matematickou křivkou.
Nejčastěji uvažované trendové funkce (pro t = 1,2,…,n):
- a) Lineární trend Tt = 0 + 1t.
- b) Kvadratický trend Tt = 0 + 1t + 2t2
.
- c) Exponenciální trend Tt = 0 1
t
(1 > 0).
- d) Modifikovaný exponenciální trend Tt = k + 0 1
t
, (1 > 0).
- e) Logistický trend T
k
t
0 1
t
1
, (k>0, α1>0).
- f) Gompertzova křivka T kt 0
1
t
, (0 > 0, 1 > 0).
Parametry α0, α1, k jsou neznámé, nutno je odhadnout z dat – metody odhadu: Viz Stuchlý
(1999b), s. 67-69.
Výběr vhodného modelu trendové funkce provedeme:
a) pomocí věcně ekonomických kritérií (volba na základě teoretických znalostí a zkušeností
zkoumaného ekonomického jevu),
b) pomocí analýzy grafu zobrazované časové řady (vizuální analýza, jejíž nevýhodou je subjektivní
přístup),
c) s využitím některých regresních kritérií jako např. reziduálního součtu čtverců, indexu korelace,
F-statistiky používané k celkovému testu modelu aj.
217
Kromě toho lze využít testů založených na jednoduchých charakteristikách časové řady (viz
následující tabulka).
V statistických programech je možno se setkat s následujícími mírami vhodně zvolené
trendové funkce:
střední kvadratická chyba odhadu MSE (Mean Squared Error)
n
Ty
MSE
n
t
1
2
tt )ˆ(
,
střední absolutní chyba odhadu MAE (Mean Absolute Error)
n
Ty
MAE
n
t
t
1
t |ˆ|
,
Trend Test
lineární první diference jsou přibližně konstantní,
druhé diference jsou přibližně nulové.
kvadratický druhé diference jsou přibližně konstantní,
třetí diference jsou přibližně nulové.
exponenciální podíl relativních diferencí yt / yt-1 nebo
koeficienty růstu jsou přibližně konstantní.
logistický křivka prvních diferencí se podobá křivce hustoty normálního
rozdělení,
podíly (1/yt+2 - 1/yt+1)/(1/yt+1 - 1/yt) jsou přibližně konstantní.
Gompertzova křivka podíly (ln yt+2 - ln yt+1)/(ln yt+1 - ln yt) jsou přibližně konstantní.
střední absolutní chyba procentuální MAPE (Mean Absolute Percentage Error)
n
t y
Ty
n
MAPE
1 t
tt
100.
|ˆ|1
,
střední chyba procentuální MPE (Mean Percentage Error)
218
n
t y
Ty
n
MPE
1 t
tt
100.
)ˆ(1
,
kde yt značí pozorovanou hodnotu časové řady v okamžiku t a t
ˆT značí vyrovnanou hodnotu
trendu v okamžiku t. Z uvedených kritérií se nejčastěji používá střední kvadratická chyba MSE.
Obecně dáváme přednost modelu, u něhož je hodnota MSE nejnižší.
Příklady: Viz Stuchlý (1999b), s. 71-80.
Klouzavé průměry (Moving Averages)
Použití k:
- vyrovnání časové řady,
- k předpovědi.
Průměry počítané klouzáním po časové řadě
Prosté klouzavé průměry pro lichou délku klouzavé části
1+2p
p+t1-p+t1ptp-t
t
yyyy
y
= 1
2 1p
y
t+i
i=-p
p
, pro t = p+1,p+2,...,n-p.
Takto vypočítané klouzavé průměry jsou nevhodné pro sudou délku klouzavé čísti z hlediska
porovnávání skutečných hodnot časové řady s hodnotami klouzavých průměrů a proto je třeba
je centrovat, tj. počítat průměr z každých dvou po sobě následujících klouzavých průměrech.
Dostáváme potom tzv. centrované klouzavé průměry (Centered Moving Average). Obecně můžeme
centrované klouzavé průměry počítat podle vzorce:
)22(
4
1
p+t1-p+t1+p-tp-tt yyyy
p
y , pro t = p+1, p+2,...,n-p.
Problémy při používání klouzavých průměrů:
- Prvních a posledních p hodnot není vyrovnáno (chybí).
- U časových řad bez trendové a sezónní složky představuje klouzavý průměr vždy předpověď
na následující období (takto používá klouzavé průměry Excel v Analýze dat).
Příklady: Viz Stuchlý (1999b), str. 84-86.
Časové řady v R (po aktivizaci balíku vsePackage):
- 1. Časová řada
219
ts(y, start = )
plot(objekt)
2. Trendová složka
ts.explore(objekt)
ts.fit.trend(objekt, trend=“linear“)
ts.fit.trend(objekt, trend=“quadratic“)
ts.fit.trend(objekt, trend=“exponential“)
ts.fit.trend(objekt, trend=“modified.exponential“)
ts.fit.trend(objekt, trend=“logistic“)
ts.fit.trend(objekt, trend=“gompertz“)
3. Náhodná složka
resplot(model)
write.noise.test(residuals(model))
4. Predikce
predict(model, step= )
plot(model, step= )
5. Klouzavé průměry
ts.masooth(objekt, order= , length= )
Studijní materiály:
Základní literatura:
HINDLS, R. a kol. Statistika pro ekonomy. Praha: Professional Publishing, 2007. S. 245-302.
ISBN 978-80-86946-43-6.
STUCHLÝ, J. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec: VŠE, 1999.
S. 67-86. ISBN 80-7079-035-0.
Doporučené studijní zdroje:
BÍNA V. a kol. Jak na jazyk R. J. Hradec: FM VŠE, 2006.
HINDLS, R. a kol. Analýza dat v manažerském rozhodování. Praha: Grada, 1999. S. 164-181,
185-189. ISBN 80-7169-255-7.
220
HINDLS, R. a kol. Metody statistické analýzy pro ekonomy. Praha: Management Press, 2000.
S. 89-126, 137-144. ISBN 80-7261-013-9.
JAROŠOVÁ, E. Statistika B. Řešené příklady. Praha: VŠE, 1994. S. 127-171, ISBN 80-7079-
328-7
MAREK, L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing, 2007. S.
279-303. ISBN 978-80-86446-40-5.
ŘEZANKOVÁ, H. a T. LÖSTER. Úvod do statistiky. Praha: Oeconomica, 2009. S. 59-64, 67-
72. ISBN 978-80-245-1514-4.
SEGER, J. a R. HINDLS, R. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing,
1995. S. 257-310. ISBN 80-7187-058-7.
STUCHLÝ, J. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice, 2011.
(v elektronické formě - https://is.vstecb.cz/auth/www/6384/).
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. S. 268-276, 283-
308. ISBN 80-7169-089-9.
WONNACOT, T. H. a R. J. WONNACOT. Statistika pro obchod a hospodářství. Praha: Victoria
Publishing, 1993. S. 754-772. ISBN 80-85605-09-0.
Otázky a úkoly
1) Pro časovou řadu hodnot průměrné měsíční mzdy pracovníků státního a družstevního
sektoru národního hospodářství v ČR v letech 1981-1990: 2 692, 2 757, 2 808, 2 858,
2 901, 2 944, 3 005, 3 070, 3 138, 3 247 vypočítejte a interpretujte a) absolutní přírůstky
a průměrný absolutní přírůstek, b) koeficienty růstu a průměrný koeficient růstu, c) 2.
diference.
2) K dispozici jsou údaje o stavu skotu v ČR v letech 1989-1997 (tis. kusů):
3506, 3360, 2950, 2512, 2161, 2030, 1989, 1866, 1690
Vyrovnejte data lineární trendovou funkcí, pomocí MSE vyhodnoťte přesnost vyrovnání
a proveďte předpověď stavu skotu na roky 1998-2000.
3) Řešte předcházející úlohu pomocí klouzavých průměrů a centrovaných klouzavých průměrů.
Předpověď počítejme pro rok 1998. Porovnejte výsledky.
4) Řešte úkol 2 v R výběrem nejvhodnějšího trendu a proveďte předpověď stavu skotu na
roky 1998-2000.
221
Úkoly k zamyšlení a diskuzi
1) Diskutujte o významu indexů a rozdílů pro ekonoma.
2) Zamyslete se nad možnostmi využítí časových řad k předpovědím.
Klíč k řešení otázek:
1) Číselné charakteristiky časové řady: a) 61,67, b) 1,021 (řešení - viz Stuchlý 1999b, s.
63-64).
2) Lineární trend: Znázornění, vyrovnání i předpověď je možno provést v Excelu. Předpověď
pro rok 1998 je 1293 (pro rok 2000 je 800,7). MSE je 27902. Výstup:
3) Klouzavé průměry v Excelu. Nejdříve pomocí tříčlenných a pětičlenných průměrů. Vý-
stupy:
Lepší vyrovnání poskytují tříčlenné klouzavé průměry. Předpověď pro rok 1998 (určená
poslední členem vyrovnané řady) je 1848 a MSE = 2287.
Použijme dále dvojčlenné a čtyřčlenné centrované klouzavé průměry. Výstup:
222
Ještě lepší vyrovnání poskytuje dvojčlenný centrovaný průměr. Předpověď na rok 1998
je 1852,8 a MSE = 1286,5. Úkol je možno řešit i v R.
4) Trendové funkce: Vstup dat do R (po aktivaci vsePackage):
cas <- 1989:1997
pocet <- c(3506, 3360, 2950, 2512, 2161, 2030, 1989, 1866, 1690)
data <- data.frame(cas, pocet)
Ulozeni a zobrazeni dat ve forme casove rady:
skot <- ts(data$pocet, start=1989)
skot
par(mfrow=c(1,1))
plot(skot, xlab="Rok", ylab="Stav skotu v tisicich")
Výstup:
> skot
Time Series:
Start = 1989
End = 1997
Frequency = 1
[1] 3506 3360 2950 2512 2161 2030 1989 1866
1690
Hledani nejvhodnejsiho trendu:
ts.explore(skot, xlab="t")
vyber <- ts.fit.trends(skot)
vyber
plot(vyber)
Výstup:
> vyber
Time series: analysis of trend
MSE MAE ME MPE MAPE
linear 27901.617 144.81481 5.810691e-13 0.366022519 6.312749
quadratic 8281.953 83.27561 1.010523e-13 -0.002979555 3.372092
exponential 13653.084 104.09502 1.913640e+00 0.341035107 4.578573
modified.exponential 9686.729 85.02633 -1.727843e-03 0.010563399 3.316746
logistic 12107.499 90.17628 -2.418045e+00 -0.241446602 3.421633
gompertz 10200.831 88.10475 -1.022910e-02 0.018052998 3.461254
> plot(vyber)
223
Nejlepší výsledky dává kvadratický trend, kde je MSE nemenší = 8281,9. Srovnatelné
výsledky dává i modifikovaný exponenciální trend s MSE = 9686,7. Grafy jednotlivých
trendových funkcí jsou na následujím obrázku.
Odhad parametru pro nejvhodnejsi trend:
model01 <- ts.trend(skot, trend="quadratic")
model02 <- ts.trend(skot, trend="modified.exponential")
model01
model02
Výstup:
> model01
Time series: analysis of trend
Trend = quadratic (alpha + beta*t + gamma*t^2)
Fitted coefficients:
alpha beta gamma
4069.690 -475.2706 23.94372
Sum of Squared Errors (SSE): 74537.58
Mean Squared Error (MSE): 8281.953
Mean Absolute Error (MAE): 83.27561
Mean Error (ME): 1.010523e-13
Mean Absolute Percentage Error (MAPE): 3.372092%
Mean Percentage Error (MPE): -0.002979555%
Fitted values:
Time Series:
Start = 1989
End = 1997
Frequency = 1
[1] 3618.364 3214.924 2859.372 2551.708 2291.931 2080.041 1916.039 1799.924
[9] 1731.697
224
> model02
Time series: analysis of trend
Trend = modified.exponential (gamma + alpha*beta^t)
Fitted coefficients:
alpha beta gamma
3006.715 0.8290591 1131.099
Sum of Squared Errors (SSE): 87180.56
Mean Squared Error (MSE): 9686.73
Mean Absolute Error (MAE): 85.02633
Mean Error (ME): -0.001727843
Mean Absolute Percentage Error (MAPE): 3.316746%
Mean Percentage Error (MPE): 0.0105634%
Fitted values:
Time Series:
Start = 1989
End = 1997
225
Frequency = 1
[1] 3623.844 3197.732 2844.459 2551.576 2308.758 2107.448 1940.550 1802.182
[9] 1687.466
Předpověd pro roky 1997-2000 a grafické znázornění:
predict(model01, step=1:3)
predict(model02, step=1:3)
par(mfrow=c(1,2))
plot(model01, step=1:3, xlab="Rok", ylab="Stav skotu v tisicich", main="Kvadraticky trend")
plot(model02, step=1:3, xlab="Rok", ylab="Stav skotu v tisicich", main="Modif. exponencialni trend")
Výstup:
> predict(model01, step=1:3)
1 2 3
1711.357 1738.905 1814.340
> predict(model02, step=1:3)
1 2 3
1592.360 1513.512 1448.142
Závěr: Optimální odhad pro rok 1998 kvadratickou trendovou funkcí je 1711,4 s MSE
= 8282.
226
Dodatky
Statistické tabulky
I. Distribuční funkce standardního normálního rozdělení N(0;1)
Jsou tabelovány hodnoty Laplaceovy funkce ( )x e dt
1
2
t
2
x
2
. Platí (-x) = 1 - (x).
227
Pokračování tabulky I.
228
II. Kvantily standardního normálního rozdělení
Jsou tabelovány kvantily standardního normálního rozdělení xp určené vztahem P(X < xp) = p,
kde X N(0;1).
229
III. Kvantily rozdělení chi-kvadrát
Jsou tabelovány kvantily chi-kvadrát rozdělení 2
p(n) určené vztahem P(X < 2
p(n)) = p, kde X
2
(n).
230
IV. Kvantily Studentova t - rozdělení
Jsou tabelovány kvantily t-rozdělení tp(n) definované vztahem P(X < tp(n)) = p, kde X t(n).
231
V. Kvantily F-rozdělení
Jsou tabelovány kvantily F-rozdělení Fp(1;2) definované vztahem P(X < Fp(1;2)) = p pro
p = 0,95, 0,975, 0,99, 0,995, kde X F(1;2). Platí Fp(1;2) = 1/F1-p(2;1).
232
Pokračování tabulky V.
233
Pokračování tabulky V.
234
Pokračování tabulky V.
235
VI. Kritické hodnoty Wilcoxonova jednovýběrového testu (WJT)
Jsou tabelovány kritické hodnoty Wilcoxonova testu T, WJT určené vztahem P(T T) .
n = 0,05 = 0,025 = 0,01 = 0,005
5 1
6 2 1
7 4 2 0
8 6 4 2 0
9 8 6 3 2
10 11 8 5 3
11 14 11 7 5
12 17 14 10 7
13 21 17 13 10
14 26 21 16 13
15 30 25 20 16
16 36 30 24 19
17 41 35 28 23
18 47 40 33 28
19 54 46 38 32
20 60 52 43 37
21 68 59 49 43
22 75 66 56 49
23 83 73 62 55
24 92 81 69 68
25 101 90 77 68
26 110 98 85 76
27 120 107 93 84
28 130 117 102 92
29 141 127 111 100
30 152 137 120 109
31 163 148 130 118
32 175 159 141 128
33 188 171 151 138
34 201 183 162 149
35 214 195 174 160
36 228 208 186 171
37 242 222 198 183
38 256 235 211 195
39 271 250 224 208
40 287 264 238 221
41 303 279 252 234
42 319 295 267 248
43 336 311 281 262
44 253 327 297 277
45 371 344 313 292
46 389 361 329 307
47 408 379 345 323
48 427 397 362 339
49 446 415 380 356
50 466 434 398 373
236
VII. Kritické hodnoty pro Mannův-Whitneyovův test
Jsou tabelovány kritické hodnoty Mannova-Whitneyova testu kp definované vztahem P(T kp)
p, kde n v řádcích a sloupcích představují rozsahy jednotlivých souborů.
237
VIII. Kvantily dvouvýběrového Kolmogorovova - Smirnovova testu
Jsou tabelovány kvantily dvouvýběrového Kolmogorova-Smirnovova testu d1- definované
vztahem P(D d1-) 1 - pro = 0,05.
238
239
Pokračování tabulky VIII. pro = 0,01
240
IX. Kvantily pro Kolmogorův - Smirnovovův jednovýběrový test (KSJT)
Jsou tabelovány kvantily Kolmogorova-Smirnova testu d1- definované vztahem P(Dd1-)
1- pro uvedené hodnoty 1-.
241
Použitá literatura
ANDĚL, J., 1985. Matematická statistika. Praha: SNTL/ALFA.
ANDĚL, J., 2007. Matematitika náhody. Praha: Matfyzpres. ISBN 80-7378-004-6.
ANDĚL, J., 1993. Statistické metody. Praha: Matfyzpres.
ANDĚL, J., 2007. Základy matematické statistiky. Praha: Matfyzpres. ISBN 80-7378-001-1.
ARLTOVÁ, M. a kol., 2003. Příklady k předmětu Statistika A. Praha: VŠE. ISBN 80-245-
0178-3.
BLATNÁ, D., 1996. Neparametrické metody. Testy založené na pořádkových a pořadových
statistikách. Praha: VŠE. ISBN 80-7079-607-3.
CYHELSKÝ, L. a kol., 2001. Elementární statistická analýza. Praha: Management Press. ISBN
80-7261-003-1.
ČERMÁKOVÁ, A. a F. STŘELEČEK, 1995. Statistika I. České Budějovice: JU zemědělská
fakulta. ISBN 80-7040-126-5.
GIBILISCO, S., 2009. Statistika bez předchozích znalostí. Brno: Computer Press. ISBN 978-
80-251-2465-9.
GUJARATI, D.N., 1992. Essentials of Econometrics. New York: Mc Grow-Hill. ISBN 0-07-
112624-4.
HEBÁK, P., 1995. Testování statistických hypotéz. Praha: VŠE Praha. ISBN 80-7079-294-9.
HEBÁK, P. a kol., 2004. Praktikum k výuce matematické statistiky II. Testování hypotéz Praha:
Oeconomica. ISBN 80-245-0721-8.
HEBÁK, P. a J. KAHOUNOVÁ, 1994. Počet pravděpodobnosti v příkladech. Praha: Informatorium.
ISBN 80-85427-48-6.
HINDLS, R. a kol., 1999. Analýza dat v manažerském rozhodování. Praha: Grada. ISBN 80-
7169-255-7.
HINDLS, R. a kol., 2000. Metody statistické analýzy pro ekonomy. Praha: Management Press.
ISBN 80-7261-013-9.
HINDLS, R. a kol., 2007. Statistika pro ekonomy. Praha: Professional Publishing. ISBN 978-
80-86946-43-6.
JAROŠOVÁ, E., 1994. Statistika B. Řešené příklady. Praha: VŠE. ISBN 80-7079-328-7.
242
KOMAREK, A. 2012. Package ‘vsePackage’ (manual) Praha: http://www.karlin.mff. cuni.cz/
~komarek.
KOMÁREK, A. a KOMÁRKOVÁ, L. 2007. Statistická analýza závislostí s příklady v R.
Praha: VŠE Nakladatelství Oeconomica. ISBN 978-80-245-1226-6.
KOMÁRKOVÁ, L. a kol., 2007. Základy analýzy dat a statistického úsudku s příklady v R.
Praha: VŠE Nakladatelství Oeconomica. ISBN 978-80-245-1227-3.
MAREK, L. a kol., 2007. Statistika pro ekonomy – aplikace. Praha: Professional Publishing.
ISBN 978-80-86446-40-5.
MINAŘÍK, B., 1995. Statistika I pro ekonomy a manažery. Brno: Mendelova zemědělská a
lesnická universita. ISBN 80-7157-166-0.
NEWBOLD, P., 1991. Statistics for business and economies. New York: Prentice-Hall Int. Englewood
Clifis. ISBN 0-13850645-0.
PECÁKOVÁ, I. Statistika v terénních průzkumech. Praha: Professional Publishing, 2008. ISBN
978-80-86946-74-0.
ŘEZANKOVÁ, H. a T. LÖSTER, 2009. Úvod do statistiky. Praha: Oeconomica. ISBN 978-
80-245-1514-4.
SEGER, J. a R. HINDLS, 1995. Statistické metody v tržním hospodářství. Praha: Vicoria Publishing.
ISBN 80-7187-058-7.
SHAPIRO, S. S. a M. B. WILKS, M. B., 1965. An analysis of variance test for normality
(complete samples). Biometrica. 52(3-4), 591-611. doi:10.1093/biomet/52.3-4.591.
STUCHLÝ, J., 2000. Ekonometrie. J. Hradec: VŠE.
STUCHLÝ, J., 2011. Referenční karta pro systém R. České Budějovice: VŠTE Č. Budějovice.
(v elektronické formě – viz https://is.vstecb.cz/auth/www/6384/).
STUCHLÝ, J., 1999a. Statistika I. Cvičení ze statistických metod pro managery. Praha: VŠE.
ISBN 80-7079-754-1.
STUCHLÝ, J., 1999b. Statistika II Cvičení ze statistických metod pro manažery. J. Hradec:
VŠE. ISBN 80-7079-035-0.
STUCHLÝ, J., 2004. Statistické metody pro manažerské rozhodování. J. Hradec: VŠE. ISBN
80-245-0153-8.
SVATOŠOVÁ, L. a M. PRÁŠILOVÁ, 2009. Statistické metody v příkladech. Praha: ČZU.
ISBN 978-80-213-1673-7.
243
WISNIEWSKI, M. Metody manažerského rozhodování. Praha: Grada, 1996. ISBN 80-7169-
089-9.
WONNACOT, T. H. a R. J. WONNACOT, 1993. Statistika pro obchod a hospodářství. Praha:
Victoria Publishing. ISBN 80-85605-09-0.
244
Rejstřík a česko-anglický slovník
absolutní člen
intercept, 133
absolutní míry variability
absolute measures of variability, 25
absolutní odchylka
absolute deviation, 25
aditivní model časové řady
additive model of time series, 179
alternativní hypotéza
alternative hypothesis, 81
alternativní rozdělení
alternative distribution, 52
analýza časových řad
analysis of time series, 177
analýza dat
analyses of data, 28
analýza rozptylu
analysis of variance, 26, 118
ANOVA, 118
analýza rozptylu v R
ANOVA in R, 121
anketa
questionnaire, 64
aritmetický průměr
arithmetic mean, 24
asociační tabulky
association tables, 12
asymptotická verze
asymptotical version, 102
asymptotický dvouvýběrový test o
poměrech
asymptotic two-sample proportion test,
100, 110
asymptoticky nestranný odhad
asymptotically unbiased estimator, 69
asymptotický test o průměru
asymptotic mean test, 94
asymptotický test o shodě populačních
průměrů
two-sample asymptotic mean test, 100
Bartlettův test
Bartlett's test, 120, 129
bazické indexy
bazic indexes, 178
Bernoulliho pokus
Bernoulli experiment, trial, 53
Bernoulliho vzorec
Bernoulli formula, 53
binomické rozdělení
binomial distribution, 53, 61
B-koeficienty
B-coefficients, 160
bodová předpověď
point prediction, 162
bodový diagram
scatterplot, 12, 121, 133
bodový odhad
estimator, estimation, 68
point estimate, 68, 77
Breusch-Paganovým test
Breutch-Pagan's test, 149
celkový F-test o regresním modelu
global F-test of regression model, 161
celkový součet čtverců
total sum of squares, 119
centrální limitní věta
central limit theorem, 57, 61
centrované klouzavé průměry
centered moving average, 182
cenzus
245
cenzus, 10
Cobb-Douglasovu produkční funkce
Cobb-Douglas production function, 163
Cramérův kontingenční koeficient
Cramér coefficient of contingence, 116
cyklická složka
cyclical component, 179
časová řada
time series, 177
časové řady v R
time series in R, 182
česko-anglický slovník
Czech-English dictionary, 207
četnost
frequency, 11
číselné charakteristiky časové řady
numerical characteristics of time series,
185
číselné charakteristiky náhodných veličin
numerical characteristics of random
variable, 45
číselné charakteristiky rozdělení
dvourozměrné náhodné veličiny
numerical characteristics of twodimensional
random variables, 46
číselné charakteristiky v Excelu
numerical characteristics in Excel, 28, 32
číselné charakteristiky v R
numerical characteristics in R, 28, 34
čtvrť
district, 15
de Morganova pravidla
de Morgan's rules, 38
decil
decile, 27, 33
definice axiomatická
axiomatic definition, 40
diference (přírůstky)
differences, 177
dílčí (parciální) korelační koeficienty
partial correlation coefficients, 160, 163
dílčí (parciální) regresní koeficienty
partial regression coefficients, 159
diskrétní a spojité náhodné veličiny
discrete and continuous random
variables, 43
distribuční funkce
distribution function, 43, 49
dolní mez
lower limit, 71
doprava
transport, 15
důkaz
proof, 42
Durbinůvo-Watsonúv test
Durbin-Watson test, 149
důsledek
consequence, 44
dvojstranný
two-sided, 71
dvojvýběrový t-test
two-sample t-test, 108
dvourozměrná náhodná veličina
two-dimensional random variable, 44
dvourozměrný histogram
two-dimensional histogram, 12, 17
dvoustranný test
two-sided test, 81
dvouvýběrové testy v Excelu
two-sample tests in Excel, 106
dvouvýběrové testy v R
two-sample tests in R, 106
dvouvýběrový F-test
two-sample F-test, 98, 108
dvouvýběrový párový t-test
two-sample paired t-test, 109
246
dvouvýběrový Wilcoxonův test
two-sample Wilcoxon test, 102
efekt
efect, 120
elementární jev
elementary event, 38
empirická distribuční funkce
empirical distribution function, 12, 104
empirické absolutní pružnosti
empirical absolute elasticity, 160
empirické četnosti
empirical frequency, 114
empirické rozdělení četností
empirical frequency distribution, 114
etapy statistických prací
phases of statistical work, 7
exponenciální rozdělení
exponential distribution, 59
exponenciální trend
exponential trend, 180
faktory
factors, 118
Fisherovo-Snededecorovo F-rozdělení
Fisher-Snedecor F-distribution, 58
Fisherův index
Fisher's index, 179
formulace hypotéz
formulation of hypotheses, 81
F-rozdělení
F-distribution, 68, 120
Gaussova křivka
Gaussian curve, 55
geometrické rozdělení
geometric distribution, 59
geometrický
geometric, 24
Gompertzova křivka
Gompertz curve, 180
graf časové řady
plot of time series, 177
graf průměrů
mean graph, 128
graf reziduí
graph of residuals, 149
graf závislosti reziduí na faktoru
graph of dependency residuals on factor,
129
grafické ověřování normality
graphic verification of normality, 88
harmonický
harmonic, 24
hazardní hry
gambling, 37
histogram
histogram, 12, 16, 93
histogram s křivkou normálního rozdělení
histogram with the normal distribution
curve, 88
hladina významnosti
significance level, 82
hod kostkou
roll of the dice, 38
hod mincí
throwing coins, 38
hodnocení
evaluation, 6
hodnota testového kritéria
value of test statistic, 83
homoskedasticita
homoscedasticity, 120, 121, 128, 149
horní mez
upper limit, 71
hromadná obsluha
queuing, 59
hromadný jev
collective phenomena, 8
hustota pravděpodobnosti
247
probability density, 44
hypergeometrické rozdělení
hypergeometric distribution, 54, 61
charakteristiky polohy
characteristics of the position, 23
charakteristiky tvaru rozdělení četností
characteristics of shape distribution, 26
charakteristiky variability
characteristics of variability, 24
chi-kvadrát rozdělení
chi-square distribution, 57
chi-squared distribution, 61
chi-kvadrát test dobré shody
chi-square goodness-of-fit test, 114
chronologický průměr
chronological average, 177
chyba 1. druhu
type I error, 82
chyby měření
measurement errors, 134
interakce (spolupůsobení)
interaction, 164
interpretace odhadnutých regresních
parametrů
interpretation of estimated regression
parameters, 138
interval spolehlivosti
confidence interval, 70, 87, 121
interval spolehlivosti pro poměr
confidence interval for proportion, 74, 78
interval spolehlivosti pro průměr
confidence interval for mean, 71, 74
interval spolehlivosti pro rozptyl
confidence interval for variance, 73, 77
intervalové časové řady
interval time series, 177
intervalový odhad
interval estimate, 68, 70, 77
intervaly spolehlivosti pro korelační
koeficient
confidence intervals for correlation
coefficients, 163
intervaly spolehlivosti pro regresní
parametry
confidence intervals for regression
parameters, 146, 161
jednofaktorová analýza rozptylu
one-way analysis of variance, 118
one-way ANOVA, 128
jednostranné alternativy
one-sided alternatives, 81
jednostranný
one-sided, 71
jednovýběrové testy v R
one sample tests in R, 89
jednovýběrový t-test
one sample t-test, 93
jistý jev
sure event, 38
kategorie
category, 15
klasická definice pravděpodobnosti
classical definition of probability, 39, 40,
49
klasický regresní model
classical regression model, 145
klasifikace statistických znaků
classification of statistical characters, 16
klíč k řešení položených otázek
key to the solution to the issues
submitted, 5
klíčové pojmy
key terms, 5
klouzavé průměry v Excelu
moving averages in Excel, 185
248
koeficient (index) mnohonásobné
determinace
coefficient of multiple determination,
162
koeficient determinace
coefficient of determination, 136, 138,
146
koeficient korelace
correlation coefficient, 46
koeficient mnohonásobné korelace
coefficient of multiple correlation, 162
koeficient mutability
coefficient of mutability, 13, 18
koeficient šikmosti
skewness, 27
koeficient špičatosti
kurtosis, 27
koeficient, úroveň spolehlivosti
confidence level, 70
koeficienty (tempa) růstu
growt coefficients (rates), 178
koeficienty kontingence
contingency coefficients, 118, 128
koláčový diagram
pie chart, 11, 16
Kolmogorovův-Smirnovův dvouvýběrový
test
Kolmogorov-Smirnov two-sample test,
104, 111
Kolmogorovův-Smirnovův jednovýběrový
test
Kolmogorov-Smirnov one-sample test,
116
kombinace
combination, 40, 49
kombinace s opakováním
combination with repeating, 40, 49
kombinační čísla
combination numbers, 40
kombinatorika
combinatorics, 39
konfidenční interval
confidence interval, 147
kontingenční tabulka
contingency table, 115
kontingenční tabulka s hierarchickou
strukturou
contingency table with hierarchical
structure, 12, 17
kontrolní otázky
control questions, 5
konzistentní odhad
consistent estimator, 70
korelační analýza
correlation analysis, 133
korelační koeficient
coefficient of correlation, 135
correlation coefficient, 29, 138
korelační matice
correlation matrix, 29, 34, 35
korelační poměr
correlation ratio, 119
korelační tabulka
correlation table, 133
korigovaný koeficient determinace
adjusted coefficient of determination,
163
kovariance
covariance, 29, 46
kovarianční matice
covariance matrix, 29, 34, 35, 46
krabicový diagram
box-and-whisker plot, 28
boxplot, 28, 32, 34, 88, 93, 128
kritická hodnota testu
critical value of test, 83
249
kritické hodnoty Mannova-Whitneyova
testu
critical values of Mann-Whitney test, 200
kritické hodnoty Wilcoxonova testu
critical values of Wilcoxon test, 199
kritický obor
critical region, 82
Kruskalův-Wallisův test
Kruskal-Wallis test, 121, 128
kumulované
cumulative, 12
kvadratický
quadratic, 24
kvadratický trend
quadratic trend, 180
kvantil
quantile, 27
kvantil jednvýběrové Wilcoxonovy
statistiky
quantile of onesample Wilcoxon statistic,
89
kvantilová funkce
quantile function, 56
kvantilové charakteristiky
quantile characteristics, 27
kvantily dvouvýběrového KolmogorovaSmirnovova
testu
quantiles of Kolmogorov-Smirnov twosample
test, 201
kvantily F-rozdělení
quantiles of F-distribution, 59, 195
kvantily chi-kvadrát rozdělení
quantiles of chi-square distribution, 57,
193
kvantily Kolmogorova-Smirnova testu
quantiles of Kolmogorov-Smirnov test,
203
kvantily normálního rozdělení
quintiles of normal distribution, 88
kvantily standardního normálního rozdělení
quantiles of standard normal distribution,
192
kvantily t-rozdělení
quantiles of t-distribution, 58, 194
kvartil
quartile, 27
kvartilová odchylka
quartile deviation, 27
kvartilové rozpětí
interquartile range, 27
kvótní výběr
quota sampling, 64
Laplaceova funkce
Laplace function, 56, 190
Laspeyresův index
Laspeyres index, 178
Levenův test
Levene test, 120, 150
levostranný interval spolehlivosti
left-hand confidence interval, 71
levostranný test
left-tailed test, 81
Lindebergova-Lévyho věta
Lindeberg-Lévy theorem, 57
lineární regresní funkce
linear regression function, 133
lineární trend
linear trend, 180, 185
lineární závislost
linear dependence, 29
logaritmicko-normální rozdělení
log-normal distribution, 59
logistický trend
logistical trend, 180
Mannův-Whitneyův test
Mann-Whitney test, 102
marginální rozdělení
marginal distribution, 44
250
marketingový výzkum
marketing research, 37
matematický princip
mathematical principle, 135
medián
median, 13, 24, 27
metoda nejmenších čtverců
least squares method, 134
metoda stupňovité regrese
method of stepwise regression, 162
meziskupinový rozptyl
intergroup variance, 26
meziskupinový součet čtverců
between-groups sum of squares, 119
MNČ-odhady
LSM-estimations, 135
množina
set, 38
model analýzy rozptylu
ANOVA model, 120
model bez interakcí
model without interaction, 170
model s interakcemi
model with interactions, 173
modifikovaný exponenciální trend
modified exponential trend, 180
modus
modus, 13
Moivre-Laplaceova věta
Moivre-Laplace theorem, 57
multikolinearita
multicollinearity, 164
multinomické rozdělení
multinomial distribution, 59
multiplikativní model časové řady
multiplicative model of time series, 179
na hladině významnosti
at the signicant level, 83
náhodná složka
random component, 179
random term, 134
náhodná veličina
random variable, 43
náhodné chyby
random errors, 120
náhodný jev
random event, 37
náhodný pokus
random experiment, 37
nájemné
rent, 16
náměty k zamyšlení a diskuzi
suggestions for thought and discussion, 5
násobení pravděpodobností
multiplication of probabilities, 49
nejlepší lineární nestranný odhad regresních
parametrů
best linear unbiased estimation, 161
nekonečno
infinity, 71
nelineární metoda nejmenších čtverců
nonlinear least squares method, 163
nelineární regresní funkce
nonlinear regression function, 138
nemožný jev
impossible event, 38
neparametrické testy
nonparametric tests, 84, 113
neslučitelné jevy
disjoint events, 38
nestranný odhad
unbiased estimator, 69
neurčitost
uncertainty, 37
neúspěch
failure, 53
nezávislé pokusy
independent experiments, 38
251
nezávislé stejně rozdělené náhodné veličiny
independent identical distributed random
variables, 65
nezávislost
independency, 149
nominální a ordinální proměnné
nominal and ordinal variables, 11
nominální variance
nominal variance, 13, 18
normalita
normality, 128, 149
normalita v ANOVA
normality in ANOVA, 121
normální rozdělení
normal distribution, 55, 61
nulová hypotéza
null hypothesis, 81
obecný lineární model
general linear model, 159
obor přijetí
acceptance region, 82
obytná plocha
living space, 15
očekávané četnosti
expected frequencies, 114, 115
očisťování časových řad
cleaning time series, 177
odezvová veličina
response variable, 118
odhad
estimation, 137
odhady parametrů
parameter estimations, 68
odlehlé hodnoty
outliers, 27, 33
odstraňování problémů
troubleshooting, 150
okamžikové časové řady
point time series, 177
opačný jev
complementary event, 38
opakování
repetition, 36
oporu výběru
sampling frame, 64
opravný faktor
correction factor, 74
ordinální variance
ordinal variance, 13
ověřování podmínek
conditions verification, 149
Paascheův index
Paasche index, 178
parametrické testy
parametric tests, 84
párovy dvouvýběrový t-test
two-sample paired test, 99
Pearsonův kontingenční koeficient
Pearson coefficient of contingence, 116
percentil
percentile, 27
permutace
permutation, 39
p-hodnota testu
p-value of test, 85
p-kvantil spojité náhodné veličiny
p-quantile of continuous random
variable, 45
plošný graf
area chart, 11
počet obyvatel
number of peaple, 15
podmíněná pravděpodobnost
conditional probability, 41, 49
podmíněná rozdělení
conditional distribution, 44
podmíněné průměry a rozptyly
conditional means and variances, 29, 35
252
pohlaví
sex, 15, 31
Poissonovo rozdělení
Poisson distribution, 59
pokračování
continuation, 191
polygon
polygon, 11, 32
polygon rozdělení pravděpodobnosti
probability distribution polygon, 43
poměr determinace
ratio of determination, 119
popisná statistika
descriptive statiastics, 7
popisná statistika v R
descriptive statistics in R, 19
popisné statistiky v Excelu
descriptive statistics in Excel, 16
populační
population, 25
populační rozptyl
population variance, 28
porovnání regresních modelů
comparison of regression models, 156
pořadí
rank, 89, 101, 102
postačující odhad
sufficient estimator, 70
použitá literatura
reference, 204
poznámky
remarks, 121
požadovaný rozsah souboru
required sample size, 73, 77
pravděpodobnost náhodného jevu
probability of random event, 39
pravděpodobnostní funkce
probability function, 43, 49
pravděpodobnostní rozdělení diskrétní
náhodné veličiny
probability distribution of discrete
random variable, 49
pravděpodobnostní rozdělení spojité
náhodné veličiny
probability distribution of continuos
random variables, 49
pravděpodobnostní stromy
probability trees, 43
pravidlo dvou sigma
two sigma rule, 55
pravostranný interval spolehlivosti
right-hand confidence interval, 71, 77
pravostranný test
right-tailed test, 81
predikce
prediction, 138
predikční interval
prediction interval, 162
prezentace dat
data presentation, 11
primární data
primary data, 10
problémy v regresním modelu
problems in regression model, 149
program R
program R, 18
proměnné
variables, 9
prosté klouzavé průměry
simple moving averages, 182
prostý aritmetický průměr
simple arithmetic mean, 23
prostý náhodný výběr
simple random sampling, 64
průměr
mean, 23
průměrný absolutní přírůstek
253
average absolute increase, 178
průměrný koeficient růstu
average growth rate, 178
průřezová data
cross-sectional data, 177
prvky náhody
elements of chance, 37
předpoklady použití ANOVA
assumptions for using ANOVA, 120
předpověď bodová
point prediction, 147
předpověď intervalová
interval prediction, 147
předpovědi v regresním modelu
prediction in regression model, 162
předvýběr
pre-sample, 74
příklad
example, 12
přípustná chyba
error bound, 73
qq-diagram
QQ-diagram, 88, 93, 129
referenční úroveň
reference level, 164
regresand
regressand, 133
regrese
regression, 132
regresní analýza
regression analysis, 133
regresní funkce
regression function, 46
regresní koeficient
regression coefficient, 138
regresní model
regression model, 134
regresní parametry
regression parameters, 133
regresní přímka
regression line, 133, 141
regresní přímka v Excelu
regression line in Excel, 139, 141
regresní přímka v R
regression line in R, 139, 142
regresní rovina
regression plane, 159
regresní rovina v Excelu
regression plane in Excel, 167
regresní rovina v R
regression plane in R, 168
regresor
regressor, 133
rejstřík
register, 207
relativní četnost
relative frequency, 11, 40
relativní kvartilová odchylka
relative quartile deviation, 27
relativní míry variability
relative measures of variability, 26
relativní pružnosti
relative elasticity, 160
relativní přírůstky
relative increases, 178
reprezentativní soubor
representative sample, 63
residuální analýza
residual analysis, 149
rezidua
residuals, 120, 134, 145
reziduální rozptyl
residual variance, 160
reziduální součet čtverců
residual sum of squares, 119
rovnoměrné rozdělení
uniform distribution, 59
rozdělení četností
254
frequency distribution, 11
rozdělení pravděpodobnosti
probability distribution, 43
rozdělení statistických znaků
distribution of statistical characters, 10
rozhodovací pravidlo
decision rule, 83
rozptyl
variance, 25
rozptyl pro diskrétní a spojitou náhodnou
veličinu
variance of discrete and continuous
random variable, 45
rozptyl vážený
weighted variance, 25
rozptýlenost
dispersion, 24
rozsah souboru
sample size, 9, 78
řešení
solution, 40
řetězové indexy
chain indexes, 178
sčítání pravděpodobností
addition of probabilities, 42
sdružené rozdělení pravděpodobností
joint probability distribution, 44
sekundární data
secondary data, 10
sezónní složka
seasonal component, 179
Shapiro-Wilkův test
Shapiro-Wilk test, 88, 92
síla lineární závislosti
strength of linear dependence, 135
síla testu
test power, 82
skupinový diagram
group bar chart, 12
sloupcový diagram
bar chart, 11, 16
složená pravděpodobnost
compound probability, 41
složené cenové indexy
aggregates price index, 178
složené jevy
composed events, 38
směrnice
slope, 133
směrodatná odchylka
standard deviation, 25, 45
součet čtverců reziduí
sum of squared residuals, 134
standardizovaná veličina
standardized variable, 55
standardní chyba odhadu
standard error of the estimation, 145
standardní chyba průměru
standard error of the mean, SEM, 66
standardní chyby regresních parametrů
standard errors of regression parameters,
146
standardní normální rozdělení
standard normal distribution, 55, 61
standardní regresní model
standard regression model, 161
statistická definice pravděpodobnosti
statistical definition of probability, 40
statistická indukce
statistical inference, 63, 147, 153
statistická šetření
statistical surveys, 10
statistické jednotky
statistical units, 9
statistické testování
statistical testing, 81
statistické testy v regresním modelu
statistical tests in regression model, 146
255
statistické vyhodnocování
statistical evaluation, 11
statistický soubor
universe, 9
statistika
statistics, 8
střední absolutní chyba
mean absolute error, 181
střední absolutní chyba procentuální
mean absolute percentage error, 181
střední hodnota
mean value, expected value, 45
střední chyba procentuální
mean percentage error, 181
střední kvadratická chyba
mean squared error, 180
Studentovo t-rozdělení
Student t-distribution, 58, 67
studijní materiály
study materials, 5
stupně volnosti
degrees of freedom, 57, 119
Sturgesův vzorec
Sturges rule, 12, 16
subjektivní pravděpodobnost
subjective probability, 40
systém normálních rovnic
system of normal equations, 135
systematický výběr
systematic sampling, 64
tabulka
table, 43
tabulka ANOVA
ANOVA table, 120
tabulka počtu voleb
table of options, 13
tabulka rozdělení četností
distribution frequency table, 16
téma
topic, 6
teoretický a reziduální součet čtverců
teoretical and rezidual sum of squares,
161
teorie pravděpodobnosti
probability theory, 37
teorii spolehlivosti
reliability theory, 59
test nezávislosti dvou znaků
independence test of two characters, 115
test nezávislosti v kontingenční tabulce
test of independence in contingency
table, 127
test o populačním poměru
test of population proportion, 88, 96
test o populačním průměru
tests of population mean, 87
test o populačním rozptylu
test of population variance, 87, 94
test o shodě dvou populačních poměrů
testing the equality of two population
proportions, 116
test o shodě poměrů
test of conformity proportions, 126
test o shodě populačních průměrů
equality population means tests, 99
test o shodě více poměrů
testing the equality of more population
proportions, 116
test statistické hypotézy
test of statistical hypothesis, 81
testování nezávislosti v kontingenční
tabulce
independence test in contingency table,
118
testování statistických hypotéz
statistical hypothesis testing, 80
testy dobré shody
256
goodness of fit tests, 113
testy o korelačních koeficientech
tests of correlation coefficients, 163
testy o populačním průměru
tests of population mean, 85
testy o regresních parametrech
tests of regression parameters, 161
testy shody v R
agreement tests in R, 117
trendová složka
trend component, 179
trendové funkce
trend functions, 180, 186
třídění a shrnování dat
sorting and summarizing data, 11
třidní rozdělení četností
class frequency distribution, 16
třídní znak
class character, 11
Tukeyova metoda
Tukey method, 121
Tukeyovo vícenásobné porovnávání
Tukey multiple comparison, 128, 129
tvary rozdělení
distribution shapes, 11
úkoly
tasks, 5
umělé proměnné
dummy variables, 164, 170
úplná pravděpodobnost
total probability, 42, 49
úplný systém jevů
complete system of events, 38
úroveň
level, 23
úspěch
success, 53
uspořádaná dvojice
ordered pair, 44
váha
weight, 35
variace
variation, 39, 49
variace s opakováním
variations with repeating, 39
variační koeficient
coefficient of variation, 26
variační rozpětí
range, 12, 24
vážený průměr
weighted average, 23
věcná interpretace
material interpretation, 83
Vennovy diagramy
Venn diagrams, 38
vícefaktorová analýza rozptylu
multifactor ANOVA, 121
vícenásobná porovnávání
multiple comparisons, 121
vícerozměrná proměnná
multidimensional variable, 12
vícerozměrná regrese v R
multivariable regression in R, 164
vícerozměrné normální rozdělení
multivariate normal distribution, 59
vlastnosti aritmetického průměru
properties of arithmetic mean, 23, 35
vlastnosti distribuční a pravděpodobnostní
funkce
properties of distribution function and
probability functions, 43
vlastnosti hustoty pravděpodobnosti
properties of probability density, 44
vlastnosti kombinačních čísel
properties of combinatorial numbers, 40
vlastnosti rozptylu
properties of variance, 25, 35, 45
vlastnosti střední hodnoty
257
properties of the mean value, 45
vnitroskupinový rozptyl
intragroup variance, 26
vnitroskupinový součet čtverců
within-groups sum squares, 119
vybavení telefonem
telephone equipment, 15
výběr
selection, 180
výběr bez vracení
sampling without replacement, 39, 54, 64
výběr pravděpodobnostní
probability sampling, 10
výběr s vracením
sampling with replacement, 38, 53, 64
výběr testového kritéria a jeho výběrové
rozdělení
selection of test statistic and his sample
distribution, 81
výběrová kovariance
sample covariance, 135
výběrová šetření
sample surveys, 63
výběrové charakteristiky
sample statistics, 65
výběrové rozdělení
sample distribution, 65
výběrové šetření
sample survey, 64
výběrový
sample, 25
výběrový poměr
sample proportion, 66
výběrový průměr
sample mean, 65
výběrový rozptyl
sample variance, 67
výběrový soubor
sample, 9
výběrový úhrn
sample sum (total), 66
vyčerpávající šetření
exhaustive survey, 64
vydatný odhad
efficient estimator, 70
vychýlení
bias, 69
výklad
interpretation, 5
vyrovnaná hodnota
fitted value, 181
vyrovnané hodnoty
fitted value, 120, 135
vysvětlující veličina
explanatory variable, 133
výška
height, 15
vzestupně
in ascending order, 117
vznik a význam statistiky
emergence and importance of statistics, 7
Wilcoxonova statistika
Wilcoxon statistic, 101
Wilcoxonovo dvojvýběrové rozdělení
Wilcoxon two-sample distribution, 103
Wilcoxonův dvouvýběrový test
Wilcoxon two-sample test, 109
Wilcoxonův jednovýběrový test
Wilcoxon one-sample test, 89, 95
Wilcoxonův párový test
Wilcoxon paired test, 101, 110
základní číselné charakteristiky
basic numerical characteristics, 137
základní jevový prostor
basic space of events, 38
základní soubor
population, 9
základní vlastnosti pravděpodobnosti
258
basic properties of probability, 41
záměrný výběr
judgment sampling, 64
zamítnout nulovou hypotézu
reject null hypothesis, 83
záporné binomické rozdělení
negative binomial distribution, 59
závěr testu
test conclusion, 83
závislé pokusy
dependent experiments, 38
závislost funkční
functional dependence, 132
závislost statistická
statistical dependence, 132
zkouška
examination, 6
znaky
characteristics, 9
zobecněný dvouvýběrový t-test
generalized two-sample t-test, 99