this is for holding javascript data
Radovan Omorjan edited seminarskicsv.tex
over 7 years ago
Commit id: 35c8b097731188d4b83c45887c923f9b05c41447
deletions | additions
diff --git a/seminarskicsv.tex b/seminarskicsv.tex
index c785720..3e00e5f 100644
--- a/seminarskicsv.tex
+++ b/seminarskicsv.tex
...
\subsubsection{Statistička analiza}
Zadatak statističke analize je da na osnovu podataka iz uzorka izvede
neke zaključke o osnovnom skupu. Faze statističke analize su: statističko
posmatranje (plansko prikupljanje podataka), sređivanje podataka (tabelarno
i grafičko prikazivanje), obrada i analiza rezultata (matematička
obrada podataka i njihovo tumačenje) \cite{Omorjan2009}.
Osnovni zadaci statistike su da se definiše raspodela verovatnoće
ili gustina raspodele posmatrane karakteristike u proizvodnom procesu,
izračunaju tačkaste i intervalne ocene parametara raspodele i da na
osnovu ovih podataka sa određenom pouzdanošću definišu kvantitativne
karakteristike procesa.
U cilju opisa proizvodnog procesa, odnosno numeričkog izražavanja
prisutnih varijacija u njemu se koriste različite statističke tehnike.
Deskriptivne statističke tehnike kao što su numeričko, tabelarno i
grafičko prikazivanje sumiranih podataka služe za jednostavno prikazivanje
informacija dobijenih iz uzoraka, dok tehnike statističkog zaključivanja
imaju za cilj da se na osnovu podataka deskriptivne statističke tehnike
donesu zaključci o populaciji iz kojih su uzeti uzorci. Uopšteno termin
statistika se korisisti kao kvantifikacija svojstva uzorka, dok je
parametar karakteristika populacije.
Ukoliko su uzorci uzeti iz proizvodnog procesa reprezentativni uzorci,
ne razlikuju se značajno od strukture osnovnog skupa, odnosno da su
slučajni uzorci i da je šansa pojavljivanja njegovih elemenata u populaciji
jednak i nezavisan od ostalih, tada se na osnovu statističkih obeležja
uzorka mogu doneti zaključci o osnovnom skupu, u ovom slučaju o proizvodnom
procesu tj. moguće je definisati parametre teorijske raspodele. Ocena
parametra teorijske raspodele je funkcija uzorka, za koju se uopšte
koristi termin statistika ili uzorački parametar \cite{Omorjan2009}.
\paragraph{Tačkaste ocene parametara}
Statistika koja ima konkretnu brojčanu vrednost naziva se tačkasta
ocena za nepoznati parametar teorijske raspodele.
Tačkaste ocene u slučaju populacije sa normalnom raspodelom su uzoračka
srednja vrednost i uzoračka disperzija.
~
\textbf{Mere centralne tendencije}
~
Mere centralne tendencije su mod, medijana i aritmetička sredina koje
predstavljaju središnje, najčešće i prosečne vrednosti uzorka. U nekim
naučnim disciplinama se kao mere centralne tendencije koriste još
geometrijska sredina i harmonijska sredina.
Za uzorak $x_{1,}x_{2,}$..., $x_{n}$ obima $n$ aritmetička sredina
je:
\begin{equation}
\overline{x}=\frac{1}{n}{\displaystyle \sum_{i=1}^{n}x_{i}}\label{eq:aritmeticka sredina}
\end{equation}
Kao tačkasta ocena srednje vrednosti populacije uzima se aritmetička
sredina uzorka, pošto ona prema metodi maksimalne verovatnoće predstavlja
najverodostojniju ocenu srednje vrednosti populacije i generalno se
usvaja kao uzoračka srednja vrednost, bez obzira na tip raspodele,
odnosno $\mu_{\bar{x}}=\mu$ sa standardnim odstupanjem $\sigma_{\bar{x}}=\sigma/\sqrt{n}$
koja se još naziva i standardna greška statistike.
Pošto je uzoračka srednja vrednost slučajna veličina, ona ima neku
svoju raspodelu koja ne zavisi od zakona raspodele slučajne promenljive.
U slučaju uzoraka obima $n$ uzetih iz bilo kakve raspodele se srednjom
vrednošću $\mu_{x}$ i standardnim odstupanjem $\sigma_{x}$, raspodela
uzoračke srednje vrednosti teži normalnoj raspodeli $\mathcal{N}\left(\mu_{x},\sigma_{x}/\sqrt{n}\right)$,
kada obim uzorka $n$ neograničeno raste \cite{Omorjan2009}.
~
\textbf{Mere varijacije}
~
Varijacija je rasipanje neke karakteristike oko srednje vrednosti,
odnosno pokazatelj kako se vrednosti grupišu oko centralne, srednje
vrednosti. Postoje različiti pokazatelji mere varijacija, kao što
su rang (engl. \textit{range}) ili interval varijacije, srednje apsolutno
odstupanje, disperzija (engl. \textit{variance}), standardno odstupanje
(engl. \textit{standard deviation}). Disperzija je najšire prihvaćeni
pokazatelj varijacije koja predstavlja srednju vrednost kvadrata odstupanja
vrednosti od srednje vrednosti.
Za uzorak $x_{1,}x_{2,}$..., $x_{n}$ obima $n$ disperzija uzorka
je:
\[
s^{2}=\sigma_{x}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}
\]
Standardno odstupanje je pozitivna vrednost kvadratnog korena disperzije:
\[
s=\sigma_{x}=\sqrt{\sigma_{x}^{2}}
\]
Iako je prema metodu maksimalne verovatnoće najverodostojnija ocena
disperzije srednji kvadrat odstupanja pojedinih vrednosti iz uzorka
od aritmetičke sredine uzorka, ona je pristrasna, odnosno necentrirana,
te za tačkastu ocenu disprezije, odnosno za uzoračku disperziju se
koristi statistika, tkz. korigovana disperzija $s^{2}$:
\begin{equation}
s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\label{eq:korigovanadisp}
\end{equation}
gde vrednost $n-1$ predstavlja broj stepeni slobode $d=n-k$. Broj
stepeni slobode $d$ je jednak razlici između obima uzorka $n$ i
broja prisutnih veza $k$ između podataka, odnosno broja ostalih parametara
koji figurišu u proračunu posmatranog parametra.
U statističkoj kontroli procesa zbog jednostavnosti izračunavanja
za ocenu standardne devijacije populacije u slučaju kada je broj uzoraka
$n\leqslant6$, koristi se metod raspona (engl.\textit{ range method}),
gde je:
\begin{equation}
R=max(x_{i})-min(x_{i})=x_{max}-x_{min}\label{eq:range}
\end{equation}
a $W=R/\sigma$ relativni raspon. Srednja vrednost relativnog raspona
$W$ je konstanta $d_{2}$ i zavisi od obima uzoraka, te je tačkasta
ocena standardne devijacije populacije sa normalnom raspodelom:
\begin{equation}
\hat{\sigma}=\frac{R}{d_{2}}\label{eq:Rd2}
\end{equation}
Kao nepristrasna ocena standardne devijacije u slučaju kada je broj
uzoraka $2\leqslant n\leqslant25$, koristi se uzoračko standardno
odstupanje računata kao:
\begin{equation}
\hat{\sigma}=\frac{s}{c_{4}}\label{eq:sc4}
\end{equation}
gde su $c_{4}$ i $d_{2}$ tabelarne vrednosti koje zavise od broja
uzoraka \cite{Montgomery2009}.
Pošto je uzoračka disperzija slučajna veličina, ona ima neku svoju
raspodelu. Ukoliko su uzorci obima $n$ uzeti iz populacije sa normalnom
raspodelom tada važi da statistika
\[
\chi^{2}=\frac{(n-1)S^{2}}{\sigma^{2}}
\]
ima $\chi^{2}$ raspodelu sa brojem stepeni slodbode $d=n-1$, jednakom
broju stepeni slobode sa kojim se računa vrednost statistike $S^{2}$
kao ocena disperzije populacije, $\sigma^{2}$.
\paragraph{Intervalne ocene parametara}
Tačkaste ocene parametara kao slučajne promenljive ne daju potpunu
informaciju o karakteristikama populacije, one se rasipaju oko neke
srednje vrednosti, te je potrebno definisati određeni interval koji
će sa određenom verovatnoćom sadržati tačnu vrednost parametra. Interval
nazivamo intervalom poverenja ili pouzdanosti, sa nivoom pouzdanosti
ili poverenja $\gamma$ ukoliko sa unapred zadatom verovatnoćom $\gamma$
sadrži tačnu vrednost parametra, a verovatnoća $\alpha=1-\gamma$
se naziva rizik, koji predstavlja verovatnoću da tačna vrednost parametra
bude izvan procenjenog intervala.
~
\textbf{Intervalna ocena srednje vrednosti}
~
\textbf{Pri poznatoj disperziji populacije} sa normalnom raspodelom
$\mathcal{N}(\mu,\sigma)$ uzoračka srednja vrednost ima raspodelu
$\mathcal{N}(\mu,\frac{\sigma}{\sqrt{n}})$ a interval pouzdanosti
sa nivoom pouzdanosti $\gamma=1-\alpha$, za srednju vrednost populacije
$\mu$ je:
\[
\mu=\overline{x}\pm z_{\alpha}\frac{\sigma}{\sqrt{n}}
\]
gde $z_{\alpha}$ predstavlja koeficijent pouzdanosti.
U slučaju velikih uzoraka gde je $n\geqslant30$ primenljiva je aproksimacija
da je:
\[
s^{2}=(\sigma^{2})^{*}=\sigma^{2}
\]
te se \textbf{za veće uzorke iz populacije sa nepoznatom disperzijom}
bez obzira na tip raspodele interval poverenja može aproksimirati
intervalom:
\begin{equation}
\mu=\overline{x}\pm z_{\alpha}\frac{s}{\sqrt{n}}\label{eq:intocenasrednjvr}
\end{equation}
\textbf{Pri nepoznatoj disperziji populacije} i ako uzorak nije velik
$n<30$ određivanje intervala pouzdanosti srednje vrednosti populacije
sa normalnom raspodelom $\mathcal{N}(\mu,\sigma)$ se zasniva na Studentovoj
ili $t-$raspodeli. Tada statistika
\[
T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\overline{X}-\mu}{S_{\overline{x}}}
\]
gde $S$ dobijen iz korigovane uzoračke disperzije sa brojem stepeni
slobode $n-1$ ima Studentovu ili $t$-raspodelu sa brojem stepeni
slobode jednak broju stepeni slobode sa kojim je računata ocena disperzije,
odnosno uzoračka disperzija. Prema tome interval poverenja za srednju
vrednost normalne raspodele bez poznate disperzije populacije, $\mu$dobijamo:
\begin{equation}
\mu=\overline{x}\pm t_{d,\alpha}\frac{s}{\sqrt{n}}\label{eq:traspodela}
\end{equation}
gde je $t_{d,\alpha}$ koeficijent pouzdanosti.
~
\textbf{Intervalne ocene disperzije}
~
Ukoliko se uzoračka disperzija $s^{2}$ računa sa brojem stepeni slobode
$d=n-1$ iz uzorka obima $n$ uzete iz populacije sa normalnom raspodelom,
tada statistika
\[
\chi^{2}=\frac{dS^{2}}{\sigma^{2}},\;d=n-1
\]
ima $\chi^{2}$ raspodelu sa $d$ stepeni slobode, jednak broju stepeni
slobode sa kojim je izračunata uzoračka disperzija. Prema tome interval
pouzdanosti za disperziju sa nivoom pouzdanosti $\gamma=1-\alpha$:
\begin{equation}
\frac{ds^{2}}{\chi_{d,\alpha/2}^{2}}<\sigma^{2}<\frac{ds^{2}}{\chi_{d,1-\alpha/2}^{2}}\label{eq:hikvadrat}
\end{equation}
gde su $\chi_{d,1-\alpha/2}^{2},\chi_{d,\alpha/2}^{2}$ koeficijenti
poverenja \cite{Montgomery2009,Omorjan2009}.
\subsubsection{Testiranje statističkih hipoteza}