Statistička analiza

Zadatak statističke analize je da na osnovu podataka iz uzorka izvede neke zaključke o osnovnom skupu. Faze statističke analize su: statističko posmatranje (plansko prikupljanje podataka), sređivanje podataka (tabelarno i grafičko prikazivanje), obrada i analiza rezultata (matematička obrada podataka i njihovo tumačenje) \cite{Omorjan2009}.

Osnovni zadaci statistike su da se definiše raspodela verovatnoće ili gustina raspodele posmatrane karakteristike u proizvodnom procesu, izračunaju tačkaste i intervalne ocene parametara raspodele i da na osnovu ovih podataka sa određenom pouzdanošću definišu kvantitativne karakteristike procesa.

U cilju opisa proizvodnog procesa, odnosno numeričkog izražavanja prisutnih varijacija u njemu se koriste različite statističke tehnike. Deskriptivne statističke tehnike kao što su numeričko, tabelarno i grafičko prikazivanje sumiranih podataka služe za jednostavno prikazivanje informacija dobijenih iz uzoraka, dok tehnike statističkog zaključivanja imaju za cilj da se na osnovu podataka deskriptivne statističke tehnike donesu zaključci o populaciji iz kojih su uzeti uzorci. Uopšteno termin statistika se korisisti kao kvantifikacija svojstva uzorka, dok je parametar karakteristika populacije.

Ukoliko su uzorci uzeti iz proizvodnog procesa reprezentativni uzorci, ne razlikuju se značajno od strukture osnovnog skupa, odnosno da su slučajni uzorci i da je šansa pojavljivanja njegovih elemenata u populaciji jednak i nezavisan od ostalih, tada se na osnovu statističkih obeležja uzorka mogu doneti zaključci o osnovnom skupu, u ovom slučaju o proizvodnom procesu tj. moguće je definisati parametre teorijske raspodele. Ocena parametra teorijske raspodele je funkcija uzorka, za koju se uopšte koristi termin statistika ili uzorački parametar \cite{Omorjan2009}.

Tačkaste ocene parametara

Statistika koja ima konkretnu brojčanu vrednost naziva se tačkasta ocena za nepoznati parametar teorijske raspodele.

Tačkaste ocene u slučaju populacije sa normalnom raspodelom su uzoračka srednja vrednost i uzoračka disperzija.

Mere centralne tendencije

Mere centralne tendencije su mod, medijana i aritmetička sredina koje predstavljaju središnje, najčešće i prosečne vrednosti uzorka. U nekim naučnim disciplinama se kao mere centralne tendencije koriste još geometrijska sredina i harmonijska sredina.

Za uzorak \(x_{1,}x_{2,}\)…, \(x_{n}\) obima \(n\) aritmetička sredina je:

\begin{equation} \label{eq:aritmetickasredina} \label{eq:aritmetickasredina}\overline{x}=\frac{1}{n}{\displaystyle\sum_{i=1}^{n}x_{i}}\\ \end{equation}

Kao tačkasta ocena srednje vrednosti populacije uzima se aritmetička sredina uzorka, pošto ona prema metodi maksimalne verovatnoće predstavlja najverodostojniju ocenu srednje vrednosti populacije i generalno se usvaja kao uzoračka srednja vrednost, bez obzira na tip raspodele, odnosno \(\mu_{\bar{x}}=\mu\) sa standardnim odstupanjem \(\sigma_{\bar{x}}=\sigma/\sqrt{n}\) koja se još naziva i standardna greška statistike.

Pošto je uzoračka srednja vrednost slučajna veličina, ona ima neku svoju raspodelu koja ne zavisi od zakona raspodele slučajne promenljive. U slučaju uzoraka obima \(n\) uzetih iz bilo kakve raspodele se srednjom vrednošću \(\mu_{x}\) i standardnim odstupanjem \(\sigma_{x}\), raspodela uzoračke srednje vrednosti teži normalnoj raspodeli \(\mathcal{N}\left(\mu_{x},\sigma_{x}/\sqrt{n}\right)\), kada obim uzorka \(n\) neograničeno raste \cite{Omorjan2009}.

Mere varijacije

Varijacija je rasipanje neke karakteristike oko srednje vrednosti, odnosno pokazatelj kako se vrednosti grupišu oko centralne, srednje vrednosti. Postoje različiti pokazatelji mere varijacija, kao što su rang (engl. range) ili interval varijacije, srednje apsolutno odstupanje, disperzija (engl. variance), standardno odstupanje (engl. standard deviation). Disperzija je najšire prihvaćeni pokazatelj varijacije koja predstavlja srednju vrednost kvadrata odstupanja vrednosti od srednje vrednosti.

Za uzorak \(x_{1,}x_{2,}\)…, \(x_{n}\) obima \(n\) disperzija uzorka je:

\begin{equation} s^{2}=\sigma_{x}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\nonumber \\ \end{equation}

Standardno odstupanje je pozitivna vrednost kvadratnog korena disperzije:

\begin{equation} s=\sigma_{x}=\sqrt{\sigma_{x}^{2}}\nonumber \\ \end{equation}

Iako je prema metodu maksimalne verovatnoće najverodostojnija ocena disperzije srednji kvadrat odstupanja pojedinih vrednosti iz uzorka od aritmetičke sredine uzorka, ona je pristrasna, odnosno necentrirana, te za tačkastu ocenu disprezije, odnosno za uzoračku disperziju se koristi statistika, tkz. korigovana disperzija \(s^{2}\):

\begin{equation} \label{eq:korigovanadisp} \label{eq:korigovanadisp}s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\\ \end{equation}

gde vrednost \(n-1\) predstavlja broj stepeni slobode \(d=n-k\). Broj stepeni slobode \(d\) je jednak razlici između obima uzorka \(n\) i broja prisutnih veza \(k\) između podataka, odnosno broja ostalih parametara koji figurišu u proračunu posmatranog parametra.

U statističkoj kontroli procesa zbog jednostavnosti izračunavanja za ocenu standardne devijacije populacije u slučaju kada je broj uzoraka \(n\leqslant 6\), koristi se metod raspona (engl. range method), gde je:

\begin{equation} \label{eq:range} \label{eq:range}R=max(x_{i})-min(x_{i})=x_{max}-x_{min}\\ \end{equation}

a \(W=R/\sigma\) relativni raspon. Srednja vrednost relativnog raspona \(W\) je konstanta \(d_{2}\) i zavisi od obima uzoraka, te je tačkasta ocena standardne devijacije populacije sa normalnom raspodelom:

\begin{equation} \label{eq:Rd2} \label{eq:Rd2}\hat{\sigma}=\frac{R}{d_{2}}\\ \end{equation}

Kao nepristrasna ocena standardne devijacije u slučaju kada je broj uzoraka \(2\leqslant n\leqslant 25\), koristi se uzoračko standardno odstupanje računata kao:

\begin{equation} \label{eq:sc4} \label{eq:sc4}\hat{\sigma}=\frac{s}{c_{4}}\\ \end{equation}

gde su \(c_{4}\) i \(d_{2}\) tabelarne vrednosti koje zavise od broja uzoraka \cite{Montgomery2009}.

Pošto je uzoračka disperzija slučajna veličina, ona ima neku svoju raspodelu. Ukoliko su uzorci obima \(n\) uzeti iz populacije sa normalnom raspodelom tada važi da statistika

\begin{equation} \chi^{2}=\frac{(n-1)S^{2}}{\sigma^{2}}\nonumber \\ \end{equation}

ima \(\chi^{2}\) raspodelu sa brojem stepeni slodbode \(d=n-1\), jednakom broju stepeni slobode sa kojim se računa vrednost statistike \(S^{2}\) kao ocena disperzije populacije, \(\sigma^{2}\).

Intervalne ocene parametara

Tačkaste ocene parametara kao slučajne promenljive ne daju potpunu informaciju o karakteristikama populacije, one se rasipaju oko neke srednje vrednosti, te je potrebno definisati određeni interval koji će sa određenom verovatnoćom sadržati tačnu vrednost parametra. Interval nazivamo intervalom poverenja ili pouzdanosti, sa nivoom pouzdanosti ili poverenja \(\gamma\) ukoliko sa unapred zadatom verovatnoćom \(\gamma\) sadrži tačnu vrednost parametra, a verovatnoća \(\alpha=1-\gamma\) se naziva rizik, koji predstavlja verovatnoću da tačna vrednost parametra bude izvan procenjenog intervala.

Intervalna ocena srednje vrednosti

Pri poznatoj disperziji populacije sa normalnom raspodelom \(\mathcal{N}(\mu,\sigma)\) uzoračka srednja vrednost ima raspodelu \(\mathcal{N}(\mu,\frac{\sigma}{\sqrt{n}})\) a interval pouzdanosti sa nivoom pouzdanosti \(\gamma=1-\alpha\), za srednju vrednost populacije \(\mu\) je:

\begin{equation} \mu=\overline{x}\pm z_{\alpha}\frac{\sigma}{\sqrt{n}}\nonumber \\ \end{equation}

gde \(z_{\alpha}\) predstavlja koeficijent pouzdanosti.

U slučaju velikih uzoraka gde je \(n\geqslant 30\) primenljiva je aproksimacija da je:

\begin{equation} s^{2}=(\sigma^{2})^{*}=\sigma^{2}\nonumber \\ \end{equation}

te se za veće uzorke iz populacije sa nepoznatom disperzijom bez obzira na tip raspodele interval poverenja može aproksimirati intervalom:

\begin{equation} \label{eq:intocenasrednjvr} \label{eq:intocenasrednjvr}\mu=\overline{x}\pm z_{\alpha}\frac{s}{\sqrt{n}}\\ \end{equation}

Pri nepoznatoj disperziji populacije i ako uzorak nije velik \(n<30\) određivanje intervala pouzdanosti srednje vrednosti populacije sa normalnom raspodelom \(\mathcal{N}(\mu,\sigma)\) se zasniva na Studentovoj ili \(t-\)raspodeli. Tada statistika

\begin{equation} T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\overline{X}-\mu}{S_{\overline{x}}}\nonumber \\ \end{equation}

gde \(S\) dobijen iz korigovane uzoračke disperzije sa brojem stepeni slobode \(n-1\) ima Studentovu ili \(t\)-raspodelu sa brojem stepeni slobode jednak broju stepeni slobode sa kojim je računata ocena disperzije, odnosno uzoračka disperzija. Prema tome interval poverenja za srednju vrednost normalne raspodele bez poznate disperzije populacije, \(\mu\)dobijamo:

\begin{equation} \label{eq:traspodela} \label{eq:traspodela}\mu=\overline{x}\pm t_{d,\alpha}\frac{s}{\sqrt{n}}\\ \end{equation}

gde je \(t_{d,\alpha}\) koeficijent pouzdanosti.

Intervalne ocene disperzije

Ukoliko se uzoračka disperzija \(s^{2}\) računa sa brojem stepeni slobode \(d=n-1\) iz uzorka obima \(n\) uzete iz populacije sa normalnom raspodelom, tada statistika

\begin{equation} \chi^{2}=\frac{dS^{2}}{\sigma^{2}},\;d=n-1\nonumber \\ \end{equation}

ima \(\chi^{2}\) raspodelu sa \(d\) stepeni slobode, jednak broju stepeni slobode sa kojim je izračunata uzoračka disperzija. Prema tome interval pouzdanosti za disperziju sa nivoom pouzdanosti \(\gamma=1-\alpha\):

\begin{equation} \label{eq:hikvadrat} \label{eq:hikvadrat}\frac{ds^{2}}{\chi_{d,\alpha/2}^{2}}<\sigma^{2}<\frac{ds^{2}}{\chi_{d,1-\alpha/2}^{2}}\\ \end{equation}

gde su \(\chi_{d,1-\alpha/2}^{2},\chi_{d,\alpha/2}^{2}\) koeficijenti poverenja \cite{Montgomery2009,Omorjan2009}.