Radovan Omorjan added subsubsection_Statisti_ka_analiza_Zadatak__.tex  over 7 years ago

Commit id: 0d46bfd2a3b836f45717ee90e320bd734283f254

deletions | additions      

         

\subsubsection{Statistička analiza}  Zadatak statističke analize je da na osnovu podataka iz uzorka izvede  neke zaključke o osnovnom skupu. Faze statističke analize su: statističko  posmatranje (plansko prikupljanje podataka), sređivanje podataka (tabelarno  i grafičko prikazivanje), obrada i analiza rezultata (matematička  obrada podataka i njihovo tumačenje) \cite{Omorjan2009}.  Osnovni zadaci statistike su da se definiše raspodela verovatnoće  ili gustina raspodele posmatrane karakteristike u proizvodnom procesu,  izračunaju tačkaste i intervalne ocene parametara raspodele i da na  osnovu ovih podataka sa određenom pouzdanošću definišu kvantitativne  karakteristike procesa.   U cilju opisa proizvodnog procesa, odnosno numeričkog izražavanja  prisutnih varijacija u njemu se koriste različite statističke tehnike.  Deskriptivne statističke tehnike kao što su numeričko, tabelarno i  grafičko prikazivanje sumiranih podataka služe za jednostavno prikazivanje  informacija dobijenih iz uzoraka, dok tehnike statističkog zaključivanja  imaju za cilj da se na osnovu podataka deskriptivne statističke tehnike  donesu zaključci o populaciji iz kojih su uzeti uzorci. Uopšteno termin  statistika se korisisti kao kvantifikacija svojstva uzorka, dok je  parametar karakteristika populacije.  Ukoliko su uzorci uzeti iz proizvodnog procesa reprezentativni uzorci,  ne razlikuju se značajno od strukture osnovnog skupa, odnosno da su  slučajni uzorci i da je šansa pojavljivanja njegovih elemenata u populaciji  jednak i nezavisan od ostalih, tada se na osnovu statističkih obeležja  uzorka mogu doneti zaključci o osnovnom skupu, u ovom slučaju o proizvodnom  procesu tj. moguće je definisati parametre teorijske raspodele. Ocena  parametra teorijske raspodele je funkcija uzorka, za koju se uopšte  koristi termin statistika ili uzorački parametar \cite{Omorjan2009}.  \paragraph{Tačkaste ocene parametara}  Statistika koja ima konkretnu brojčanu vrednost naziva se tačkasta  ocena za nepoznati parametar teorijske raspodele.  Tačkaste ocene u slučaju populacije sa normalnom raspodelom su uzoračka  srednja vrednost i uzoračka disperzija.   ~  \textbf{Mere centralne tendencije}  ~  Mere centralne tendencije su mod, medijana i aritmetička sredina koje  predstavljaju središnje, najčešće i prosečne vrednosti uzorka. U nekim  naučnim disciplinama se kao mere centralne tendencije koriste još  geometrijska sredina i harmonijska sredina.   Za uzorak $x_{1,}x_{2,}$..., $x_{n}$ obima $n$ aritmetička sredina  je:  \begin{equation}  \overline{x}=\frac{1}{n}{\displaystyle \sum_{i=1}^{n}x_{i}}\label{eq:aritmeticka sredina}  \end{equation}  Kao tačkasta ocena srednje vrednosti populacije uzima se aritmetička  sredina uzorka, pošto ona prema metodi maksimalne verovatnoće predstavlja  najverodostojniju ocenu srednje vrednosti populacije i generalno se  usvaja kao uzoračka srednja vrednost, bez obzira na tip raspodele,  odnosno $\mu_{\bar{x}}=\mu$ sa standardnim odstupanjem $\sigma_{\bar{x}}=\sigma/\sqrt{n}$  koja se još naziva i standardna greška statistike.  Pošto je uzoračka srednja vrednost slučajna veličina, ona ima neku  svoju raspodelu koja ne zavisi od zakona raspodele slučajne promenljive.  U slučaju uzoraka obima $n$ uzetih iz bilo kakve raspodele se srednjom  vrednošću $\mu_{x}$ i standardnim odstupanjem $\sigma_{x}$, raspodela  uzoračke srednje vrednosti teži normalnoj raspodeli $\mathcal{N}\left(\mu_{x},\sigma_{x}/\sqrt{n}\right)$,  kada obim uzorka $n$ neograničeno raste \cite{Omorjan2009}.  ~  \textbf{Mere varijacije}  ~  Varijacija je rasipanje neke karakteristike oko srednje vrednosti,  odnosno pokazatelj kako se vrednosti grupišu oko centralne, srednje  vrednosti. Postoje različiti pokazatelji mere varijacija, kao što  su rang (engl. \textit{range}) ili interval varijacije, srednje apsolutno  odstupanje, disperzija (engl. \textit{variance}), standardno odstupanje  (engl. \textit{standard deviation}). Disperzija je najšire prihvaćeni  pokazatelj varijacije koja predstavlja srednju vrednost kvadrata odstupanja  vrednosti od srednje vrednosti.  Za uzorak $x_{1,}x_{2,}$..., $x_{n}$ obima $n$ disperzija uzorka  je:  \[  s^{2}=\sigma_{x}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}  \]  Standardno odstupanje je pozitivna vrednost kvadratnog korena disperzije:  \[  s=\sigma_{x}=\sqrt{\sigma_{x}^{2}}  \]  Iako je prema metodu maksimalne verovatnoće najverodostojnija ocena  disperzije srednji kvadrat odstupanja pojedinih vrednosti iz uzorka  od aritmetičke sredine uzorka, ona je pristrasna, odnosno necentrirana,  te za tačkastu ocenu disprezije, odnosno za uzoračku disperziju se  koristi statistika, tkz. korigovana disperzija $s^{2}$:  \begin{equation}  s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\label{eq:korigovanadisp}  \end{equation}  gde vrednost $n-1$ predstavlja broj stepeni slobode $d=n-k$. Broj  stepeni slobode $d$ je jednak razlici između obima uzorka $n$ i  broja prisutnih veza $k$ između podataka, odnosno broja ostalih parametara  koji figurišu u proračunu posmatranog parametra.  U statističkoj kontroli procesa zbog jednostavnosti izračunavanja  za ocenu standardne devijacije populacije u slučaju kada je broj uzoraka  $n\leqslant6$, koristi se metod raspona (engl.\textit{ range method}),  gde je:  \begin{equation}  R=max(x_{i})-min(x_{i})=x_{max}-x_{min}\label{eq:range}  \end{equation}  a $W=R/\sigma$ relativni raspon. Srednja vrednost relativnog raspona  $W$ je konstanta $d_{2}$ i zavisi od obima uzoraka, te je tačkasta  ocena standardne devijacije populacije sa normalnom raspodelom:  \begin{equation}  \hat{\sigma}=\frac{R}{d_{2}}\label{eq:Rd2}  \end{equation}  Kao nepristrasna ocena standardne devijacije u slučaju kada je broj  uzoraka $2\leqslant n\leqslant25$, koristi se uzoračko standardno  odstupanje računata kao:  \begin{equation}  \hat{\sigma}=\frac{s}{c_{4}}\label{eq:sc4}  \end{equation}  gde su $c_{4}$ i $d_{2}$ tabelarne vrednosti koje zavise od broja  uzoraka \cite{Montgomery2009}.  Pošto je uzoračka disperzija slučajna veličina, ona ima neku svoju  raspodelu. Ukoliko su uzorci obima $n$ uzeti iz populacije sa normalnom  raspodelom tada važi da statistika   \[  \chi^{2}=\frac{(n-1)S^{2}}{\sigma^{2}}  \]  ima $\chi^{2}$ raspodelu sa brojem stepeni slodbode $d=n-1$, jednakom  broju stepeni slobode sa kojim se računa vrednost statistike $S^{2}$  kao ocena disperzije populacije, $\sigma^{2}$.   \paragraph{Intervalne ocene parametara}  Tačkaste ocene parametara kao slučajne promenljive ne daju potpunu  informaciju o karakteristikama populacije, one se rasipaju oko neke  srednje vrednosti, te je potrebno definisati određeni interval koji  će sa određenom verovatnoćom sadržati tačnu vrednost parametra. Interval  nazivamo intervalom poverenja ili pouzdanosti, sa nivoom pouzdanosti  ili poverenja $\gamma$ ukoliko sa unapred zadatom verovatnoćom $\gamma$  sadrži tačnu vrednost parametra, a verovatnoća $\alpha=1-\gamma$  se naziva rizik, koji predstavlja verovatnoću da tačna vrednost parametra  bude izvan procenjenog intervala.  ~  \textbf{Intervalna ocena srednje vrednosti}  ~  \textbf{Pri poznatoj disperziji populacije} sa normalnom raspodelom  $\mathcal{N}(\mu,\sigma)$ uzoračka srednja vrednost ima raspodelu  $\mathcal{N}(\mu,\frac{\sigma}{\sqrt{n}})$ a interval pouzdanosti  sa nivoom pouzdanosti $\gamma=1-\alpha$, za srednju vrednost populacije  $\mu$ je:  \[  \mu=\overline{x}\pm z_{\alpha}\frac{\sigma}{\sqrt{n}}  \]  gde $z_{\alpha}$ predstavlja koeficijent pouzdanosti.  U slučaju velikih uzoraka gde je $n\geqslant30$ primenljiva je aproksimacija  da je:  \[  s^{2}=(\sigma^{2})^{*}=\sigma^{2}  \]  te se \textbf{za veće uzorke iz populacije sa nepoznatom disperzijom}  bez obzira na tip raspodele interval poverenja može aproksimirati  intervalom:  \begin{equation}  \mu=\overline{x}\pm z_{\alpha}\frac{s}{\sqrt{n}}\label{eq:intocenasrednjvr}  \end{equation}  \textbf{Pri nepoznatoj disperziji populacije} i ako uzorak nije velik  $n<30$ određivanje intervala pouzdanosti srednje vrednosti populacije  sa normalnom raspodelom $\mathcal{N}(\mu,\sigma)$ se zasniva na Studentovoj  ili $t-$raspodeli. Tada statistika  \[  T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\overline{X}-\mu}{S_{\overline{x}}}  \]  gde $S$ dobijen iz korigovane uzoračke disperzije sa brojem stepeni  slobode $n-1$ ima Studentovu ili $t$-raspodelu sa brojem stepeni  slobode jednak broju stepeni slobode sa kojim je računata ocena disperzije,  odnosno uzoračka disperzija. Prema tome interval poverenja za srednju  vrednost normalne raspodele bez poznate disperzije populacije, $\mu$dobijamo:  \begin{equation}  \mu=\overline{x}\pm t_{d,\alpha}\frac{s}{\sqrt{n}}\label{eq:traspodela}  \end{equation}  gde je $t_{d,\alpha}$ koeficijent pouzdanosti.  ~  \textbf{Intervalne ocene disperzije}  ~  Ukoliko se uzoračka disperzija $s^{2}$ računa sa brojem stepeni slobode  $d=n-1$ iz uzorka obima $n$ uzete iz populacije sa normalnom raspodelom,  tada statistika  \[  \chi^{2}=\frac{dS^{2}}{\sigma^{2}},\;d=n-1  \]  ima $\chi^{2}$ raspodelu sa $d$ stepeni slobode, jednak broju stepeni  slobode sa kojim je izračunata uzoračka disperzija. Prema tome interval  pouzdanosti za disperziju sa nivoom pouzdanosti $\gamma=1-\alpha$:   \begin{equation}  \frac{ds^{2}}{\chi_{d,\alpha/2}^{2}}<\sigma^{2}<\frac{ds^{2}}{\chi_{d,1-\alpha/2}^{2}}\label{eq:hikvadrat}  \end{equation}  gde su $\chi_{d,1-\alpha/2}^{2},\chi_{d,\alpha/2}^{2}$ koeficijenti  poverenja \cite{Montgomery2009,Omorjan2009}.