Aylardır COVID19 ile yatıp kalkıyoruz. Her gün televizyondan, Twitter'dan sağlık bakanımızın yayınladığı verileri görüyor ve inceleyip kendimizce yorumluyoruz. Ancak bu veriler, aynı zamanda temel istatistik bilgilerimizi gözden geçirmek, matematiksel modellerin nasıl kurulduğuna bir bakış atmak ve bilimin neden önemli olduğunu daha iyi anlamak için ilginç ve öğretici bir fırsat da sunuyor!Bu yazıda 27 Mart tarihindeki verilerden 17 Hazirana kadar olan istatistikler, MATLAB kullanılarak işlenmiştir. Ancak şuna dikkatinizi çekeriz: Burada veriler genel geçer kabul gören epidemiyolojik modeller çerçevesinde incelenmemektedir ve sadece bir "veri seti" olarak görülmekte, bunun üzerine sanki hiç epidemiyolojik modelimiz yokmuş da sıfırdan bir model geliştirebilir miyiz, bunu sorguluyormuşuz gibi ele alınmaktadır. Bu konuya sonuç kısmında daha detaylı döneceğiz; fakat internette görebileceğiniz "salgın modellerinin" birçoğunun akademik temelden yoksun olduğunu ve bu tarz uyarılar konmaksızın paylaşıldığını hatırlatmak isteriz. Tekrar etmek gerekirse burada göreceğiniz, epidemiyolojik modeller kullanılmaksızın, bir veri setinin çeşitli istatistiksel analizlerle incelenip, sıfırdan bir model oluşturulması örneğidir. Bu model sınırlı olmak zorundadır; çünkü epidemiyolojik faktörler (örneğin bireyler arası etkileşimler, virüsün bulaşma dinamikleri, vb.) göz ardı edilmekte, ham verilere odaklanılmaktadır. Üstelik sadece Türkiye verileri kullanılmaktadır - ki tek bir ülkenin dinamiklerinin tüm Dünya'daki salgın modellerini yansıtması mümkün değildir. Bu nedenle bunu öğretici bir pratik olarak görmeli, gerçek bir epidemiyolojik model olarak yorumlamamalısınız.Örneğin bu analizi yaptığımız sıralarda ülkelerin birçoğu katı karantina ve sosyal mesafelendirme önlemlerini gevşetmekteler. Bu durum, incelediğimiz tarih aralığındaki gidişatın bu noktadan sonra tamamen değişmesi anlamına gelmektedir. Bu durumda, buradaki analizler çerçevesinde geçmişe bakarak gelecekle ilgili tahminde bulunmak imkansız olacaktır; çünkü ülkelerin salgına verdikleri tepki değişmekte, bu da dinamikleri alt üst etmektedir. Bu nedenle internette gördüğünüz gelecek tahminlerine çok temkinli yaklaşmanız ve alt yapısını sorgulamanız gerekmektedir.Öte yandan elbette bu, ham istatistiki analizlerin bize salgınla ilgili hiçbir şey öğretemeyeceği anlamına gelmiyor. En basitinden, denk gelebileceğiniz birçok analizin ne kadar teknik gibi gözüküp de, ne kadar yalın gerçekleri atladığını fark etmenize yarayabilir. Gelin öncelikle, yazıda kullanılacak bazı kavramlardan bahsedelim.Örneklem Ortalaması, Standart Sapma ve VaryansElimizde X_1,..,X_nX1,..,Xn veri grubu olsun:Bu veri grubunun örneklem ortalaması\(\overline{X}=\frac{\Sigma_{i=1}^nX_i}{n}\) ile verilir.Bu veri grubunun örneklem varyansı \(S^2=\frac{1}{n-1}\Sigma_{i=1}^n(\overline{X}-X_i)^2\) ile verilir.Öneklem standart sapması ise S ile verilir; yani varyansın kareköküdür.Not: İstatistikte örneklem ortalaması ve varyansı gibi bilgilerden bütün popülasyonun ortalaması ile varyansını bir miktar hata payı ile tahmin etmeye çalışırız. Bu yazıda da yapacağımız şey aslında bu.Normal DağılımÜniversitede ders gören okuyucular bu dağılıma çan eğrisi ismiyle aşinadır. Doğadaki birçok şeyin modellenmesinde kullanılır. Ortalaması μ varyansı \(\sigma^2\) olan normal dağılım \(N(\mu,\sigma^2)\)ile gösterilir. Normal dağılımın grafiği aşağıdaki görseldeki gibidir: