Tanımlayıcı İstatistik Nedir?
Bir üretim hattından 20 adet mil ölçümü aldınız. Elinizde 20 sayı var. Bu sayılara bakıp süreci anlamanız, karar vermeniz gerekiyor. Ama ham veriye bakarak hiçbir şey görmüyorsunuz -- sadece rakamlar. Bu 20 ölçümün ortalamasını, dağılımını, ne kadar değişkenlik gösterdiğini, tipik değerinin ne olduğunu tek tek anlatan özet bilgilere ihtiyacınız var.
Tanımlayıcı istatistik (betimsel istatistik), toplanan veriyi özetleyen, düzenleyen ve anlaşılır hale getiren istatistik dalıdır. Veriyi olduğu gibi tanıtır; genelleme yapmaz, çıkarım yapmaz, tahmin yürütmez. Tek amacı şu soruya cevap vermektir: Bu veri seti neye benziyor?
Kalite mühendisliğinde, üretim süreçlerinde, laboratuvar analizlerinde ve araştırma projelerinde ilk adım her zaman tanımlayıcı istatistiktir. SPC (İstatistiksel Proses Kontrol) çalışmalarından önce, hipotez testi yapmadan önce, herhangi bir çıkarımsal analiz başlatmadan önce verinizi tanımlayıcı istatistik araçlarıyla tanımak zorundasınız.
Bu rehberde, tek bir veri seti üzerinden tüm tanımlayıcı istatistik kavramlarını adım adım işleyeceğiz. Formül ezberlemek yerine her hesaplamayı bu veri setiyle birlikte yapacak ve yorumlayacaksınız.
Örnek Veri Seti: 20 Mil Çapı Ölçümü
Bu rehberdeki tüm hesaplamaları aşağıdaki veri seti üzerinden yapacağız. Bu veri, bir CNC torna tezgahından alınan 20 adet mil çapı ölçümüdür (birim: mm, hedef çap: 25.00 mm).
| Ölçüm No | Değer (mm) | Ölçüm No | Değer (mm) |
|---|---|---|---|
| 1 | 25.02 | 11 | 24.97 |
| 2 | 24.98 | 12 | 25.05 |
| 3 | 25.04 | 13 | 25.01 |
| 4 | 25.01 | 14 | 24.99 |
| 5 | 24.96 | 15 | 25.03 |
| 6 | 25.03 | 16 | 25.00 |
| 7 | 25.00 | 17 | 24.98 |
| 8 | 24.99 | 18 | 25.06 |
| 9 | 25.07 | 19 | 25.02 |
| 10 | 25.01 | 20 | 24.97 |
Sıralanmış hali: 24.96, 24.97, 24.97, 24.98, 24.98, 24.99, 24.99, 25.00, 25.00, 25.01, 25.01, 25.01, 25.02, 25.02, 25.03, 25.03, 25.04, 25.05, 25.06, 25.07
Bu 20 ölçüm üzerinden merkezi eğilim, yayılma, konum ve şekil ölçülerinin hepsini hesaplayacağız.
Tanımlayıcı İstatistik ve Çıkarımsal İstatistik Farkı
İstatistik iki ana dala ayrılır. Bu iki dal birbirini tamamlar ama amaçları farklıdır.
| Özellik | Tanımlayıcı İstatistik | Çıkarımsal İstatistik |
|---|---|---|
| Amaç | Veriyi özetlemek ve tanımlamak | Örneklemden popülasyona genelleme yapmak |
| Kapsam | Sadece eldeki veri seti | Tüm popülasyon hakkında çıkarım |
| Araçlar | Ortalama, medyan, standart sapma, grafikler | Hipotez testi, güvenilirlik aralığı, regresyon |
| Belirsizlik | Yok -- veriyi olduğu gibi rapor eder | Var -- hata payı ve güvenilirlik seviyesi belirtir |
| Örnek | "Bu 20 milin ortalama çapı 25.009 mm" | "Tüm üretim partisinin ortalama çapı %95 güvenle 24.99-25.03 mm aralığındadır" |
| Soru | "Bu veride ne var?" | "Bu veriden ne çıkarabiliriz?" |
| İlişki | Her zaman ilk adım | Tanımlayıcı istatistik temelinde yapılır |
Tanımlayıcı istatistik, çıkarımsal istatistiğin temeli ve ön koşuludur. Verinizi tanımadan çıkarım yapmaya çalışmak, haritaya bakmadan yola çıkmaya benzer.
Merkezi Eğilim Ölçüleri
Merkezi eğilim ölçüleri, veri setinin "tipik" veya "merkez" değerini gösteren istatistiklerdir. Üç temel ölçü vardır: ortalama, medyan ve mod.
Aritmetik Ortalama (Mean)
Tüm değerlerin toplamı, değer sayısına bölününce elde edilir.
Formül:
x̄ = (x₁ + x₂ + ... + xₙ) / n
Hesaplama (mil veri seti):
Toplam = 25.02 + 24.98 + 25.04 + 25.01 + 24.96 + 25.03 + 25.00 + 24.99 + 25.07 + 25.01 + 24.97 + 25.05 + 25.01 + 24.99 + 25.03 + 25.00 + 24.98 + 25.06 + 25.02 + 24.97
Toplam = 500.19
x̄ = 500.19 / 20 = 25.0095 mm
Yorum: Ortalama mil çapı 25.0095 mm olup hedef değer olan 25.00 mm'ye oldukça yakındır. Proses merkezi hedefe yakınsaktır.
Ortalama ne zaman kullanılır?
- Veri simetrik dağıldığında
- Aşırı (uç) değerler (outlier) olmadığında
- Sürekli verilerde
Ortalama ne zaman yanıltıcı olur?
- Çarpık dağılımlarda (gelir dağılımları gibi)
- Aşırı değer varsa (tek bir ölçüm ortalamayı ciddi şekilde kaydırabilir)
Medyan (Median)
Veriler küçükten büyüğe sıralandığında tam ortaya düşen değerdir. Veri sayısı çiftse ortadaki iki değerin ortalamasıdır.
Hesaplama (n = 20, çift sayı):
Sıralanmış veride 10. ve 11. değerler: 25.01 ve 25.01
Medyan = (25.01 + 25.01) / 2 = 25.01 mm
Yorum: Medyan 25.01 mm, ortalamaya (25.0095 mm) çok yakın. Bu durum verimizin yaklaşık simetrik dağıldığını gösterir.
Medyan ne zaman kullanılır?
- Çarpık dağılımlarda
- Aşırı değer varsa
- Sıra ölçeğindeki verilerde
Mod (Mode)
Veri setinde en sık tekrar eden değerdir.
Hesaplama: 25.01 değeri 3 kez tekrar etmektedir (ölçüm 4, 10, 13). Diğer hiçbir değer 3 kez tekrar etmez.
Mod = 25.01 mm
Yorum: En sık karşılaşılan ölçüm değeri 25.01 mm. Proses bu değeri en fazla üretmiştir.
Mod ne zaman kullanılır?
- Kategorik verilerde (en yaygın kusur türü gibi)
- Dağılımın tepe noktasını belirlemede
- Çok modlu (bimodal, multimodal) dağılımları tespitte
Ne Zaman Hangisini Kullanmalı?
| Durum | Önerilen Ölçü | Neden |
|---|---|---|
| Simetrik dağılım, aşırı değer yok | Ortalama | En hassas ölçüdür, tüm verileri kullanır |
| Çarpık dağılım veya aşırı değer var | Medyan | Aşırı değerden etkilenmez |
| Kategorik veri | Mod | Tek anlamlı seçenektir |
| Normal dağılım | Üçü de birbirine yakın | Simetri sayesinde üçü de merkezi gösterir |
| Çift tepeli dağılım | Mod (iki mod) | İki ayrı grubun varlığını gösterir |
Bizim mil verimizde ortalama (25.0095), medyan (25.01) ve mod (25.01) birbirine çok yakın. Bu durum verimizin yaklaşık simetrik ve normal dağıldığı yönünde güçlü bir işarettir.
Yayılma (Değişkenlik) Ölçüleri
Merkezi eğilim ölçüleri verinin merkezini gösterir. Ancak iki farklı prosesin ortalaması aynı olabilir ama değişkenlikleri tamamen farklı olabilir. Yayılma ölçüleri, verinin merkezden ne kadar uzakta yayıldığını gösterir.
Değişim Aralığı (Range)
En büyük değer ile en küçük değer arasındaki farktır.
Formül: R = x_max - x_min
Hesaplama: R = 25.07 - 24.96 = 0.11 mm
Yorum: Ölçümler arasındaki toplam yayılım 0.11 mm. Kolay hesaplanır ama sadece iki aşırı değere bağlıdır, aradaki dağılımı görmezden gelir.
Çeyrekler Arası Açıklık (IQR - Interquartile Range)
Verinin orta %50'sinin yayılma aralığıdır. Aşırı değerlere dayanıklıdır.
Hesaplama:
- Q1 (1. Çeyrek): Sıralanmış veride 5. ve 6. değerlerin ortalaması = (24.98 + 24.99) / 2 = 24.985
- Q3 (3. Çeyrek): Sıralanmış veride 15. ve 16. değerlerin ortalaması = (25.03 + 25.03) / 2 = 25.03
IQR = Q3 - Q1 = 25.03 - 24.985 = 0.045 mm
Yorum: Verinin orta %50'si sadece 0.045 mm'lik bir bant içinde. Range (0.11 mm) ile karşılaştırıldığında verinin büyük çoğunluğunun çok dar bir aralıkta yoğunlaştığını görüyoruz.
Varyans (Variance)
Her değerin ortalamadan farkının karelerinin ortalamasıdır. Dağılışın merkezden uzaklığını ölçer.
Örneklem varyansı formülü:
s² = Σ(xᵢ - x̄)² / (n - 1)
Hesaplama (adım adım):
- Her değerden ortalama (25.0095) çıkarılır
- Farkların karesi alınır
- Kareler toplanır
- (n-1) = 19'a bölünür
Birinci değer için: (25.02 - 25.0095)² = (0.0105)² = 0.00011025
Tüm kareler toplamı (hesaplanmış): 0.01589
s² = 0.01589 / 19 = 0.000836 mm²
Yorum: Varyans 0.000836 mm². Birim kareli olduğu için doğrudan yorumlanması zordur. Bu yüzden standart sapmaya dönüştürerek yorumlarız.
Standart Sapma (Standard Deviation)
Varyansın kareköküdür. Verinin ortalamadan ortalama uzaklığını gösterir, orijinal birim cinsinden ifade edilir.
Formül: s = √(s²)
Hesaplama:
s = √(0.000836) = 0.0289 mm
Yorum: Mil çaplarının ortalamadan tipik sapması yaklaşık 0.029 mm. Başka bir ifadeyle, üretilen millerin çaplarının büyük çoğunluğu ortalama değerden yaklaşık ±0.029 mm uzakta.
Popülasyon ve Örneklem Standart Sapması Ayrımı:
- Popülasyon: σ = √(Σ(xᵢ - μ)² / N) -- tüm popülasyon bilindiğinde
- Örneklem: s = √(Σ(xᵢ - x̄)² / (n-1)) -- örneklemden tahmin ederken
(n-1) ile bölmek "Bessel düzeltmesi" olarak bilinir ve örneklem standart sapmasının popülasyon standart sapmasını yansız tahmin etmesini sağlar.
Değişim Katsayısı (CV - Coefficient of Variation)
Standart sapmanın ortalamaya oranıdır, yüzdesel olarak ifade edilir. Farklı ölçek veya birime sahip veri setlerinin değişkenliğini karşılaştırmak için kullanılır.
Formül: CV = (s / x̄) × 100
Hesaplama:
CV = (0.0289 / 25.0095) × 100 = %0.116
Yorum: Değişkenlik ortalamanın sadece %0.116'sı kadar. Bu, çok düşük değişkenlik anlamına gelir ve prosesin oldukça tutarlı olduğunu gösterir. Kalite mühendisliğinde CV değerinin genellikle %5'in altında olması beklenir; %0.116 mükemmel bir değerdir.
Frekans Dağılımı
Frekans dağılımı, verilerin belirli değer veya aralıklarda ne sıklıkta görüldüğünün düzenlenmiş halidir. Ham veriden bilgi çıkarmanın ilk adımıdır.
Basit Frekans Dağılımı
Her benzersiz değerin kaç kez tekrar ettiğini gösterir.
| Değer (mm) | Frekans | Göreli Frekans (%) |
|---|---|---|
| 24.96 | 1 | 5.0 |
| 24.97 | 2 | 10.0 |
| 24.98 | 2 | 10.0 |
| 24.99 | 2 | 10.0 |
| 25.00 | 2 | 10.0 |
| 25.01 | 3 | 15.0 |
| 25.02 | 2 | 10.0 |
| 25.03 | 2 | 10.0 |
| 25.04 | 1 | 5.0 |
| 25.05 | 1 | 5.0 |
| 25.06 | 1 | 5.0 |
| 25.07 | 1 | 5.0 |
| Toplam | 20 | 100.0 |
Gruplandırılmış Frekans Dağılımı
Sürekli verilerde her tekil değeri listelemek yerine değer aralıkları (sınıflar) oluşturulur. Histogram çizerken bu yöntem kullanılır.
Sınıf genişliği belirleme: Range / sınıf sayısı = 0.11 / 4 ≈ 0.03 mm
| Sınıf Aralığı (mm) | Frekans | Göreli Frekans (%) | Kümülatif Frekans (%) |
|---|---|---|---|
| 24.96 -- 24.99 | 5 | 25.0 | 25.0 |
| 24.99 -- 25.02 | 7 | 35.0 | 60.0 |
| 25.02 -- 25.05 | 5 | 25.0 | 85.0 |
| 25.05 -- 25.08 | 3 | 15.0 | 100.0 |
| Toplam | 20 | 100.0 | -- |
Yorum: Verinin %60'ı 24.99-25.02 mm aralığında ve altında. En yoğun sınıf 24.99-25.02 aralığında (%35). Dağılım yaklaşık simetrik görünüyor, hedef değerin (25.00) etrafında yoğunlaşmış.
Kümülatif Frekans Dağılımı
Belirli bir değere kadar olan gözlemlerin toplam sayısını veya yüzdesini gösterir. "Şu değerin altında kaç ölçüm var?" sorusuna cevap verir.
Tablodaki kümülatif sütuna bakıldığında: 25.02 mm ve altında ölçümlerin oranı %60. Bu bilgi özellikle spesifikasyon limitleriyle karşılaştırmada önemlidir -- örneğin "USL = 25.05 mm'nin altında kaç ölçüm var?" sorusunu doğrudan cevaplar.
Konum Ölçüleri: Çeyrekler ve Yüzdelikler
Konum ölçüleri, verinin belirli yüzdelik dilimlerindeki değerlerini gösterir. Veri dağılımının farklı noktalarını anlamamızı sağlar.
Çeyrekler (Quartiles)
- Q1 (1. Çeyrek / 25. Yüzdelik): Verinin alt %25'inin üzerindeki değer = 24.985 mm
- Q2 (2. Çeyrek / 50. Yüzdelik): Medyan = 25.01 mm
- Q3 (3. Çeyrek / 75. Yüzdelik): Verinin alt %75'inin üzerindeki değer = 25.03 mm
Beş Sayı Özeti (Five-Number Summary)
| Ölçü | Değer (mm) |
|---|---|
| Minimum | 24.96 |
| Q1 | 24.985 |
| Medyan (Q2) | 25.01 |
| Q3 | 25.03 |
| Maksimum | 25.07 |
Bu beş değer, kutu grafiği (box plot) çiziminin temelini oluşturur. IQR = 0.045 mm olduğuna göre:
- Alt sınır (alt bıyık): Q1 - 1.5 × IQR = 24.985 - 0.0675 = 24.9175 mm
- Üst sınır (üst bıyık): Q3 + 1.5 × IQR = 25.03 + 0.0675 = 25.0975 mm
Tüm ölçümlerimiz bu sınırların içinde; veri setinde aşırı değer (outlier) yok.
Yüzdelikler (Percentiles)
Herhangi bir yüzdelik hesaplanabilir. Örneğin 90. yüzdelik değeri, ölçümlerin %90'ının altında kaldığı değerdir.
- P10 (10. Yüzdelik): Yaklaşık 24.97 mm
- P90 (90. Yüzdelik): Yaklaşık 25.05 mm
Bu bilgi sürecin "aşırı uçlarının" nerede başladığını görmek için kullanılır. P10-P90 aralığı, sürecin görece stabil ürettiği bandı gösterir.
Size Uygun Eğitimi Bulun
Bireysel mi yoksa kurumsal mı eğitim arıyorsunuz?
Şekil Ölçüleri: Çarpıklık ve Basıklık
Merkezi eğilim ve yayılma ölçüleri verinin merkezini ve genişliğini gösterir. Şekil ölçüleri ise dağılımın biçimini tanımlar.
Çarpıklık (Skewness)
Dağılımın simetrikten ne kadar saptığını gösterir.
- Çarpıklık = 0: Simetrik dağılım (normal dağılım)
- Çarpıklık > 0: Sağa çarpık (sağ kuyruk uzun, düşük değerler yoğun)
- Çarpıklık < 0: Sola çarpık (sol kuyruk uzun, yüksek değerler yoğun)
Mil veri seti için: Çarpıklık değeri yaklaşık +0.18 olarak hesaplanır. Bu değer sıfıra çok yakındır ve hafif bir sağa çarpıklık olsa da pratikte simetrik kabul edilir.
Yorum kuralı: Çarpıklık -0.5 ile +0.5 arasında ise dağılım yaklaşık simetrik kabul edilir. Bizim değerimiz (+0.18) bu aralıktadır.
Kalite mühendisliğinde önemi: Çarpık dağılım, proseste sistematik bir yanlılığı işaret edebilir. Örneğin sağa çarpık bir mil çapı dağılımı, takımın aşınmasına bağlı olarak giderek artan ölçümler oluşturabileceğini düşündürebilir.
Basıklık (Kurtosis)
Dağılımın "sivriliğini" veya "basıklığını" ölçer. Normal dağılımın basıklık değeri (artık basıklık / excess kurtosis) sıfırdır.
- Basıklık > 0 (Leptokurtik): Sivri tepe, kalın kuyruklar. Değerler merkeze yoğun ama aşırı değerler de fazla.
- Basıklık = 0 (Mesokurtik): Normal dağılım benzeri.
- Basıklık < 0 (Platikurtik): Basık tepe, ince kuyruklar. Değerler merkeze daha az yoğun.
Mil veri seti için: Basıklık değeri yaklaşık -0.72 olarak hesaplanır. Bu değer hafif platikurtik bir dağılımı gösterir -- yani dağılım normal dağılıma göre biraz daha basık ve yaygındır.
Kalite mühendisliğinde önemi: Yüksek basıklık değeri (leptokurtik), prosesin genellikle hedefte olmasına rağmen ara sıra büyük sapmalar üretebileceğini gösterir. Düşük basıklık (platikurtik), prosesin daha "yaygın" bir üretim yaptığını ama aşırı değerlerin nadir olduğunu işaret eder.
Tüm Tanımlayıcı İstatistik Ölçüleri: Özet Tablo
Mil çapı verisi (n=20) için tüm hesaplanan ölçüler:
| Kategori | Ölçü | Değer | Birim |
|---|---|---|---|
| Merkezi Eğilim | Ortalama | 25.0095 | mm |
| Medyan | 25.01 | mm | |
| Mod | 25.01 | mm | |
| Yayılma | Range | 0.11 | mm |
| IQR | 0.045 | mm | |
| Varyans | 0.000836 | mm² | |
| Standart Sapma | 0.0289 | mm | |
| Değişim Katsayısı (CV) | 0.116 | % | |
| Konum | Q1 | 24.985 | mm |
| Q2 (Medyan) | 25.01 | mm | |
| Q3 | 25.03 | mm | |
| Şekil | Çarpıklık | +0.18 | -- |
| Basıklık | -0.72 | -- | |
| Diğer | n (Örneklem Büyüklüğü) | 20 | adet |
| Minimum | 24.96 | mm | |
| Maksimum | 25.07 | mm |
Bu tablo, tek bir sayfada sürecin tüm istatistiksel profilini verir. Kalite raporlarında, proses yeterlilik çalışmalarında ve yönetim sunumlarında bu türde bir özet tablo standart bir uygulamadır.
Merkezi Limit Teoremi Bağlantısı
Tanımlayıcı istatistik ile çıkarımsal istatistik arasındaki köprünün adı Merkezi Limit Teoremi'dir (Central Limit Theorem - CLT).
Teorem şunu der: Herhangi bir dağılıma sahip bir popülasyondan yeterince büyük örneklemler (n ≥ 30 genel kural) alındığında, örneklem ortalamalarının dağılımı normal dağılıma yaklaşır.
Bu ne anlama gelir? Bizim 20 millik veri setimizin ortalaması 25.0095 mm. Eğer bu üretim hattından tekrar tekrar 20'şer ölçüm alsak, her seferinde farklı bir ortalama bulurduk. CLT'ye göre bu ortalamaların dağılımı yaklaşık normal olurdu -- orijinal veri ne dağılıma sahip olursa olsun.
Kalite mühendisliği için önemi:
- SPC kontrol grafiklerinde örneklem ortalamaları kullanılır. CLT sayesinde ortalama grafiği (X-bar) normal dağılım varsayımına dayanır.
- Hipotez testlerinin çoğu, örneklem ortalamalarının normal dağıldığını varsayar. CLT bu varsayımı destekler.
- Proses yeterlilik hesaplarında normal dağılım kritik önem taşır.
Tanımlayıcı istatistik, CLT'nin ön koşullarını kontrol etmenizi sağlar: örneklem büyüklüğünü, dağılımın şeklini ve verinin özelliklerini bilin ki çıkarımsal yöntemlerin geçerliliğinden emin olun.
Kalite Mühendisliğinde Tanımlayıcı İstatistik Kullanımı
Tanımlayıcı istatistik, kalite mühendisliğinin her alanında temel araç olarak kullanılır.
SPC (İstatistiksel Proses Kontrol)
SPC kontrol grafikleri oluşturulurken örneklem ortalamaları ve standart sapmalar temel giriş verileridir. X-bar ve R grafikleri doğrudan tanımlayıcı istatistik üzerine kurulur.
Proses Yeterlilik Analizi
Cp, Cpk, Pp, Ppk hesaplarının tümü ortalama ve standart sapma değerlerine dayanır. Bu değerler tanımlayıcı istatistikten gelir.
Kabul Örneklemesi
Örneklem büyüklüğü belirleme, kabul/ret kararları ve AQL hesaplamalarında tanımlayıcı istatistik ölçüleri kullanılır.
Six Sigma DMAIC
Six Sigma projelerinin Measure ve Analyze aşamalarında verinizin tanımlayıcı profilini çıkarmanız zorunludur. Proje başarısı, doğru ölçümle başlar.
Tedarikçi Değerlendirme
Tedarikçi performansını değerlendirirken gelen parçaların ortalama, standart sapma ve Cpk değerleri karşılaştırılır. Bu değerlerin tümü tanımlayıcı istatistiktir.
Yazılım Araçları
Tanımlayıcı istatistik hesaplamalarını elle yapmak öğretici olsa da pratikte yazılım araçları kullanılır.
Minitab: Kalite mühendisliğinde en yaygın kullanılan istatistik yazılımıdır. Stat > Basic Statistics > Display Descriptive Statistics komutuyla tüm ölçüleri tek seferde hesaplar.
Microsoft Excel: ORTALAMA(), MEDYAN(), STDSAPMA.S(), DEĞİŞİNTİ() fonksiyonları ile temel hesaplamalar yapılabilir. Veri Analizi eklentisi ek özellikler sunar.
Python (pandas/numpy): df.describe() komutu beş sayı özeti ve temel istatistikleri verir. scipy.stats modülü çarpıklık ve basıklık hesaplar.
R: summary() fonksiyonu temel özeti, psych::describe() fonksiyonu genişletilmiş tanımlayıcı istatistikleri verir.
SPSS: Analyze > Descriptive Statistics > Descriptives komutu ile tüm ölçüler hesaplanır.
Hangi aracı kullanırsanız kullanın, istatistiksel kavramları anlamadan yazılım çıktısını yorumlayamazsınız. Bu yüzden formül ve mantığı bilmek her zaman önceliklidir.
Sık Sorulan Sorular
Tanımlayıcı istatistik eldeki veriyi özetler ve tanımlar; çıkarımsal istatistik ise örneklem verisinden yola çıkarak daha geniş bir popülasyon hakkında genelleme ve çıkarım yapar. Tanımlayıcı istatistik "bu veride ne var?" sorusuna, çıkarımsal istatistik "bu veriden tüm süreç hakkında ne çıkarabiliriz?" sorusuna cevap verir.
Varyans, her değerin ortalamadan farkının karesinin ortalamasıdır. Standart sapma ise varyansın kareköküdür. Temel fark birimdir: varyans mm² cinsindeyken standart sapma mm cinsindendir. Bu nedenle standart sapma doğrudan yorumlanabilir -- ortalamadan tipik sapma miktarını orijinal birimde verir.
Veriniz simetrik dağılıyorsa ve aşırı değerler yoksa ortalama kullanın. Çarpık dağılım veya aşırı değerler varsa medyan daha güvenilir bir merkez ölçüsüdür. Örneğin çalışan maaş verilerinde birkaç yüksek maaş ortalamayı yukarı çekerken medyan daha gerçekçi bir "tipik" değeri gösterir.
CV, farklı birimlerdeki veya farklı ölçeklerdeki veri setlerinin değişkenliğini karşılaştırmanızı sağlar. Örneğin mil çapı (mm) ile mil ağırlığını (kg) karşılaştırmak istediğinizde standart sapmaları doğrudan kıyaslayamazsınız ama CV değerlerini kıyaslayabilirsiniz. CV ne kadar düşükse proses o kadar tutarlıdır.
Tanımlayıcı istatistik, verinizin normal dağılıp dağılmadığını anlamanızı sağlar. Ortalama, medyan ve modun birbirine yakınlığı, çarpıklığın sıfıra yakınlığı ve basıklığın sıfıra yakınlığı normal dağılım işaretidir. [Olasılık dağılımları](/blog/olasilik-dagilimlari-nedir) ve istatistiksel testlerin çoğu normal dağılım varsayımına dayandığı için bu kontrolü yapmak kritik önem taşır.
Çarpıklık sıfırsa dağılım simetriktir. Pozitif çarpıklık sağa çarpık (sağ kuyruk uzun), negatif çarpıklık sola çarpık (sol kuyruk uzun) dağılımı gösterir. -0.5 ile +0.5 arası yaklaşık simetrik, -1 ile +1 arası orta düzey çarpıklık, bu değerlerin dışında ise belirgin çarpıklık olarak yorumlanır.
Minimum örneklem büyüklüğü yoktur -- 5 ölçümle bile tanımlayıcı istatistik hesaplanabilir. Ancak güvenilir sonuçlar için genel olarak n ≥ 20-30 önerilir. Örneklem büyüdükçe ölçüler daha kararlı hale gelir. SPC uygulamalarında genellikle 25 alt grup x 4-5 ölçüm (100-125 veri noktası) standart başlangıçtır.
Aşırı değer tespitinde IQR yöntemi kullanılır. Alt sınır = Q1 - 1.5 × IQR, üst sınır = Q3 + 1.5 × IQR formülüyle hesaplanır. Bu sınırların dışında kalan değerler aşırı değer (outlier) olarak işaretlenir. Bizim mil verimizde tüm değerler bu sınırların içinde olduğu için aşırı değer yoktur. ---











