Regresyon Analizi Nedir?
Regresyon analizi, bir veya daha fazla bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi matematiksel bir model aracılığıyla tanımlayan istatistiksel bir yöntemdir. Kalite mühendisliğinden finansa, sağlık bilimlerinden mühendislik uygulamalarına kadar pek çok alanda, veriler arasındaki neden-sonuç ilişkisini anlamak ve gelecek tahminleri yapmak amacıyla kullanılır.
Regresyon analizinin temel amacı, değişkenler arasındaki ilişkiyi en iyi temsil eden denklemi bulmaktır. Bu denklem sayesinde:
- Değişkenler arasındaki ilişkinin yönü ve büyüklüğü ölçülür.
- Gelecekteki değerler tahmin edilir (prediksiyon).
- Süreç parametrelerinin çıktı üzerindeki etkisi belirlenir.
- Kalite iyileştirme projelerinde kök nedenler tespit edilir.
Regresyon Analizinin Tarihçesi
Regresyon kavramı ilk kez 1886 yılında Sir Francis Galton tarafından ortaya atılmıştır. Galton, ebeveyn boyları ile çocuk boyları arasındaki ilişkiyi incelerken, uzun ebeveynlerin çocuklarının ortalamaya doğru "gerilediğini" (regression toward the mean) fark etmiştir. Bu gözlem, regresyon teriminin kökenini oluşturur.
Daha sonra Karl Pearson ve Ronald Fisher gibi istatistikçiler, regresyon analizini matematiksel olarak formüle ederek bugün bildiğimiz halini kazandırmıştır.
Basit Doğrusal Regresyon
Basit doğrusal regresyon, bir bağımsız değişken (X) ile bir bağımlı değişken (Y) arasındaki doğrusal ilişkiyi modelleyen en temel regresyon türüdür.
Regresyon Denklemi
Basit doğrusal regresyonun matematiksel ifadesi:
Y = a + bX + e
| Sembol | Anlam | Açıklama |
|---|---|---|
| Y | Bağımlı değişken | Tahmin edilmek istenen değişken (yanıt değişkeni) |
| X | Bağımsız değişken | Açıklayıcı değişken (faktör) |
| a | Sabit terim (intercept) | X = 0 olduğunda Y'nin aldığı değer |
| b | Eğim katsayısı (slope) | X'teki 1 birimlik artışın Y'de yarattığı değişim |
| e | Hata terimi (error) | Modelin açıklayamadığı rastgele varyasyon |
Katsayıların Hesaplanması: En Küçük Kareler Yöntemi
Regresyon doğrusu, En Küçük Kareler Yöntemi (Ordinary Least Squares - OLS) ile belirlenir. Bu yöntem, gözlenen Y değerleri ile model tarafından tahmin edilen Y değerleri arasındaki farkların (artıkların) karelerinin toplamını minimize eder.
Eğim katsayısı (b):
b = (n . SXY - SX . SY) / (n . SX2 - (SX)2)
Burada:
- SXY = X ve Y değerlerinin çarpımlarının toplamı
- SX = X değerlerinin toplamı
- SY = Y değerlerinin toplamı
- SX2 = X değerlerinin karelerinin toplamı
- n = gözlem sayısı
Sabit terim (a):
a = Y(ort) - b . X(ort)
Bu formüller, regresyon doğrusunun verilere en iyi uyum sağlayan konumunu belirler.
Çoklu Doğrusal Regresyon
Gerçek dünyada bir sonucu genellikle birden fazla faktör etkiler. Çoklu doğrusal regresyon, iki veya daha fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini aynı anda modeller.
Çoklu Regresyon Denklemi
Y = a + b1X1 + b2X2 + b3X3 + ... + bkXk + e
| Bileşen | Açıklama |
|---|---|
| Y | Bağımlı değişken |
| X1, X2, ..., Xk | Bağımsız değişkenler (k adet) |
| a | Sabit terim |
| b1, b2, ..., bk | Her bir değişkenin kısmi regresyon katsayısı |
| e | Hata terimi |
Basit ve Çoklu Regresyon Karşılaştırması
| Kriter | Basit Doğrusal Regresyon | Çoklu Doğrusal Regresyon |
|---|---|---|
| Bağımsız değişken sayısı | 1 | 2 veya daha fazla |
| Model karmaşıklığı | Düşük | Yüksek |
| Yorumlama kolaylığı | Kolay | Daha zor |
| Gerçek dünya uyumu | Sınırlı | Daha gerçekçi |
| Multikolinearite riski | Yok | Var |
| Kullanım alanı | Keşifsel analiz | Tahmin ve modelleme |
Çoklu regresyonda her bir bağımsız değişkenin katsayısı (bi), diğer değişkenler sabit tutulduğunda Xi'deki bir birimlik değişimin Y üzerindeki etkisini gösterir. Bu "ceteris paribus" (diğer her şey eşitken) yorumu, çoklu regresyonun en önemli avantajlarından biridir.
Belirleme Katsayısı: R Kare (R2) Değeri
R kare (R2) değeri, regresyon modelinin bağımlı değişkendeki varyasyonun ne kadarını açıkladığını gösteren temel bir uyum ölçüsüdür.
R2 Formülü
R2 = Açıklanan Varyasyon / Toplam Varyasyon = 1 - (SSres / SStot)
| Terim | Tanım |
|---|---|
| SStot | Toplam kareler toplamı (Y değerlerinin ortalamadan sapmalarının kareleri toplamı) |
| SSres | Artık kareler toplamı (gözlenen Y ile tahmin edilen Y arasındaki farkların kareleri toplamı) |
R2 Değerinin Yorumlanması
| R2 Aralığı | Yorum | Pratik Anlam |
|---|---|---|
| 0.90 - 1.00 | Mükemmel uyum | Model varyasyonun %90'ından fazlasını açıklıyor |
| 0.70 - 0.89 | İyi uyum | Güçlü bir ilişki mevcut |
| 0.50 - 0.69 | Orta uyum | Modelde iyileştirme gerekebilir |
| 0.30 - 0.49 | Zayıf uyum | Ek değişkenler dahil edilmeli |
| 0.00 - 0.29 | Çok zayıf uyum | Model yetersiz, farklı yaklaşım gerekli |
Dikkat: R2 = 0.85 demek, modelin bağımlı değişkendeki varyasyonun %85'ini açıkladığı anlamına gelir. Kalan %15'lik kısım modele dahil edilmeyen faktörlerden veya rastgele hatadan kaynaklanır.
Düzeltilmiş R Kare (Adjusted R2)
Çoklu regresyonda, modele her yeni değişken eklendiğinde R2 değeri otomatik olarak artar; bu durum yanıltıcı olabilir. Bu sorunu gidermek için Düzeltilmiş R2 kullanılır:
Adjusted R2 = 1 - [(1 - R2)(n - 1) / (n - k - 1)]
Burada:
- n = gözlem sayısı
- k = bağımsız değişken sayısı
Düzeltilmiş R2, gereksiz değişkenlerin modele eklenmesini cezalandırarak daha sağlıklı bir değerlendirme sunar.
Korelasyon ve Regresyon Arasındaki Fark
Korelasyon ve regresyon sıklıkla karıştırılan iki kavramdır. Her ikisi de değişkenler arası ilişkiyi inceler, ancak amaçları ve kapsamları farklıdır.
| Kriter | Korelasyon | Regresyon |
|---|---|---|
| Amaç | İlişkinin gücü ve yönünü ölçmek | İlişkiyi modellemek ve tahmin yapmak |
| Çıktı | Korelasyon katsayısı (r): -1 ile +1 arası | Denklem (Y = a + bX) ve katsayılar |
| Neden-sonuç | Belirtmez | Bağımsız ve bağımlı değişken ayırımı yapar |
| Yön | Simetrik (X-Y veya Y-X fark etmez) | Asimetrik (X, Y'yi etkiler) |
| Tahmin | Tahmin yapılamaz | Tahmin yapılabilir |
| Değişken türü | Her ikisi de sürekli | Bağımsız: sürekli veya kategorik olabilir |
Korelasyon katsayısı (r) ile R2 arasındaki ilişki:
Basit doğrusal regresyonda: R2 = r2
Yani korelasyon katsayısı r = 0.92 ise, R2 = 0.846 olur ve model varyasyonun yaklaşık %85'ini açıklar.
Not: Korelasyon, nedensellik (causation) anlamına gelmez. Iki değişken arasında güçlü bir korelasyon olması, birinin diğerine neden olduğu anlamına gelmez. Neden-sonuç ilişkisini doğrulamak için kontrollü deneyler (DOE) gereklidir.
Regresyon Analizinin Varsayımları
Regresyon analizinin geçerli sonuçlar verebilmesi için belirli varsayımların karşılanması gerekir. Bu varsayımların ihlali, model sonuçlarının güvenilirliğini azaltır.
Temel Varsayımlar
| Varsayım | Açıklama | Kontrol Yöntemi |
|---|---|---|
| Doğrusallık | X ve Y arasında doğrusal ilişki olmalı | Saçılım grafiği (scatter plot) |
| Bağımsızlık | Artıklar birbirinden bağımsız olmalı | Durbin-Watson testi |
| Normal dağılım | Artıklar normal dağılmalı | Histogram, Q-Q plot, Shapiro-Wilk testi |
| Sabit varyans (Homoskedastisite) | Artıkların varyansı tüm X değerlerinde eşit olmalı | Artık-tahmin grafiği, Breusch-Pagan testi |
| Multikolinearite olmaması | Bağımsız değişkenler arası yüksek korelasyon olmamalı (Çoklu regresyonda) | VIF (Varyans Enflasyon Faktörü) |
Varsayım İhlallerinde Ne Yapılır?
- Doğrusallık sağlanmıyorsa: Polinom regresyon veya değişken dönüşümü (logaritmik, karekök) uygulanır.
- Normal dağılım sağlanmıyorsa: Veri dönüşümü (Box-Cox) veya parametrik olmayan yöntemler kullanılır.
- Sabit varyans sağlanmıyorsa: Ağırlıklı en küçük kareler (WLS) yöntemi tercih edilir.
- Multikolinearite varsa: Değişkenler arasından seçim yapılır, Ridge veya Lasso regresyon uygulanır.
Pratik Uygulama: Sicaklik ile Hata Orani Iliskisi
Kalite mühendisliğinde regresyon analizinin en yaygın kullanım alanlarından biri, proses parametreleri ile kalite çıktıları arasındaki ilişkinin belirlenmesidir. Aşağıdaki ornekte bir plastik enjeksiyon prosesinde kalıp sıcaklığının hata oranı uzerindeki etkisi incelenmektedir.
Veri Seti
| Gozlem | Kalıp Sıcaklığı (X) [C] | Hata Oranı (Y) [%] |
|---|---|---|
| 1 | 160 | 2.1 |
| 2 | 170 | 2.8 |
| 3 | 175 | 3.3 |
| 4 | 180 | 3.9 |
| 5 | 185 | 4.2 |
| 6 | 190 | 4.8 |
| 7 | 195 | 5.1 |
| 8 | 200 | 5.7 |
| 9 | 210 | 6.5 |
| 10 | 220 | 7.4 |
Regresyon Sonuclari
En kucuk kareler yontemiyle hesaplanan regresyon denklemi:
Y = -8.45 + 0.072X
| Parametre | Deger | Yorum |
|---|---|---|
| Sabit terim (a) | -8.45 | Teorik kesisim noktasi |
| Egim katsayisi (b) | 0.072 | Sicaklik 1 derece arttiginda hata orani %0.072 artar |
| R2 | 0.993 | Modelin aciklama gucu cok yuksek (%99.3) |
| p-degeri (b icin) | < 0.001 | Iliskinin istatistiksel olarak anlamli oldugunu gosterir |
Sonuclarin Yorumlanmasi
- Egim katsayisi (b = 0.072): Kalıp sıcaklığındaki her 10 derecelik artış, hata oranını yaklaşık %0.72 artırmaktadır.
- R2 = 0.993: Hata oranındaki varyasyonun %99.3'u kalıp sıcaklığı ile açıklanabilir. Bu son derece güçlü bir ilişkidir.
- Tahmin: Kalıp sıcaklığı 190 derece olduğunda beklenen hata oranı: Y = -8.45 + 0.072 x 190 = 5.23%
- Karar: Bu sonuçlara dayanarak, kalıp sıcaklığının 170 derecenin altında tutulması hata oranını %3'un altına indirebilir.
Bu tür bir analiz, Six Sigma DMAIC surecinin Analyze (Analiz Et) aşamasında kritik bir araç olarak kullanılır.
Size Uygun Eğitimi Bulun
Bireysel mi yoksa kurumsal mı eğitim arıyorsunuz?
Regresyon Analizinin Kalite Araclariyla Baglantisi
Regresyon analizi, izole bir istatistiksel yontem degildir. Kalite muhendisliginde diger araclarla birlikte butunlesik bir sekilde kullanilir.
SPC (Istatistiksel Proses Kontrol) ile Baglanti
SPC (Istatistiksel Proses Kontrol), proses performansını izlemek icin kontrol kartları kullanır. Regresyon analizi ise SPC ile su sekillerde birlesir:
- Proses parametrelerinin belirlenmesi: Regresyon analizi ile hangi parametrelerin kritik oldugu tespit edilir; ardindan bu parametreler SPC ile izlenir.
- Kontrol limitleri: Regresyon modeli, kontrol limitlerinin bilimsel temelde belirlenmesine yardimci olur.
- Trend analizi: SPC kartlarinda gorülen trendlerin arkasindaki nedenleri bulmak icin regresyon kullanilabilir.
DOE (Deney Tasarimi) ile Baglanti
DOE (Design of Experiments), faktörlerin etkisini kontrollü deneylerle ölçen sistematik bir yaklasimdir. Regresyon ve DOE arasindaki iliski:
| Aşama | DOE'nin Rolü | Regresyonun Rolü |
|---|---|---|
| Planlama | Hangi faktörlerin test edileceğini belirler | Pilot verilerle ön analiz sağlar |
| Uygulama | Kontrollü deneyler yapılır | - |
| Analiz | Sonuçlar toplanır | Deney verilerine regresyon modeli uygulanır |
| Optimizasyon | Optimal koşullar aranır | Yanıt yüzey modeli (Response Surface) ile optimum bulunur |
DOE ile toplanan veriler regresyon modeli ile analiz edilir ve bu sayede faktörlerin ana etkileri ile etkileşim etkileri matematiksel olarak ortaya konur.
Six Sigma ile Baglanti
Six Sigma projelerinde regresyon analizi ozellikle su asamalarda devreye girer:
- Measure (Olc): Proses verilerinin toplanmasi ve ilk kesfedici analizler.
- Analyze (Analiz Et): Kilit degiskenlerin ve neden-sonuc iliskilerinin regresyon ile belirlenmesi.
- Improve (Iyilestir): Optimal proses ayarlarinin regresyon modeli uzerinden tahmin edilmesi.
Regresyon Analizi Turleri
Dogrusal regresyonun otesinde, veri yapisina ve problemin dogasina gore farkli regresyon turleri kullanilir.
| Regresyon Türü | Kullanım Alanı | Denklem Yapısı |
|---|---|---|
| Basit doğrusal | Tek bağımsız değişken, doğrusal ilişki | Y = a + bX |
| Çoklu doğrusal | Birden fazla bağımsız değişken | Y = a + b1X1 + b2X2 + ... |
| Polinom | Doğrusal olmayan eğrisel ilişkiler | Y = a + b1X + b2X2 + b3X3 |
| Lojistik | Bağımlı değişken kategorik (evet/hayır) | log(p/(1-p)) = a + bX |
| Ridge | Multikolinearite varsa | L2 cezalı regresyon |
| Lasso | Değişken seçimi gerekiyorsa | L1 cezalı regresyon |
| Stepwise | Otomatik değişken seçimi | Adım adım değişken ekleme/çıkarma |
Kalite mühendisliğinde en sık kullanılanlar basit doğrusal, çoklu doğrusal ve polinom regresyondur. Lojistik regresyon ise uygun/uygunsuz (pass/fail) türündeki kalite verilerinde tercih edilir.
Regresyon Analizi Nasil Yapilir? Adim Adim Rehber
Regresyon analizini dogru bir sekilde uygulamak icin asagidaki adimlari takip etmek gerekir:
1. Problemi Tanimlayin
Hangi degiskenler arasindaki iliskiyi incelemek istiyorsunuz? Bagimli ve bagimsiz degiskenleri net olarak belirleyin.
2. Veri Toplayin
Yeterli sayida ve kalitede veri toplayin. Genel kural olarak, her bagimsiz degisken icin en az 10-20 gozlem olmalidir.
3. Kesfedici Veri Analizi Yapin
- Sacilim grafigi cizerek iliskinin yapisini gorsel olarak inceleyin.
- Temel istatistikleri (ortalama, standart sapma, min-max) hesaplayin.
- Aykiri degerleri (outlier) tespit edin.
4. Modeli Kurun
Uygun regresyon turunu secin ve modeli olusturun. Yazilim araclari (Minitab, Excel, R, Python) kullanarak katsayilari hesaplayin.
5. Varsayimlari Kontrol Edin
Artik grafikleri inceleyerek normallik, sabit varyans ve bagimsizlik varsayimlarini dogrulayin.
6. Modeli Degerlendirin
- R2 ve Düzeltilmis R2 degerlerini inceleyin.
- F-testi ile modelin genel anlamliligini kontrol edin.
- t-testi ile her bir katsayinin anlamliligini degerlendirin.
- p-degeri < 0.05 ise iliski istatistiksel olarak anlamlidir.
7. Sonuclari Yorumlayin ve Raporlayin
Katsayilarin pratik anlamini aciklayin, tahminler yapin ve karar vericilere oneriler sunun.
Regresyon Analizinde Dikkat Edilmesi Gerekenler
Regresyon analizi guclu bir arac olmakla birlikte, dogru kullanilmadiginda yanlis sonuclara yol acabilir. Asagidaki noktalara dikkat etmek gerekir:
- Ekstrapolasyondan kacinin: Modeli, verilerin kapsadigi aralik disindaki tahminler icin kullanmak tehlikelidir. Ornegin, 160-220 derece arasinda olusturulmus bir modelle 300 derece icin tahmin yapmak guvenilir olmaz.
- Korelasyonu nedensellik olarak yorumlamayin: Istatistiksel iliski, her zaman neden-sonuc iliskisi anlamina gelmez.
- Orneklem buyuklugune dikkat edin: Kucuk orneklemlerle yapilan regresyon analizi, guvenilir sonuclar vermeyebilir.
- Aykiri degerleri inceleyin: Tek bir aykiri deger, regresyon dogrusunun yonunu ve egimini onemli olcude degistirebilir.
- Coklu regresyonda multikolineariteyi kontrol edin: VIF > 10 olan degiskenler modelden cikarilmali veya birlesirilmelidir.
Regresyon Analizi Icin Kullanilan Yazilimlar
| Yazılım | Avantajı | Kullanım Alanı |
|---|---|---|
| Minitab | Kalite mühendisliğine özel, kullanıcı dostu | Six Sigma projeleri, SPC |
| Excel | Yaygın erişim, temel analizler | Hızlı analizler, raporlama |
| R | Ücretsiz, güçlü istatistiksel paketler | Akademik araştırma, ileri analiz |
| Python (scikit-learn) | Otomasyon ve makine öğrenmesi entegrasyonu | Büyük veri, tahmin modelleri |
| SPSS | Sosyal bilimler için optimize | Anket verileri, davranış analizi |
| JMP | Görselleştirme gücü | Deney tasarımı (DOE), keşifsel analiz |
Sıkça Sorulan Sorular (SSS)
Regresyon analizi ne ise yarar?
Regresyon analizi, degiskenler arasindaki iliskiyi matematiksel olarak modellemek, bu iliskinin gucunu olcmek ve gelecekteki degerleri tahmin etmek icin kullanilir. Kalite muhendisliginde proses parametrelerinin urun kalitesi uzerindeki etkisini belirlemek ve optimal calisma kosullarini tespit etmek icin vazgecilmez bir aractir.
R kare degeri ne anlama gelir?
R kare (R2) degeri, regresyon modelinin bagimli degiskendeki toplam varyasyonun yuzde kacini acikladigini gosterir. 0 ile 1 arasinda bir deger alir. Ornegin R2 = 0.85 ise, bagimli degiskendeki degiskenligin %85'i model tarafindan aciklanmaktadir.
Korelasyon ile regresyon arasindaki fark nedir?
Korelasyon, iki degisken arasindaki iliskinin gucunu ve yonunu olcer (-1 ile +1 arasinda); ancak neden-sonuc belirtmez ve tahmin yapilamaz. Regresyon ise iliskiyi bir denklemle modelleyerek tahminde bulunur ve bir degiskenin digerini nasil etkiledigini aciklar.
Regresyon analizinde p-degeri ne ifade eder?
p-degeri, regresyon katsayisinin istatistiksel olarak anlamli olup olmadigini gosterir. p < 0.05 ise bagimsiz degiskenin bagimli degisken uzerindeki etkisi istatistiksel olarak anlamlidir. p > 0.05 ise gozlenen iliski tesadufi olabilir ve bagimsiz degiskenin anlamli bir etkisi yoktur.
Coklu regresyonda multikolinearite nedir?
Multikolinearite, coklu regresyonda bagimsiz degiskenler arasinda yuksek korelasyon olmasi durumudur. Bu durum, katsayilarin guvenilir sekilde tahmin edilmesini zorlastirir. VIF (Varyans Enflasyon Faktoru) ile kontrol edilir; VIF degeri 10'un uzerindeyse ciddi multikolinearite sorunu vardir.
Regresyon analizi icin en az kac veri noktasi gerekir?
Genel kural olarak, her bagimsiz degisken icin en az 10-20 gozlem onerilir. Basit dogrusal regresyon icin en az 20-30 veri noktasi, coklu regresyon icin ise degisken sayisina bagli olarak daha fazla veri gereklidir. Orneklem ne kadar buyukse, sonuclarin guvenilirligi o kadar artar.
Regresyon analizi hangi sektorlerde kullanilir?
Regresyon analizi hemen hemen tum sektorlerde kullanilir: uretim ve kalite muhendisliginde proses optimizasyonu, finansta risk analizi ve fiyat tahmini, saglik bilimlerinde ilac etkinligi arastirmalari, pazarlamada musteri davranisi modellemesi, muhendislikte malzeme dayanimi tahminleri ve daha pek cok alanda yaygın olarak uygulanmaktadır.
Dogrusal olmayan iliskiler icin ne yapilmalidir?
Degiskenler arasindaki iliski dogrusal degilse polinom regresyon, logaritmik donusum veya ustel regresyon gibi yontemler kullanilabilir. Sacilim grafigi incelenerek iliskinin sekli belirlenmeli ve uygun model secilmelidir. Ayrica, degisken donusumleri (log, karekoku, ters donusum) uygulanarak dogrusallik saglanabilir.
Regresyon analizi, veriye dayali karar almanin temel taslarindan biridir. Basit dogrusal regresyondan coklu regresyona, R2 degerinden varsayim kontrolune kadar genis bir metodolojik cerceve sunar. Kalite muhendisliginde SPC, DOE ve Six Sigma gibi araclarla birlikte kullanildiginda, sureclerin anlasilmasi, iyilestirilmesi ve optimizasyonu icin son derece etkili sonuclar uretir.
Regresyon analizini dogru uygulamak icin varsayimlara dikkat etmek, yeterli veri toplamak ve sonuclari dikkatli yorumlamak buyuk onem tasir. Korelasyonun nedensellik anlamina gelmedigi, ekstrapolasyonun riskli oldugu ve aykiri degerlerin sonuclari onemli olcude etkileyebildigi her zaman akilda tutulmalidir.











