Hipotez Testi Nedir?
Bir kalite mühendisi olarak şu durumla sürekli karşılaşırsınız: Yeni bir tedarikçiden gelen malzeme daha mı iyi? Proses değişikliği hata oranını gerçekten düşürdü mü? İki vardiya arasında performans farkı var mı?
Gözlemliyorsunuz, bir fark görüyorsunuz. Ama asıl soru şu: Bu gözlemlediğim fark gerçek mi, yoksa tesadüf mü?
Hipotez testi, örneklem verilerinden yola çıkarak bir popülasyon hakkında karar vermenizi sağlayan istatistiksel bir yöntemdir. Yani elinizde sınırlı sayıda ölçüm var, ama tüm üretim hakkında bir çıkarımda bulunmanız gerekiyor. Hipotez testi tam da bu boşluğu dolduruyor.
Six Sigma metodolojisinin Analyze aşamasında, proses iyileştirme projelerinde, ürün geliştirme süreçlerinde ve tedarikçi değerlendirmelerinde hipotez testleri vazgeçilmez bir araç. Veriye dayalı karar almak istiyorsanız — ki kalite yönetiminde başka türlüsü kabul edilemez — hipotez testi bilmek zorunlu.
Hipotez testi olmadan karar veriyorsanız, aslında tahmin ediyorsunuz. Hipotez testiyle karar veriyorsanız, istatistiksel güveniniz var.
Temel Kavramlar
Hipotez testini anlamak için birkaç temel kavramı net bilmeniz gerekiyor. Bunlar bir kez oturduğunda geri kalan her şey mantıklı bir çerçeveye oturuyor.
H₀ (Sıfır Hipotez) ve H₁ (Alternatif Hipotez)
Her hipotez testinde iki rakip iddia vardır.
H₀ (Sıfır Hipotez): "Fark yoktur." Status quo varsayımı. Değişiklik yok, etki yok, iyileşme yok. Mevcut durumun devam ettiğini savunur.
H₁ (Alternatif Hipotez): "Fark vardır." Kanıtlamak istediğiniz iddia. Yeni malzeme daha iyidir, proses değişikliği etki yaratmıştır gibi.
Somut bir örnek düşünelim:
- H₀: Yeni tedarikçinin malzemesi ile mevcut tedarikçinin malzemesi arasında çekme mukavemeti farkı yoktur.
- H₁: Yeni tedarikçinin malzemesi daha yüksek çekme mukavemeti sağlar.
Burada kritik bir mantık var: Biz H₁'i doğrudan kanıtlamaya çalışmayız. Bunun yerine H₀'ı reddetmeye çalışırız. H₀'ı reddedecek kadar güçlü kanıt varsa, H₁ lehine karar veririz. Tıpkı mahkemede "masumiyet karinesi" gibi — suçlu olduğunu kanıtlamanız gerekir, masum olduğunu değil.
p-Değeri
p-değeri, hipotez testinin kalbidir. Çoğu kişi yanlış anlar, o yüzden dikkatli olalım.
p-değeri: H₀ doğru olsaydı, gözlemlediğiniz sonucu (veya daha uç bir sonucu) elde etme olasılığı.
Yani p-değeri size şunu söylüyor: "Eğer gerçekten bir fark olmasaydı, bu kadar büyük bir fark görme şansınız ne kadardı?"
Karar mekanizması:
- p < α (genellikle 0.05) → H₀ reddedilir → "İstatistiksel olarak anlamlı bir fark var."
- p ≥ α → H₀ reddedilemez → "Bu fark tesadüfi olabilir, yeterli kanıt yok."
Yaygın yanlış anlama: p-değeri H₀'ın doğru olma olasılığı DEĞİLDİR. p=0.03 demek "H₀'ın doğru olma olasılığı %3" demek değildir. p-değeri, veri hakkında bir olasılık ifadesidir, hipotez hakkında değil. Bu ayrım küçük görünebilir ama pratikte büyük fark yaratır.
α (Anlamlılık Düzeyi)
α, karar eşiğinizdir. "Ne kadar kanıt yeter?" sorusunun cevabı.
Genellikle α = 0.05 (%5) kullanılır. Bazı durumlarda α = 0.01 (%1) tercih edilir — özellikle yanlış alarm maliyeti yüksekse.
α aslında Tip I hata riskidir. Yani H₀ doğruyken reddetme olasılığı. %5 anlamlılık düzeyinde çalışıyorsanız, gerçekte fark olmayan 100 testten yaklaşık 5'inde "fark var" deme riskiniz var.
Tip I ve Tip II Hatalar
İki tür hata yapabilirsiniz ve ikisinin de gerçek dünyada maliyeti var.
| Hata Türü | Ne Olur? | Kalite Örneği | Risk |
|---|---|---|---|
| Tip I (α hatası) | H₀ doğruyken reddettiniz | Aslında fark yok ama "yeni malzeme daha iyi" dediniz | Gereksiz maliyet, yanlış karar |
| Tip II (β hatası) | H₀ yanlışken reddedemedınız | Gerçekten fark var ama "fark yok" dediniz | Fırsatı kaçırdınız, iyileşme olmadı |
Tip I hata: "Var dediğin fark aslında yok." Tip II hata: "Var olan farkı kaçırdın."
Bu iki hata arasında bir denge var. α'yı düşürdüğünüzde (Tip I hata riskini azalttığınızda), β artar (Tip II hata riski yükselir). Numune büyüklüğünü artırmak her iki hatayı da azaltmanın en etkili yolu.
Kalite Yönetiminde En Çok Kullanılan Testler
Doğru testi seçmek, doğru analiz kadar önemli. Veri türünüz, karşılaştırma şekliniz ve grup sayınız hangi testi kullanacağınızı belirler.
t-Testi
t-testi, iki grubun ortalamasını karşılaştırmak için kullanılır. Kalite mühendisliğinde en sık başvurulan istatistiksel testtir.
Tek örneklem t-testi: Proses ortalaması hedef değerden farklı mı? Örneğin, ürettiğiniz parçanın ortalama uzunluğu 50.00 mm olmalı. Ölçtüğünüz ortalama 50.12 mm. Bu fark anlamlı mı, yoksa normal proses varyasyonu mu?
İki örneklem t-testi: İki bağımsız grup arasında fark var mı? Örneğin, A tedarikçisinin malzemesi ile B tedarikçisinin malzemesi arasında mukavemet farkı var mı? Ya da iki farklı makineden çıkan parçaların boyutları arasında fark var mı?
Eşlenmiş t-testi: Aynı birimlerin iyileştirme öncesi ve sonrası karşılaştırması. Örneğin, aynı operatörlerin eğitim öncesi ve sonrası performansı karşılaştırması. Ya da aynı parçanın iki farklı ölçüm cihazıyla ölçüm sonuçları.
Kalite dünyasından bir senaryo: "A tedarikçisinin çelik sacı B tedarikçisinden daha mı sağlam?" Her tedarikçiden 30'ar numune alıyorsunuz, çekme testi yapıyorsunuz. İki örneklem t-testi sonucu p=0.003 çıkıyor. α=0.05 olduğuna göre H₀ reddedilir — istatistiksel olarak anlamlı bir fark var.
Ki-Kare (χ²) Testi
Ki-kare testi, kategorik (sayılabilir) veriler için kullanılır. Oranlar arası fark veya değişkenler arası bağımlılık test edilir.
Bağımsızlık testi: İki kategorik değişken arasında ilişki var mı? Örneğin, hata tipi vardiyaya bağımlı mı? Gece vardiyasında çizik hataları, gündüz vardiyasında boyut hataları mı yoğunlaşıyor?
Uygunluk testi: Gözlemlenen dağılım beklenen dağılıma uyuyor mu?
Pratik örnek: "Gece vardiyasında hata oranı gündüz vardiyasından farklı mı?" Gündüz 500 üründe 12 hata, gece 500 üründe 23 hata. Gece daha kötü görünüyor ama istatistiksel olarak anlamlı mı? Ki-kare testi cevap veriyor.
F-Testi / ANOVA
İkiden fazla grubu karşılaştırmanız gerektiğinde ANOVA devreye giriyor.
Örnek: Üç farklı tedarikçinin malzemesi arasında mukavemet farkı var mı? İki tedarikçi olsa t-testi kullanırdınız. Üç veya daha fazla olduğunda ANOVA gerekiyor.
Neden her çifti ayrı ayrı t-testi ile karşılaştırmıyoruz? Çünkü her test yapışınızda Tip I hata riski birikiyor. Üç grup için üç ayrı t-testi yaparsanız, toplam hata oranı %5'in çok üstüne çıkar. ANOVA bu sorunu çözüyor.
ANOVA anlamlı çıkarsa "en az iki grup arasında fark var" diyorsunuz. Hangi gruplar farklı? Bunu belirlemek için post-hoc testler (Tukey, Bonferroni gibi) kullanıyorsunuz.
DOE (Deney Tasarımı) projelerinde ANOVA temel analiz aracıdır. Faktörlerin yanıt üzerindeki etkisini ANOVA ile değerlendirirsiniz.
Oran Testi
İki oranı karşılaştırmak için kullanılır.
Pratik örnek: Yeni prosedür uygulandıktan sonra hatalı ürün oranı düştü mü? Öncesi: 1000 üründe 45 hatalı (%4.5). Sonrası: 1000 üründe 28 hatalı (%2.8). Fark gerçek mi?
Oran testi bu tip verilerde güvenilir cevap veriyor. Özellikle go/no-go tipi ölçümlerde ve hata oranı takibinde yaygın kullanılır.
Hipotez Testi Nasıl Yapılır? (Adım Adım)
Sistematik bir yaklaşım her zaman daha iyi sonuç verir. Hipotez testi yaparken bu sekiz adımı takip edin.
Adım 1: Soruyu Formüle Edin
Ne karşılaştırıyorsunuz? Neyi kanıtlamak istiyorsunuz? "Yeni malzeme daha mı iyi?" sorusu güzel ama "Yeni malzemenin çekme mukavemeti ortalaması mevcut malzemeden farklı mı?" sorusu test edilebilir.
Adım 2: H₀ ve H₁ Yazın
Hipotezlerinizi açık ve net yazın. H₀ her zaman "fark yok" veya "etki yok" ifadesidir.
Adım 3: α Seviyesini Belirleyin
Genellikle 0.05 kullanılır. Yanlış alarm maliyeti çok yüksekse 0.01 düşünün. Bu kararı testi yapmadan önce verin — sonra "p=0.07 çıktı, α'yı 0.10 yapalım" demek bilimsel değildir.
Adım 4: Uygun Testi Seçin
Veri tipinize ve karşılaştırma şeklinize göre doğru testi belirleyin. Bir sonraki bölümdeki karar rehberi bu adımda yardımcı olacak.
Adım 5: Veriyi Toplayın
Yeterli numune büyüklüğü kritik. Çok az numune ile test yaparsanız gerçek farkları bile tespit edemezsiniz (düşük istatistiksel güç). Testten önce güç analizi (power analysis) yaparak gerekli numune sayısını belirleyin.
Adım 6: Testi Uygulayın
Minitab, Excel, Python, R gibi yazılımlarla testi uygulayın. Hesaplamaları elle yapmanıza gerek yok ama sonuçları yorumlayabilmeniz şart.
Adım 7: p-Değerini Yorumlayın
p-değerini α ile karşılaştırın. Sadece "anlamlı / anlamsız" demekle kalmayın, etki büyüklüğünü de değerlendirin. İstatistiksel anlamlılık ile pratik anlamlılık farklı kavramlar.
Adım 8: İş Kararına Dönüştürün
İstatistik bir araçtır, kararın kendisi değildir. Test sonucunu maliyet, fizibilite, risk ve iş gereksinimleriyle birlikte değerlendirerek nihai kararı verin.
Doğru Testi Seçme Rehberi
Hangi testi kullanacağınız dört sorunun cevabına bağlı. Aşağıdaki tabloyu referans olarak kullanabilirsiniz.
| Veri Türü | Karşılaştırma | Grup Sayısı | Eşlenmiş mi? | Test |
|---|---|---|---|---|
| Sürekli (ölçülebilir) | Ortalamalar | 1 vs hedef | - | Tek örneklem t-testi |
| Sürekli | Ortalamalar | 2 | Hayır | İki örneklem t-testi |
| Sürekli | Ortalamalar | 2 | Evet | Eşlenmiş t-testi |
| Sürekli | Ortalamalar | 3+ | Hayır | Tek yönlü ANOVA |
| Sürekli | Varyanslar | 2 | Hayır | F-testi |
| Sürekli | Varyanslar | 3+ | Hayır | Bartlett / Levene testi |
| Kategorik (oranlar) | Oranlar | 2 | Hayır | Oran testi (z-testi) |
| Kategorik | Bağımlılık | - | - | Ki-kare testi |
Normal dağılım varsayımı karşılanmıyorsa parametrik olmayan alternatifler kullanılır: Mann-Whitney U (t-testi yerine), Kruskal-Wallis (ANOVA yerine), Wilcoxon (eşlenmiş t-testi yerine).
Testten önce veri dağılımınızı kontrol edin. Normal olasılık grafiği (normal probability plot) veya Anderson-Darling testi ile normallik varsayımını doğrulayın.
Size Uygun Eğitimi Bulun
Bireysel mi yoksa kurumsal mı eğitim arıyorsunuz?
Sık Yapılan Hatalar
Hipotez testi güçlü bir araç ama yanlış kullanıldığında yanıltıcı sonuçlar verebilir. Kalite mühendisliğinde en sık karşılaşılan hataları bilmek sizi korur.
Küçük numune ile "fark yok" demek. 5-10 numuneyle test yapıp p=0.15 çıkınca "fark yok" diyorsunuz. Ama belki de fark var, sadece numune büyüklüğünüz bunu tespit etmek için yetersiz. Bu düşük istatistiksel güç (low power) problemi çok yaygın. Testten önce güç analizi yapın. Genellikle grup başına en az 15-30 numune gerekir.
p=0.06'yı "kesinlikle fark yok" olarak yorumlamak. 0.05 sihirli bir eşik değil. p=0.049 ile p=0.051 arasında pratikte bir fark yok. Ama biri "anlamlı", diğeri "anlamsız" oluyor. p-değerini bir sürekli kanıt ölçüsü olarak düşünün. 0.06 "güçlü bir ipucu ama kesin kanıt değil" anlamına gelir, "kesinlikle fark yok" anlamına gelmez.
İstatistiksel anlamlılık ile pratik anlamlılığı karıştırmak. 10.000 numunede yapılan bir testte 0.002 mm'lik bir fark bile istatistiksel olarak anlamlı çıkabilir. Ama bu fark pratikte önemli mi? Cpk ve Ppk açısından bir şey değiştiriyor mu? Her zaman "istatistiksel olarak anlamlı ama pratikte ne anlama geliyor?" sorusunu sorun.
Çoklu test düzeltmesi yapmamak. Aynı veri seti üzerinde 20 farklı test yaparsanız, sırf tesadüfen bile en az biri anlamlı çıkar (α=0.05 ise). Birden fazla karşılaştırma yapıyorsanız Bonferroni düzeltmesi veya Holm yöntemi gibi çoklu test düzeltmeleri uygulayın.
Varsayımları kontrol etmemek. t-testi normallik varsayımına, iki örneklem t-testi varyans eşitliği varsayımına dayanır. Bu varsayımlar karşılanmadan test yaparsanız sonuçlar güvenilmez. Normallik testi, varyans eşitliği testi (Levene testi) ve artık grafikleri (residual plots) kontrol edilmeli.
Sonucu hipoteze uydurmak. Önce veriyi görüp sonra hipotez kurmak, ardından o hipotezi test etmek ciddi bir hatadır. Hipotez veriyi görmeden kurulmalı. Bu "data dredging" veya "p-hacking" olarak bilinir ve bilimsel olarak geçersizdir.
Sıkça Sorulan Sorular
Hipotez testi hangi yazılımlarla yapılır?
Endüstride Minitab en yaygın tercih. Minitab'da Assistant menüsü bile sizi doğru teste yönlendiriyor. Excel'de temel testler Data Analysis eklentisiyle yapılabilir. Python'da scipy.stats ve R'da stats paketi güçlü alternatifler. Hangi yazılım olursa olsun, yazılım hesabı yapar ama yorumu siz yaparsınız.
p-değeri 0.05'ten büyük çıktı, ne yapmalıyım?
"Fark yoktur" diye kesin bir yargıya varmayın. "Mevcut verilerle fark olduğuna dair yeterli kanıt bulunamadı" deyin. Belki numune büyüklüğünüz yetersizdi. Güç analizi yapın, daha fazla veriyle testi tekrarlayın. Ayrıca güven aralığına (confidence interval) bakın — farkın olası aralığı pratik açıdan önemli mi?
Hipotez testi için kaç numune gerekir?
Tek bir cevap yok. Beklediğiniz etki büyüklüğüne, varyasyona, istediğiniz güce ve α seviyesine bağlı. Genel kural olarak: küçük farkları tespit etmek daha fazla numune ister. Güç analizi (power analysis) yaparak gerekli numune sayısını hesaplayın. Minitab'ın Stat > Power and Sample Size menüsü bu hesabı kolaylaştırıyor.
Six Sigma projelerinde hipotez testi ne zaman kullanılır?
Six Sigma DMAIC döngüsünde hipotez testleri özellikle Analyze aşamasında yoğun kullanılır. Potansiyel kök nedenler test edilir: Bu faktör gerçekten sonucu etkiliyor mu? Improve aşamasında ise iyileştirme sonrası durum test edilir: Değişiklik gerçekten fark yarattı mı? SPC ile izleme yapılan Control aşamasında da kontrol dışı durumlarda hipotez testleri devreye girebilir.
İlgili Konular
Hipotez testi, kalite mühendisliğinin istatistiksel araç kutusunun temel parçalarından biri. Aşağıdaki konularla birlikte öğrenildiğinde çok daha güçlü bir bütün oluşturuyor.
- SPC (İstatistiksel Proses Kontrol) — Proses varyasyonunu izlemek ve kontrol altında tutmak
- Six Sigma — DMAIC metodolojisi ve veri odaklı kalite iyileştirme
- DOE (Deney Tasarımı) — Faktör etkilerini sistematik olarak analiz etme ve optimizasyon
- Cpk ve Ppk — Proses yeterliliği analizi ve spesifikasyon uyumu
- MSA (Ölçüm Sistemi Analizi) — Ölçüm güvenilirliği, hipotez testinden önce doğrulanmalı
- Pareto Analizi — Problemleri önceliklendirme, hipotez testi öncesi odak belirleme
- Kalite Kontrol Yöntemleri — Genel kalite kontrol araçları ve teknikleri
- Olasılık Kavramları Nedir? — Hipotez testinin dayandığı olasılık teorisi temelleri
- Veri Türleri ve Ölçek Türleri Nedir? — Doğru test seçimi için veri türlerini anlama











