BAŞLAT
Çok uzak bir galakside, çok uzun zaman önce...
YAPAY ZEKA SINAVI

Yapay zekanın tıp eğitimine yürüyüşü durdurulamaz hale gelmiştir. ChatGPT, Claude ve NotebookLM galaksinin dört bir yanında çoktan seçmeli sorular üretmektedir.

Ancak bu soruların kalitesi... bilinmemektedir.

Üç cesur Jedi — Grand Master Yoda, Jedi Knight Obi-Wan ve The Chosen One Anakin — karanlığa ışık tutmak için bir araya gelmiştir.

150 soru. 3 yapay zeka. 8 kriter. Tek bir misyon.

Ortopedi eğitiminde hangi yapay zeka gerçekten Güç'e layıktır?

Cevap... sizin ellerinizde.

Değerlendirme başlasın.

ATLA ▶
GİZLİ HOLOKRON · ARŞİV NO: GÜ-2026-MCQ-001
YAPAY ZEKA SINAVI:
ORTOPEDİ EĞİTİMİNDE MCQ KALİTESİ
ChatGPT-4o, Claude Sonnet 4.6 ve NotebookLM tarafından üretilen çoktan seçmeli soruların kör uzman değerlendirmesiyle karşılaştırılması.
01 — ARAŞTIRMA SORUSU
Çalışmanın Amacı

Bu çalışmanın temel sorusu şudur: Farklı yapay zeka modelleri, aynı ders materyalinden eğitim amaçlı MCQ ürettiğinde, soru kalitesi birbirinden anlamlı biçimde ayrışır mı?

Dönem V tıp öğrencilerine yönelik ortopedi staj sonu sınavı için 14 ders başlığını kapsayan PPT + ses kaydı materyali üç farklı modele verilmiş; her modelden 50 soru (toplam 150 soru) üretilmiştir.

Sorular model etiketleri gizlenerek iki bağımsız uzman değerlendirici tarafından 8 kriterli rubrikle puanlanacak; ardından istatistiksel analizle modeller arası kalite farklılıkları ortaya konacaktır.

02 — MODEL SEÇİMİ
Neden Bu 3 Model?

Model seçiminde üç farklı yapay zeka paradigmasını temsil etmesi hedeflenmiştir:

ChatGPT-4o

Genel amaçlı büyük dil modeli. Tıp eğitimindeki MCQ çalışmalarında en sık karşılaştırılan referans model. Sadece metin tabanlı prompt ile çalışır.

Claude Sonnet 4.6

Anthropic'in orta kademe modeli. Uzun bağlam işleme ve yapılandırılmış çıktı kalitesiyle öne çıkar. Literatürde MCQ üretimi için az test edilmiştir.

NotebookLM

Google'ın RAG tabanlı modeli. Yüklenen kaynak belgelere sıkı sıkıya bağlı kalarak üretim yapar. Hallucination riski teorik olarak en düşük. Literatürde hiç test edilmemiş.

Bu üçlü kombinasyon — genel LLM + gelişmiş LLM + RAG tabanlı model — literatürde ilk kez ortopedi alanında karşılaştırılmaktadır.

03 — DEĞERLENDİRME RUBRİĞİ
8 Kriter ve Gerekçeleri

Her soru 8 kriter üzerinden 1–4 puan alır. Maksimum puan: 32. Puanlama Likert tipidir: 1=Yetersiz, 2=Orta, 3=İyi, 4=Mükemmel.

C1
İçerik Doğruluğu
Soru ve doğru yanıtın güncel tıp bilgisiyle uyumu. Hallucination veya faktüel hata varlığı bu kriterle tespit edilir.
C2
Klinik Uygunluk
Sorunun gerçek klinik pratiği yansıtıp yansıtmadığı. Sadece teorik bilgi sorgulamak yerine klinisyen bakış açısını ölçer.
C3
Bloom Seviyesi
Anderson & Krathwohl (2001) revize taksonomisine göre bilişsel düzey: Hatırlama (1) → Anlama (2) → Uygulama (3) → Analiz (4). Üst düzey sorular daha değerlidir.
C4
Stem Kalitesi
Soru kökünün netliği, tek yorumluluğu ve gereksiz bilgi içermemesi. "Hangisi yanlıştır" formatından kaçınılmalıdır.
C5
Distraktör Kalitesi
Yanlış şıkların makullüğü ve homojenliği. Açıkça saçma ya da hemen elenebilir distraktörler psikometrik kaliteyi düşürür.
C6
Müfredat Uyumu
Sorunun yüklenen ders materyaliyle örtüşmesi. Materyal dışı genel tıp bilgisinden üretilen sorular bu kriterle düşük puan alır.
C7
Hallucination Riski
Soruda uydurulmuş istatistik, var olmayan kılavuz referansı veya yanlış anatomi/fizyoloji bilgisi varlığı. 4=güvenilir, 1=ciddi hallucination riski.
C8
Öznel Beğeni ★
"Bu soruyu gerçek staj sonu sınavında kullanır mıydım?" Deneyimli klinisyenin sezgisel kalite yargısını ölçer. Nihai soru seçiminde ağırlıklı kriterdir.
04 — İSTATİSTİK PLANI
Analitik Strateji

Veriler normal dağılım göstermeyeceği varsayımıyla parametrik olmayan testler kullanılacaktır:

Kruskal-Wallis + Dunn
3 model arasında her kriter için puan farklılıkları. Post-hoc Dunn testi ile ikili karşılaştırmalar. Bonferroni düzeltmesi uygulanacak.
Cohen's Kappa (Ağırlıklı)
İki değerlendiricinin her kriter için puanları arasındaki uyum. Kabul edilebilir eşik: κ≥0.60.
ICC (İntraclass Correlation)
Toplam puan üzerinden değerlendirici arası güvenilirlik. ICC≥0.70 hedeflenmektedir.
Ki-Kare Testi
Bloom düzeyi dağılımı ve hallucination oranı için model karşılaştırması. Kategorik veriler için.
Cronbach Alpha
8 kriterlik rubriğin iç tutarlılığı. α≥0.70 kabul edilebilir iç tutarlılık eşiği.
Spearman Korelasyon
Toplam kalite puanı ile öznel beğeni skoru arasındaki ilişki. Kriter bazlı puanın nihai seçimi ne kadar yordadığını test eder.

Anlamlılık düzeyi p<0.05. İstatistiksel analizler SPSS v26 veya R ile gerçekleştirilecektir.

05 — LİTERATÜR TARAMASI
Benzer Çalışmalar ve Bu Çalışmanın Özgünlüğü

2023–2026 yılları arasında tıp eğitiminde AI destekli MCQ üretimine ilişkin yapılan çalışmaların özeti:

ÇalışmaModellerAlanTasarım
Law et al., 2025 (BMC Med Educ)ChatGPT-4o vs İnsanAcil TıpKör uzman, psikometrik analiz
Boufrikha et al., 2026DeepSeek, ChatGPT, PerplexityHematoloji3 model karşılaştırma
Karahan & Emekli, 20257 chatbotTıbbi görüntülemeLecture materials bazlı
Kim et al., 2025ChatGPT-4oPediatriStructured prompt, 100 MCQ
Uhm et al., 2024GPT-4o, Claude 3.5, OpenBioLLMKlinik genetik3 model, blinded eval
Bu çalışma, 2026 ÖZGÜNChatGPT-4o + Claude Sonnet 4.6 + NotebookLMOrtopediKör uzman, 8 kriter, RAG dahil

Bu çalışmayı literatürden ayıran dört temel özellik:

1. Alan özgünlüğü: Ortopedi alanında MCQ kalitesi karşılaştırması literatürde ilk kez yapılmaktadır.

2. Model seti: NotebookLM (RAG tabanlı) hiçbir MCQ kalite çalışmasında daha önce test edilmemiştir.

3. Materyal bazlı üretim: Tüm modeller aynı PPT+ses kaydı materyalinden üretim yapmıştır — müfredat uyumu ölçülebilir.

4. Öznel kriter: Deneyimli klinisyen sezgisini ölçen öznel beğeni kriteri (C8) standart rubrik çalışmalarında yoktur.

06 — ÖLÇÜM GEÇERLİLİĞİ
Değerlendirme Aracının Geçerlilik Testleri

Rubriğin psikometrik kalitesi dört yöntemle test edilecektir:

İçerik Geçerliliği (Content Validity)
8 kriterin literatürdeki MCQ kalite çerçeveleriyle (Boufrikha 2026, Kim 2025) örtüşmesi iki kıdemli öğretim üyesi tarafından teyit edilmiştir. Her kriter için kuramsal dayanak mevcuttur.
Değerlendirici Arası Güvenilirlik
İki bağımsız değerlendirici aynı 150 soruyu kör olarak puanlayacak. Her kriter için ağırlıklı Cohen's Kappa (κ≥0.60 hedef) ve toplam puan için ICC (≥0.70) hesaplanacak.
İç Tutarlılık (Internal Consistency)
8 kriterin aynı yapıyı ölçüp ölçmediği Cronbach Alpha (α≥0.70) ile test edilecek. Düşük katkı sağlayan kriterler faktör analiziyle belirlenecek.
Yapı Geçerliliği (Construct Validity)
Objektif kriter puanları (C1–C7) ile öznel beğeni skoru (C8) arasındaki Spearman korelasyonu test edilecek. Yüksek korelasyon rubriğin klinisyen sezgisiyle örtüştüğünü gösterir.
Eşzamanlı Geçerlilik (Concurrent Validity)
Hallucination riski kriteri (C7) puan 1–2 olan sorular iki değerlendirici tarafından bağımsız olarak faktüel hata içerip içermediği açısından yeniden incelenerek kriter ile gerçek hata oranı karşılaştırılacak.
Nihai Soru Seçimi ile Korelasyon
Her değerlendiricinin nihai soru seçimi (toggle ile işaretlenen 50 soru) ile toplam puan sıralaması arasındaki Spearman korelasyonu hesaplanacak. Yüksek korelasyon rubriğin seçim kararını yordadığını kanıtlar.
06 — ÖLÇÜM GEÇERLİLİĞİ
Değerlendirme Aracının Geçerlilik Testleri

Rubriğin psikometrik kalitesi dört yöntemle test edilecektir:

İçerik Geçerliliği
8 kriterin literatürdeki MCQ kalite çerçeveleriyle (Boufrikha 2026, Kim 2025) örtüşmesi iki kıdemli öğretim üyesi tarafından teyit edilmiştir. Her kriter için kuramsal dayanak mevcuttur.
Değerlendirici Arası Güvenilirlik
İki bağımsız değerlendirici aynı 150 soruyu kör olarak puanlayacak. Her kriter için ağırlıklı Cohen's Kappa (κ≥0.60) ve toplam puan için ICC (≥0.70) hesaplanacak.
İç Tutarlılık
8 kriterin aynı yapıyı ölçüp ölçmediği Cronbach Alpha (α≥0.70) ile test edilecek. Düşük katkı sağlayan kriterler faktör analiziyle belirlenecek.
Yapı Geçerliliği
Objektif kriter puanları (C1–C7) ile öznel beğeni skoru (C8) arasındaki Spearman korelasyonu test edilecek. Yüksek korelasyon rubriğin klinisyen sezgisiyle örtüştüğünü gösterir.
Eşzamanlı Geçerlilik
Hallucination kriteri (C7) düşük puan alan sorular bağımsız olarak faktüel hata içerip içermediği açısından yeniden incelenerek kriter ile gerçek hata oranı karşılaştırılacak.
Seçim Korelasyonu
Nihai soru seçimi (50 soru toggle) ile toplam puan sıralaması arasındaki Spearman korelasyonu hesaplanacak. Yüksek korelasyon rubriğin seçim kararını yordadığını kanıtlar.
⚡ DEĞERLENDİRMEYE GEÇ
"DO OR DO NOT. THERE IS NO TRY." — YODA