Jedi Medical Academy — MCQ Değerlendirme

01 — ARAŞTIRMA SORUSU

Çalışmanın Amacı

Bu çalışmanın temel sorusu şudur: Farklı yapay zeka modelleri, aynı ders materyalinden eğitim amaçlı MCQ ürettiğinde, soru kalitesi birbirinden anlamlı biçimde ayrışır mı?

Dönem V tıp öğrencilerine yönelik ortopedi staj sonu sınavı için 14 ders başlığını kapsayan PPT + ses kaydı materyali üç farklı modele verilmiş; her modelden 50 soru (toplam 150 soru) üretilmiştir.

Sorular model etiketleri gizlenerek iki bağımsız uzman değerlendirici tarafından 8 kriterli rubrikle puanlanacak; ardından istatistiksel analizle modeller arası kalite farklılıkları ortaya konacaktır.

02 — MODEL SEÇİMİ

Neden Bu 3 Model?

Model seçiminde üç farklı yapay zeka paradigmasını temsil etmesi hedeflenmiştir:

ChatGPT-4o

Genel amaçlı büyük dil modeli. Tıp eğitimindeki MCQ çalışmalarında en sık karşılaştırılan referans model. Sadece metin tabanlı prompt ile çalışır.

Claude Sonnet 4.6

Anthropic'in orta kademe modeli. Uzun bağlam işleme ve yapılandırılmış çıktı kalitesiyle öne çıkar. Literatürde MCQ üretimi için az test edilmiştir.

NotebookLM

Google'ın RAG tabanlı modeli. Yüklenen kaynak belgelere sıkı sıkıya bağlı kalarak üretim yapar. Hallucination riski teorik olarak en düşük. Literatürde hiç test edilmemiş.

Bu üçlü kombinasyon — genel LLM + gelişmiş LLM + RAG tabanlı model — literatürde ilk kez ortopedi alanında karşılaştırılmaktadır.

03 — DEĞERLENDİRME RUBRİĞİ

8 Kriter ve Gerekçeleri

Her soru 8 kriter üzerinden 1–4 puan alır. Maksimum puan: 32. Puanlama Likert tipidir: 1=Yetersiz, 2=Orta, 3=İyi, 4=Mükemmel.

C1

İçerik Doğruluğu

Soru ve doğru yanıtın güncel tıp bilgisiyle uyumu. Hallucination veya faktüel hata varlığı bu kriterle tespit edilir.

C2

Klinik Uygunluk

Sorunun gerçek klinik pratiği yansıtıp yansıtmadığı. Sadece teorik bilgi sorgulamak yerine klinisyen bakış açısını ölçer.

C3

Bloom Seviyesi

Anderson & Krathwohl (2001) revize taksonomisine göre bilişsel düzey: Hatırlama (1) → Anlama (2) → Uygulama (3) → Analiz (4). Üst düzey sorular daha değerlidir.

C4

Stem Kalitesi

Soru kökünün netliği, tek yorumluluğu ve gereksiz bilgi içermemesi. "Hangisi yanlıştır" formatından kaçınılmalıdır.

C5

Distraktör Kalitesi

Yanlış şıkların makullüğü ve homojenliği. Açıkça saçma ya da hemen elenebilir distraktörler psikometrik kaliteyi düşürür.

C6

Müfredat Uyumu

Sorunun yüklenen ders materyaliyle örtüşmesi. Materyal dışı genel tıp bilgisinden üretilen sorular bu kriterle düşük puan alır.

C7

Hallucination Riski

Soruda uydurulmuş istatistik, var olmayan kılavuz referansı veya yanlış anatomi/fizyoloji bilgisi varlığı. 4=güvenilir, 1=ciddi hallucination riski.

C8

Öznel Beğeni ★

"Bu soruyu gerçek staj sonu sınavında kullanır mıydım?" Deneyimli klinisyenin sezgisel kalite yargısını ölçer. Nihai soru seçiminde ağırlıklı kriterdir.

04 — İSTATİSTİK PLANI

Analitik Strateji

Veriler normal dağılım göstermeyeceği varsayımıyla parametrik olmayan testler kullanılacaktır:

Kruskal-Wallis + Dunn

3 model arasında her kriter için puan farklılıkları. Post-hoc Dunn testi ile ikili karşılaştırmalar. Bonferroni düzeltmesi uygulanacak.

Cohen's Kappa (Ağırlıklı)

İki değerlendiricinin her kriter için puanları arasındaki uyum. Kabul edilebilir eşik: κ≥0.60.

ICC (İntraclass Correlation)

Toplam puan üzerinden değerlendirici arası güvenilirlik. ICC≥0.70 hedeflenmektedir.

Ki-Kare Testi

Bloom düzeyi dağılımı ve hallucination oranı için model karşılaştırması. Kategorik veriler için.

Cronbach Alpha

8 kriterlik rubriğin iç tutarlılığı. α≥0.70 kabul edilebilir iç tutarlılık eşiği.

Spearman Korelasyon

Toplam kalite puanı ile öznel beğeni skoru arasındaki ilişki. Kriter bazlı puanın nihai seçimi ne kadar yordadığını test eder.

Anlamlılık düzeyi p<0.05. İstatistiksel analizler SPSS v26 veya R ile gerçekleştirilecektir.

05 — LİTERATÜR TARAMASI

Benzer Çalışmalar ve Bu Çalışmanın Özgünlüğü

2023–2026 yılları arasında tıp eğitiminde AI destekli MCQ üretimine ilişkin yapılan çalışmaların özeti:

Çalışma	Modeller	Alan	Tasarım
Law et al., 2025 (BMC Med Educ)	ChatGPT-4o vs İnsan	Acil Tıp	Kör uzman, psikometrik analiz
Boufrikha et al., 2026	DeepSeek, ChatGPT, Perplexity	Hematoloji	3 model karşılaştırma
Karahan & Emekli, 2025	7 chatbot	Tıbbi görüntüleme	Lecture materials bazlı
Kim et al., 2025	ChatGPT-4o	Pediatri	Structured prompt, 100 MCQ
Uhm et al., 2024	GPT-4o, Claude 3.5, OpenBioLLM	Klinik genetik	3 model, blinded eval
Bu çalışma, 2026 ÖZGÜN	ChatGPT-4o + Claude Sonnet 4.6 + NotebookLM	Ortopedi	Kör uzman, 8 kriter, RAG dahil

Bu çalışmayı literatürden ayıran dört temel özellik:

1. Alan özgünlüğü: Ortopedi alanında MCQ kalitesi karşılaştırması literatürde ilk kez yapılmaktadır.

2. Model seti: NotebookLM (RAG tabanlı) hiçbir MCQ kalite çalışmasında daha önce test edilmemiştir.

3. Materyal bazlı üretim: Tüm modeller aynı PPT+ses kaydı materyalinden üretim yapmıştır — müfredat uyumu ölçülebilir.

4. Öznel kriter: Deneyimli klinisyen sezgisini ölçen öznel beğeni kriteri (C8) standart rubrik çalışmalarında yoktur.

06 — ÖLÇÜM GEÇERLİLİĞİ

Değerlendirme Aracının Geçerlilik Testleri

Rubriğin psikometrik kalitesi dört yöntemle test edilecektir:

İçerik Geçerliliği (Content Validity)

8 kriterin literatürdeki MCQ kalite çerçeveleriyle (Boufrikha 2026, Kim 2025) örtüşmesi iki kıdemli öğretim üyesi tarafından teyit edilmiştir. Her kriter için kuramsal dayanak mevcuttur.

Değerlendirici Arası Güvenilirlik

İki bağımsız değerlendirici aynı 150 soruyu kör olarak puanlayacak. Her kriter için ağırlıklı Cohen's Kappa (κ≥0.60 hedef) ve toplam puan için ICC (≥0.70) hesaplanacak.

İç Tutarlılık (Internal Consistency)

8 kriterin aynı yapıyı ölçüp ölçmediği Cronbach Alpha (α≥0.70) ile test edilecek. Düşük katkı sağlayan kriterler faktör analiziyle belirlenecek.

Yapı Geçerliliği (Construct Validity)

Objektif kriter puanları (C1–C7) ile öznel beğeni skoru (C8) arasındaki Spearman korelasyonu test edilecek. Yüksek korelasyon rubriğin klinisyen sezgisiyle örtüştüğünü gösterir.

Eşzamanlı Geçerlilik (Concurrent Validity)

Hallucination riski kriteri (C7) puan 1–2 olan sorular iki değerlendirici tarafından bağımsız olarak faktüel hata içerip içermediği açısından yeniden incelenerek kriter ile gerçek hata oranı karşılaştırılacak.

Nihai Soru Seçimi ile Korelasyon

Her değerlendiricinin nihai soru seçimi (toggle ile işaretlenen 50 soru) ile toplam puan sıralaması arasındaki Spearman korelasyonu hesaplanacak. Yüksek korelasyon rubriğin seçim kararını yordadığını kanıtlar.

06 — ÖLÇÜM GEÇERLİLİĞİ

Değerlendirme Aracının Geçerlilik Testleri

Rubriğin psikometrik kalitesi dört yöntemle test edilecektir:

İçerik Geçerliliği

8 kriterin literatürdeki MCQ kalite çerçeveleriyle (Boufrikha 2026, Kim 2025) örtüşmesi iki kıdemli öğretim üyesi tarafından teyit edilmiştir. Her kriter için kuramsal dayanak mevcuttur.

Değerlendirici Arası Güvenilirlik

İki bağımsız değerlendirici aynı 150 soruyu kör olarak puanlayacak. Her kriter için ağırlıklı Cohen's Kappa (κ≥0.60) ve toplam puan için ICC (≥0.70) hesaplanacak.

İç Tutarlılık

8 kriterin aynı yapıyı ölçüp ölçmediği Cronbach Alpha (α≥0.70) ile test edilecek. Düşük katkı sağlayan kriterler faktör analiziyle belirlenecek.

Yapı Geçerliliği

Objektif kriter puanları (C1–C7) ile öznel beğeni skoru (C8) arasındaki Spearman korelasyonu test edilecek. Yüksek korelasyon rubriğin klinisyen sezgisiyle örtüştüğünü gösterir.

Eşzamanlı Geçerlilik

Hallucination kriteri (C7) düşük puan alan sorular bağımsız olarak faktüel hata içerip içermediği açısından yeniden incelenerek kriter ile gerçek hata oranı karşılaştırılacak.

Seçim Korelasyonu

Nihai soru seçimi (50 soru toggle) ile toplam puan sıralaması arasındaki Spearman korelasyonu hesaplanacak. Yüksek korelasyon rubriğin seçim kararını yordadığını kanıtlar.