← Yazılar

Modeli İçeriden Güncellemek: Fine-Tuning, LoRA, RLHF ve Knowledge Distillation

Bir önceki yazıda ele aldığımız RAG, Tool Use ve Agentic AI modeli dışarıdan destekliyordu: bilgi getir, araç çağır, planla ve yönet. Bu yazıdaki dört yaklaşım ise modelin kendisini değiştiriyor. Dışarıdan desteklemede modelin kendisinde bir değişiklik yapılmaz. İçeriden güncellenen model ise artık farklı bir model haline gelir.

1. Fine-Tuning (İnce Ayar): Hazır Giyim’den Özel Dikim Takım Elbise’ye

Bir LLM, devasa miktardaki metinlerle (DeepSeek-V3-Base için 14.8 Triyon token) eğitimini tamalayan bir genel kültür uzmanı gibidir. Her konuda fikir yürütür ama hiçbir alanda derinlemesine uzmanlığı yoktur. Fine-tuning, bu genel yetkinliği belirli bir alanda derinleştirir: yeni bir veri setiyle modeli yeniden eğiterek onu o alanın uzmanına dönüştürür.

Google’ın Med-PaLM 2 modeli, tıbbi verilerle fine-tune edildikten sonra ABD tıp lisans sınavında %86.5 başarı yakaladı; önceki versiyonuna göre 19 puanlık bir sıçrama sağladı. Üstelik doktorlar bu modelin cevaplarını gerçek doktorların cevaplarına 9 klinik kriterin 8’inde tercih etti.

Daha çarpıcı bir örnek: Stanford’un Alpaca projesi, Meta’nın LLaMA 7B modeline sadece 52.000 AI-üretimi veriyle ince ayar yaptı. Toplam maliyet ise veri üretimi ve eğitim dahil 600 doların altı oldu. Ortaya çıkan model GPT-3.5 ile kıyaslanabilir bir performans gösterdi. 7 milyar parametreli açık kaynak bir model, bir yüksek lisans öğrencisinin bütçesiyle ticari bir devle boy ölçüşebilecek bir modele dönüştürülmüş oldu.

Neden önemli: Fine-tuning, genel amaçlı bir modeli alanınıza özel bir uzmana dönüştürmenin en doğrudan yolu. Ama klasik fine-tuning’in bir bedeli var: modelin tüm ağırlıklarını güncellemek zorunda olmak büyük modellerde çok pahalı ve kaynak yoğun. GPT-3 ölçeğinde bu, 175 milyar parametreyi yeniden eğitmek demek.

2. LoRA ve QLoRA: Fine-Tuning’i Ulaşılabilir Hale Getirmek

Klasik fine-tuning, modelin tüm parametrelerini günceller. LoRA (Low-Rank Adaptation) ise modelin orijinal ağırlıklarını dondurup küçük “adaptör” matrisler ekliyor ve yalnızca bunları eğitiyor. Yani sanki motoru komple sökmek yerine, performans çipi takarak aynı motoru daha yüksek performansta çalıştırıyor.

Microsoft’un 2021’deki orijinal LoRA araştırmasında, GPT-3 175B’ye LoRA uygulandığında eğitilen parametre sayısı 10.000 kat azaldı, eğitim sırasındaki GPU bellek ihtiyacı 3 kat düştü, eğitim çıktısının boyutu 350 GB’den 35 MB’ye indi. Kalite ise tam fine-tuning ile eşdeğer, hatta bazen daha iyi bile olabiliyor. Bu makale bugüne kadar 26.000’den fazla atıf almış durumda.

QLoRA bunu bir adım öteye taşıdı: normalde 16-bit ağırlıklara sahip olan modeli 4-bit hassasiyete sıkıştırıp üzerine LoRA uyguladı. Böylece 65 milyar parametreli bir model, tek bir 48 GB GPU’da, 24 saatte fine-tune edildi. Ortaya çıkan Guanaco modeli, ChatGPT performansının %99.3’üne ulaştı. Daha önce birden fazla pahalı GPU kümesi gerektiren bir iş, tek bir ekran kartı ile yapılabilir hale gelmiş oldu.

Bir başka örnek; Bloomberg, finansal NLP için sıfırdan model eğittiğinde maliyeti yaklaşık 2.7 milyon dolardı. Columbia ve NYU Shanghai’dan araştırmacılar, FinGPT projesiyle açık kaynak modellere LoRA uygulayarak benzer finansal duygu analizi performansını 300 doların altında elde etti. Yaklaşık 1/10.000’ilk bir oran. Üstelik ince ayar yapmanın maliyeti bu kadar ucuz olunca FinGPT haftalık olarak yeniden eğitilebiliyor, piyasa değişimlerine, güncel bilgilerle ayak uyduruyor.

Neden önemli: LoRA ve QLoRA (ve bahsetmediğimiz DoRA, LoRA-FA, Unsloth gibi yöntemlerle), fine-tuning’i dev bütçeli şirketlerin tekelinden çıkarıp üniversite laboratuvarlarına, startup’lara ve bireysel geliştiricilere de açtı. Bugün HuggingFace’te yalnızca tek bir model (Flux.1) için 30.000’den fazla LoRA adaptörü paylaşılmış durumda. Tam fine-tune edilmiş bir model çıktısı yaklaşık 11 GB iken, bir LoRA adaptörü ise sadece 19 MB büyüklüğünde olmuş oluyor.

3. RLHF ve DPO: Modele “Doğru Cevabı” Değil, “Tercih Edilen Cevabı” Öğretmek

Fine-tuning modele yeni bilgi ve beceri kazandırıyor. Peki model doğru bilgiyi bildiği halde, cevabı sunma şekli uygunsuz, kaba, uzun veya kullanışsız bir şekilde oluyorsa? RLHF (Reinforcement Learning from Human Feedback) tam da bu sorunu çözüyor: modele “ne bilmesi gerektiğini” değil, “nasıl davranması gerektiğini” öğretiyor. Fine-tuning bir uzman doktor eğitmekse, RLHF, o doktora yatan hastaya tutumunun nasıl olacağını veya hastayla nasıl konuşması gerektiğini öğretmek gibi düşünülebilir.

Peki bu nasıl başarılıyor? Süreç temel olarak üç adımda işliyor: 1. İnsan Geri Bildirimi Toplama (Örneklendirme): Öncelikle modele çeşitli sorular soruluyor ve her soru için birkaç farklı cevap üretmesi isteniyor. Ardından insan değerlendiriciler bu cevapları okuyarak “En faydalı olan A, sonra C, en kötüsü ise B” şeklinde sıralıyor. Böylece insanların neleri sevip neleri sevmediğine dair bir veri seti oluşuyor. 2. Ödül Modelinin (Reward Model) Eğitilmesi: İnsanların milyonlarca cevabı tek tek okuyup puanlaması imkansız olduğundan sahneye ikinci bir yapay zeka modeli çıkıyor: Ödül Modeli. Bu modele, insanların yaptığı sıralamalar gösteriliyor ve insanların tercihlerini simüle eden dijital bir jüriye dönüşmesi sağlanıyor. Hangi cevabın insanlara daha uygun, kibar veya faydalı geleceğini tahmin edebilen bir jüri. 3. Optimizasyon (Modelin Kendini Geliştirmesi): Asıl dil modelimiz (LLM) tekrar farklı farklı cevaplar üretmeye başlıyor. Ancak bu kez ürettiği cevapları insanlara değil, az önce eğittiğimiz bu “dijital jüriye” soruyor. Jüri, cevabın üslubuna ve kullanışlılığına bakarak bir puan (ödül) veriyor. Model yüksek puan aldığında “Harika, doğru yoldayım!” diyerek o ifade tarzını içselleştiriyor. Düşük puan aldığında ise o tarzdan uzaklaşıyor. Tıpkı yeni bir oyunu deneyerek bu bilgisayar oyununda en yüksek skoru yapmaya çalışan bir oyuncu gibi, deneme yanılma yoluyla en uygun iletişim tarzını benimsiyor.

OpenAI’ın InstructGPT deneyinde, RLHF ile eğitilmiş 1.3 milyar parametreli model, ham haliyle bırakılan 175 milyar parametreli GPT-3’e karşı insanlar tarafından tercih edildi. 100 kat daha küçük bir model, sadece insan tercihlerine göre hizalandığı için daha büyük modeli geçti. Halüsinasyon oranı %41’den %21’e düştü.

DPO (Direct Preference Optimization) ise RLHF’nin daha basit ve kararlı alternatifi. RLHF’de ayrı bir ödül modeli eğitmek gerekiyor; DPO bu adımı atlayarak doğrudan iyi cevap ve kötü cevap modele birlikte sunuyor ve iyi cevabı tercih etmesi gerektiğini söyleyerek modeli optimize ediyor. HuggingFace’in Zephyr-7B modeli, DPO ile eğitilerek pahalı RLHF ile eğitilmiş 70 milyar parametreli LLaMA-2-Chat’i MT-Bench sohbet benchmarkında geçti. Böylece 10 kat daha küçük model, sıfır insan geri bildirimi ile ve toplam 500 dolar eğitim maliyeti ile eğitim yapılmış oldu.

Neden önemli: RLHF ve DPO, ChatGPT’nin “sohbet edebilir” hale gelmesinin arkasındaki teknik. Model bilgiyi zaten biliyor olabilir; ama onu kullanıcıya yararlı, güvenli ve anlaşılır şekilde sunması için hizalama-alignment (modelin amaca uygun bir şekilde ve insan beklentilerine uygun davranmasını sağlamak) şart. Önceki yazıdaki Toolformer örneğini hatırlayın: araç kullanan 6.7B model, araçsız 175B modelle yarışmıştı. RLHF/DPO da benzer bir hikaye anlatıyor: büyüklük değil, hizalama belirleyici.

4. Knowledge Distillation (Bilgi Damıtma): Büyük Beynin Bilgisini Küçük Beyne Aktarmak

Knowledge Distillation’da büyük bir “öğretmen” model, küçük bir “öğrenci” modele bilgisini aktarır. Öğrenci sadece cevapları değil, öğretmenin düşünme sürecini de taklit ederek öğreniyor. Fine-tuning modeli hazırlanmış yeni ve doğru veriyle eğitiyordu; distillation ise modeli daha iyi başka bir modelin cevapları ile eğitiyor.

Google’ın 2023’teki “Distilling Step-by-Step” araştırmasında, 770 milyon parametreli bir T5 modeli, 540 milyar parametreli PaLM’ı NLP benchmarklarında geçti. Bu 700 kat model boyutu küçülmesi demek.

2025’te DeepSeek bu hikayeyi zirveye taşıdı. 671 milyar parametreli R1 modelinden damıtılan 1.5 milyar parametreli DeepSeek-R1-Distill-Qwen-1.5B, matematik benchmarklarında (AIME 2024’te %28.9, MATH-500’de %83.9) GPT-4o ve Claude 3.5 Sonnet’i geçti. Bir akıllı telefona sığacak kadar küçük bir model, iki dev ticari modeli matematiksel akıl yürütmede geride bıraktı. DeepSeek’in bu araştırması, güçlü bir modelden damıtma (DeepSeek-R1), küçük modelleri (Qwen2.5-1.5B) büyük ölçekli pekiştirmeli öğrenmeyle eğitmekten daha iyi sonuç veriyor sonucuna getirdi bizi.

Anthropic’in Şubat 2026’da yayınladığı duyuruya göre şirket; DeepSeek, Moonshot ve MiniMax gibi yapay zeka şirketlerinin Claude’un yeteneklerini kopyalamak için “damıtma saldırıları” (distillation attacks) düzenlediğini tespit ettiğini ilan etmiştir. Bu şirketler, on binlerce hesap üzerinden milyonlarca sorgu üreterek özellikle Claude’un kodlama, araç kullanımı ve gelişmiş akıl yürütme becerilerini kendi modellerini eğitmek için izinsiz bir şekilde çalmaya çalışmıştır.

Neden önemli: Knowledge Distillation, büyük modellerin yeteneklerini küçük, hızlı ve ucuz modellere aktarmamızı sağlıyor. Bu, yapay zekayı yalnızca bulut sunucularında değil, telefonlarda, dizüstü bilgisayarlarda ve uç cihazlarda (edge device) çalışmamızı sağlıyor.

Dışarıdan Destek mi, İçeriden Güncelleme mi?

İki yazı önce LLM’in sınırlarını gördük. Bir önceki yazıda bu sınırları dışarıdan aşan yaklaşımları inceledik. Bu yazıda da modeli içeriden güncelleyen yöntemleri ele aldık. Peki ne zaman hangisini kullanmalıyız?

Pratikte:

  • Halüsinasyonu azaltmak istiyorsanız → RAG (dışarıdan güvenilir kaynak getir)
  • Güncel veya anlık veri gerekiyorsa → Tool Use (API çağır, web’de ara)
  • Çok adımlı karmaşık görevler varsa → Agentic AI (planla, orkestre et)
  • Modeli bir alanda uzmanlaştırmak istiyorsanız → Fine-tuning
  • Fine-tuning bütçeniz kısıtlıysa → LoRA / QLoRA / DoRA / Unsloth
  • Modelin davranışını ve cevap kalitesini iyileştirmek istiyorsanız → RLHF / DPO
  • Büyük modelin yeteneklerini küçük modele taşımak istiyorsanız → Knowledge Distillation

Dışarıdan destek hızlı ve esnektir: modele dokunmadan yeni yetenekler ekler. İçeriden güncelleme kalıcı ve derindir: modelin kendisini değiştirir. İkisi birlikte de kullanır, çünkü biri diğerinin alternatifi değil, tamamlayıcısıdır.

Siz kendi projelerinizde modeli olduğu gibi mi kullanıyorsunuz, yoksa fine-tuning veya LoRA ile özelleştirmeyi denediniz mi?

Paylaş