KAIRA is not just a standard LLM; it is an AI that mathematically internalizes the morphological structure and cultural depth (idioms, sarcasm, emotion) of the Turkish language.
KAIRA, standart bir dil modelinden öte, Türkçe'nin morfolojik yapısını ve kültürel derinliğini matematiksel olarak içselleştirmiş bir yapay zekadır.
Before training, the model's vocabulary is modified based on the project's greatest asset: the Custom Dictionary.
Eğitim öncesi kelime haznesi (Vocabulary), özel sözlüğe göre modifiye edilir.
The core of KAIRA's intelligence lies in its structured dictionary data. Here is a raw sample entry representing the depth of a single concept.
KAIRA'nın zekasının temeli, yapılandırılmış sözlük verisinde yatmaktadır. İşte tek bir kavramın derinliğini temsil eden ham bir veri örneği.
To maximize learning capacity, the 150 Billion token dataset is presented in a 4-stage strategy.
150 Milyar tokenlik veri seti, öğrenme kapasitesini artırmak için 4 aşamada sunulur.
Figure 2: Surgical Data Cleaning Pipeline
Figure 3: Massive Data Collection Strategy
Standard LLMs often hallucinate because they answer immediately. KAIRA is being fine-tuned with a specialized "System 2" dataset that forces the model to think, criticize itself, and correct before outputting a final answer.
We are generating 20,000+ high-quality synthetic samples where the Teacher model demonstrates Self-Correction in both Turkish and English contexts.
Standart modeller hemen cevap verdikleri için sıkça halüsinasyon görürler. KAIRA, modele cevap vermeden önce düşünmeyi, kendini eleştirmeyi ve düzeltmeyi öğreten özel bir "Sistem 2" veri seti ile eğitilmektedir.
Öğretmen modelin hem Türkçe hem İngilizce bağlamlarda Öz-Düzeltme (Self-Correction) yeteneğini sergilediği 20.000+ adet yüksek kaliteli sentetik veri üretiyoruz.
| Parameter | Value |
|---|---|
| Architecture | Gemma-2 (Decoder-Only) |
| Parameter Count | ~5 Billion (5B) |
| Context Window | 4096 Token |
| Hidden Size | 4096 |
| Layers | 32 |
| Attention Heads | 32 |
| Tokenizer | SentencePiece + Custom Tokens |
| Training Precision | BF16 (Bfloat16) |
| Optimizer | AdamW (Fused) |
| Load | ~3 ZettaFLOPs |