About KAIRA

Where Data Meets Cultivation Verinin İşlendiği Yer

The Mission Misyonumuz

Project KAIRA is more than an AI initiative; it is a cultural manifesto. In a world dominated by generic, English-centric models, we are building Turkey's most significant open-source Large Language Model ecosystem.

Our goal is simple yet ambitious: to construct a bridge between our linguistic heritage and the future of artificial intelligence. By curating a massive 150B+ token dataset, we ensure that the Turkish language is not just represented, but mastered by the machines of tomorrow.

Project KAIRA sadece bir yapay zeka girişimi değil, kültürel bir manifestodur. İngilizce odaklı modellerin domine ettiği bir dünyada, Türkiye'nin en önemli açık kaynaklı Dil Modeli ekosistemini inşa ediyoruz.

Hedefimiz basit ama iddialı: Dilsel mirasımız ile yapay zekanın geleceği arasında bir köprü kurmak. 150 Milyar tokenlık devasa bir veri seti ile, Türkçenin yarının makineleri tarafından sadece temsil edilmesini değil, ustalıkla kullanılmasını sağlıyoruz.

The Kitchen Teknik Altyapı (Mutfak)

The Chef & The Researcher

Our founder, Umut Kökgöz, approaches AI with the discipline of a Chef. To us, data is the ingredient, and model architecture is the recipe. Just as a chef respects the source of their produce, we respect the integrity of our data sources.

"Project KAIRA utilizes high-end architectures like VITS for speech synthesis and custom pre-training pipelines for Large Language Models, aiming to process over 150 Billion Turkish tokens."

Our "Kitchen" is equipped with industrial-grade tools:

  • 🚀 86.4 Million Parameter VITS Models: High-fidelity Text-to-Speech synthesis with over 222 unique voices.
  • 🧠 5 Billion Parameter LLMs: Custom Gemma-2 architectures pre-trained from scratch with our 104k dictionary injection.
  • ♟️ Hibrit Satranç Motorları: Nöral ağları klasik arama ile birleştiren rasyonel karar alma mekanizmaları.
View Master Architecture Config (kaira_master_config.json) Mimari Konfigürasyonu Görüntüle (kaira_master_config.json)
{
    "output_path": "/content/drive/MyDrive/KAIRA_VITS_Modeli",
    "run_name": "kaira_v35_TURKISH_MASTER",
    "project_name": "Kaira_TTS_Project",
    "run_description": "🇹🇷 Kaira VITS - Engineering Master Config (Scan Based) | Architect: [Umut Kökgöz]",
    "model": "vits",
    "epochs": 1000,
    "batch_size": 32,
    "mixed_precision": true,
    "precision": "fp16",
    "optimizer": "AdamW",
    "audio": {
        "sample_rate": 22050,
        "n_fft": 1024,
        "num_mels": 80,
        "hop_length": 256,
        "win_length": 1024,
        "fmin": 0.0,
        "fmax": null
    },
    "model_args": {
        "num_chars": 100,
        "hidden_channels": 192,
        "filter_channels": 768,
        "n_heads": 2,
        "n_layers_enc": 6,
        "kernel_size": 3,
        "p_dropout": 0.1,
        "use_sdp": true,
        "num_speakers": 223
    },
    "phonemizer": "espeak",
    "phoneme_language": "tr",
    "use_phonemes": true
}

Şef & Araştırmacı

Kurucumuz Umut Kökgöz, yapay zekaya bir Şef disipliniyle yaklaşıyor. Bizim için veri malzeme, model mimarisi ise tariftir. Bir şefin malzemesine duyduğu saygıyı, biz de veri kaynaklarımıza duyuyoruz.

"Project KAIRA, konuşma sentezi için VITS gibi üst düzey mimarileri ve Büyük Dil Modelleri için özel ön eğitim hatlarını kullanarak 150 Milyardan fazla Türkçe token işlemeyi hedeflemektedir."

"Mutfağımız" endüstriyel standartlarda araçlarla donatılmıştır:

  • 🚀 86.4 Milyon Parametreli VITS Modelleri: 222'den fazla ses ile yüksek kaliteli Metinden-Sese sentezi.
  • 🧠 5 Milyar Parametreli LLM'ler: 104k sözlük enjeksiyonu ile sıfırdan eğitilmiş (pre-trained) Gemma-2 mimarileri.
  • ♟️ Hibrit Satranç Motorları: Nöral ağları klasik arama ile birleştiren rasyonel karar alma mekanizmaları.

Meet the Team Ekiple Tanışın

Umut Kökgöz

Umut Kökgöz

Founder & Lead AI Researcher | Project KAIRA | Specialized in Turkish LLMs & TTS Architectures Kurucu & Yapay Zeka Araştırma Başkanı | Proje KAIRA | Türk LLM'lerini ve TTS Mimarilerini Spesifikasyonu

Independent AI researcher and developer with a unique background as a professional chef. He treats data with the precision of a culinary artist, specializing in large-scale data cleaning, LLM pre-training, and neural-symbolic AI. Profesyonel aşçılık geçmişine sahip bağımsız yapay zeka araştırmacısı. Veriye bir mutfak sanatçısının hassasiyetiyle yaklaşır; büyük ölçekli veri temizleme, LLM ön eğitimi ve nöral-sembolik yapay zeka konularında uzmanlaşmıştır.

LinkedIn
Delikan Sapmaz

Delikan Sapmaz

Lead Software Engineer & Data Scientist Baş Yazılım Mühendisi & Veri Bilimci

Computer Engineer certified by IBM and Miuul, specializing in building robust data pipelines and optimizing workflows with TensorFlow and PyTorch. Leads technical architecture and scalability at Project KAIRA. IBM ve Miuul sertifikalı Bilgisayar Mühendisi. TensorFlow ve PyTorch ile sağlam veri hatları kurma ve iş akışlarını optimize etme konusunda uzmandır. Project KAIRA'da teknik mimariye ve ölçeklenebilirliğe liderlik eder.

LinkedIn