Konu modelleme
Konu modelleme (İngilizce: Topic Modeling), makine öğrenimi ve doğal dil işlemede toplanan belgelerin içindeki soyut konuları araştıran bir çeşit istatistiksel modeldir. Konu modelleme, bir anlamda metinlerin içerisindeki saklı anlamsal bağları araştıran bir metin madenciliğidir.
İçinde bulunduğumuz çağın bilişim çağında, gitgide yığılan ve her gün daha da artan yazılı kaynaklar, insanların bu metinleri işleme kapasitesini aşmaktadır. Konu Modelleme sayesinde yapılandırılmamış bu metin toplulukları ve bu metinlerin oluşturdukları büyük koleksiyonlar anlaşılabilir hale getirilmekte, metinlerin içinde geçen bilgiler zaman kaybı minimuma indirgenerek düzenlenip sunulur hale getirilmektedir.
Çalışma prensibi
[değiştir | kaynağı değiştir]Konu modellemesi yapılırken, bir metin belgesinin içerisindeki "konu" adı verilen kelime grupları denetimsiz bir biçimde bulunur. Bu konuların özelliği metin içerisinde sık sık birlikte ortaya çıkmaları ve genellikle ortak ya da benzer bir temayı paylaşan kelimelerden oluşmalarıdır. Böylece, önceden tanımlanmış kelime kümesiyle bu konular, belgenin tamamını en iyi şekilde tanımlamak için kelime grubu olarak kullanılabilir.
Konu modellemede bir metin koleksiyonu girdi olarak alınır ki girdi olarak alının metinlerin sayısal olarak bir üst sınırlaması yoktur. Buna uygun olarak örneğin bir gazetede yayınlanan 2 milyon makale incelenebilir. Konu modeli aracılığıyla bu metinlerde tartışılan bir dizi “konu” - tekrarlanan temalar - ve her belgenin bu konuları ne derece ele aldığını keşfedilir.
Konu modelleme algoritmaları herhangi bir terim için benzer ya da eş anlamlı olanlarının da geçtiği belgeleri listeleyebilmeleri açısından önemlidir. Olasılıksal konu modelleme yaklaşımlarından LDA algoritması da bilgi erişim sistemlerinde sorgu-belge, konu-belge, konu-sorgu ve belge-belge benzerliklerinin hesaplanmasına ve dolayısıyla ilgililik sıralamaları oluşturulmasına olanak sağlamaktadır.
Amaç ve kullanım alanları
[değiştir | kaynağı değiştir]Konu modelleme algoritmalarının sonuçları, üzerine yoğunlaşılan konuyu görselleştirmek, keşfetmek, özetlemek ve teorileştirmek için kullanılabilir. Konu modellemeleri, genetik bilgi, görüntüler ve ağlar gibi verilerdeki öğretici yapıları tespit etmek dışında biyoinformatik, NLP ve chatbot çalışmaları ve ayrıca dijital beşeri bilimler alanında akademik araştırmalar için de kullanılmaktadır.