-->

Sorularınız mı var?

Size Uygun Hizmeti Beraber Seçelim.

iletişim
TF IDF Nedir? - Vipservis Blog
Vipservis.com: Türkiye'nin En Hızlı, Güvenilir ve Köklü Hosting Sağlayıcısı | Vipservis Web Hosting





TF IDF Nedir?

TF-IDF Nedir? TF-IDF (Term Frequency – Inverse Document Frequency), bir metin içerisindeki kelimelerin önemini ölçen ve özellikle bilgi...

TF-IDF Nedir?

TF-IDF (Term Frequency – Inverse Document Frequency), bir metin içerisindeki kelimelerin önemini ölçen ve özellikle bilgi alma (information retrieval) ve metin madenciliği gibi alanlarda yaygın olarak kullanılan bir istatistiksel yöntemdir. Arama motorlarının, makine öğrenimi modellerinin ve doğal dil işleme (NLP) uygulamalarının, metin içindeki önemli anahtar kelimeleri belirlemek için TF-IDF yönteminden faydalandığını söyleyebiliriz.

TF (Term Frequency) – Terim Frekansı

TF, bir terimin bir dokümanda kaç kez geçtiğini gösterir. Bu sayede, metinde sıkça tekrarlanan kelimelerin öne çıkması sağlanır.

  • Örnek: Eğer bir kelime bir dokümanda 10 kez geçiyorsa ve toplam kelime sayısı 100 ise, bu kelimenin terim frekansı (TF) 0.1 olacaktır.

Formülü:

TF = (Kelimenin Belirli Bir Dokümandaki Geçiş Sayısı) / (Dokümandaki Toplam Kelime Sayısı)

IDF (Inverse Document Frequency) – Ters Doküman Frekansı

IDF, bir terimin kaç dokümanda yer aldığını gösterir ve çok yaygın terimlerin etkisini azaltmayı amaçlar. Yani, nadir kelimeler daha yüksek IDF değerine sahip olur ve daha önemli kabul edilir.

  • Örnek: “ve”, “bir”, “de” gibi sıkça geçen kelimeler tüm dokümanlarda geçtiği için bunların IDF değeri düşük olacaktır.

Formülü:

IDF = log (Toplam Doküman Sayısı / Kelimenin Geçtiği Doküman Sayısı)

TF-IDF Skoru Nasıl Hesaplanır?

TF-IDF, bir kelimenin belirli bir dokümandaki göreceli önemini belirlemek için TF ve IDF değerlerini birleştirir. Bir kelimenin hem bir dokümanda sıkça geçmesi hem de diğer dokümanlarda nadiren görülmesi, o kelimenin doküman için önemli olduğu anlamına gelir.

Formülü:

TF-IDF = TF * IDF

Bu yöntem, hem bir kelimenin bir dokümandaki sıklığını hem de o kelimenin genel doküman kümesindeki yaygınlığını hesaba katar. Böylece, sık kullanılan ama önemsiz kelimelerin etkisi azaltılır ve doküman için daha önemli kelimeler öne çıkar.

TF-IDF Nerelerde Kullanılır?

  • Arama Motorları: Web sayfalarını sıralarken anahtar kelimenin sayfadaki önemini anlamak için TF-IDF kullanılır.
  • Doküman Benzerliği: İki doküman arasındaki benzerlik TF-IDF skorlarına dayalı olarak hesaplanabilir.
  • Özütleme (Summarization): Metnin özetini çıkartmak için önemli kelimeleri ve cümleleri belirlemek için kullanılabilir.
  • Spam Tespiti: Bir e-posta veya metnin spam olup olmadığını anlamak için kelime sıklıklarını analiz ederken TF-IDF kullanılabilir.

TF-IDF, metin madenciliği ve bilgi alma süreçlerinde anahtar kelimelerin önemini ölçen etkili bir yöntemdir. Bu sayede, hem sıkça kullanılan ama anlamsız kelimelerden uzak durulmuş olur hem de nadiren geçen, ancak doküman için önemli olan kelimeler ön plana çıkarılır.

Sorularınız mı var?

Size Uygun Hizmeti Beraber Seçelim.

iletişim