DF (döküman sıklığı) değerinin yüksek olması, bir kelimenin diğer dokümanlarda sık sık geçtiğini gösterir


Bu Yazımızda Neler Bulacaksınız ? Göster

DF değeri yüksek ne demek?

DF (döküman sıklığı) değerinin yüksek olması , bir kelimenin diğer dokümanlarda sık sık geçtiğini gösterir

DF değeri, istatistiksel bir terim olan TF-IDF (term frequency–inverse document frequency) içinde yer alır. Bu değer, bir kelimenin bulunduğu dokümanı ne kadar temsil ettiğini gösterir

Ayrıca, "DF değeri" ifadesi, istatistikte "özgürlük derecesi" anlamında da kullanılır. Bu, bir hipotez testinde, veri setinin büyüklüğü ve modeldeki tahmin edilecek parametre sayısı arasındaki ilişkiyi belirler

"DF değeri yüksek" ifadesinin tam olarak ne anlama geldiği, kullanıldığı bağlama göre değişebilir.

Df değeri nasıl hesaplanır?

DF (Döküman Sıklığı) değeri, ilgili kelimenin geçtiği döküman sayısının tüm dökümanlardaki toplam döküman sayısına bölünmesiyle hesaplanır. Formül: DF = toplam döküman sayısı / (ilgili kelimenin geçtiği döküman sayısı). Örneğin, 4 döküman olduğunu ve "d" kelimesinin 3. dökümandan 3 kez geçtiğini varsayarsak: doc3.count(key) = 3; len(doc3) = 5; TF = 3 / 5 = 0,6; total_doc_number = 4; DF = 4 / 3 = 1,33. DF değerinin logaritması alınarak IDF (Ters Döküman Sıklığı) değeri hesaplanır. TF-IDF (Terim Sıklığı - Ters Döküman Sıklığı) değeri ise TF ve IDF değerlerinin çarpılmasıyla elde edilir.

Diğer Ekonomi Yazıları