En Sık Tekrarlanan Kelimeler, Most Repeated Words In String Php & Linux Shell

Arkadaşlarınızla Paylaşın!

Sık Tekrarlanan Kelimeler

Uzunca bir kelime grubu içerisinde çok kez tekrarlanan kelimelerin tespit edilmesi ve kaç kez tekrarlandığının belirlenmesiyle ilgili birkaç kolay uygulamadan bahsetmek istiyorum.

Burada her bir kelime “kelime” değişkeni için düzeyler olacak. Aşağıdaki örneği sıralı dizilim ve frekanslarla sıklık dağılımı olarak şu şekilde gösterebiliriz.

Merhaba. PHP bir web yazılım dilidir. Bir çok web sayfası yazılım olarak PHP kullanır. “Merhaba Dünya” örneği her dilde olduğu gibi PHP’de de echo ile ilk örnekler arasında yer alır.

Sıralı Dizilim 

yazılım
yazılım
web
web
PHP
PHP
yer
sayfası
PHP’de
örnekler
örneği
olduğu
olarak
Merhaba.
“Merhaba
kullanır.
ilk
ile
her
gibi
echo
Dünya”
dilidir.
dilde
de
çok
Bir
bir
arasında
alır.

Frekans Sıklık Dağılımı

Sıklık – Kelime

2 – yazılım
2 – web
2 – PHP
1 – yer
1 – sayfası
1 – PHP’de
1 – örnekler
1 – örneği
1 – olduğu
1 – olarak
1 – Merhaba.
1 – “Merhaba
1 – kullanır.
1 – ilk
1 – ile
1 – her
1 – gibi
1 – echo
1 – Dünya”
1 – dilidir.
1 – dilde
1 – de
1 – çok
1 – Bir
1 – bir
1 – arasında
1 – alır.

Bu örnekte büyük küçük harfe duyarlı olarak kelimeler gruplanmıştır. Hangi kelimenin kaç kez tekrarlandığı, yani frekansları mı gerekli? İşte birkaç uygulama.

Linux Shell İle

Shell’de bulunduğunuz dizinde test.txt dosyası içerisinde yukarıdaki stringin olduğu durumda;

tr -s ' \011' '\012' < test.txt | sort | uniq -c | sort -rn | head -20

shell komutunu  ile test.txt içerisindeki kelimeleri ve tekrarlanma frekanslarını elde edebiliriz.Tekrarlanan kelimeler tespit edilmiş olur.

PHP ile

<?php
$str = "Merhaba. PHP bir web yazılım dilidir. Bir çok web sayfası yazılım olarak PHP kullanır. \"Merhaba Dünya\" örneği her dilde olduğu gibi PHP'de de echo ile ilk örnekler arasında yer alır.";
$words = str_word_count($str, 1,"ığüşöçĞÜŞİÖÇ.,\"");
$frq = array_count_values($words);
array_reverse(arsort($frq));
foreach ($frq as $word => $times)
 echo $times." ".$word." <br>";
?>

PHP kodu ile $str değişkeninde tanımlı cümlenin içerisindeki  kelimeleri ve frekanslarını elde edebiliriz.Böylelikle tekrarlanan kelimeleri saymamız mümkün olacaktır. Php örneğiyle ilgili olarak str_word_count ‘daki utf8 problemine de şuradan erişebilirsiniz.

Yazar: Teknoloji24

2 thoughts on “En Sık Tekrarlanan Kelimeler, Most Repeated Words In String Php & Linux Shell

    Oral ÜNAL

    (1 Şubat 2017 - 20:24)

    PHP ile ilgili olan kısımdan faydalanabilirim aslında 😛

    Teknoloji24

    (18 Şubat 2017 - 16:12)

    pek sık yazamasam da her zaman beklerim ^_^

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir