Узнать частоту повторения различных слов в тексте

JH
На сайте с 31.03.2012
Offline
91
893

Не знал куда запостить, надеюсь правильно.

В общем есть здоровенный файл с ключами (почти 2млн чищенных ключей, 70мб). Хотелось бы разбить эти ключи на более узкие темы. Ну т.е. понятно, что нужно просто сделать выборку в КWK или кейвошере, но вот хотелось бы узнать по каким словам следует делать выборку. А то ключей очень много, глазами и руками нормально не просмотреть, уверен есть какие-то ключи, которых много, но о которых я не знаю и выборку сделать не могу.

Подходящего софта я для этого не видел, есть ли он вообще? Подошел бы софт для определения плотности ключей в тексте (можно просто объеденить срочки в файле и посмотреть самые часто встречающиеся слова).

Dos3
На сайте с 07.01.2011
Offline
363
#1

хз то не то, кто то спрашивал похожее, раскидывает по тематикам в разные файлы, ключи в key.txt и папку "выборки" создай


<?php
set_time_limit(0);
$arr_file = file("key.txt");
$str_file = str_replace("\r\n"," ",implode("\r\n",$arr_file));
$arr_key = explode(" ",$str_file);
foreach($arr_key as $value)
{
if(strlen($value)>4)
{
preg_match_all("#$value#","$str_file",$key);
if(count($key[0])>=2)
{
$arr_viborki[] = $value;
}
}
}
$arr_viborki = array_unique($arr_viborki);
foreach($arr_viborki as $val)
{
foreach($arr_file as $val2)
{
if(preg_match("#$val#","$val2"))
{
file_put_contents("выборки/$val.txt",$val2,FILE_APPEND);
}
}
}
echo "<h3>Готово</h3>";
?>

ps ерундой какой то занимаетесь )

stev
На сайте с 21.06.2009
Offline
151
#2

ТС, копни TextusPRO.

Палим приватные темы ➔ Slivup.Biz (http://goo.gl/Etp8gO) Прокси: 1 IP от 16 руб. 5 дней здесь (https://vk.cc/akA6wg).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий