так вcётаки Бабуля :)
ну я имел ввиду что часто стоит троеточие либо вообще нету точек, а как дорген чистит сниппеты зависит от конкретного доргена.
и морфология как правило там и так уже нарушена.
пс вообще это к чему ? есть куча парсеров же
это ты Бабулю спрашиваешь ? 😮
🤪
а что такое фразы ? это 1 сниппет ?
зы ну и делить просто по точке как то не правильно :)
да и нафиг сниппеты, мало и мусора много, луше сайты
неа, я на примере фрих говорю :)
на дропах щас пока тоже с этим экспериментирую---------- Добавлено 13.11.2013 в 17:06 ----------
да скорее всего так, по крайней мере для выводов
а в чём проблема делать 1к сабов ? :)
часть с гусями, утками, белками
нет, я образно
не ну погоди ), вот залил ты 1к доров на сабах дропа, разных доров, один вылетел(неудачный был), другие пока не спалятся это и есть норм сайты )
корочи надо к нормальным дорам заливать ддлы бабулера, пускай даже по гусям ---------- Добавлено 13.11.2013 в 13:57 ----------
на фрихостах часто новые домены появляются, в первые минуты на них уже доры льются и никто ничего не выжидает )), взять 1 из новых доменов хостинджера, 50% паг в индексе это довнлоад доры
вот только не верится что на фрихе(известной дорвейщику) может быть столько же белых сайтов сколько и доров :)
может это для яши перевес в 55%, а для гугла поболее )
пардон, я там перемешивание забыл добавить
эм, денвер есть ?---------- Добавлено 13.11.2013 в 00:10 ----------
все статьи в папку folder
<?php set_time_limit(0); $col = 100;// по 100 предложений на файл $dir = scandir("folder"); foreach($dir as $val) { if($val != "." and $val != "..") { $file .= file_get_contents("folder/$val"); } } $file = str_replace(array("\r","\n"),"",$file); $file = preg_replace("#([.!?]+)#","$1<>", $file); $arr_file = explode("<>",$file); shuffle($arr_file); $i=1; $s=1; foreach($arr_file as $str) { $str = trim($str); if($s == $col) { $i++; $s=1; } file_put_contents("result/$i.txt",$str."\r\n",FILE_APPEND); $s++; }?>
не проверял