Не нашел там запись движения мыши.
Похоже у вас скрипт не завершает работу при закрытии браузера.
Запустил скрипт указав Business/Realty. Остановил скрипт. Запустил с другим параметром
http://yaca.yandex.ru/yca/cat/Business/Marketing_and_Advertising/Advertizing/geo/Russia/
Результат можно посмотреть во вложении. При парсинге раздела Реклама, загружается раздел Недвижимость.
Правильно говорят, спешка до добра не доводит. Действительно по обеим ссылкам результат совпадает. Что бы не гадать, замени функцию Iteration() в файле class.Grabber.php приведенной ниже и посмотри результат.
function Iteration() { $this->Client->Fetch( $this->Base . $this->URL . ($this->Counter ? '/'.$this->Counter.'.html' : '/') ); if ($this->Client->Result && $this->Expression) { _echo($this->Client->Result); // set maximum pages if ($this->Maximum == 1 && preg_match(YACA_SITESCNT_EXPRESSION, $this->Client->Result, $match)) $this->Maximum = ceil($match[1]/20); if (preg_match_all($this->Expression, $this->Client->Result, $matches, PREG_PATTERN_ORDER)) $this->SaveContent($matches[1]); } // sleep on 1 second sleep(1); $this->Counter++; }
Посмотрел исходники. Парсит страницу не http://yaca.yandex.ru/yca/cat/Business/Realty,
а http://yaca.yandex.ru/yca/ungrp/cat/Business/Realty/ .
Там "Сайтов в рубрике: 1571". 1571/20 =78,55. Округляем - получаем 79.
Хотел исправить, но не успеваю. Пора бежать.
Перед покупкой лицензии решил проверить возможности программы на версии 4.7. На форуме allsubmutter по своему вопросу быстро ничего не нашел, поэтому сделал сам.
<?php $list = file('test_narod.txt'); $host = $url = ''; foreach($list as $val) { if(!substr_count($val,"narod.ru")){ $url .= $val; } } file_put_contents('clear_narod.txt', $url); ?>
exvion добавил 12.04.2009 в 12:33
Оказалось, что выше приведенный скприпт нуждается в небольших изменениях для того, чтобы его было удобно применять. Пример использования.
Выбираю все категории. Экспорирую в allcatalog.txt. Применяю скрипт.
<?php $list = file('allcatalog.txt'); $host = $url = ''; foreach($list as $val) { if(substr_count($val,"narod.ru")){ $url .= $val; } } file_put_contents('blacklist.txt', $url); ?>
Далее Черный список-Импоритировать *.txt. Выбор файла blacklist.txt. Чистка каталогов.
В результате из 1200 напарсенных ссылок 120 попали в черный список.
Создаем новый tar
tar cf example.tar /home/exvion/www/example.com
Распаковываем
tar xf example.tar
Если требуется сжимать архив, то
упаковка tar czf example.tar.gz /home/exvion/www/example.com
распаковка tar xzf example.tar.gz
Как я понял править придется не один раз, в таком случае лучше поставить простенькую cms.
Скрипт показывает случайным образом баннеры сайтов, которые Вы раскручиваете. Установка сводится к копированию файлов на хостинг. Настройка - добавляете код баннера и регистрируете ссылку на Ваш сайт.
P.S. Внутри архива с этим скриптом есть файлик readme.txt.
Блоггер поддерживает два формата шаблонов: традиционный html и современный xml. Так что конвертировать не надо.