Сторонний паук. где взять? Seodor

12
R
На сайте с 16.04.2014
Offline
56
2854

Здравствуйте, у меня проблема такая: 1 поток кеширования сеодора отсылает страницы в очередь и во время прохождения паука параллельно сайт не может грузиться и всё делается медленно. посоветовали стороеннего паука который бы прошёлся по сайтмапу. Люди добрые подскажите где такое чудо найти?

_Snake_
На сайте с 06.12.2010
Offline
151
#1
rifmir:
Здравствуйте, у меня проблема такая: 1 поток кеширования сеодора отсылает страницы в очередь и во время прохождения паука параллельно сайт не может грузиться и всё делается медленно. посоветовали стороеннего паука который бы прошёлся по сайтмапу. Люди добрые подскажите где такое чудо найти?

А что за паук? Просто проходится по сайтмапу открывая все страницы?

Если да, догда это пишется несколькими строчками на php.

1)Увеличиваешь время выполнения скриптов

set_time_limit()

2)Читаешь сайтмап

$xml = simplexml_load_file('sitemap.xml');

3)Проходишь циклом foreach по полученному объекту $xml получаешь ссылки

4)А дальше на выбор, можешь эти ссылки грузить в какую нибудь программу или пройти циклом и прочитать страницы с помощью file_get_contents() или для экономии ресурсов cURL(читая только заголовки)

converse19880604
На сайте с 31.05.2009
Offline
164
#2

Screaming Frog SEO Spider попробуй.

[Удален]
#3

Могу прислать стадо пауков с юзер-агентами поисковых ботов.

Полностью сайт проиндексируют типа.

R
На сайте с 16.04.2014
Offline
56
#4

Спасибо ребята, попробую! А кто использует сеодор? неужели 24 ядра мало чтоб он нормально работал? 😂

_Snake_
На сайте с 06.12.2010
Offline
151
#5
rifmir:
неужели 24 ядра мало чтоб он нормально работал? 😂

Это дедик?

Можешь показать параметры хост машины и сказать сколько доров у тебя на нём, интересно стало глянуть? 😂

R
На сайте с 16.04.2014
Offline
56
#6
_Snake_:
Это дедик?

Можешь показать параметры хост машины и сказать сколько доров у тебя на нём, интересно стало глянуть? 😂

Нет это свой сервак, мне выделили 24 ядра 2.59Ггц, 16Гб памяти, RAID10 10x10000K 300Gb, поставил только один дор, генерирую через "кеширование" 40 ссылок что 1 что 200 поток ставит в очередь генерит 1-2 страницы за 20 сек и параллельно сайт не грузится. грузит цп 99% но сервер не ложит. Вопрос не по теме - а можно сеодору скармливать генерированную текстовку Цербером, чтобы он работал без парсинга?

_Snake_
На сайте с 06.12.2010
Offline
151
#7
rifmir:
Нет это свой сервак, мне выделили 24 ядра 2.59Ггц, 16Гб памяти, RAID10 10x10000K 300Gb, поставил только один дор, генерирую через "кеширование" 40 ссылок что 1 что 200 поток ставит в очередь генерит 1-2 страницы за 20 сек и параллельно сайт не грузится. грузит цп 99% но сервер не ложит. Вопрос не по теме - а можно сеодору скармливать генерированную текстовку Цербером, чтобы он работал без парсинга?

24 ядра 2.59Ггц, 16Гб памяти - что-то мало оперативки для такого кол-ва ядер. Мне кажется должно быть около 64ГБ под него.

У вас лицензия? Почему бы просто не спросить в ТП интересующие вопросы?

S
На сайте с 19.04.2009
Offline
81
#8

Netpeak Spider и Content Downloader X1 тебе поможет

R
На сайте с 16.04.2014
Offline
56
#9

Оперативка прибавляется по мере употребления. пока что он даже 4 гига даже не съел. Да лицензия, на форуме у них оставил вопрос тишина. Попробовал сторонний паук Xsenus но у него после долгого ожидания страницы пишет "timeout" тоесть не все страницы генерятся.а так он не грузит

_Snake_
На сайте с 06.12.2010
Offline
151
#10
rifmir:
Да лицензия, на форуме у них оставил вопрос тишина.

У них нету чтоли тикет системы?

---------- Добавлено 07.04.2015 в 10:38 ----------

А нашёл, если за 69$ то

В подписку НЕ входит:

- техподдержка;
- обновления доргена (кроме баг-фиксов);
- приватный раздел форума.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий