Page Weight. Программа для настройки перелинковки сайта . Часть 2

Sterh
На сайте с 15.06.2006
Offline
226
#91
Outofscope:
Кольца немного прокачиваются, на страницах из меню это никак не отображается (значительно) — ожидаемо.
Но задача-то у меня стоит оптимизаровать главную.

Уберите из сквозного меню не нужные страницы (закройте явой или XML). Переинковка - это перераспределение веса, если где то прибывает, то где то должно убыть.

poru4ik:
так и не нашел, сколько будет стоить новая версия?

А цены пока не объявлены. Ориентировочно раза в два дороже, но там будет другая архитектура программы и другая схема ценообразования.

Что точно могу сказать - всем покупателям текущей версии будет предоставлена скидка в размере её стоимости ( 600 руб.) для приобретения новой. Т.е. нужно будет только доплатить разницу.

HeR0vn1k:
обидно до смеха: windows-обновления перезагрузили компьютер!

Да уж... а шли на рекорд... Ладно, скоро будет новый парсер - им всяко и побыстрее и с сохранением.

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.
A
На сайте с 19.07.2010
Offline
130
#92
Sterh:
Ладно, скоро будет новый парсер - им всяко и побыстрее и с сохранением.

небольшие пожелания:

- добавьте, плз, в новый парсер парсинг в несколько потоков.

- опцию изменения "количества потоков" и "задержку между запросами"(можно еще птичку "турбо" - т.е. с максимальной скоростью без никаких задержек, даже если ошибки) - на лету, т.е. не прерывая текущий парсинг.

это будет полезно для парсинга своих больших сайтов. когда есть свой мощный сервер способный обрабатывать много запросов.

сейчас на одном потоке я даже не хочу и начинать..

- возможность после окончания парсинга повторно пройтись только по "ошибочным" страницам, т.е. 500, 502,503, timeout, (еще желательно 401,403,404,301,302 - чтобы можно было исправлять мелочевку без повторного полного парсинга) или показывать для повторного парсинга все коды ошибок кроме 200 OK.

логично будет в менюхе показать "код ошибки" - "количество страниц" и чекбокс для повторного парсинга страниц с именно этим кодом ошибки.

это позволит убрать "шум" связанный с каналами связи или временной недоступностью/перегруженностью сервера плюс значительно ускорит правку мелочевки на больших сайтах.

- наверное еще полезной будет птичка "автоматически расчитать вес после окончания парсинга" - чтобы дать возможность сначала глазами проверить все ли страницы собраны, повторно пройтись по ошибочным страницам и только потом самому руками запустить расчет веса.

.............
Sterh
На сайте с 15.06.2006
Offline
226
#93
admak:
небольшие пожелания:
- добавьте, плз, в новый парсер парсинг в несколько потоков.
- опцию изменения "количества потоков" и "задержку между запросами"

В новом парсере это уже есть.

admak:

(можно еще птичку "турбо" - т.е. с максимальной скоростью без никаких задержек, даже если ошибки) - на лету, т.е. не прерывая текущий парсинг.

Не совсем понял, но покажу пожелание программистам.

admak:


- возможность после окончания парсинга повторно пройтись только по "ошибочным" страницам, т.е. 500, 502,503, timeout, (еще желательно 401,403,404,301,302 - чтобы можно было исправлять мелочевку без повторного полного парсинга) или показывать для повторного парсинга все коды ошибок кроме 200 OK.
логично будет в менюхе показать "код ошибки" - "количество страниц" и чекбокс для повторного парсинга страниц с именно этим кодом ошибки.

это позволит убрать "шум" связанный с каналами связи или временной недоступностью/перегруженностью сервера плюс значительно ускорит правку мелочевки на больших сайтах.

Отличное предложение, спасибо! Учтем обязательно.

admak:

- наверное еще полезной будет птичка "автоматически расчитать вес после окончания парсинга" - чтобы дать возможность сначала глазами проверить все ли страницы собраны, повторно пройтись по ошибочным страницам и только потом самому руками запустить расчет веса.

А вот этого не будет, т.к. расчет веса пойдет отдельно от парсера.

A
На сайте с 19.07.2010
Offline
130
#94

- опцию изменения "количества потоков" и "задержку между запросами" - на лету, т.е. не прерывая текущий парсинг.

смотрим на загрузку сервера, если успевает, то еще добавляем потоков, если нет - плавно уменьшаем.

- птичку "турбо" - т.е. с максимальной скоростью без никаких задержек, даже если ошибки - на лету, т.е. не прерывая текущий парсинг.

при обычном парсинге, например, когда встречаем 503 - перегрузка сервера или 504 - проблемы со связью, timeout и некоторые другие ошибки, то логично и правильно, не тревожа пользователя, автоматически увеличить паузу между запросами: чтобы сервер начал успевать обрабатывать запросы или не так интенсивно долбится при проблемах со связью.

кнопочка "турбо" - отменяет всю эту "интеллектуальность" и шлет запросы не смотря ни на что.

задача - собрать максимально быстро как можно больше страниц. остальные "ошибочные" страницы можно будет собрать "повторным парсингом" в обычном режиме.

еще вспомнилось..

- поддержка в парсере gzip (скорее всего у Вас это уже есть)

- в парсере предусмотреть, в обработке ответа от сервера, проверку "Content-Length" из заголовка(если такое поле есть) с размером реально полученной страницы.

временами некоторые ..бип.. провайдеры пережимают канал или глючат их железки и страницы хтмл не полностью догружаются.

к сожалению, не все сервера возвращают это поле для html :( но хоть для некоторых серверов это будет полезно.

...когда-то, по-быстрому, делал проверку в контенте страницы тега </html> если не найдено, то страница не догружена. это не совсем правильно, но для "по-быстрому" мне помогло :)

Sterh:
А вот этого не будет, т.к. расчет веса пойдет отдельно от парсера.

т.е. расчет будет запускаться только руками? как для меня, так это самый лучший вариант. :)

S
На сайте с 06.04.2010
Offline
72
#95

Сканировал сайт программой, в результате получил бан)

(Теперь при заходе на сайт выводиться ошибка: Forbidden

You don't have permission to access / on this server.)

Вопрос: какую паузу между запросами надо устанавливать, чтобы избежать бана со стороны сканируемого сайта?

E1
На сайте с 26.05.2010
Offline
69
#96
svart:
Сканировал сайт программой, в результате получил бан)
(Теперь при заходе на сайт выводиться ошибка: Forbidden
You don't have permission to access / on this server.)

Вопрос: какую паузу между запросами надо устанавливать, чтобы избежать бана со стороны сканируемого сайта?

Это целиком зависит от настроек сервера. Попробуйте максимальную в 2 секунды. Делать задержку больше уже нет смысла из-за большого времени сканирования.

Программа настройки перелинковки сайта: купить на сайте (http://www.page-weight.ru/).
[Удален]
#97
exp131:
Это целиком зависит от настроек сервера. Попробуйте максимальную в 2 секунды. Делать задержку больше уже нет смысла из-за большого времени сканирования.

существуют варианты, когда владелец сайта добавляет ссылку ловушку для ботов - есть обращение по данному url- бан IP :)

S
На сайте с 06.04.2010
Offline
72
#98
exp131:
Это целиком зависит от настроек сервера. Попробуйте максимальную в 2 секунды. Делать задержку больше уже нет смысла из-за большого времени сканирования.

Благодарю за ответ! :)

Правильно ли я понял, что по умолчанию пауза между запросами = 50 мсек?

burunduk:
существуют варианты, когда владелец сайта добавляет ссылку ловушку для ботов - есть обращение по данному url- бан IP :)

Классно продумано). Только на эту ссылку могут же зайти и поисковые системы в том числе?

Признаюсь, сканировал сайт Александра Люстика - seom.info =)

(там некоторые ссылки, блоки выводятся через javascript - вот и хотел посмотреть распределение веса)

Теперь словил бан и сижу отдыхаю) 🍿

Кстати об программе Page Weight я узнал , посмотрев передачу с ним на megaindex, где он рекомендует программы для анализа сайта.

[Удален]
#99
svart:
Только на эту ссылку могут же зайти и поисковые системы в том числе?

с этим сложнее управиться, но можно :)

S
На сайте с 06.04.2010
Offline
72
#100
svart:


Признаюсь, сканировал сайт Александра Люстика - seom.info =)
(там некоторые ссылки, блоки выводятся через javascript - вот и хотел посмотреть распределение веса)
Теперь словил бан и сижу отдыхаю) 🍿
Кстати об программе Page Weight я узнал , посмотрев передачу с ним на megaindex, где он рекомендует программы для анализа сайта.

Сегодня (На следующий день): на сайт могу зайти, бан снят, видимо автоматически.

Правильно ли я понял, что по умолчанию пауза между запросами = 50 мсек?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий