exp131

Рейтинг
69
Регистрация
26.05.2010
error2k:
У робокассы есть параметр "email": можно сразу передавать почту клиента, чтобы её не надо было вводить дважды.

К сожалению они не передают этот параметр в уведомлении.

Добавлена функция экспорта данных.

Теперь можно сохранить в CSV не только список страниц, но и анкор-лист и список внешних/битых ссылок. Так же добавили возможность очистить экспорт и сделать его заново, при внесении изменений в сайт.

serpt:
Да структура такая. Сайт продвигается по множеству СЧ-запросов.

Для точного ответа, нужно посмотреть на ваш сайт.

serpt:
Возник такой вопросик: Пользуюсь другой прогой и там вес главной страницы равен 0. Друг прогнал мой сайт вашей прогой и там главная на 6 месте по весу. Кому верить?

Верить не нужно, нужно думать.

Начнем с того что, вес равный нулю не может быть по определению самого алгоритма веса. Перед расчетом все страницы имеют вес равный 1, и в процессе расчета делят этот вес на количество ссылок. Для того чтобы иметь вес близкий к нулю на главную не должна вести ни одна ссылка с других страниц, хотя на все эти страницы с главной должны быть ссылки. У вас такая структура сайта?

Чтобы уменьшить ошибки сервера (по-большей части 503) для тех сайтах, где они возникают, при "слишком частых" запросах мы ввели поддержку опции "Crawl-delay" в файле robots.txt.

Формат такой:

Crawl-delay: delay

Где delay - время задержки между запросами для одного потока в секундах.

Например:

Crawl-delay: 20 установит задержку в 20 секунд.

Максимальное значение: 50 секунд.

justuser:
Приветствую За полгода (примерно) использования программа несколько раз выручала, немного помогла вывести в топ тот большой сайт, ради которого покупалась, хоть до сих пор не может его осилить.. Программа по-прежнему загибается на больших сайтах Насколько я понял, пока не введена функция остановки парсинга в нужный момент, чтобы сохранить хотя бы то, что она успела собрать до падения.

Да, мы все еще ведем разработку версии, позволяющей сканить большие сайты.

justuser:
PageWeight Online прекрасно справляется с этой задачей, но функционал там урезан по старнению со стац. версией 8.7 У меня простая задача - создать карту сайта Ссылок на сайте много, страниц всего тысяч 8, но программа вылетает на 390й странице Онлайн версия выдала список из почти 8 тыс строчек, но при этом сохранить карту сайта не предлагает.

Такой функционал добавим и в онлайн версию. Сейчас у нас по графику добавление проверки страниц сайта на проиндексированность поисковиками + расчет веса по этим страницам.

justuser:
Кстати, так и не понял, почему меня еще после парсинга попросили доплатить и предложили провести операцию еще раз.. Этот второй раз будет стоить столько же?

Доплата берется после сканирования если фактическое количество отсканированных страниц больше чем при проверке по поисковикам. Соответственно, вы просто доплачиваете разницу и получаете доступ к результатам.

askkt:
Прогонял сайт чере pw online. Итог сначала программа обнаружил какой то сквозняк на каждой странице, которого нет на самом деле. После обращения в тех поддержку, сканер перезапущен. И теперь обнаружились петли на каждой странице, которых так же нет. Техподдержка отписала что это сайт виноват и "Скорее всего появление петель из-за неверно сгенерированной сквозной ссылки на какой-то товар", но никакой генерации сквозной ссылки на сайте нет. Так что ощущение что именно pw глючит....

Давайте разберемся с ощущениями. Сейчас прогнали ваш сайт еще один раз через сканер (результаты в личном кабинете), и петли исчезли. При этом никаких настороек или изменений в сканер не вносилось. Это еще раз говорит о том, что на вашем сайте поисходит динамическая генерация контента.

Сканер может и "глючить", т.к. от сбоев никто не застрахован, а наш сервис новый и сейчас производится его "обкатка". Но в вашем случае сбоев не было.

Посмотрите, кстати динамику проиндексированных страниц яндексом и гуглом, гугл нашел в 3,5 раза больше страниц (это число примерно соотвествует найденному нашим сканером). Вопрос почему? Так же с каждым разом количество страниц в поиске уменьшается, что говорит либо о сокращении страниц на сайте, либо о введении фильтров.

Еще раз повторю свою рекомендацию: внимательно просмотрите код и движок вашего сайта.

Kavabata:
ок. сейчас отпишу тогда в поддержку к вам.

---------- Добавлено 06.04.2012 в 17:58 ----------

exp131, Там был мой косяк по роботс.тхт, я забыл что прописал только для яндекса.
Kavabata:
Но павда почему то тех поддержка ответила "и к тому же наш сканер это инструмент анализа сайта, который позволяет вам увидеть его со стороны поисковой системы. Включая и запрещенные в robots.txt страницы."

Все просто. Наш сканер учитывает инстркуции robots.txt и присваивает статусы страницам на основе этих инструкций. Т.е. вы видите в итоговом отчете какие ссылки ведут на "закрытые" страницы и какой вес на них утекает.

Kavabata:
А Вы, exp131, пишите ". Наши сканеры всегда учитывают robots.txt при работе. Если какие-то инструкции из вашего были проигнорированы или интерпретированы не правильно - пожалуйста сообщите нам об этом. С уточнением того, что по-вашему мнению, сработало неверно."

Я имел ввиду, что если вдруг страница запрещена в robots.txt но вдруг попала в отчет со статусом ОК или наоборот - это сбой в работе сканера, и такие ситуации мы стараемся исправлять максимально оперативно.

Kavabata:
> В большинстве случаев, поисковики показывают цифру, близкую к реальной. На её основе расчитывается ориентировочная стоимость. Мы можем найти больше или меньше страниц. Если больше, то требуется доплата, если меньше - деньги возвращаются на счет.

поисковики показывают количество страниц исходя из robots.txt.Ваша же программа скачала в моем сайте страницы игнорирую robots.txt.

Так, на этом месте задержимся. Наши сканеры всегда учитывают robots.txt при работе. Если какие-то инструкции из вашего были проигнорированы или интерпретированы не правильно - пожалуйста сообщите нам об этом. С уточнением того, что по-вашему мнению, сработало неверно.

Kavabata:
На другом сайте программа "При сканировании вашего сайта возможно обнаружена "петля" из ссылок, при которой происходит зацикливание сканера. На данный момент отсканировано уже более миллиона страниц" :) просто вот и страшно что там программа зайдет в какую то закрытую рубрику, где программист тупит и там наскачивает миллионы петель ссылок.

Так петля на то и петля, что никогда не разорвется. Мы регулярно отслеживаем петли, и разбираемся с причинами. На основании найденных петель дорабатываются фильтры чтобы избегать их в будущем. После добавления фильтра сканирование, как правило, перезапускается (без дополнительной оплаты). Так что никто вам не выставит счет на миллионы. :)

nocomments:
Продолжаю играться с онлайн версией и непонятки продолжаются. На очередном сайте наибольшие веса получили джаваскрипты, которые подгружаются в < head >. Десктопная версия работает также как онлайн? Идея софта - супер, но в адекватности реализации есть сомнения.

Напишите в личку с каким сайтом работаете. Проверим. Исравим.

Всего: 467