Sterh

Sterh
Рейтинг
226
Регистрация
15.06.2006
M2K2:
Видимо да, поисковики то ходят по таким страницами исключая страницу с $ а все что за ней учитывают

Примерно понятно. Прога такую схему не отработает. Программист озадачился )

poru4ik:
вот что происходит примерно на двухтысячном урле
http://gyazo.com/fecb887bc67b447f2da9118a074aa1eb

Весьма "информативная" картинка... Киньте урл в личку, и с каким настройками парсили. На других сайта ошибка повторяется?

Anny:
.... Я.Вм показывает, что бот обошел 35000 страниц. Мне казалось, что тыщ 50 реально есть... Но программа показала больше 90000, когда закончила сканировать.

Программа путешествует по всем ссылкам, которые находит. Если это интернет магазин, то учтет все ссылки с превьюшек на большие картинки, все ссылки сортировок и т.д. В этом и плюс и минус программы. Минус - парсит и то, что не нужно. Плюс - показывает, что формируются ненужные страницы. Ведь сортировка по цене, к примеру, может создать две дополнительные страницы со 100% дублирующим контентом. Поисковики такие страницы могут и не загрузить, а могут и зафильтровать, при чем зафильтруют совсем не ту копию, которую продвигаете :)

poru4ik:
Здравствуйте, задаю урл этой чудо-программе и вылетает она через какое-то время. Windows 7

А поподробнее можно? Она начинает парсить, а потом вылетает? Или вылетает сразу? Выдает какую-то ошибку?

Вобщем опишите пожалуйста проблему чуть подробнее, так сложно даже предположить причину.

M2K2:
Когда в программе добавляю в исключение программа видимо не учитывает все страницы находящиеся в этом меню (находит очень мало страниц), как в ней можно скрыть только сам пункт меню но не страницы в нем как делает директива $ в файле robots.txt ?

Не понял. Вы хотите запретить к индексации ссылку из меню, при этом что бы программа все равно прошла по этой ссылке и спарсила страницы?

MAYDAN:
Как-то не справедливо получается, вчера купил вашу программу, а сегодня на форуме прочитал, что к концу ноября выйдет вторая версия и ее придется покупать, на сайте не написано, что обновления платные.

"Всем покупателем текущей версии программы будет предоставлена скидка в размере её стоимости (600 руб.) на приобретение новой"

Сейчас мы эту фразу на сайте напишем :)

Anny:
....она насканировала около 90000 страниц...

Вы побили все рекорды! ))

Оу!:
мне не нужная программа для работы с мелкими сайтами. можно анулировать покупку первой версии и взамен выслать мне ключ для второй версии когда она выйдет??😕

Аннулировать можно. Но вот взамен выслать ключ нельзя. Вам придется вторую версию покупать заново, т.к. за текущую деньги Вам вернем.

Все покупатели первой версии будут иметь скидку в размере её стоимости (т.е. 600 руб.) при приобретение второй версии проги.

burunduk:
Sterh, exp131, как вариант может не очень сложно взять результат работы xenu (их файл проекта) и разобрать его в программе :)

Т.е. взять результат их парсинга и обработать в нашей проге? Ну.. как запасной вариант можно оставить.

А так, парсер уже готов процентов на 90% (уже все работает, дорабатываем напильником). Тех. аудит будет свой, перелинковка тоже будет, моделирование более удобное будет... много чего еще будет.

burunduk:
Sterh, всё время забываю уточнить как обрабатываются ссылки ведущие на страницы закрытые в роботсе или с атрибутом нофолоу, точнее как прога их считает при расчёте веса?

Ээээ... игнорирует полностью. Сегодня сделаем переключатель, что бы считала как внешние.

------------

По поводу "Исключение во время запроса WebClient"

все таки отбивает сервер слишком быстрые запросы. Постараемся сегодня вкрутить в программу задержку.

Оу!:
Почему нигде не сказано какое кол-во страниц может обрабатывать программа?

Да ладно! А это что?

[ATTACH]99480[/ATTACH]

На страницеhttp://www.page-weight.ru/buy/ , аккурат перед словом "купить"

jpg ahtung.jpg
justuser:
Доброго времени суток Первый раз в жизни заплатил за софт свои кровные с твердым убеждением, что в бизнес надо вкладывать)

С почином! )))))

justuser:

..... сохраняю отчет в *.csv - тут, во-первых, обнаружился небольшой глючок - тайтлы с амперсандами (" у меня там в неск-х местах) вместо того, чтобы уместиться в свой столбец "Заголовок" залезли на соседние столбцы (sapienti sat), но это ерунда

Всплывал этот вопрос уже. Решение в этой ветке можно почитать с поста 983 до 993

justuser:
Объясните чайнику - что я делаю не так - более трехсот ссылок записана в "битые", хотя ни вебмастер ни ксену линкс ни ручные проверки не выявляют битые ссылки и что значит "Исключение во время запроса WebClient"?

В 90% случаев некорректно прописан base href

Если проверили и не помогло - УРЛ мне в личку и что за движок у сайта.

justuser:

Почему программа нашла на сайте всего 9 нормальных страниц и присвоила им одинаковый условный вес?

9 страниц из-за "Исключение во время запроса WebClient" как раз. А вот условный вес нужно сначала расчитать :) Единичка у всех страниц - это стартовый вес по умолчанию.

Fruit:
1, 2, тысячи их. Все не вспомню, но обход сайта, как возможность, встречал часто.

Ага, благодарю. Вот про xenu я как то совсем забыл.

Fruit:
Согласен с вашим определением, просто программ/сервисов по проверке кода, ответа сервера, внутр. ссылок и прочего хватает и так. Ничего нового вы уже не сделаете.

Я, как оптимизатор, назвал тот функционал, который мне нужен, который из известных мне программ ни одна не предлагает.

Да собственно и не пытаюсь :) Нужно сейчас состряпать легкий модуль, для отладки взаимодействия с парсером. Ну и что бы усилия совсем даром не пропали, хочется сделать этот модуль хоть немного полезным :)

Ну а куча сервисов, как правило, проверяет одну страницу, а не сайт целиком. Если я не прав - поправьте, буду признателен за ссылку на такой сервис.

Всего: 2040