Sterh

Sterh
Рейтинг
226
Регистрация
15.06.2006
ArtLiberty:
добрый!
а можно поподробнее? как-то не встречал подобной инфы

спасибо

Это нам еще на курсах говорили (тех, что самые первые были когда то, Каширин вел). Можно попробовать по архивам РОМИПа полазить, поискать.

ArtLiberty:

я выкачивал сайты по 15-20К страниц
как же долго прога их обрабатывает после сканирования!
на деле заметил, что качая большие сайты получаю разное количество страниц - где обрубилось, столько и показывает

Сейчас разломали всю прогу нафиг. Переделываем таблицы, методику обсчета. Должна побыстрее работать после обновления.

Это пока не совсем обновление, но у кого пробеммы с парсингом (находит явно больше страниц, чем должно быть) качаем новый краулер.

В папке с программой удаляем старый, а этот на его место (т.е. просто в папку помещаем).

Доброго времени суток!

По техническим причинам меня почти неделю не было в сети. Вот как только подключился - сразу сюда.

Тем, кто оплатил - вышлю в ближайшие сутки (кипер еще не восстановил).

На все вопросы отвечу, и тут и в личке, как только немного разгребу все навалившееся за неделю.

Приношу свои извинения за доставленные неудобства.

DocS:
Получается, можно отрезать 1/2 сайта (папка "en"),.. - но тогда нужного результата не будет, т.к. сайт перелинкован весь, а не по языковой принадлежности.

Даже не знаю грустить или радоваться осознанию факта уникальности двух своих сайтов, но спасибо, что ищете причину, - это вселяет оптимизм.

Ваши сайты, увы, не уникальны. Очень много подобных. Новый краулер выслал. С ним все парсится отлично. И кодировка, как и говорил, не при чем.

KupluSsilki:
вот ещё не знаю почему:
http://www.nezamerz.net/test - всего 2 страницы, но оно почемуто лезет дальше на весь сайт.. не пойму в чём дело возможно решётку в Url так обрабатывает...

Начинается не с Html типа...

Решетку в ограничения добавил - отобрало только две страницы. Так что дело в ней.

KupluSsilki:

KupluSsilki добавил 10.12.2009 в 17:54
+ а прога сейчас вроде не понимает ссылок вида '../page.html' ? (на предыдущие папки которые?) (http://www.nezamerz.net/subsite/ исправил, лезет на весь сайт опять..)

Вообще понимает. Но вот почему она её считала как /subsite/subsub/b.html - х.з. И поскольку по 404 ошибке был редирект на главную, то от неё и полезло по всему сайту.

KupluSsilki:
эээ вот http://www.nezamerz.net/subsite/index.html на модельном этом сайте находит только первые 2 страницы.. не знаю что такое base href честно гвря, я пишу как все - <a href='..'>...</a> обычные ссылки a href. типо..

если base href это то про что здесь http://www.w3schools.com/TAGS/tag_base.asp написано, то получается надо ещё до оценки программы на всём сайте прописывать тег base чтоль... :( ?

Программа не умеет начинать поиск со страницы. Т.к. определются верхние уровни.

Грубо говоря: http://www.nezamerz.net/subsite/ - правильно

http://www.nezamerz.net/subsite/index.html - не правильно

Если исправите, что бы индексный файл открывался по УРЛу папки, то, по идее, должно работать :)

А base href часто идет "в комплекте" с различными CMS. И не всегда правильно определяется путь (путают кол-во слешей в тэгах base и a href). И программа, соответственно, не правильно определяет пути для ссылок и не видит страницы... Вобщем безгранична фантазия вэбмастеров :)

-----------------------

Кстати, немного доработали краулер. Теперь кол-во сайтов, на которых программа циклится должно сократиться 😎

Новый краулер разошлю вместе с обновлением, кому очень срочно - мыло в личку

DocS:
Валидность кода в порядке, просто, видимо, играет роль, что на этих сайтах есть англояз. версии, где кодировка не windows-1251, а iso..., - программа, увы, о других кодировках (кроме тех, что для ru-зоны) не знает. Это огромный минус.
Ошибок нет и, извините, быть не может. Проблема - см. выше. Здесь и вручную не поможет, если программу не обучить работать с англояз. кодировкой. Надеюсь, поставите в планы?

Нет, проблемма не в кодировке. Если кодировка определена не правильно, то вместо тайтлов и анкоров получите кракозябры. Но на парсинг это не влияет.

К тому же, если подозреваете, что какая то папка или файл не дает программе работать корректно, то его можно добавить в настройках в ограничениях. В Вашем случае это en

На Ваших же сайтах программа перестает считать ссылки (т.е. их число в определенный момент перестает увеличиваться), но продолжает накручивать страницы. Это нонсенс, т.к. не может быть страниц без ведущих на них ссылок. Где именно Ваш сайт зацикливает программу - пока не нашли.

smallkreker:
Почему-то многие внутренние ссылки посчитал за внешние....

Опять же смотрите base href и его синтаксис.

KupluSsilki:
неплохо было бы ещё сделать, чтобы уже на этапе работы (а не после завершения этого этапа) было видно, с какой страницей или какой ссылкой на сайте программа сейчас работает.

Будет.

rootv:
Из рассылки "Продвижение сайта. Профессиональные советы экспертов" ("Ашманов и Партнеры")

и идет ссылка на http://romip.ru/russir2009/slides/yandex/lecture.pdf
Новая формула?

Там, если не ошибаюсь, не формула, а принцип работы нового алгоритма.

DocS:

Потестил 2 сайта (43 и 82 страницы соответственно), не знаю, игнорирует ли программа поставленную галочку "Использовать robots.txt", но на первом сайте она насчитала более 3500 страниц и просто вылетела бесследно, на втором же сайте вообще 82 страницы всего (даже нет закрытых от индексации), так она опять прошла считать непонятно откуда взятые тысячи и, конечно, снова вылетев на подходе к третьей тысяче...

На Ваших сайтах программа на чем-то циклится. На чем именно пока не поймали. Проверьте валидность кода.

DocS:

Это в предыдущих версиях были ключи или и сейчас тоже? - Тогда почему у меня ни ключей, ни даже намека на регистрацию?!

Это Вам не повезло так сильно 😒

Шучу :) Не стОит на основе одного поста панику разводить. Ключей нет и не было никогда.

DocS:

P.S.: Есть еще некоторые проблемы, например, с определением кодировок автоматом, о чем сообщил Вам, Sterh, в личку, равно как и привел описываемые адреса... жду ответов. Пока то, как работает у меня программа, работой назвать, увы, не могу, как бы ни хотелось.

Если тэг

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" /> 
прописан без ошибок, то определяет все нормально. Если НЕ определяет, и лень с кодом возиться - выставляйте кодировку в ручном режиме.
arsenk:
Подскажите, как ведят себя прога с 301м редиректом? Хотелось бы, чтобы по 301му редиректу она засчитывала ссылку как фактически ту, на которую ведет редирект.

Скиньте УРЛ в личку и странички с 301 редиректом. Я так понимаю, сайт переделали, а страницы подклеили?

KupluSsilki:


1) если на странице вида http://www.somesite.ru/something/some/thing.html
есть ссылка вида <a href='/'>
то программа пытается по ней перейти на страницу http://www.somesite.ru/something/some/
а должна переходить на страницу http://www.somesite.ru

base href в коде присутствует? Если да, то проверьте синтаксис.

KupluSsilki:

2) если на странице есть ссылка вида <a href='/это ссылка такая.html'>, программа обрабатывает её до первого пробела. это неправильно, т.к. такие url тоже работают.

То ли я отстал от жизни, то ли что-то не так понял. Пробелы в УРЛах? И они работают?

KupluSsilki:

Уважаемый автор программы ещё есть небольшие пожелания:

а) список страниц перенумерован, а список битых ссылок - нет, в результате непонятно, скока ваще битых ссылок программа нашла - 1000 или 100000.. (это нада знать если хочешь сравнить кол-во битых ссылок с кол-вом фактически найденных, т.е. определить, насколько их многа и надо ли их исправлять).

Фига се! Редко встречаются сайты, где больше одной-двух битых ссылок. Но сделаем.

KupluSsilki:


б) было бы очень замечательно если бы можно было ограничивать прогу по глубине обхода: если сайт очень большой, иногда имеет смысл отрезать листья и всякий мусор (иначе прога месяц такой сайт будет парсить)

Будет.

KupluSsilki:

в) было бы очень здорово и замечательно, если бы в программе можно было задавать свою формулу слива веса, как, например, в yazzle можно задавать свою формулу подсчёта стоимости ссылки. :) ну это так.. с жиру побеситься..

пасибо ждём
новой версии

Не будет никогда, ибо баловство.

baltic13:
Sterh, программа привязывается к компу? на линуксе пойдет?

Программа к компу не привязывается. На линуксе врядли, т.к. требует НетФреймворк.

--------------------------------

Еще очень хочется сказать. В 99% сбоя программы виноват кривой код сайта. Обходить все "выкрутасы" вэб-мастеров нет ни желания, ни возможности.

Обычно, когда жалуются на то, что прога не работают, и присылают УРЛ сайта, я просто смотрю отдаваемый код и указываю вэб-мастеру на ошибку. Не всегда у меня есть возможность искать и исправлять чужие ошибки.

Единственный глюк, который сейчас исправляем - это тот, что заметил rootv. Все остальные пожелания будут учтены в новой версии.

Уважаемые коллеги! Оптимизация - это не только ссылки, это еще и грамотный код!

gasyoun:
Sterh, перелинкатор кто ставил, кому понравился?

Какой перелинкатор?

Всего: 2038