- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.
Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.
Пожалуй, достаточно поместить
....HTMLsummary/summarypage.html и все ....HTMLsummary/summaryNN.html, на которые она ссылается. Можно, конечно, и робота напустить, хуже не будет, только скачивание от этого не намного ускорится.
Влад
К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.
Можно поставить ограничение на n-е количество страниц одного уровня вложенности. При этом в процессе сканирования можно подписывать весь документ хеш-функцией и, если параметры будут изменяться (как в Вашем примере), а контент будет прежний, сразу останавливать робота на сканируемом сайте. Конечно, будет медленнее, но зато качество повыше.
Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать.
Ну почему же? На лету, по идее, можно сразу разделять страницы на навигационные (как у Грея в предыдущем топике) и информационные. То есть сразу собирать карту сайта. А по карте можно попытаться и выделить самые важные страницы.
А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?
Понимаете, Вячеслав, мы ведь этим очень давно занимается, на много граблей уже наступили. Идеи, о которых Вы говорите, конечно, интересны, разумны, но в случае больших объемов работают плохо. Или Вы будете иметь одну страшно дорогую железку, которая все время ломается, или придется разнести обработку на несколько узлов. А как только разнесете - сразу весь букет и получите. Например, у Вас перестанут клеится дубли, выкачанные разными узлами. Или еще что-нибудь.
Граф ссылок мы и сейчас строим, в наших внутренних версиях он используется в том числе и для ранжирования.
С уважением,
Влад