AiK

AiK
Рейтинг
257
Регистрация
27.10.2000
Должность
SEO consultant
Интересы
Astronomy

есть буржуйский динамический сайт на асп, никак не получается нарастить количество проиндексованных страниц. много чего пробовал. толку ноль.

От сессий избавляться пробовали? Их поисковики не любят, т.к. из-за них набирают кучу одних и тех же страниц с разным URL.

arachno, проздравляю!

Успехов в добывании WM через AWM :D

Не стОит забывать про поиск по картинкам.


через какое время после посещения робота сайт появляется в выдаче гугля

Свежепроиндексированный документ на сайте не подверженном всяческим фильтрам попадает в выдачу примерно за сутки.

Сам сайт - зависит от качества входящих ссылок.

Не-а. Кэш всё-таки обновляется не сразу после захода бота. Как правило раз в сутки, иногда реже, ориентировочно с 3-х до 5-ти по MSK. И завтра там будет стоять 5-е число. Вот если ты сегодня найдёшь документы закэшированные 5-го числа, то можно будет строить предположения о пропуске.

Напрямую - нет, если не иметь доступа либо к логам Гугля либо к логам Яху.

Косвенно можно, по последней дате кэша. Про Яху я и так могу сказать - ходит каждый день :)

Только по логам. Если сайт динамический, но доступа к логам нет - можно самому вести лог посещений ботов по USER_AGENT. Для статических документов можно использовать SSI, какие-то счётчики выдают подобный код. Однако, если и SSI нельзя использовать, то увы никак - боты картинки не грузят.


У меня все CGI скрипты такой заголовок отдают, да еще и IF_MODIFIED_SINCE отрабатывают.

Давайте не смешивать мух с котлетами. Заголовок Last-Modified можно получить только закачав весь документ целеком (запросов HEAD от индексатора яндекса я как-то не видел). Если при этом ещё отслеживать изменился ли контент существенно или только блок новостей (а Яндекс это делает), то планировать следующий визит нужно на основании реальных изменений страницы, а не фиктивного изменения заголовка. Вывод - Last-Modified никоим образом не сказывается на переиндексации и тем более на первичной индексации.

и я не заметил чтобы Яндекс игнорировал "HTTP/1.0 304 Not Modified".

Ещё бы он его не игнорировал, ведь он получает только заголовок, но не содержимое страницы :)

Игнорировать он может разве что ETag, чего не делает, т.к. передавая этот заголовок он экономит трафик на закачке неизменившихся документов.

Но что проиходит в этом случае? Мы просто _замедляем_ переиндексацию одних документов, давая шанс роботу про/переиндексировать другие документы.

Это имеет смысл делать только на больших, очень динамично изменяющихся сайтах, который при этом содержит и редкообновляемые страницы. Большой - это несколько тысяч страниц.


С чего бы это Last-Modified перестал влиять на индексацию?

С того, что с распространением CGI бОльшая часть страниц перестала иметь данный заголовок. Ну и манипулировать им уж очень легко :)


У меня есть несколько сайтов, на которые я ссылки вообще пока ещё не ставил. Так вот за последние 1,5 месяца Яндекс очень даже не плохо 2 раза скушал всю инфу.

Во-первых, ссылки имеют свойство появляться сами по себе. Но даже скрытые от посторонних глаз страницы могут посещаться Яндексом, если заходить на страницу с баром.


с колько бы я ссылок не ставила все равно робот появляется у меня на сайте раз в 1,5 месяца

Периодически контент обновлять надо, ходить будет чаще. Смысла повторно переиндексировать неизменившееся нет.

На самом деле Гугль уже с месяц выдаёт несколько страниц одних и тех же сайтов, на разных SERP.

Пример, запрос web design. На первой странице внутренняя страница useit.com, на второй - морда. htmlhelp.com - наоборот, сначала морда, потом внутренняя.

Такая петрушка наблюдается по очень многим запросам.

Всего: 3256