Alex_AI

Рейтинг
3
Регистрация
06.04.2004
Должность
Java Developer
Интересы
программирование, горный туризм
веб-программист, студент 5 курса

Это сново я, много времени уже прошло после обсуждения моей проблемы. Много действий предприняли мы для того чтоб заставить google пойти дальше индексной страницы, тестировали на отдельном контексте, но ничего не помогало. Пришлось уже было поверить в то, что если нет внешних ссылок, то индексации не будет.

Параллельно на старой системе произлошло полное обновление нашего сайта. Он на английском и более информативный, насчитывает около 50 ти страниц.

Гугл как и ожидалось обновил свой индекс, и дальше не думал идти.

Прошла неделя и чудо!!! Гугл проиндексировал 20 страниц, на следующее посещение ещё 35 результатов (включая картинки и ресурсы).

Я просто растерен. На том контексте небыло тех изменений которые мы ввели на тестовом. Там есть сессия, там есть редиректы и т.д.

Принцип работы алгоритма google для меня остаётся загадкой.

Но из всего этого можно сделать выводы или, я даже сказал бы, аксиомы:

1) Без внешних ссылок сайт индексируется.

Может они и ускоряют индексацию, но утверждение что "Нет ссылок - нет индексации" не верно.

2)сессия, покрайней мере которая в куках, не отпугивает googla(на нашем сайте присутствует).

3)Редиректы не влияют на индексирование.

4)Page Rank влияет только на позицию в списке результатов, а не на количество проиндексированых страниц.

В моём случае я не знаю почему гугл передумал игнорировать сайт. Одно точно, что это произошло после смены контента сайта. По каким-то причинам гугл понял сайт интересен(по крайней мере не безполезен) и сделал своё дело.

Вчера приходил бот, запросил индексную и свалил :( .

Сделал поиск по site:test.xitex.net, вывел только её родимую, правда теперь закешировал.

Буду ждать теперь пока на карту сайта зайдёт, сессию убрать пока не получится, доступа к программе нет.

это в принцыпе не проблема, вопрос в другом - действительно ли в этом причина?

Дааа. Я всётаки ошибся - сессия держится. Она нужна для сбора статистики по посещениям. Но идентификатор не пришивается к URL.

Кто нибудь знает имеет ли это для googla значение или ему всёравно(видит признаки сессии и морозится).

ручками и добавил, по другому вроде никак

Я так и сделал, но что-то бот не желает появляться уже полтары недели, ни как не дождусь.

Может это и поможет(я думаю так оно и будет),но всётаки хотелось бы знать причину почему текущий вариант неустраивает бота.

Структура сайтов может постоянно изменятся, контент обновляются и с этой картой потом хлопот не оберёшься, постоянно придётся обновлять

Не знаю даже к чему прицепиться. В каком же направлении тогда идти?

Если дело в признаках сессии, то я понимаю если бы id пришивалось в URLe и поисковик не хотел бы дублировать страницы, но куки, по моему, к URL не имеют никакого отношения.

Без редиректов никак,сайтов много и все они имеют разные адреса. Система одна и соответственно все редиректы перенаправляют запросы на её сервлет. Кстати, почему с этим могут быть проблемы так и не обосновали.

Сервлет уже по умомолчанию подразумевает сессию,ну или как в моём случае - будет пытаться найти её у того кто делает запрос, и с этим ничего поделать нельзя.

Может не втом направлении копаю?

он в две строки(robot.txt), я так скопировал коряво.

Редиректы везде, но без них нельзя. А почему может быть в этом причина? Какая ему разница?

Насчёт куков посмотрю,но я не думаю что в этом причина, сессия для сайтов не держится.

Как писал AleGa
Попробуй проверить файл robots.txt, не исключено, что там вообще запрещена индексация страниц. (domain/robots.txt)

посмотрел там вроде всё нормально

User-agent: * Disallow: