Контент - да, но сама страница весьма незначительно меняется.
Отличие в один символ - уже проблема.
Как вариант, брать только от текста (исключая все остальное). Но что-то мне подсказывает, что это не совсем верно...
С посещаемостью 250 человек в неделю?!
К тому же украинских посетителей там - менее 30%.
Еще раз: Основное условие - высокопосещаемый ресурс с преобладающей аудиторией с Украины
Имеет самое прямое. Как робот отслеживает, передается в параметре УРЛа сессия или нет - для того, что бы не засорять базу поисковика.
Нет, нельзя.
Алиасы не указаны.
Либо кто-то вызывает главную страницу с других сайтов (например, из кеша гугла).
Либо вызывает главную страницу с параметрами.
Поставьте еще один счетчик, который дает информацию о том, какие страницы были вызваны.
Как вариант, можно пойти алгоритму, описанному выше, но еще встроить одну дополнительную проверку:
а) При считывании страницы, нужно смотреть на пришедшую куку в которой записывается идентификатор сессии и искать этот идентификатор в URL'ях контента страницы, если идентификатор нашелся - сессия ((с) eshum
)
иначе:
б) Если имя параметра состоит из 'sess' либо 'sid'
либо
значение параметра состоит из 'a..f' и '0..9' и его длина 32
- возможная сессия.
Для варианта б) вводим дополнительную проверку:
б1) Если странцы с параметром и "выкушенным" параметром совпадают - сессия.
Совпадение в варианте б1) нужно производить идентичности контента/структуры (либо воспользоваться алгоритмом "шинглов")
Дополнения? ;)
Хм... Спасибо за подсказку :)
А вот что делаю поисковики (или должны делать), когда встречается УРЛ с сессией?
Выкусывать сессию и запрашивать странцу без нее? Либо удалять страницу из индекса?
Вроде бы второе - более правильно, но тогда теряется много уникальных документов...
А стоит ли позволять ему принимать куки?
Налицо - множество минусов. Например, сайт не за один проход считывается для последующей индексации.
Алгоритм:
если имя параметра состоит из 'sess' либо 'sid'
то это сессия.
Кто дополнит? ;)
Неужели все-же прийдется сначала делать выборку из базы по весам слов, а потом "на лету" дополнительно сортировать по расстояниям?