InSAn

InSAn
Рейтинг
60
Регистрация
13.01.2003
Должность
adPRO, PROext, HINT, ITnews

Контент - да, но сама страница весьма незначительно меняется.

Отличие в один символ - уже проблема.

Как вариант, брать только от текста (исключая все остальное). Но что-то мне подсказывает, что это не совсем верно...

С посещаемостью 250 человек в неделю?!

К тому же украинских посетителей там - менее 30%.

Еще раз: Основное условие - высокопосещаемый ресурс с преобладающей аудиторией с Украины

Имеет самое прямое. Как робот отслеживает, передается в параметре УРЛа сессия или нет - для того, что бы не засорять базу поисковика.

Алиасы не указаны.

Либо кто-то вызывает главную страницу с других сайтов (например, из кеша гугла).

Либо вызывает главную страницу с параметрами.

Поставьте еще один счетчик, который дает информацию о том, какие страницы были вызваны.

Как вариант, можно пойти алгоритму, описанному выше, но еще встроить одну дополнительную проверку:

а) При считывании страницы, нужно смотреть на пришедшую куку в которой записывается идентификатор сессии и искать этот идентификатор в URL'ях контента страницы, если идентификатор нашелся - сессия ((с) eshum

)

иначе:

б) Если имя параметра состоит из 'sess' либо 'sid'

либо

значение параметра состоит из 'a..f' и '0..9' и его длина 32

- возможная сессия.

Для варианта б) вводим дополнительную проверку:

б1) Если странцы с параметром и "выкушенным" параметром совпадают - сессия.

Совпадение в варианте б1) нужно производить идентичности контента/структуры (либо воспользоваться алгоритмом "шинглов")

Дополнения? ;)

Хм... Спасибо за подсказку :)

А вот что делаю поисковики (или должны делать), когда встречается УРЛ с сессией?

Выкусывать сессию и запрашивать странцу без нее? Либо удалять страницу из индекса?

Вроде бы второе - более правильно, но тогда теряется много уникальных документов...

А стоит ли позволять ему принимать куки?

Налицо - множество минусов. Например, сайт не за один проход считывается для последующей индексации.

Алгоритм:

если имя параметра состоит из 'sess' либо 'sid'

либо

значение параметра состоит из 'a..f' и '0..9' и его длина 32

то это сессия.

Кто дополнит? ;)

Неужели все-же прийдется сначала делать выборку из базы по весам слов, а потом "на лету" дополнительно сортировать по расстояниям?

Всего: 470