Как робот устанавливает ревезит???

12
LM
На сайте с 30.11.2001
Offline
71
LiM
#11
Есть гипотеза, основанная на наблюдениях, что Яндекс при определении изменений в документах использует не дату, а свой алгоритм сравнения дубликатов. Если эта гипотеза верна, то изменение 3-5 слов на странице не приведет к тому, что она будет считаться новой.

Странно, что Вы, Александр, называете это гипотезой. Я с год назад такое читал в официальных текстах Яндекса. Сейчас сходу найти не смог, но думаю, если задаться целью, отыскать не сложно...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
Smile
На сайте с 23.08.2002
Offline
206
#12
то изменение 3-5 слов на странице не приведет к тому, что она будет считаться новой

А не было никем проверено где тот порог, который приведет к тому что она будет считаться новой?

🚬

С уважением, Вячеслав Гайсин aka Smile. http://websitesales.ru (http://websitesales.su)
Avatar
На сайте с 18.05.2003
Offline
168
#13

А кто-ж его скажет то :?)....

NL
На сайте с 29.01.2003
Offline
212
#14
Если эта гипотеза верна, то изменение 3-5 слов на странице не приведет к тому, что она будет считаться новой.

Если у Яндекса уже более года есть технология распознавания "нечетких дублей":

+%E4%F3%E1%EB%2A

то мне кажется что похожий механизм они могли бы применять и для оценки "новизны" страницы.

F
На сайте с 15.11.2000
Offline
116
#15
Как писал LiM
Я с год назад такое читал в официальных текстах Яндекса.

Буду благодарен за ссылку. Я слежу за пресс-релизами и интервью сотрудников Яндекса, и таких высказываний не встречал.

С уважением,

Александр Садовский.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#16
и таких высказываний не встречал.

Было. Озвучивалось Ильёй лично. И, если мне память не изменяет, аккурат на прошлогодней конференции.

LM
На сайте с 30.11.2001
Offline
71
LiM
#17

Нашел непрямое упоминание про существование системы сравнения "похожести" документов на предмет принятия решения о переиндексации оных.

Сборник докладов Первой Международной конференции "Продвижение сайта в поисковых машинах", доклад Ильи Сегаловича "Как поисковые системы помогают запросам встречаться с документами?", стр. 44, раздел "Отбрасывание повторов", 4-й и 5-й абзацы:

"Простейшая проверка на повтор содержимого состоит в вычислении контрольной суммы от всех слов текста и тестом базы данных на ее присутствие...
Отдельно стоит проблема учета "слегка измененных" документов (обычно это делается по набору характерных слов или контрольных сумм)..."

Прямого упомянания еще не нашел - поиск продолжается...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий