www.ya.ru работает а www.yandex.ru нет
У меня тоже нет, так как робот индескирующий favicon ( Yandex/1.02.000 (compatible; Win16; F) ) с конца сентебря еще не приходил :(
А у Вас приходил?
"Фильтрация" по кворуму - метод сокращения множества найденых документов (релевантных документов) без расчета ранжирования. Основные выгоды применения данного метода:
1) уменьшение вычислительных затрат
2) меньшее множество релевантых документов легче ранжировать
У меня был опыт, был сайтик, его сделали, существовал примерно где-то месяцев 6, после чего заказчик отказался от него. У сайта был тиц 80. После этого сайтик висел пока регистрация на домен не закончилась, после этого его опять зарегали не меньше через месяц. Все параметры восстановились, включая регистрацию в ЯК, ТИЦ стал 60. Письма в Я не писались.
1. Вернется
2. Должен вернуться автоматом, но если не возвращается пишите в поддержку
3. Вернется и даже более того будет ТИЦ старый если внешние сслыки не изменились
Пока есть баги
По запросу автосигнализации, убрав один сайт, получаем такую страницу
http://www.mygoods.ru/cgi-bin/htsearch?restrict=;exclude=www.gtauto.ru;config=search;words=%E0%E2%F2%EE%F1%E8%E3%ED%E0%EB%E8%E7%E0%F6%E8%E8;minPrice=;maxPrice=;cur_type=840;
перейдя по ссылкам которой получаем бигуди
Точно, их 6400-9. Я говорил о классических шинглах
Операция не одна, так база с ячейками будет очень большой, и ключ в такой базе тоже будет большой. Таким образом поиск по базе, ее сортировка, вставка нового значения - это и есть несколько действий.
По поводу ключа такой базы. В классической технологии шинглов (с длинной шингла в 10 слов) для документа в 100 кб потребуется 631 шингл (хеш 10 слов)
Количество контента = (100 * 1024) * 0.5 (0.5 - цифра с потолка, будем предпологать что контента ровно половина, остальное разметка)
Т.о количество контента = 51200
Средняя длинна слова с пробелом пусть будет 8 (опять цифра с потолка), тогда
Количество слов в таком документе будет 6400
Таким образом количество 10 словных шинглов будет (6400/10) - 9 = 631
Получается что ключ будет очень большой, а именно длинной в 631 шингл
Это уже другой вопрос.
ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц
Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются
Да, в рунете страниц много, но сколько страниц регулярно изменяется? Разумеется не миллиард, а лишь небольшая его доля. Таким образом не требуется сравнить каждую с каждой, требуется сравнить лишь измененные страницы с каждой проиндексированной.