В ближайшие дни мы уберем из поиска запрещенные к индексации блоги.
Почему Яндекс не сделал этого раньше. Робот проверяет robots.txt, и блог находится лишь тогда, когда его RSS не запрещен. В LiveJournal урлы фидов выглядят так: http://www.livejournal.com/community/kubok/data/rss
Для робота это сервер livejournal.com, и robots.txt нужно проверять на livejournal.com/robots.txt, где никакого запрета, конечно, нет. В RSS не предусмотрено никаких средств для запрета индексации. Поэтому индексация запрещенных в LJ блогов формально вполне корректное действие, так как к html мы не обращаемся. Тем не менее, понимая нежелание некоторых пользователей индексировать их блоги, мы писали в LiveJournal о данной проблеме, но ответа не получили.
Решение, как лучше узнавать о запрете индексации блога, мы нашли, и в ближайшие дни мы уберем из поиска запрещенные к индексации блоги.
Обратите внимание, что сервис открыт в бета-версии, и многое из желаемого еще будет реализовано.
С уважением,
Александр Садовский.
Яндекс снова работает. Если какие-то сервисы еще недоступны, в ближайшее минуты они будут подняты.
Бор -- структура данных. Поищите по запросу [бор trie]
http://www.yandex.ru/yandsearch?text=%E1%EE%F0+trie&stype=www
Для этого достаточно заключить запрос в круглые скобки, а в конце поставить два слеша и число от 0 до 100, "приклеенное" к слешам. Например:
(структуры & данных && trie)//0
Все верно, Слава чуть-чуть не дошел до нужной статьи. :)
-------
Поиск похожих документов.
Сейчас реализована очень простая схема поиска похожих документов, основанная на применении нечеткого поиска. Эта схема, тем не менее, вполне удовлетворительно работает в большинстве случаев.
При запросе на поиск похожего документа документ скачивается, выбираются несколько (12) терминов, из них составляется запрос с использованием операции нечеткого поиска.
Принцип отбора терминов для "поискового образа" документа:
Используется функция "контрастности" термина, применяемая в Яндексе при обычном поиске, но в несколько модифицированном виде.
Поведение исходной функции "контрастности" термина: чем чаще термин встречается в документе, и чем реже - во всей коллекции документов, тем выше контрастность термина для документа.
Такая функция "контрастности" для поиска по образцу не годится, поскольку она зачастую выбирает термины, встречающиеся только в этом и, возможно, в нескольких других документах. Как правило, это либо редкие имена собственные и сокращения и т.п, либо опечатки или грамматические ошибки.
Ясно, что если искать документы по таким терминам, то мы скорее всего найдем лишь сам документ-образец, и, возможно, несколько документов того же автора и с такими же грамматическими ошибками либо опечатками.
Поправка функции "контрастности" термина состоит в подавлении слишком редких терминов.
Команды скриптов выполняться не будут. Разбираются только строковые константы во всех командах, которые могут загружать ссылки.
Q. Индексирует ли Яндекс тексты сайта, подгружаемые скриптом из отдельных файлов? А flash, собираемый по частям (подгружаются отдельные swf-файлы)?
A. Подход к динамически подгружаемым документам такой же, как и для HTML -- мы извлекаем ссылки на них, и отдаем на обработку роботу. Если такой формат обрабатывается, документ будет проиндексирован.
Q. Учитываются ли ссылки, заданные через getURL(url)?
A. Да, при индексации flash Яндекс учитывает ссылки, в том числе заданные с помощью getURL.
Q. По некоторым слухам тот же Гугл индексирует _только_ несжатые файлы, в то время как почти все разработчики используют компрессию swf...
A. В Яндексе индексируются как сжатые, так и несжатые swf-документы.
Оператор rhost планируется поддерживать, то есть он будет описан в разделе помощи.
Да, конечно. Оператором rhost:
rhost="tld.domain.*"
В этом операторе используется обратный порядок перечисления доменов -- вначале первого уровня, затем второго и т.д. Например:
rhost="ru.exler.*"
или
rhost="ua.kharkov.kpi.*"
В результате будут найдены все документы в заданной группе доменов.
Сбой уже устранен, приносим свои извинения. Спасибо всем участникам форума за внимательность.
По некоторым запросам показываются еще кешированные результаты, которые постепенно обновятся.
Возможность ограничить результаты поиска рубрикой каталога (в том числе региональной) появилась вместе с Яндекс.Каталогом, то есть в 2000 году. Чекбокс под строкой поиска, на который вы указываете, добавили для наглядности в марте этого года.