Садовский

Рейтинг
52
Регистрация
27.10.2003
Как писал sottovoce
Мой ЖЖ проиндексирован, хотя галочку "Запретить индексацию поисковиками" я ставил. :-(

В ближайшие дни мы уберем из поиска запрещенные к индексации блоги.

Почему Яндекс не сделал этого раньше. Робот проверяет robots.txt, и блог находится лишь тогда, когда его RSS не запрещен. В LiveJournal урлы фидов выглядят так: http://www.livejournal.com/community/kubok/data/rss

Для робота это сервер livejournal.com, и robots.txt нужно проверять на livejournal.com/robots.txt, где никакого запрета, конечно, нет. В RSS не предусмотрено никаких средств для запрета индексации. Поэтому индексация запрещенных в LJ блогов формально вполне корректное действие, так как к html мы не обращаемся. Тем не менее, понимая нежелание некоторых пользователей индексировать их блоги, мы писали в LiveJournal о данной проблеме, но ответа не получили.

Решение, как лучше узнавать о запрете индексации блога, мы нашли, и в ближайшие дни мы уберем из поиска запрещенные к индексации блоги.

Обратите внимание, что сервис открыт в бета-версии, и многое из желаемого еще будет реализовано.

С уважением,

Александр Садовский.

Яндекс снова работает. Если какие-то сервисы еще недоступны, в ближайшее минуты они будут подняты.

С уважением,

Александр Садовский.

Как писал !Иван FXS
1. что такое "словарь, передставленный в виде бора"?

Бор -- структура данных. Поищите по запросу [бор trie]

http://www.yandex.ru/yandsearch?text=%E1%EE%F0+trie&stype=www

2. - как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?

Для этого достаточно заключить запрос в круглые скобки, а в конце поставить два слеша и число от 0 до 100, "приклеенное" к слешам. Например:

(структуры & данных && trie)//0

С уважением,

Александр Садовский.

Как писал MaxGubin
Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

Все верно, Слава чуть-чуть не дошел до нужной статьи. :)

-------

Поиск похожих документов.

Сейчас реализована очень простая схема поиска похожих документов, основанная на применении нечеткого поиска. Эта схема, тем не менее, вполне удовлетворительно работает в большинстве случаев.

При запросе на поиск похожего документа документ скачивается, выбираются несколько (12) терминов, из них составляется запрос с использованием операции нечеткого поиска.

Принцип отбора терминов для "поискового образа" документа:

Используется функция "контрастности" термина, применяемая в Яндексе при обычном поиске, но в несколько модифицированном виде.

Поведение исходной функции "контрастности" термина: чем чаще термин встречается в документе, и чем реже - во всей коллекции документов, тем выше контрастность термина для документа.

Такая функция "контрастности" для поиска по образцу не годится, поскольку она зачастую выбирает термины, встречающиеся только в этом и, возможно, в нескольких других документах. Как правило, это либо редкие имена собственные и сокращения и т.п, либо опечатки или грамматические ошибки.

Ясно, что если искать документы по таким терминам, то мы скорее всего найдем лишь сам документ-образец, и, возможно, несколько документов того же автора и с такими же грамматическими ошибками либо опечатками.

Поправка функции "контрастности" термина состоит в подавлении слишком редких терминов.

-------

С уважением,

Александр Садовский.

Как писал Fix
Неужели робот будет выполнять команды Action Script чтобы получить готовые ссылки?

Команды скриптов выполняться не будут. Разбираются только строковые константы во всех командах, которые могут загружать ссылки.

С уважением,

Александр Садовский.

Как писал Fix
И как с этим у Яндекса? Необходимо продолжение интервью!

Q. Индексирует ли Яндекс тексты сайта, подгружаемые скриптом из отдельных файлов? А flash, собираемый по частям (подгружаются отдельные swf-файлы)?

A. Подход к динамически подгружаемым документам такой же, как и для HTML -- мы извлекаем ссылки на них, и отдаем на обработку роботу. Если такой формат обрабатывается, документ будет проиндексирован.

Q. Учитываются ли ссылки, заданные через getURL(url)?

A. Да, при индексации flash Яндекс учитывает ссылки, в том числе заданные с помощью getURL.

Q. По некоторым слухам тот же Гугл индексирует _только_ несжатые файлы, в то время как почти все разработчики используют компрессию swf...

A. В Яндексе индексируются как сжатые, так и несжатые swf-документы.

С уважением,

Александр Садовский.

Как писал NULL
Не могли бы Вы хотя бы просветить по поводу статуса этих операторов - они '"для служебного пользования"

Оператор rhost планируется поддерживать, то есть он будет описан в разделе помощи.

С уважением,

Александр Садовский.

Как писал Никита
Возможно ли вообще в Яндексе такое - найти все поддомены сайта?

Да, конечно. Оператором rhost:

rhost="tld.domain.*"

В этом операторе используется обратный порядок перечисления доменов -- вначале первого уровня, затем второго и т.д. Например:

rhost="ru.exler.*"

или

rhost="ua.kharkov.kpi.*"

В результате будут найдены все документы в заданной группе доменов.

С уважением,

Александр Садовский.

Сбой уже устранен, приносим свои извинения. Спасибо всем участникам форума за внимательность.

По некоторым запросам показываются еще кешированные результаты, которые постепенно обновятся.

С уважением,

Александр Садовский.

Как писал ince
Давно ли у Яндекса появилась возможно задавать поиск в регионе (Россия, Москва, Петербург и тд)?

Возможность ограничить результаты поиска рубрикой каталога (в том числе региональной) появилась вместе с Яндекс.Каталогом, то есть в 2000 году. Чекбокс под строкой поиска, на который вы указываете, добавили для наглядности в марте этого года.

С уважением,

Александр Садовский.

Всего: 195