iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Яндекс за 1 проход по сайту скачивает определенное количество страниц. Если про некую страницу яндексу известна ее дата (сервер в прошлый раз вернул Last-Modified), то яндекс запрашивает ее с заголовком If-Modified-Since, на каковой заголовок сервер имеет полное право вернуть 304 код.

Таким образом робот будет успевать за один заход скачивать большее число документов, реально изменившихся или еще не проиндексированных.

У-ф.

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c <uwords.txt >/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents called... name
83.8 0.00 125.35 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called... name
22.9 0.25 34.03 4067272 Lemmer::StemWord
0.94 32.62 3693335/3693335 russian_lemmer
0.01 0.45 372114/372114 english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c <uwords.txt >/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents called... name
83.8 0.00 125.35 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called... name
22.9 0.25 34.03 4067272 Lemmer::StemWord
0.94 32.62 3693335/3693335 russian_lemmer
0.01 0.45 372114/372114 english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

Gray:
Т.е. те, которые робот не хотел индексировать? Или сейчас он не обращает внимания на robots.txt?

robots.txt тут ни причем. Фильтром закрыто все кроме "Рунета". Мы же не гугль какой, у нас же не 10 тысяч компьютеров, а всего 40.

Тем не менее в поиск по ссылкам мы включали все, не глядя на фильтр, а так как странички были не проиндексированы, это вызывало законное раздражение пользователей. Теперь мы эти странички обходим (в один слой, дальше не раскручиваем)

Илья

Мы начали индексировать те сайты, который раньше находились только по ссылкам, но были закрыты от полнотекстового индексирования.

Илья

2 andre.

Не вдаваясь подробно в дискуссию отмечу, что сущетсвуют поисковики, которые ориентированы именно на вебмастера (сиречь рекламодателя). goto, ваш, епрст, и т.д. Никто не отнимает у них права на существование, также как и обязанностей перед рекламодателем, зафиксированных в контракте.

Яндекс, Гугль и им подобные основаны на роботе, то есть на "автоматическом" сборе информации. Перед вебмастером они не несут практически никакой ответственности. Разве что соблюдение запрета ходить по закрытым от роботов страницам и т.п. И уж никак не в части обязательств по рекламированию сайтов.

Илья

Originally posted by paul:
Ни слова на русском, на регистрацию не посылал.

Так удалить, что ли?

Ах вот в чем дело. В кавычки надо все брать.

Илья

Originally posted by wolf:
Илья, Вы меня удивляете!

То есть вы в "здравом уме и светлой памяти" полагаете, что на страницу Ленты про Путина в Китае кто-то (и не просто кто-то, а много кого, да еще и весьма авторитетных, чтобы страница стала 3-й) ссылался словами "владимир который путин" или "владимир владимирович путин"?

Яндекс, например, не знает _ни_ _одной_ такой страницы. Сравните:

этот

и

этот

запросы

Да и потом, ведь не было же новости. Я специально сейчас просмотрел все новости, что есть на Гугле. Откуда это, Gray, не подскажете?

Илья

Всего: 442