Яндекс за 1 проход по сайту скачивает определенное количество страниц. Если про некую страницу яндексу известна ее дата (сервер в прошлый раз вернул Last-Modified), то яндекс запрашивает ее с заголовком If-Modified-Since, на каковой заголовок сервер имеет полное право вернуть 304 код.
Таким образом робот будет успевать за один заход скачивать большее число документов, реально изменившихся или еще не проиндексированных.
У-ф.
У-п-с, пропустил эти вопросы.
Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).
Последний раз когда мерил (году в 1997)
было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.
Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):
time mystem -c <uwords.txt >/dev/null
5.07 real 2.85 user 0.43 sys
Считайте, примерно тысяч 18-19.
Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)
"Объем данных" или "объем словаря"?
so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.
Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.
С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.
Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.
Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:
%time self descendents called... name83.8 0.00 125.35 main()
То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.
Без лемматизации не мерил, но думаю, что
будет процентов на 25 быстрее
%time self descend.. called... name22.9 0.25 34.03 4067272 Lemmer::StemWord 0.94 32.62 3693335/3693335 russian_lemmer 0.01 0.45 372114/372114 english_stemmer
Нет. См. выше.
Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.
Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".
Илья
robots.txt тут ни причем. Фильтром закрыто все кроме "Рунета". Мы же не гугль какой, у нас же не 10 тысяч компьютеров, а всего 40.
Тем не менее в поиск по ссылкам мы включали все, не глядя на фильтр, а так как странички были не проиндексированы, это вызывало законное раздражение пользователей. Теперь мы эти странички обходим (в один слой, дальше не раскручиваем)
Ценнее.
Мы начали индексировать те сайты, который раньше находились только по ссылкам, но были закрыты от полнотекстового индексирования.
2 andre.
Не вдаваясь подробно в дискуссию отмечу, что сущетсвуют поисковики, которые ориентированы именно на вебмастера (сиречь рекламодателя). goto, ваш, епрст, и т.д. Никто не отнимает у них права на существование, также как и обязанностей перед рекламодателем, зафиксированных в контракте.
Яндекс, Гугль и им подобные основаны на роботе, то есть на "автоматическом" сборе информации. Перед вебмастером они не несут практически никакой ответственности. Разве что соблюдение запрета ходить по закрытым от роботов страницам и т.п. И уж никак не в части обязательств по рекламированию сайтов.
Так удалить, что ли?
Ах вот в чем дело. В кавычки надо все брать.
То есть вы в "здравом уме и светлой памяти" полагаете, что на страницу Ленты про Путина в Китае кто-то (и не просто кто-то, а много кого, да еще и весьма авторитетных, чтобы страница стала 3-й) ссылался словами "владимир который путин" или "владимир владимирович путин"?
Яндекс, например, не знает _ни_ _одной_ такой страницы. Сравните:
этот
и
запросы
Да и потом, ведь не было же новости. Я специально сейчас просмотрел все новости, что есть на Гугле. Откуда это, Gray, не подскажете?