Комментарии - iseg - Профиль вебмастера - Форум об интернет-маркетинге

Индексирование динамических страниц (CGI,SSI)

9 февраля 2002, 01:01

Яндекс за 1 проход по сайту скачивает определенное количество страниц. Если про некую страницу яндексу известна ее дата (сервер в прошлый раз вернул Last-Modified), то яндекс запрашивает ее с заголовком If-Modified-Since, на каковой заголовок сервер имеет полное право вернуть 304 код.

Таким образом робот будет успевать за один заход скачивать большее число документов, реально изменившихся или еще не проиндексированных.

У-ф.

Морфология

6 февраля 2002, 21:54

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c <uwords.txt >/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents  called...   name
83.8  0.00   125.35                 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called...    name
22.9  0.25  34.03    4067272      Lemmer::StemWord
      0.94  32.62 3693335/3693335 russian_lemmer
      0.01   0.45  372114/372114  english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

Морфология

6 февраля 2002, 21:54

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c <uwords.txt >/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents  called...   name
83.8  0.00   125.35                 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called...    name
22.9  0.25  34.03    4067272      Lemmer::StemWord
      0.94  32.62 3693335/3693335 russian_lemmer
      0.01   0.45  372114/372114  english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

откуда в базе яндекса берутся аностранные сайты?

1 февраля 2002, 23:48

Gray:
Т.е. те, которые робот не хотел индексировать? Или сейчас он не обращает внимания на robots.txt?

robots.txt тут ни причем. Фильтром закрыто все кроме "Рунета". Мы же не гугль какой, у нас же не 10 тысяч компьютеров, а всего 40.

Тем не менее в поиск по ссылкам мы включали все, не глядя на фильтр, а так как странички были не проиндексированы, это вызывало законное раздражение пользователей. Теперь мы эти странички обходим (в один слой, дальше не раскручиваем)

Илья

Учитывается ли PR (ВИЦ) при ссылочном ранжировании?

1 февраля 2002, 23:38

Ценнее.

откуда в базе яндекса берутся аностранные сайты?

31 января 2002, 00:10

Мы начали индексировать те сайты, который раньше находились только по ссылкам, но были закрыты от полнотекстового индексирования.

Илья

яндекс обновил пользовательскую лицензию

25 января 2002, 14:38

2 andre.

Не вдаваясь подробно в дискуссию отмечу, что сущетсвуют поисковики, которые ориентированы именно на вебмастера (сиречь рекламодателя). goto, ваш, епрст, и т.д. Никто не отнимает у них права на существование, также как и обязанностей перед рекламодателем, зафиксированных в контракте.

Яндекс, Гугль и им подобные основаны на роботе, то есть на "автоматическом" сборе информации. Перед вебмастером они не несут практически никакой ответственности. Разве что соблюдение запрета ходить по закрытым от роботов страницам и т.п. И уж никак не в части обязательств по рекламированию сайтов.

Илья

откуда в базе яндекса берутся аностранные сайты?

22 января 2002, 23:35

Originally posted by paul:
Ни слова на русском, на регистрацию не посылал.

Так удалить, что ли?

звездочка у гугля похоже пока не работает

19 января 2002, 00:19

Ах вот в чем дело. В кавычки надо все брать.

Илья

звездочка у гугля похоже пока не работает

18 января 2002, 20:25

Originally posted by wolf:
Илья, Вы меня удивляете!

То есть вы в "здравом уме и светлой памяти" полагаете, что на страницу Ленты про Путина в Китае кто-то (и не просто кто-то, а много кого, да еще и весьма авторитетных, чтобы страница стала 3-й) ссылался словами "владимир который путин" или "владимир владимирович путин"?

Яндекс, например, не знает _ни_ _одной_ такой страницы. Сравните:

этот

и

этот

запросы

Да и потом, ведь не было же новости. Я специально сейчас просмотрел все новости, что есть на Гугле. Откуда это, Gray, не подскажете?

Илья

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, чтобы попасть в ответы Google Bard

iseg