Если вы наберете просто слово, то получите результаты с омоформами - Яндекс

Re: Ап 26.06.07

vlamant · 2007-06-25T20:37:17.0000000Z

удалено... я тему не создавал.. нах репутацию портить то???? p.s. А АП сто пудовый... в выдаче раскалбас...

101

nesvobodnye

27 июня 2007, 21:17

#161

tommy-gung:
фигня какая-то

смотрю проиндексированность, например, site.info, в результатах показывается site.ru, site.su, site.biz, site.ucoz.ru

поддерживаю.

та же чушь в выдаче индексации.

сперва обрадовался, увидав кучу проиндексироанных страниц нового сайта, потом пригляделся и плюнул...

косяк вышел, однако...(

Всё ранее написанное - сугубо личное мнение.

[Удален]

27 июня 2007, 23:12

#162

Челябинские боты настолько суровые, что не просто индексируют сайт, а просто высасывают его содержимое!

92

miba

28 июня 2007, 09:27

#163

ezh32768:
Челябинские боты настолько суровые, что не просто индексируют сайт, а просто высасывают его содержимое!

А московские боты - обленились и ожирели... никуда не спешат, могут за 1 заход только треть сайта проиндексить, могут и меньше... по крайней мере у меня так. ;)

сантехник москва (http://santechniki.com)

101

nesvobodnye

28 июня 2007, 10:26

#164

miba:
А московские боты - обленились и ожирели... никуда не спешат, могут за 1 заход только треть сайта проиндексить, могут и меньше... по крайней мере у меня так. ;)

Весьма жизненное наблюдение, уважаемый.

Я только вчера жаловался недовольным тоном на одного московского Я-бота /каламбурчег!/ - была куча мёртвых страниц в индексации. А сегодня он прочёл мои слова и пришёл все переиндексировал)) Страниц теперь совсем мало поднялось (где-то процентов 10-11), зато почти все дельные. Теперь ожидаю, когда остальные поднимет.

Эй, Я-бот! просим в гости, уже налито!)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

175

Skyter

28 июня 2007, 13:08

#165

ХМ... Так не в тему, а вы не думали, что иногда оно и в плюс, что неграмотный сайт не индексируетсяя полностью?

Юрий Батиевский www.antop.ru (http://www.antop.ru/): тел: +7 903 796 05 86 Ищу SEO-специалиста, специалиста по контекстной рекламе, интернет-маркетолога.

[Удален]

28 июня 2007, 19:29

#166

tommy-gung:
фигня какая-то

смотрю проиндексированность, например, site.info, в результатах показывается site.ru, site.su, site.biz, site.ucoz.ru

У меня практически на всех сайтах такая же фигня. :)

[Удален]

28 июня 2007, 19:43

#167

Skyter:
сайт

Челябинские сайты настолько суровые, что посетителям приходится кликать молотком по объявлениям адсенс!

[Удален]

28 июня 2007, 19:45

#168

nesvobodnye:
Эй, Я-бот! просим в гости, уже налито!

Челябинские боты настолько суровые, что прихотят только на сайты по спиртным напиткам!

[Удален]

28 июня 2007, 19:46

#169

Вообще мое мнение по вопросу индексации "неоднозначно"..

В кавычках, потому что это не индексация, а псевдоиндексация какая-то.

Последнее время (а на самом деле уже достаточно давно) создаётся впечатление, что ресурсы Яндекса не справляются с обновлением индексной базы.

Выдача строится на основе списка сайтов, позиционный рейтинг которых считается по сайтам из разных кусков индекса - очень разной степени обновлённости. О какой вообще релевантности тогда может идти речь? Пользователь видит в титле и сниппете одно, идёт по ссылке - видит совсем другое. И на это накалываешься постоянно.

Делаю эксперимент - меняю титл главной страницы (титлы выводятся в виде ссылок в результатах поиска, потому легко заметить, когда же сайт в базе наконец обновлён) - проходит неделя, другая, индексирующий робот уже десять раз забирает главную страницу, а титл в выдаче всё тот же и дата последнего обновления страницы - более месячной давности.

Но это ворчливая присказка. Основная тема статьи - морфологический поиск Яндекса.

Перлы морфологии Яндекса тут уже как-то были приведены (прошу прощения) - на подобное, кстати, мною уже давно было указано в ответ на феерический пост Амилющенко в Я.блог (жаль, что комментарии там скринятся).

Неужели у Яндекса нет профессиональных лингвистов, которые бы объяснили его специалистам что такое словоформа и морфологическая форма слова - что слова "метать" и "меч" не имеют общей морфологической формы - просто потому, что слово морфологический состоит из двух частей "морфо" и "логический"? Так нет же - как мы видим по приведённой цитате из блога Яндекса выше - его сотрудники вполне понимают то, что склейка, проведённая как "минуты - минут - миновать - минет", является следствием общих не морфологических форм, а следствием общих омоформ.

Так тогда и надо называть вещи своими именами: Яндекс имеет не морфологический поиск, а оморфический. В отличие от Гугля, кстати.

Меня как-то пытались убедить, что, мол, алгоритмически невозможно корректно построить морфологический поиск и отфильтровать из него оморфические результаты. Пример недавно введённой морфологии Гугля это, однако, опровергает. Но, возможно, сотрудникам Яндекса соответсвующие алгоритмы не под силу. Что ж, попробуем им помочь.

Допустим, есть слова А с морфоформами (А1, А2, А3, А4, В, А5...) и Б с морфоформами (Б1, Б2, Б3, В, Б5...) ,

имеющие общую омоформу В.

Как строит "морфологическую" выдачу Яндекс?

Пользователь набирает в запросе А2, а в результате, из-за омоформы В получает выдачу Б1, А1, Б2

и т.д..

Т.о. супер-пупер алгоритм морфологического поиска Яндекса скорее всего следующий:

1. получили запрос n=А2 ->

2. нашли все словоформы А2: А, А1, А2, А3, А4, В, А5... - сразу строится первичная выдача из 1..m результатов для каждой найденной словоформы согласно её весу, if (m=1000 или (m< 1000 и индекс исчерпан - см. пояснение к п.3.)) - then show results (аналогично же при построении выдачи для словосочетаний - см. ниже - всё то же, только для каждого слова в словосочетании) -> else ->

3. if m< 1000 (и индекс не исчерпан (тут - в п.2., м.б., как-то ещё задаётся норма для веса вхождения слов в выдачу)) - then для каждого А1, А2, А3, А4, В, А5... повторяем п.1. n=(А1, А2, А3, А4, В, А5...) -> п.2. ->

4. => для В получили Б, Б1, Б2, Б3, Б5 (итак, очевидно, что все омоформы найдены! :) ) -> п.2.=п.5. ->

5. теперь из А, А1, А2, А3, А4, В, А5..., Б, Б1, Б2, Б3, Б5... строим всю выдачу... enjoy!

(так же на п.5. получаем показываемый пользователю результат поиска страниц/сайтов - столько-то)

Закономерен недоумённый вопрос - зачем Яндекс делает п.3.?

Ответ неочевиден, но довольно прост.

Первая подсказка.

Как видно из примера выше (пример не слишком красив, но то же можно посмотреть и на "лучшие мечи" и т.п.)- если запрос состоит из двух и более слов, то Яндекс сначала выковыривает словоформы каждого слова запроса в отдельности, а потом ищет их вхождения, причём строит выдачу так, чтобы слова (точнее, уже их словоформы) в запросе стояли сначала максимально близко.

Вторая подсказка.

Если вы наберёте просто слово "минуты" - вы не получите в выдаче "минет". Аналогично с "мечи" не получите "метан", "метал" и т.п. (что, впрочем, неверно для Я.Маркета...).

А вот если вы наберёте уже запрос из двух слов ("отличные минуты", "лучшие мечи"), то получите результаты с омоформами.

Т.о. (см. первую подсказку) п.3. - является избыточным следствием алгоритма поиска вхождений для словосочетаний: почему? потому что поисковый движок не шибко умный и не знает, что имеет ввиду пользователь, задавая запрос "лучшие мечи" - то ли он ищет лучшие мечи, то ли он ищёт текст, где кто-то лучше мечет (икру, ага... - "мечи игру!"), то ли ищут какой-то ещё метан, который лучше... чужие души смысл запроса - загадка для робота.

Потому он и не органичивается п.2., который не отличает существительное "мечи" и глагольную форму "мечи" от "метать" - ведь движок не знает, где глагол, а где существительное, потому и ищет именно все омоформы и идёт в п.3..

Когда же запрос состоит из одного слова, вся выдача уже забита в п.2. найденными результатами и необходимости в п.3. нет. Как видите, я полагаю, что выдача Яндекса - это не более порядка 1000 результатов - Яндекс, как и Гугль, и дорогие друзья, если вы до сюда дочитали то я могу вас смело послать нахуй, но надеюсь этого никто не заметит, насколько могу судить по своим тестам, так же ограничивает выдачу числом в 1000 результатов - у Гугля это цифра официальная (не путать число найденных документов с числом пунктов списка выдачи результатов в браузер).

Итак, закономерно резюме (см. первую подсказку) - а не проще ли и правильнее сначала искать точные вхождения по словосочетанию (что, судя по всему, делает Гугль)?

Мои предположения, конечно, только предположения, а не претензия на знание сокровенных тайн :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

28 июня 2007, 19:50

#170

Кстати, Белорусские программеры настолько суровые, что пьют горчицу вместо кофе (на собственном примере)

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Re: Ап 26.06.07