Кто настраивал полнотекстовый поиск в MySQL? - Яндекс

124

Theorist

26 декабря 2007, 15:12

#31

dweller:
Смотря какой критерий стоп-слова - нулевой вес в запросе или непопадание в обратный индекс.

:)

А что задавая запрос как "в" вы выстраиваете сайты по обратной выдаче?

P.S.

возможно немного некорректно выразился.

R

36

Racoon

26 декабря 2007, 15:33

#32

Хм... А в региональном поиске ищется.

Ничего не понимаю.

Спаси Чебурашку! (http://recovered.ru/archives/155) - прочь руки! Штангист Ляо - мы с тобой! (http://recovered.ru/archives/164) Идиопедия (http://idiopedia.ru) - свободная энциклопедия идиотских слов и выражений.

[Удален]

26 декабря 2007, 16:55

#33

всетаки часть предлогов в Яшей не учитывается полностью! попробую обосновать

наиболее частотными вхождениями в русском языке являются в а ....

что подтверждает

для в Найдено документов: 40404, контекстов: 4057187

для а Найдено документов: 35273, контекстов: 1127309

та же история и в гугле

для в Результаты 1 - 10 из примерно 830 000 000.

для а Результаты 1 - 10 из примерно 431 000 000.

т.е. таже тенденция

а вот для яндекса

с точностью наоборот:

для в Результат поиска: страниц — 5 989 809, сайтов — не менее 33 921

для а Результат поиска: страниц — 813 719 561, сайтов — не менее 1 120 014

получается что Яндекс часть в не учитывает

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

16

cymax

26 декабря 2007, 22:22

#34

wolf:
Вроде никогда не была одинаковой. Хоть стоп-слова и игнорировались, но расстояния между словами при этом - нет. В первом случае расстояние между словами "туры" и "египет" равно 2, а во-втором - 1. Яндекс это всегда учитывал, насколько я помню

Согласен с Сергеем. Запрос "туры египет" совсем не тождественен запросу "туры в египет", из которого просто взяли и выкинули стоп-слово в::0, будто его и не было. Даже в набившем оскомину РОМИП-2006 есть состававляющие показателя релевантности, в которых эти 2 запроса могут дать разные значения. Что же говорить о последних версиях алгоритма.

Каширин:
Либо мы должны говорить о том, что сам термин "стоп-слово" устарел и нуждается в ревизии.

Константин, а четкое, однозначное определение термина "стоп-слово" у нас где-то было? То есть именно с точки зрения Яндекса, а не в толковании википедии, сторонних трудов по IR, непонятных страничек от Лебедева и т.п. На форуме периодически возникают вопросы по стоп-словам, и каждый раз мнения участников - полный "компот", имхо.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1018

Каширин

26 декабря 2007, 22:31

#35

burunduk:

что подтверждает
для в Найдено документов: 40404, контекстов: 4057187
для а Найдено документов: 35273, контекстов: 1127309

Не это подтверждает 🚬 Число документов не говорит нам о числе вхождений в каждом из найденных документов ;)

В том колдунщике, который жив: в:50, и:51, а:218.

16

cymax

26 декабря 2007, 23:09

#36

Каширин:
Не это подтверждает Число документов не говорит нам о числе вхождений в каждом из найденных документов

В том колдунщике, который жив: в:50, и:51, а:218.

Подтверждает, хоть и косвенно, статистика слов. Запрос "туры в египет" - 22.6 млрд. "в", что более-менее согласуется с нынешним размером корпуса текстов документов. А вот однословник "в" - всего 96 млн. Подозрительно малое значение. Кроме того, в других запросах встретилось 120 млн., 300 млн., 500 млн.

С тем же "а" или нормальными словами таких сильных разногласий нет. Только с "и", "в".

Google: как решать проблему Падают просмотры на ютуб Google разработал новый алгоритм

333

XPraptor

27 декабря 2007, 02:06

#37

Здесь имеет место быть скорее всего обычная программная установка БД. Хоть Я и мутит свои алгоритмы и прочее, но любая БД подчиняется стандартным правилам тюнинга поиска. Кто настраивал полнотекст в MySQL тот меня поймет. Там существует такое понятие, как коэффициент вхождения q. При запросе на полнотекстовый поиск учитывается отношение количества символов в слове на общую его частоту и на количество слов во всей БД (или сегменте).

В результате, если установленный q меньше чем вычесленный при поиске - то движек БД будет считать что ничего не найдено.

Для "в" и "и" скорее всего получается именно этот случай - как самые частые символы, они скорее всего на чуть-чуть выскакивают за коэффициент и БД возвращает нулевой результат. Но если подправить q то качество остального поиска резко измениться, поэтому этими буквами просто пожертвовали.

Это ИМХО конечно, возможно что Я использует не стандартные правила БД в своих разработках, но большая часть БД подчинябтся этим правилам тюнинга.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

69

Kolyaj

27 декабря 2007, 06:38

#38

XPraptor, в поиске яндекса не используется реляционная база данных, более того - там вообще не используется база данных, как таковая. Все держится на индексных файлах своего формата. Поэтому говорить о неком коэффициенте, присутствующем в базах данных, бессмысленно.

Для сторонников версии, что "в" является стоп-словом. При поиске "в", если ничего не находит (а иногда все-таки находит) яндекс выводит сообщение " Искомая комбинация слов нигде не встречается.". При поиске же стоп-слова, т.е. "в::0" - " Задан пустой поисковый запрос.".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

219

MASe

27 декабря 2007, 06:52

#39

Каширин:
Это не я так решил, она совпадала до тех пор, пока предлоги и союзы не стали участниками выдачи в Яндексе и не перестали быть стоп-словами в каноническом понимании. Своего отношения о том, как должно быть на мой взгляд, я не высказывал.

ну....

раньше тоже было не все так гладко...

скажем, если сайт прокачивался активно ссылочным "туры египет", а не "туры в египет", он в выдаче был выше именно по такому запросу... в тоже время "туры в египет" были ниже по запросу "туры египет"...

хотя в общем ТОП был более менее один...

но выдача одинаковой (скорее с технической точки зрения) была достаточно условно...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)

Яндекс кобласит Сайт всё ниже в Фильтр МПК и боты

147

DyaDya

27 декабря 2007, 07:31

#40

Ну так какое же теперь определение стоп-слова?

Если стоп-слово - это слово, которое вообще не участвует в поиске. Что, вроде как, косвенно подтверждает предыдущий оратор Kolyaj (при в::0 - пустой запрос).

Но с другой стороны, на выдачу с в и без в запросы влияют. Т.е. само слово вроде как и ведет себя как стоп-слово, но сохраняется обработка расстояний?

В общем, опять вода льётся, подождем пока всё устаканится с новым алгоритмом. Видимо и вправду, яшки еще напильником его дорабатывают ;)

ЗЫ, кто же даст точное определение стоп-слова? или хотя бы то, каким оно (определение) было раньше? :).

Выбирайте качественный хостинг (http://vashmaster.ru/informaciya/o_poleznyh_programmah/news83.php) и продвигайте сайты в СЕОПУЛЬТ (http://seopult.ru/ref.php?ref=72b5ed9561fe66a1). А на «SAPE» я в обиде :) Не упрекайте за очепятки, пишу вслепую (http://ergosolo.ru/) и также делаю сайты (http://www.vashmaster.ru/) ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

феномен буквы "в"