Зачем изобретать велосипед-то, да еще для дипломной работы - Поисковые технологии

Разработка поисковой системы

GBall · 2010-10-25T12:39:58.0000000Z

Здраствуйте! Пишу диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов". И вопрос сейчас не про саму организацию поиска, индексации и т.д., а про Морфологческий анализатор. Первое: Стоит ли его вообще писать, я тут где-то читал, что оказывается в некторых субд он есть встроенный. Хотелось бы узнать о качестве его работы в них. Второе: Если все же писать, как лучше быть? Протые стеммеры я сразу откинул, мне не понравилось что Стеммер Портера при вводе слова "зал" и "зала" выводит один и тот же ответ: "Неизменная часть слова : "за"". Вообщем для поиска не очень походит. Моя идея пока такая: хранить список всех возможных окончаний, по ним определять что за слово и какое окончание подставить чтобы получить заглавную форму. Но че то это не всегда хорошо прокатывает. А если проводить дополнительный анализ предложения - не слишком ли это долго будет?

24

orbea

26 октября 2010, 12:16

#11

Ну насколько я понял проблема у GBall такая:

GBall:

Пока я пытаюсь сделать лемматизатор, для приведения к заглавной форме, например, делал -> делать.

АОТ вполне с этой задачей справляется. Вводим "делал" получаем "делать" и все атрибуты. Зачем изобретать велосипед-то, да еще для дипломной работы:)

А про организацию поиска никто вроде бы и не спрашивал.

Яндекс обновляет рейтинг организаций Google: атрибут hreflang не Google рекомендует применять атрибут

122

G00DMAN

26 октября 2010, 21:53

#12

GBall:
Пишу диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов". И вопрос сейчас не про саму организацию поиска, индексации и т.д., а про Морфологческий анализатор.

Варианта нормальных два - АОТ или mystem. АОТ точнее, но медленнее, mystem - грубее, но быстрее. Я пользую mystem.

GBall:
Стоит ли его вообще писать

Не стоит, не осилите. Да и смысла для Вас в этом нет никакого.

GBall:
Тоетсь привести их к заглавной форме.

Попробуйте перейти на общепринятые термины (найдя их в литературе) и писать без ошибок. А то диплом получится ржачным. :)

vitali_y:
www.aot.ru - ну определяет части речи, ну и что? какое отношение это имеет к поиску?

Самое прямое - на АОТ можно построить приличный поиск.

vitali_y:
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?

А в чем проблемы-то? :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

Группировщик ключевых слов для Google запускает отдельную версию Bing начал показывать дополнительную

33

vitali_y

27 октября 2010, 15:59

#13

G00DMAN:
Цитата:
Самое прямое - на АОТ можно построить приличный поиск.
...
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?
А в чем проблемы-то?

1) приличный поиск можно построить и без АОТ.

2)

2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.

2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)

Вышла новая версия Яндекс.Браузера Новая версия Яндекс.Сервера @Mail.ru научила Google русскому

122

G00DMAN

27 октября 2010, 17:50

#14

vitali_y:
1) приличный поиск можно построить и без АОТ.

2)
2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.

Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.

vitali_y:
2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)

Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати. :)

Папа, подари мне Яндекс. Релевантная выдача - так Хэлп Ми

33

vitali_y

28 октября 2010, 14:09

#15

G00DMAN:
Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.

доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.

G00DMAN:
исключений из правил

G00DMAN:
примитивными средствами типа стеммеров

- это общие слова не более.

G00DMAN:
Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати.

ремарка:

[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]

что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?

обычный словарь это 100,000 слов? меньше? больше?

чисто порядок цифр - чтобы вы немного представляли о чем речь:

пусть есть алвавит из n букв, пусть средняя длинна слова m

итого m^n - размер словаря

алвавит из 36 букв, средняя длинна слова 6

итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056

так какие порядки у вас?

Математическая модель оценки качества РИФ+КИБ 2011: Виктор Лавренко Контекстная реклама игра по

122

G00DMAN

28 октября 2010, 16:04

#16

vitali_y:
доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.

Я не спец в морфологическом анализе, потому просто использую чужие разработки. Понимание необходимости пришло из практики, оно окончательно сложилось, после чего аргументы были забыты. :)

Поиск в Яндексе сразу вывел на статью Андрея Коваленко, руководителя поисковика МЕТА: Морфологический анализ для небольших поисковых систем. Вроде там подробрно описано.

vitali_y:
- это общие слова не более.

Они основаны на некоторой практике.

vitali_y:
ремарка:
[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]

Если я не уверен на 100% в своих знаниях, я так же пишу "я думаю".

vitali_y:
что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?

Ни то, ни другое. :)

Три порядка - это умножить на 10**3.

vitali_y:
обычный словарь это 100,000 слов? меньше? больше?

чисто порядок цифр - чтобы вы немного представляли о чем речь:

пусть есть алвавит из n букв, пусть средняя длинна слова m
итого m^n - размер словаря

алвавит из 36 букв, средняя длинна слова 6
итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056

так какие порядки у вас?

А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов. :)

Page Promoter 7.1: считаем Page Promoter 7.1: считайте @Mail.ru научила Google русскому

33

vitali_y

28 октября 2010, 17:41

#17

Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.

Вернемся к теме.

G00DMAN:
Они основаны на некоторой практике.

согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.

Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?

G00DMAN:
Три порядка - это умножить на 10**3.

у каждого порядки свои :)

G00DMAN:
А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов

так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?

просто сравнение цифр:

00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;

10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6

vitali_y добавил 28.10.2010 в 21:43

вы фигурально лопнете хранить всю аброкатабру типа:

"trejbngfek dnfvdnfwjknre rkjenrfevf"

Машинное обучение. Как это Аналитика поведенческих факторов в Алексей Байтин: Поиск и

122

G00DMAN

28 октября 2010, 23:39

#18

vitali_y:
Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.

Это статья успешного практика, имеющего свой, достаточно известный в Украине поисковик. Заметьте - он так же, как и я, не делал строгих выкладок, а написал свой морфологический анализатор. И Яндекс свой написал. Может быть мы все и не правы, а правы Вы, ну так поделитесь знаниями о чудесном стеммере, интересно же. :)

vitali_y:
Вернемся к теме.
согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.
Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?

Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься. :)

vitali_y:
у каждого порядки свои :)

В десятичной системе счисления они такие, как у меня. ;)

vitali_y:
так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?

Не писал, у меня ни одного профессионального программиста сейчас в штате нет. Но я серьезно занимаюсь поиском, поэтому какие-то данные мне известны, это не предположение, а факт.

А Вы что-то поисковое писали? Или просто теоретик?

vitali_y:
просто сравнение цифр:
00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;
10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6

И к чему эти цифры?

vitali_y:
вы фигурально лопнете хранить всю аброкатабру типа:
"trejbngfek dnfvdnfwjknre rkjenrfevf"

Однако и гугл, и Яндекс ее уже находит. Не лопнули пока. :)

Что лучше - много Яндекс.Поиск: что делать, чтобы Определяем быстроботовскую примесь в

33

vitali_y

29 октября 2010, 12:22

#19

нету стеммеров. нету. нет необходимости.

G00DMAN:
Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься.

обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.

G00DMAN:
В десятичной системе счисления они такие, как у меня

в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...

G00DMAN:

А Вы что-то поисковое писали? Или просто теоретик?

stopka.us - мой проект.

G00DMAN:
И к чему эти цифры?

повод для размышления.

G00DMAN:
Однако и гугл, и Яндекс ее уже находит. Не лопнули пока.

какой из этого вывод?

В SeoWizard реализована закупка Google научился строить графики Виталий Кравченко: «Влияние естественного

122

G00DMAN

29 октября 2010, 21:29

#20

vitali_y:
нету стеммеров. нету. нет необходимости.

Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)

vitali_y:
обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.

Теоретически оно может и имеет теоретический базис. :D

Только в большинстве случаев на это нужно забивать, иначе не получится ничего. Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала. :)

vitali_y:
в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...

Ну мы же не научную статью пишем. В житейской терминологии порядок - количество цифр в числе, об этом наверное даже в вики написано (лень смотреть).

vitali_y:
stopka.us - мой проект.

Понятно. Приходите к нам на РОМИП. ;)

vitali_y:
повод для размышления.

О чем? Что словарь может перерасти размеры выделенной на него памяти? Ну в теории может, на практике - пока никто не парится.

vitali_y:
какой из этого вывод?

Вывод из этого простой - все абракадабры индексируются, т.к. по ним нужно искать и не факт, что это бессмысленные наборы букв. И они входят в словарь, который получается большим (100М - реальное число). Некоторые большие поисковики такой словарь держат тупо в памяти сервера, так у них там устроено. Хотя мне такое решение не нравится, ввиду того, что в таком случае мои метрики уже не применить. :)

Как получить топ по Обучение заработку в интернет Отечественный поисковый движок

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Разработка поисковой системы