G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
vitali_y:
это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.

Масло я тоже меняю у профессионалов, т.к. даже самое дешевое авто в моем парке достаточно сложно устроено.

В морфологическом анализе я также доверился профессионалам - Яндексу, с его мистемом.

vitali_y:
РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.

У Вас не верная информация. РОМИП интересен всем и все читают труды, просто участие в семинаре - дело не 2-х дней на написание статьи, все гораздо сложнее, нужно выделять людей, технику и бабло, не всем это дают. Кому-то, возможно, и сцыкотно показать свои чюда-алгоритмы, ведь можно и не попасть в топ оценок. То же самое происходит например с участием отечественных коллективов в TREC - читают все, не участвует никто. Потому что и затратно и сцыкотно. К тому же, в отличие от РОМИПа, там нельзя выступить анонимно. :)

vitali_y:
почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.

Ну так и получите, данные бесплатны, таблицы релевантности вообще в свободном доступе лежат. Нужно только соглашение подписать.

vitali_y:
почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?

Вы можете посмотреть, нужно только подписать соглашение. Т.к. коллекции документов не написаны участниками семинара, там чужие дукументы, на многих копирайт стоит. Пока Вы не подпишетесь - никто Вам колекций не даст, и это правильно. Подписать соглашение можно в Москве или в Питере, хотя возможно и по почте, в виде исключения. После этого будут простые ссылки на zip. :)

vitali_y:
в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.

Так может быть расскажете, где я заблуждаюсь? Буду очень благодарен.

Ида - Вы как-то проигнорировали мой вопрос:

G00DMAN:
Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)
moldu:
Судя по всему - сильно опоздал.
Я к тому, что изначально забивать словарь всеми возможными комбинациями не имеет смысла.

Ну да, не имеет, так же, как и считать их количество.

Но если объединить всех вебмастеров в глобальный флешмоб и проставить на всех страницах в сети по кучке абракадабр хитрым образом, то все поисковики будут пищать, многое придется менять в идеологии и в архитектуре. :D

moldu:
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.

Размер словаря русского языка не большой, и с точки зрения словаря, как и с точки зрения морфологического анализатора, слова "ъъъъъъ" не существует. Но в тоже время оно реально существует в сети - ты же сам его туда занес. И поисковикам приходится это учитывать и искать по таким словам. Они есть в словаре поисковика, для них и частотные метрики всякие посчитаны, типа IDF или ICF.

vitali_y:
нету стеммеров. нету. нет необходимости.

Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)

vitali_y:
обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.

Теоретически оно может и имеет теоретический базис. :D

Только в большинстве случаев на это нужно забивать, иначе не получится ничего. Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала. :)

vitali_y:
в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...

Ну мы же не научную статью пишем. В житейской терминологии порядок - количество цифр в числе, об этом наверное даже в вики написано (лень смотреть).

vitali_y:
stopka.us - мой проект.

Понятно. Приходите к нам на РОМИП. ;)

vitali_y:
повод для размышления.

О чем? Что словарь может перерасти размеры выделенной на него памяти? Ну в теории может, на практике - пока никто не парится.

vitali_y:
какой из этого вывод?

Вывод из этого простой - все абракадабры индексируются, т.к. по ним нужно искать и не факт, что это бессмысленные наборы букв. И они входят в словарь, который получается большим (100М - реальное число). Некоторые большие поисковики такой словарь держат тупо в памяти сервера, так у них там устроено. Хотя мне такое решение не нравится, ввиду того, что в таком случае мои метрики уже не применить. :)

basilic:
ТС, у вас там какие-то дауны в каменты блога пишут. Поставьте антиспам, чтоль.

Ну так какова муромская статья и "выводы" из нее - таковы и комментарии. :)

vitali_y:
Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.

Это статья успешного практика, имеющего свой, достаточно известный в Украине поисковик. Заметьте - он так же, как и я, не делал строгих выкладок, а написал свой морфологический анализатор. И Яндекс свой написал. Может быть мы все и не правы, а правы Вы, ну так поделитесь знаниями о чудесном стеммере, интересно же. :)

vitali_y:
Вернемся к теме.
согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.
Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?

Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься. :)

vitali_y:
у каждого порядки свои :)

В десятичной системе счисления они такие, как у меня. ;)

vitali_y:
так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?

Не писал, у меня ни одного профессионального программиста сейчас в штате нет. Но я серьезно занимаюсь поиском, поэтому какие-то данные мне известны, это не предположение, а факт.

А Вы что-то поисковое писали? Или просто теоретик?

vitali_y:
просто сравнение цифр:
00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;
10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6

И к чему эти цифры?

vitali_y:
вы фигурально лопнете хранить всю аброкатабру типа:
"trejbngfek dnfvdnfwjknre rkjenrfevf"

Однако и гугл, и Яндекс ее уже находит. Не лопнули пока. :)

vitali_y:
доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.

Я не спец в морфологическом анализе, потому просто использую чужие разработки. Понимание необходимости пришло из практики, оно окончательно сложилось, после чего аргументы были забыты. :)

Поиск в Яндексе сразу вывел на статью Андрея Коваленко, руководителя поисковика МЕТА: Морфологический анализ для небольших поисковых систем. Вроде там подробрно описано.

vitali_y:
- это общие слова не более.

Они основаны на некоторой практике.

vitali_y:
ремарка:
[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]

Если я не уверен на 100% в своих знаниях, я так же пишу "я думаю".

vitali_y:
что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?

Ни то, ни другое. :)

Три порядка - это умножить на 10**3.

vitali_y:
обычный словарь это 100,000 слов? меньше? больше?

чисто порядок цифр - чтобы вы немного представляли о чем речь:

пусть есть алвавит из n букв, пусть средняя длинна слова m
итого m^n - размер словаря

алвавит из 36 букв, средняя длинна слова 6
итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056

так какие порядки у вас?

А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов. :)

wolf:
Но общем масштабе их доля невелика.

Красивая отмазка. Оспорить не реально. :)

john2007:
Если есть запрос, который отсекает поведенческие, то это не означает, что он "проверяет" влияние поведенческих, так как этот запрос может отсекать еще много каких факторов.

Каким запросом можно отсечь искусственно добавленные бонусы и минусы - более-менее понятно. wolf назвал это "отсечением поведенческих факторов". Ну назвал и назвал, имеет право. :)

Я придерживаюсь мнения, что это не только поведенческие факторы, а все в сумме. Если бы учитывались только поведенческие, выдача по "хитрому" запросу менялась бы только в кликабельной ее части, т.е. примерно до 30-й позиции. Она же наверняка отличается и после 500-й.

john2007:
Смею предположить, что добавление в матрикснет фактора абсолютного количества ошибок на сайте немного повысит качество выдачи.

Вполне возможно, только сложный параметр, в плане ресурсоемкости.

john2007:
При этом, страницы с сайтов с большим количеством орфографических ошибок при прочих равных будут релевантнее чем с сайтов с меньшим количеством орфографических ошибок.

С чего Вы взяли?

Всего: 1960