Разработка поисковой системы

1 234
moldu
На сайте с 27.04.2006
Offline
432
#21

Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.

Глаза боятся, а руки-крюки.
G00DMAN
На сайте с 19.04.2008
Offline
122
#22
moldu:
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.

Размер словаря русского языка не большой, и с точки зрения словаря, как и с точки зрения морфологического анализатора, слова "ъъъъъъ" не существует. Но в тоже время оно реально существует в сети - ты же сам его туда занес. И поисковикам приходится это учитывать и искать по таким словам. Они есть в словаре поисковика, для них и частотные метрики всякие посчитаны, типа IDF или ICF.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
moldu
На сайте с 27.04.2006
Offline
432
#23
G00DMAN:
ты же сам его туда занес.

Судя по всему - сильно опоздал.

Я к тому, что изначально забивать словарь всеми возможными комбинациями не имеет смысла.

G00DMAN
На сайте с 19.04.2008
Offline
122
#24
moldu:
Судя по всему - сильно опоздал.
Я к тому, что изначально забивать словарь всеми возможными комбинациями не имеет смысла.

Ну да, не имеет, так же, как и считать их количество.

Но если объединить всех вебмастеров в глобальный флешмоб и проставить на всех страницах в сети по кучке абракадабр хитрым образом, то все поисковики будут пищать, многое придется менять в идеологии и в архитектуре. :D

vitali_y
На сайте с 23.05.2007
Offline
33
#25
moldu:
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.

а кто вы по профессии и по образованию?

как бы программисты знают, что

как бы существуют различные кодировки, как бы в ASCII 128 символов, а в расширенной ASCII 256.

а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.

я как бы не говорил про русский язык, я как бы сказал про как бы алфавит в котором как бы 36 букв.

извините ваше "как бы" несколько заразительно... :)

moldu
На сайте с 27.04.2006
Offline
432
#26
vitali_y:
а кто вы по профессии и по образованию?

Как бы :D менеджер.

vitali_y:
а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.

Это типа словарь нужно будет делать размером что-то около 6^65536? 😂

vitali_y
На сайте с 23.05.2007
Offline
33
#27
G00DMAN:
Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала.

это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.

РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.

почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.

почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?

в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.

vitali_y добавил 30.10.2010 в 17:30

moldu:
Это типа словарь нужно будет делать размером что-то около 6^65536?

ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.

moldu
На сайте с 27.04.2006
Offline
432
#28
vitali_y:
ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.

Поинтересуйтесь как-нибудь на досуге количеством атомов во Вселенной. ;)

:D

G00DMAN
На сайте с 19.04.2008
Offline
122
#29
vitali_y:
это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.

Масло я тоже меняю у профессионалов, т.к. даже самое дешевое авто в моем парке достаточно сложно устроено.

В морфологическом анализе я также доверился профессионалам - Яндексу, с его мистемом.

vitali_y:
РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.

У Вас не верная информация. РОМИП интересен всем и все читают труды, просто участие в семинаре - дело не 2-х дней на написание статьи, все гораздо сложнее, нужно выделять людей, технику и бабло, не всем это дают. Кому-то, возможно, и сцыкотно показать свои чюда-алгоритмы, ведь можно и не попасть в топ оценок. То же самое происходит например с участием отечественных коллективов в TREC - читают все, не участвует никто. Потому что и затратно и сцыкотно. К тому же, в отличие от РОМИПа, там нельзя выступить анонимно. :)

vitali_y:
почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.

Ну так и получите, данные бесплатны, таблицы релевантности вообще в свободном доступе лежат. Нужно только соглашение подписать.

vitali_y:
почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?

Вы можете посмотреть, нужно только подписать соглашение. Т.к. коллекции документов не написаны участниками семинара, там чужие дукументы, на многих копирайт стоит. Пока Вы не подпишетесь - никто Вам колекций не даст, и это правильно. Подписать соглашение можно в Москве или в Питере, хотя возможно и по почте, в виде исключения. После этого будут простые ссылки на zip. :)

vitali_y:
в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.

Так может быть расскажете, где я заблуждаюсь? Буду очень благодарен.

Ида - Вы как-то проигнорировали мой вопрос:

G00DMAN:
Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)
[Удален]
#30

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий