тут была такая же тема. форум не позволил продолжить - поднять тему - та тема к сожалению устарела.
ну это те фичи что нужны мне - если бы я писал большой поисковик - их бы я реализовал в первую очередь. а что бы вы реализовали в первую очередь? что для вас новая идея и поиск будущего?
тут я не рассуждаю о бизнесе google - я говорю о количестве пользователей google как поисковика. найти новых пользователей blekko будет трудно - хотя теги /people и /date - рулят однозначно.
несогласен - все помнить ненужно
нечего поругать - ругай дизайн...
если они "хитрож-е" - запатентовали идею - их вероятно купят либо ms в bing либо google...
хотя подвинуть google как царя горы сложно уже будет - но повторюсь это наиболее правильное направление в создании поисковика...
не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.
он был мне интересен несколько лет назад, теперь нет.
Я тоже меняю масло у профессионалов, мог бы и сам - времени жалко, хотя даже самое дорогое мне авто в моем автопарке смог бы чинить самостоятельно. :)
копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.
что за манеры :) все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.
Мне ваша благодарность не нужна, извините.
vitali_y добавил 30.10.2010 в 20:18
Просто, тут парень собирается писать диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - так я как бы намекаю ему - поменять тему либо глубже изучить вопрос. Поскольку есть нормальный поисковик Lucene, т.е. "свободная библиотека для высокоскоростного полнотекстового поиска", к которой можно "прикрутить морфологию" (интеллектуальный анализ запросов) и диплом практически готов.
Правда, почему то Lucene не отобрал бизнес google и Микрософтовский bing написан не так давно с желанием повоевать за рынок поиска. google поставляет локальные решения для поиска - "типа желтая коробочка" -> http://habrahabr.ru/company/abbyy/blog/107066/#habracut
т.е. не все так просто и очевидно. И человеку можно сделать довольно интересный диплом.
это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.
РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.
почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.
почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?
в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.
vitali_y добавил 30.10.2010 в 17:30
ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.
а кто вы по профессии и по образованию?
как бы программисты знают, что
как бы существуют различные кодировки, как бы в ASCII 128 символов, а в расширенной ASCII 256.
а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.
я как бы не говорил про русский язык, я как бы сказал про как бы алфавит в котором как бы 36 букв.
извините ваше "как бы" несколько заразительно... :)
нету стеммеров. нету. нет необходимости.
обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.
в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...
stopka.us - мой проект.
повод для размышления.
какой из этого вывод?
Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.
Вернемся к теме.
согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.
Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?
у каждого порядки свои :)
так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?
просто сравнение цифр:
00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;
10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6
vitali_y добавил 28.10.2010 в 21:43
вы фигурально лопнете хранить всю аброкатабру типа:
"trejbngfek dnfvdnfwjknre rkjenrfevf"
доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.
- это общие слова не более.
ремарка:
[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]
что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?
обычный словарь это 100,000 слов? меньше? больше?
чисто порядок цифр - чтобы вы немного представляли о чем речь:
пусть есть алвавит из n букв, пусть средняя длинна слова m
итого m^n - размер словаря
алвавит из 36 букв, средняя длинна слова 6
итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056
так какие порядки у вас?
1) приличный поиск можно построить и без АОТ.
2)
2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.
2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)