vitali_y

vitali_y
Рейтинг
33
Регистрация
23.05.2007

тут была такая же тема. форум не позволил продолжить - поднять тему - та тема к сожалению устарела.

G00DMAN:
Почему "все"? Других не может быть?

ну это те фичи что нужны мне - если бы я писал большой поисковик - их бы я реализовал в первую очередь. а что бы вы реализовали в первую очередь? что для вас новая идея и поиск будущего?

G00DMAN:
А при чем тут "подвинуть гугл"? Доля поискового трафа гугла зависит в первую очередь от грамотно выстроенного бизнеса, к поисковым технологиям и поисковым фичам это слабо относится.

тут я не рассуждаю о бизнесе google - я говорю о количестве пользователей google как поисковика. найти новых пользователей blekko будет трудно - хотя теги /people и /date - рулят однозначно.

Alexey Levin:
никто не запомнит столько слэштегов

несогласен - все помнить ненужно

нечего поругать - ругай дизайн...

если они "хитрож-е" - запатентовали идею - их вероятно купят либо ms в bing либо google...

хотя подвинуть google как царя горы сложно уже будет - но повторюсь это наиболее правильное направление в создании поисковика...

G00DMAN:
Дело в том, что коллекции собираются в вэбе, из чужих источников, на которых стоит копирайт. И есть закон об авторском праве, так что не все так просто, как Вам кажется.

не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.

G00DMAN:
То Вам был интересен РОМИП, но не было ссылки на скачку, то вдруг стал не интересен - Вы бы определились, чтоле...

он был мне интересен несколько лет назад, теперь нет.

Я тоже меняю масло у профессионалов, мог бы и сам - времени жалко, хотя даже самое дорогое мне авто в моем автопарке смог бы чинить самостоятельно. :)

G00DMAN:
нужно только подписать соглашение.

копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.

G00DMAN:
сцыкотно

что за манеры :) все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.

Мне ваша благодарность не нужна, извините.

vitali_y добавил 30.10.2010 в 20:18

Просто, тут парень собирается писать диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - так я как бы намекаю ему - поменять тему либо глубже изучить вопрос. Поскольку есть нормальный поисковик Lucene, т.е. "свободная библиотека для высокоскоростного полнотекстового поиска", к которой можно "прикрутить морфологию" (интеллектуальный анализ запросов) и диплом практически готов.

Правда, почему то Lucene не отобрал бизнес google и Микрософтовский bing написан не так давно с желанием повоевать за рынок поиска. google поставляет локальные решения для поиска - "типа желтая коробочка" -> http://habrahabr.ru/company/abbyy/blog/107066/#habracut

т.е. не все так просто и очевидно. И человеку можно сделать довольно интересный диплом.

G00DMAN:
Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала.

это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.

РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.

почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.

почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?

в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.

vitali_y добавил 30.10.2010 в 17:30

moldu:
Это типа словарь нужно будет делать размером что-то около 6^65536?

ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.

moldu:
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.

а кто вы по профессии и по образованию?

как бы программисты знают, что

как бы существуют различные кодировки, как бы в ASCII 128 символов, а в расширенной ASCII 256.

а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.

я как бы не говорил про русский язык, я как бы сказал про как бы алфавит в котором как бы 36 букв.

извините ваше "как бы" несколько заразительно... :)

нету стеммеров. нету. нет необходимости.

G00DMAN:
Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься.

обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.

G00DMAN:
В десятичной системе счисления они такие, как у меня

в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...

G00DMAN:

А Вы что-то поисковое писали? Или просто теоретик?

stopka.us - мой проект.

G00DMAN:
И к чему эти цифры?

повод для размышления.

G00DMAN:
Однако и гугл, и Яндекс ее уже находит. Не лопнули пока.

какой из этого вывод?

Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.

Вернемся к теме.

G00DMAN:
Они основаны на некоторой практике.

согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.

Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?

G00DMAN:
Три порядка - это умножить на 10**3.

у каждого порядки свои :)

G00DMAN:
А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов

так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?

просто сравнение цифр:

00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;

10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6

vitali_y добавил 28.10.2010 в 21:43

вы фигурально лопнете хранить всю аброкатабру типа:

"trejbngfek dnfvdnfwjknre rkjenrfevf"

G00DMAN:
Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.

доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.

G00DMAN:
исключений из правил
G00DMAN:
примитивными средствами типа стеммеров

- это общие слова не более.

G00DMAN:
Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати.

ремарка:

[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]

что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?

обычный словарь это 100,000 слов? меньше? больше?

чисто порядок цифр - чтобы вы немного представляли о чем речь:

пусть есть алвавит из n букв, пусть средняя длинна слова m

итого m^n - размер словаря

алвавит из 36 букв, средняя длинна слова 6

итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056

так какие порядки у вас?

G00DMAN:
Цитата:
Самое прямое - на АОТ можно построить приличный поиск.
...
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?
А в чем проблемы-то?

1) приличный поиск можно построить и без АОТ.

2)

2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.

2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)

Всего: 92