Разработка поисковой системы

1 234
vitali_y
На сайте с 23.05.2007
Offline
33
#31

Я тоже меняю масло у профессионалов, мог бы и сам - времени жалко, хотя даже самое дорогое мне авто в моем автопарке смог бы чинить самостоятельно. :)

G00DMAN:
нужно только подписать соглашение.

копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.

G00DMAN:
сцыкотно

что за манеры :) все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.

Мне ваша благодарность не нужна, извините.

vitali_y добавил 30.10.2010 в 20:18

Просто, тут парень собирается писать диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - так я как бы намекаю ему - поменять тему либо глубже изучить вопрос. Поскольку есть нормальный поисковик Lucene, т.е. "свободная библиотека для высокоскоростного полнотекстового поиска", к которой можно "прикрутить морфологию" (интеллектуальный анализ запросов) и диплом практически готов.

Правда, почему то Lucene не отобрал бизнес google и Микрософтовский bing написан не так давно с желанием повоевать за рынок поиска. google поставляет локальные решения для поиска - "типа желтая коробочка" -> http://habrahabr.ru/company/abbyy/blog/107066/#habracut

т.е. не все так просто и очевидно. И человеку можно сделать довольно интересный диплом.

G00DMAN
На сайте с 19.04.2008
Offline
122
#32
vitali_y:
копирайт, соглашение - боюсь даже предположить что за информация содержится в этих документах... не иначе в викиликс скоро попадет... мне это не больно то и нужно - то что не стоит ничего - и должно распространятся бесплатно, без всяких соглашений. тут люди в opensource выкладывают на порядок (*10) ценнейшие вещи без всяких соглашений.

Дело не в интеллектуальной ценности. Дело в том, что коллекции собираются в вэбе, из чужих источников, на которых стоит копирайт. И есть закон об авторском праве, так что не все так просто, как Вам кажется.

vitali_y:
все банально - нет времени и желания - мою работу над StopKa никто не спонсирует и для меня это скорее хобби.

То Вам был интересен РОМИП, но не было ссылки на скачку, то вдруг стал не интересен - Вы бы определились, чтоле... ;)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
vitali_y
На сайте с 23.05.2007
Offline
33
#33
G00DMAN:
Дело в том, что коллекции собираются в вэбе, из чужих источников, на которых стоит копирайт. И есть закон об авторском праве, так что не все так просто, как Вам кажется.

не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.

G00DMAN:
То Вам был интересен РОМИП, но не было ссылки на скачку, то вдруг стал не интересен - Вы бы определились, чтоле...

он был мне интересен несколько лет назад, теперь нет.

G00DMAN
На сайте с 19.04.2008
Offline
122
#34
vitali_y:
не знаю, не знаю - тут разбираться нужно. подозреваю что авторское право тут не причем - это из разряда авторского права на макулатуру у автора напечатанного в газете. если я не выдаю текст за свой а лишь хочу его проиндексировать в тестовых целях - с газеткой я могу и в туалет сходить при отсутствии другой бумаги - тут то же.

В соглашении, которое подписывает участник, организаторами оговорены различные проблемные случаи. Это на самом деле важный момент, мало ли, что Вы там захотите сделать с полученными от конкретных лиц чужими авторскими текстами. Так что подписку брать необходимо, что бы Вы там не думали. :)

vitali_y:
он был мне интересен несколько лет назад, теперь нет.

Я уже понял, просмотрев Ваши посты на этом форуме. :)

Каширин
На сайте с 03.01.2004
Offline
1018
#35
G00DMAN:
Это статья успешного практика, имеющего свой, достаточно известный в Украине поисковик.

Какой на Украине поисковик? Это же keva - знаменитый сегалович Рамблера.

ТС, а зачем вам анализатор какой-то? Имея морфологический словарь, вы можете искать словоформу по строгому соответствию. Конечно, так вы не сможете склонять незнакомые вам слова. Но я пришел к выводу, что русский язык развивает не так быстро.

Например, за 20 лет новых слов появилось не более 15%. А это было постперестроечное время, когда появились брокеры, дилеры и консалтинги. Сейчас в год едва ли появляется более сотни новых слов. Их все можно заносить в словарь.

G00DMAN
На сайте с 19.04.2008
Offline
122
#36
Каширин:
Какой на Украине поисковик? Это же keva - знаменитый сегалович Рамблера.

МЕТА - какой-никакой, но говорят, что в Украине он собирает бОльшую долю трафа, чем Рамблер в России. Так что keva развивается, в отличие от. :)

Каширин:
ТС, а зачем вам анализатор какой-то? Имея морфологический словарь, вы можете искать словоформу по строгому соответствию. Конечно, так вы не сможете склонять незнакомые вам слова. Но я пришел к выводу, что русский язык развивает не так быстро.

Например, за 20 лет новых слов появилось не более 15%. А это было постперестроечное время, когда появились брокеры, дилеры и консалтинги. Сейчас в год едва ли появляется более сотни новых слов. Их все можно заносить в словарь.

По большому счету анализатор - это и есть словарь, со всеми правилами и исключениями из них.

Каширин
На сайте с 03.01.2004
Offline
1018
#37
G00DMAN:
По большому счету анализатор - это и есть словарь, со всеми правилами и исключениями из них.

Словарь - это список всех вариантов.

Анализатор же пытается предсказать . Используя морфологические правила. Для русского языка анализатор - не самый лучший вариант, ведь у нас самая сложная морфология в мире. Список правил по объему сам тянет на словарь :)

Мартин Портер, автор самого известного алгоритма определения основы слова, - англичанин. Им легко - у них словоформ-то, считай, нет никаких :) одни предлоги. А у нас для каждого падежа - своя словоформа.

Антон Лавеев
На сайте с 31.10.2005
Offline
425
#38
Каширин:
ведь у нас самая сложная морфология в мире

Откуда дровишки? А как же всякие чехи, поляки? Не говоря уже о украинцах и белорусах. А болгары, в конце концов?

☠️☠️☠️
G00DMAN
На сайте с 19.04.2008
Offline
122
#39
Каширин:
Словарь - это список всех вариантов.

Анализатор же пытается предсказать . Используя морфологические правила. Для русского языка анализатор - не самый лучший вариант, ведь у нас самая сложная морфология в мире. Список правил по объему сам тянет на словарь :)

Мартин Портер, автор самого известного алгоритма определения основы слова, - англичанин. Им легко - у них словоформ-то, считай, нет никаких :) одни предлоги. А у нас для каждого падежа - своя словоформа.

Ну я же написал - словарь с правилами. Продвинутый анализатор может и предсказать наиболее вероятную каноническую словоформу с большой точностью, простые - ничего не предсказывают, просто выдают весь список каконических, в порядке убывания встречаемости.

В английском языке, как говорят, все проще и можно стеммером обойтись (тем же портеровским), в русском - не получится.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий