Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Только сомнения гложут - дойдут ли до адресата поздравления? Что-то совсем нечастым гостем стал здесь Супермодератор...

С подпиской на новые документы в Яндексе поздравления точно дойдут. Единственное, что не известно - когда. :)

Да тут дело отнюдь не в тематике. Просто подход к организации бизнеса совковый

Это как раз понятно. Непонятно, что же нужно продавать, чтобы от 50 человек можно было получить 6-7 заказов в день. :)

НТУУ "КПИ", ФИВТ (Факультет Информатики и Вычислительной техники).

Пару месяцев назад на меня вышел клиент и попросил поднять его интернет-магазин.

А что за сайт и тематика?

Позвольте с Вами не согласиться. Мы активно изучали и изучаем современные работы по IR, подавляющее большинство которых датируется последним 10-летием. Кажется, что большинство прикладных результатов было получено как раз за этот период.

По-моему, Вы несколько путаете два разных понятия - поисковую технологию и поиск в интернет.

Поисковая технология у всех поисковых систем сейчас практически одна и та же - лексикон и инвертированные файлы, из которых состоит поисковый индекс - так работает Яндекс, и Рамблер, и даже Google. Конечно, есть отличия в реализации, но по сути это все было описано еще Сэлтоном в 70-е годы. При поиске используются статистические модели вроде td-idf, которые еще старше. По сути это везде работает, и придумать что-то кардинально новое сложно.

Работы 10-летней давности, о которых Вы говорите, в большинстве касаются поиска в интернет, то есть сбора информации, ранжирования сайтов и отдельных страниц, учета внешних факторов (вроде Pagerank или HITS), борьбой со спамом и т.д., что и отличает поиск каждого поисковика от другого и определяет его качество.

В вашем случае пока можно оценить лишь наличие поисковой технологии.

Вашу последнюю реплику оставляю без коментариев.

Позвольте, но каков смысл пиариться на этом форуме, ничего не комментируя? :) Мы же должны знать, чем вы лучше или хуже своих конкурентов.

Спасибо, это я и так знал, блин =)
Возможно есть какие-нибудь сайты, статьи, форумы, мейл-листы где есть обсуждения на эту тему?

Кстати, если не секрет, а что за проект? Я в TDT немного разбираюсь. :)

Вообще насколько я понимаю та функциональность над которой я работаю выходит за рамки функциональности класических поисковых серверов А что по твоему такое семантическая сеть?

Вообще говоря в классической теории семантическая сеть строится из множества семантических отношений:

1) Формальные семантические отношения:

1. меронимы (meronymy, объект - часть чего-либо):

двигатель, коробка передач, колеса - автомобиль

2. голонимы (holonymy - отношение "состоит из"):

компьютер - процессор, материнка, винчестер и т.д.

3. антонимы (противопоставления)

быстрый - медленный

4. синонимы

поисковик - искалка

5. гиперонимы и гипонимы.

Гиперонимы рассматривают предмет в широком смысле, как элемент класса, а гипонимы - с узким значением, как элемент, который принадлежит к классу. Например: дерево - гипероним, а ель, сосна, дуб и т.д. - гипонимы.

2) Типичные семантические отношения:

1. Слова для обозначения движущей или подчиненной роли в действии или событии:

читать - книгу, резать-ножом

2. Слова играют одну и ту же роль в действии:

машина - заправлять, песня - петь

3. Слова для обозначения цели:

ножь-резать, игра-развлекаться

4. Слова, используемые вместе:

снег-лед, компьютер-интернет

На основании этих отношений рассчитыватся семантическая близость слов и формируется семантическая сеть. Например, такая, как Wordnet, состоящая из множества синсетов - множества синонимов.

Надеюсь, мне удалось исчерпывающе ответить на вопрос? :)

Если что-то упустил, bvd меня сейчас поправит - у него есть несколько интересных статей о lexical cohesion.

Мы не раскрываем технологические подробности функционирывания поискового механизма.

Кстати, и очень зря. Современная теория поисковых систем была создана еще в 60-70е годы. Не думаю, что вы здесь кого-нибудь сможете удивить. :)

Это политика любого не оpensource'ного разработчика.

Пожалуй, добавлю лишь одну фразу - разработчика из бывшего СССР. Вопрос-то совершенно безобидный.

Своя

По какому принципу она работает - словарная или бессловарная на основе вероятностного стемминга?

Почему бы вам не запустить поиск по Вебу, если все есть? Вот тогда и можно было бы сравнить с существующими аналогами.

Кстати, морфология своя или у кого-то лицензировали?

Всего: 847