Andrey Ogarok

Andrey Ogarok
Рейтинг
49
Регистрация
10.07.2007
Должность
CIO
Интересы
Search engines, software, hardware
PhD
Слава Шевцов:
Прочитал ......

Интересное мнение. Мне кажется что вы не совсем поняли идею поисковика и некоторые аспекты его функционирования. Поэтому отвечаю по пунктам:

1. Людям нужен не стемминг, а как минимум морфология. Google в России набирает обороты именно потому, что в 2002 году реализовал русскую морфологию. Без нее ни один поисковик не будет иметь успеха. Стемминг практически никому не нужен. Он может использоваться только там, где тяжело поднять морфологию. Пример - неужели вы хотите чтобы по запросу "серия" вам выдавались в результатах поиска слова "сера" "серый". Именно это выдает стемминг. Так что вы не правы, стемминг никому не нужен. Да и его практически нигде не осталось.

2. AskNet работает не по справочнику, а по всему интернету. Может также работать и по зонам интернета, и по справочникам. Спектр запросов действительно велик, а спектр вопросов не такой уж большой. Посмотрите здесь - http://www.asknet.ru/Technology/ListOfQuery.htm Пока что AskNet поддерживает этот список вопросов. Он достаточно велик (is not it?).

3. В вашем примере нет вопроса, а есть только одно слово "дизайн". Не один и тот же запрос соответствует совершенно разным областям знаний, а слово может быть многозначным. Совсем не надо знать историю поисков, для того чтобы системе автоматически ответить, например, на вопрос "когда появилось слово дизайн".

4. Насчет качества контекстной рекламы. AskNet поддерживает и поиск по ключевым словам, а не только поиск ответа на вопрос. При этом поиск проводится с учетом смысла запроса. Отсюда и потенциально более релевантные результаты поиска, и корректный показ контекстной рекламы (соответствующей по смыслу).

Не верите? Тогда немного повеселю вас. Задайте Яндексу запрос "частота системной шины процессора" и получите контекстную рекламу про автомобильные шины.

5. Википедия - это не поисковик по всему интернету, а энциклопедия. Поэтому Википедия не конкурент для AskNet. Кстати у Википедии ужасный встроенный поисковик. AskNet ищет по Википедии лучше, чем сама Википедия по своим ресурсам. Не верите - попробуте.

PS. Конечно QA систему гораздо сложне реализовать, чем обычный поисковик. Требования совершенно другие.

Videoson:
каждому будет дано по вере... а уж русская омонимия английскому и не снилась...

Уважаемый, если уж разбираться в лингвистике, то в английском языке омонимия ничуть не меньше, чем в русском. Английския язык является аглютинативным, а русский флективным типом языка. Ввиду этого одно слово в английском языке имеет гораздо меньше морфем для одной лексемы. Отсюда и гораздо большая семантическая неоднозначность одного отдельно взятого английского слова. На практике в этом легко убедиться. Посмотрите в толковом словаре среднее число значений для морфемы какого-нибудь слова русского и английского языка.

Снятие омонимии поэтому на порядок важнее при машинном разборе текстов для английского языка, чем для русского. Что касается синтаксического разбора, то действительно, для русского языка он сложнее по сравнению с английским. Однако достижение правильности разбора до 70 % для русского языка - это реальная задача.

Что касается использования корпуса размеченных текстов, то они размечены для того, чтобы не лингвист, а компьютер или юзер могли понять правильно машина разобрала текст или нет. Совсем необязательно размеченные тексты должны быть "ровным полем" для машины. Часто они представляют обычный текст, как например тот, что вы сейчас читаете. Просто для каждого слова проставлены его лингвистические характеристики.

fima32:
Киньте урл где описан метод извлечения этих словарей, два дня убил на поиски, нашел кучу всяких словарей, а о методе извлечения словарей из word - ни слова.

Ищите объектную модель Microsoft Wod. Вот например URL -

http://www.askit.ru/custom/vba_offic...ject_model.htm

А лучше смотрите "Функция SynonymInfo" - вот вам еще один URL - http://gazeta.lenta.ru/flopovod/13-0...ce_Printed.htm

Удачи !🚬

Videoson:
по словам стоконы - это их морфология, но продавать за 30 копеек они её отказались...
а обсуждать стоимость существенно более 10 кб я не стал...
ЗЫ ни одна система синтаксического разбора русского языка не разбирает корректно более 25% текста, что маловато мягко говоря... а уж про омонимию можно вообще пока промолчать...

А по словам "Интелл Сервис"а это морфология именно "Интелл Сервиса" :) Насчет 8 отличий. Если внимательно почитать здесь - http://asknet.ru/company.htm , то можно увидеть, что в "Интелл Сервисе" работают разработчики, которые основали Стокону, а затем ушли из нее. В Стоконе не осталось почти никого, кто был на этапе ее создания. Поэтому морфология у "Интелл Сервиса" собственная, составлена на основе общедоступных словарей Зализняка, Мюллера, Webster и др. Программа Intell Service Search (прототип AskNet) зарегистрирована в Роспатенте на разработчиков, работающих в "Интелл Сервисе", которые являются также и соавторами Stocona Search.

Если Вам нужна морфология за 30 копеек, то возьмите бесплатно морфологию от АОТ - http://aot.ru/download.php В системе AskNet ("Интелл Сервис") морфология тесно переплетена с семантикой. Коммерческие вопросы ее использования мы готовы обсуждать.

Насчет процента синтаксического разбора могу сообщить, что проверки на размеченных корпусах русских и английских текстов показали корректность разбора в 60 - 70 %. Это довольно высокий показатель. Разброс значений обусловлен стилистикой изложения контрольных текстов. Насчет омонимиии - проблема действительно сложная. Особенно она важна для английского языка. Однако в AskNet, также как и в ряде других систем синтаксического анализа (RCO, LinkGrammar и др.) эта проблема частично решена. Не верите - приезжайте, покажем.

Странные результаты у вас. Несколько раз пользовался сервисом 1ps. Прогонял сайты по ~1300 каталогам. Обратные ссылки не ставил. Получал ~300 бэков. Правдо результат временный. Через 2 - 3 месяца количество бэков снижается в 2 раза. А вообще то лучше иметь хорошую голову, тогда и продвинуть сайт можно неплохо.

Кроме вышеуказанной ссылки информация по синтаксическому анализу имеется на сайтах http://aot.ru/docs/synan.html , http://www.asknet.ru/Technology/Tsyntax.htm . Также поищите информацию о LinkGrammar - синтаксический анализатор английского языка, имеется и его аналог для русского.🚬

Слава Шевцов:
Вы в это ещё верите? Ни доработками функционала, ни интерфейсом, ни алгоритмами, ни деньгами текущие поисковики не подвинуть. Для появления нового топ-поисковика нужно что-то радикальное + крупнейшие поисковики должны не иметь возможность реализации новых идей. В то, что они пропустят новинку и не смогут её оценить и захотеть вобрать всё лучшее, как-то не верится. Слишком хорошие команды в Яндексе и Гугле. Они всё новое и полезное спионерят и оставят новичка ни с чем.

Да, верю Иначе бы Гугл не состоялся. Он ведь появился не первый? Насчет того, что оставят новичка ни с чем тоже могу возразить - куда смотрела Microsoft когда появлялись поисковики? Теперь локти кусает. Радикальное - это и есть, например, семантика в поиске. Без нее нельзя сделать поиск умным. Можно только статистику слов юзать то с одной стороны, то с другой. Это уже явно недостаточно. Что касается лингвистики, то во всех существующих поисковиках нет синтаксиса и семантики. У нас (asknet) они есть ;). Вообще модули синтаксиса и семантики существуют и в некоторых других разработках, но использования их в поиске я нигде не наблюдал.

☝ А что касается инвесторов, то я вел переговолы с инвесторами quintur-ы. Они внимательно смотрят в сторону семантических проектов. Мы ведь получили весьма неплохое финансирование. При это не надо для начала качать весь интернет. Надо сделать точку опоры, позволяющую перевернуть мир.

sandys Нужно создать поисковик, который отличался бы от традиционных новой функциональностью (asknet.ru) или интерфейсом (quintura) или алгоритмами (nigma, visimo - кластеризация). То есть нужна некоторая изюминка, отсутствующая у стандартных поисковиков. Это может быть и тематическая специализация поисковиков. То есть нужна привлекательность с точки зрения пользователей. Кроме того, надо показать и инвестиционную привлекательность проекта. Компетентность инвесторов в плане определения реальной финансовой привлекательности проекта достаточно высока, а в плане экспертизы технологий инвесторы привлекают экспертов. Действовать надо согласно тематике топика - создавать поисковую систему, показывать ее отличия и привлекательность проекта. Для минимизации затрат на создание поисковика используйте исходные коды из открытых проектов. Вобщем то все достаточно очевидно.

Полностью согласен, статья хорошая, некоторые моменты в ней весьма спорные, но она для начинающих. Многие алгоритмы работы поисковиков, принципы работы, структуры систем довольно детально описаны в интернете. Надо внимательно читать сайты, ву том числе и сайты поисковых систем. Например, алгоритмы работы вопросно-ответной системы AskNet описаны довольно подробно на странице http://asknet.ru/technology.htm . Алгоритмы других поисковиков также довольно широко опубликованы. Информацию о Google hacking tools можно найти здесь - http://lists.grok.org.uk/pipermail/full-disclosure/2005-May/034097.html Как написать свой поисковик и при этом почти ничего не кодить - см. здесь - http://www.lghost.ru/lib/samag/content/2004/samag_08_21/samag8(21)-61-65.pdf

Короче ищите и обрящете.

Leom:
Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?

Leom. Вы только отчасти правы. Вопросно-ответная поисковая система asknet.ru реализована под список наиболее употребимых часто встречающихся ФАКТОГРАФИЧЕСКИХ (factoid) вопросов. Их список приведен здесь - http://asknet.ru/Technology/ListOfQuery.htm То есть система asknet на вопрос "какие" (Какие системы полнотекстового поиска есть в России) ищет ответы, в которых есть части предложения, являющиеся определениями (хорошие, плохие, многочисленные и др.). Мы и далее работаем над расширением семантической компоненты при оценке релевантности. Сейчас при ответе на этот вопрос (Какие системы полнотекстового поиска есть в России) asknet тоже выводит достаточно релевантные ответы: находит системы полнотекстового поиска GiST для PostgreSQL, и вашу SearchInform и т.д. Ваш пример неплохой, однако он относится не к вопросам фактографическим, а к вопросам нахождения списка. В конференции TREC, в которой система asknet неофициально участвовала, эти вопросы относятся к разным категориям: factoid и list соответственно. Возвращаясь к теме топика хотел еще раз подчеркнуть, что стоимость разработки поисковика зависит по экспоненте от ее функциональности. Насчет вашей компании - помнится я общался с вашими сотрудниками, когда еще руководил компанией Стокона, были интересные предложения. Думаю в Москве мы найдем не только холодное пиво, но и обоюдовыгодные проекты. Детали по e-mail.

Всего: 61