Нет, это не фид граббер даже по той причине, что на Яндекс.Маркете товары размещают рекламодатели за денежки. А что касается авторских прав, то читайте закон "Об авторских правах", правдо там для интернета не описано специфики применения статей данного закона.
Новое - это хорошо забытое старое. Уточняющие запросы были реализованы в первых версиях системы AskNet.ru еще в 2001 году. Однако мы от этого отказались. Не пользователь должен отвечать на вопросы поисковой системы, а наоборот :) Второе о чем вы пишете называется кластеризацией результатов поиска. Многие системы этим занимаются (clusty - visimo, nigma и др.). Однако сам по себе кластерный анализ сейчас основан только на морфологии. Поэтому результаты не очень хорошие. Для хороших результатов нужна кластеризация с учетом семантики, а для снятия омонимии нужен синтаксис. Более подробно обо всем этом см. здесь: http://asknet.ru/Avisimo.htm
Еще раз. Проблема омонимии - это синтаксис. Так что синтаксис "не обработали". Наш язык действительно богат, но он поддается логике. Правдо при формализации логики используется несколько упрощенная модель семантических иерархий. Однако ее достаточно для вопросно-ответного поиска. Посмотрите и убедитесь на примере поисковой системы AskNet.ru. Задавайте вопросы и получайте ответы.
Критиковать просто. Попробуйте сами сделать хороший поисковик. Однако если взялся за гуж ... Алгоритмы Яндекса в целом неплохи. Иначе бы им нико не пользовался. Однако есть явные недоработки.
1. Навигационная составляющая. Яндекс несколько хуже Гугла учитывает соответствие слов запроса местоположению объекта. Например, поищите "Сочи". Гугл выдает сайт города, а Яндекс кучу туроператоров.
2. Поиск по тэгам. Яндекс при поиске тэгов (например вам надо найти описание тэга <a href>) выводит сообщение "синтаксическая ошибка", а Гугл нормально ищет. Для Яндекса надо искать такие строки "в кавычках".
3. Плохой поиск по словам-омонимам. Это системная недоработка, которая не будет устранена в ближайшие годы ни Яндексом, ни другими поисковиками (работающими без синтаксиса и семантики).
Задаем в Яндекс запрос: где купить мыло
Получаем ответы:
ГДЕ КУПИТЬ МОЮ КНИЖКУ? (Просто Дольник) - Стихи.ру - национальный сервер ...
А вот где купить МОЮ книгу?
www.stihi.ru/poems/2001/03/12-198.html · 9 КБ
Где купить Кино, фотография - Мой вишневый сад (Влади Марина). Выбор и ...
Где купить Мой вишневый сад (Влади Марина):
http://www.magazinov.net/moy_vishnev...__vladi_marin/ · 19 КБ
Короче, все что угодно, только не про МЫЛО, а про МОЮ.
Эту злую шутку сыграла омонимия. Яндекс искал все словоформы существительного МЫЛА. Однако глагол МЫТЬ имеет словоформы МОЯ и МЫЛА (она мыла окно). Прилагательное МОЮ (чью) тоже подходит по словоформе. Вот и находится всякая чушь. Для устранения таких глюков надо работать с синтаксисом и семантикой. Так например, полный лингвистический анализ реализован в системе AskNet.ru.
4. Яндекс принципиально не может отвечать на вопросы пользователя. Вводим поисковый запрос "Когда родился Пушкин". Ответа в выдаче нет. Хотя можно было бы реализовать вопросно - ответные функции поисковой системы. См. например, AskNet.ru.
Этот поисковик позволяет отвечать на вопросы пользователя.🚬
Денис, ресурсы дополнительные нужны, но не так уж много. При правильной организации вычислительного процесса можно реализовать лингвистический анализ на "лету". При этом не надо ломать существующую поисковую систему. Обработка предварительно полученных результатов поиска (для обычных поисков это окончательная выдача) проводится в лингвистическом процессоре, отсеиваются нерелевантные результаты. При этом нерелевантными результатами будут несоответствующие по лингвистическим критериям. А уже после этого пользователю выдаются очищенные результаты. Насчет затрат вычислительных ресурсов можно сказать, что НА ПРАКТИКЕ приходится в полтора раза увеличивать ресурсы. То есть если ранее поисковый кластер состоял из 100 компьютеров, то для полного лингвистического анализа надо еще ~50. Более точно это определяется интенсивностью потока запросов пользователей. Именно так и поступили при создании вопросно-ответной поисковой системы asknet.ru. Она обрабатывает выдачу в том числе и Яндекса, а результаты получаются более качественные. Самое главное без лингвистики далее поисковикам никуда не деться. Еще один аспект в пользу лингвистики заключается в том, что сейчас оптимизаторам достаточно на сайте правильно размещать отдельные слова. Однако полный лингвистический анализ позволяет определить где отдельные слова, а где связный текст. Так что оптимизаторам придется работать техническими писателями.☝
Ну это вы батенька напрасно. Игорь Ашманов сейчас разрабатывает проекты novoteka и flexy. Это поисковые системы. Хоть и довольно обычные, но всеже поисковики. Интересен в этих проектах интерфейс от flexy и некоторое подобие социальной кластеризации в novotek-e. Хотя частично Вы правы, на старом багаже далего не уедешь. Игорь Ашманов не по наслышке знаком с лингвистикой (см. Евгения Касперского антиспам), однако тяготеет к статистике при лингвистическом анализе. Это же характерно и для Ильи Сегаловича. Поэтому актуалным является полный лингвистический анализ, а не статистика. Пока что я знаю только одну систему реализовавшую не только морфологию, но и синтаксис с семантикой для русского и английского языков - это вопросно-ответная поисковая система asknet.ru. Кстати Игорь Ашманов довольно чато выступает с докладами по алгоритмам работы поисковиков и оптимизаторов.;)
Да кто вам сказал, что алгоритмы не известны. Надо внимательно читать сайты, там все написано. Например, алгоритмы работы уникальной вопросно-ответной системы AskNet описаны довольно подробно на странице http://asknet.ru/technology.htm . Алгоритмы других поисковиков также довольно широко опубликованы. Кстати все спецслужбы до 90% информации получают из ОТКРЫТЫХ источников (читай - интернет и бумажные издания) :) Так что информацию о поисковиках и их алгоритмах можно найти в самих же поисковиках.
А что нибудь о Google hacking tools тоже ничего не слышали? Тогда ходи сюда и читай: http://lists.grok.org.uk/pipermail/full-disclosure/2005-May/034097.html
Короче ищите и обрящете. Я, например, нашел все что было нужно и создал свой поисковик.;)
Да не в алгоритмах и обкатке прог дело. Основные глюки - это системные недоработки. Вот например глюк из разряда серьезных, который не будет устранен ни Яндексом, ни другими поисковиками (работающими без синтаксиса и семантики).
Сохраненная копия · Еще с сайта 2 · Рубрика: Непризнанные авторы
www.magazinov.net/moy_vishnevyy_sad__vladi_marin/ · 19 КБ
Сохраненная копия · Еще с сайта 413
Все что угодно, только не про МЫЛО, а про МОЮ
Эту злую шутку сыграла омонимия. Яндекс искал все словоформы существительного МЫЛА, а попал на глагол МОЮ.
Для устранения таких глюков надо работать с синтаксисом и семантикой. Так например, полный лингвистический анализ реализован в системе AskNet.ru
:)
Подборка неплохая. Однако далеко не полная. Было бы здорово сгруппировать поисковики по тематике, функциональным возможностям и др. Например, я там не нашел вопросно-ответную поисковую систему AskNet.ru - уникальная система, позволяющая автоматически искать в интернете ответы на вопросы пользователя. Часто пользуюсь этой системе по работе и просто для развлечения.
Например задаю вопрос на естественном языке: когда построили первый атомный ледокол
Получаю ответ: ...В 1959 году построен первый в мире атомный ледокол "Ленин".
Причем год подсвечен зеленым - система определила и подсветила слово ответа!!!
Такого точно нет ни в одной поисковой системе!!!
Посмотрим ответы других.
Яндекс дает ответ: Как сообщила пресс-служба Росатома, в этом году в состав российского торгового флота войдет крупнейший в мире атомный ледокол "50 лет Победы ...
Google отвечает: 1972-1989 годы построил четыре атомных ледокола - "Сибирь", "Россия", ...
Далее как говорится "почувствуйте разницу".☝
Интересный сайт. Но на нем перечислены сервисы НЕ АВТОМАТИЧЕСКИЕ. То есть ответы на вопросы пользователей дают другие пользователи. А система AskNet расчитана на автоматическое формирование ответов на основе информации, имеющейся в интернете. То еть вам отвечает железяка, а не человек.