Новые технологии поиска документов похожих по содержанию на заданный

1 2345 6
L
На сайте с 02.05.2004
Offline
35
#31
Как писал Vyacheslav Tikhonov

Во-первых, я на форуме нигде не пиарился, рассказывая в каждом посте, что Новотека единственная и неповторимая, и ничего круче нету, как это делаете вы. Я просто упомянул, что упомянутые задачи она решает, как - смотрите сайт.

1) на мой взгляд новотека пор сути ничем не отличается от Яндекс-новости. И посему говорить что она единственная и неповторимая тяжело.

2) Про свою технологию -- я не пиарю -- здесь неподходящая аудитория для этого. Пиарить надо в прессе а не здесь..... Как вы сами прикрасно пннимаете крупные заказчики сюда не ходят. А цель -- чтобы если кто знает какая еще технология позволяет такое -- то чтобы дали ссылки на такую технологию, чтобы можно было потестить и сравнить

А также очень интересует объективная критика с изложением примеров где работает некорректно.

Безусловно никакая система нечеткого поиска не будет всегда искать на 100% верно, но если из 100 запросов она отрабатывает 99% верно или если из списка результатов в основном нужные данные и мало мусора, то это уже становится актуальным.

То есть вопрос то я ставлю не в том что нгаша технология идеальна, а в том что ряд задач она решает лучше чем то что сейчас имеется на рынке.

3) Про нвоотеку -- в упор не нашел на сайте как можно скачать демку, проиндексить ей свои данные -- хотя бы те на которых тестилось и выложить на широкое обозрение результаты тестов, причем так чтобы все желаюшие смогли проверить

Как писал Vyacheslav Tikhonov

Вашу систему я не тестировал - мне вполне хватило понять, что это пустышка, просмотрев те документы, которые вы с ней давали для ознакомления. Это, извините, просто детский сад! По-моему, вам Борис уже намекал про уровень изложения.

Знаете напоминает фразу

" Я свидетель, а что случилось? "

Насчет того как и что изложено -- спорить не буду -- может можно было изложить и более качественно, но вот как не протестировав можно сделать заключение? И при этом говорить что новотека умеет тоже самое но в тоже время не давать ее протестить.......

Я например без тестирования новотеки не могу вот сказать на 100% как она ищет похожие, а из описания на с айте этого ну никак не следует.

Посему еще раз говорю -- чтобы сие не было пуустыми базарами -- давайте протестим поставив рядом новотеку и нашу систему, причем чтобы это было честно -- пусть будут 2 набора данных ну например по гигу -- один мой, второй ваш.

Итак жду ответа, но если Вас не очень затруднит, то не размытого а конкрентного (да или нет) -- готовы протестировать новотеку и нашу систему на одних и тех же наборах данных?

Leo www.searchinform.ru (www.searchinform.ru)
VT
На сайте с 27.01.2001
Offline
130
#32
Итак жду ответа, но если Вас не очень затруднит, то не размытого а конкрентного (да или нет) -- готовы протестировать новотеку и нашу систему на одних и тех же наборах данных?

Насколько я знаю, Игорь Ашманов и Николай Харин уже все протестировали, и сделали определенные выводы.

Так чего вы еще хотите? :)

Если хотите сравнить, сделайте веб-интерфейс и сравните. :)

Ashmanov
На сайте с 21.11.2000
Offline
66
#33

Лев,

отвечаю: нет, ничего мы не готовы, а зачем?

Вы ещё на Гугл нападите и потребуйте немедленного тестирования.

а с чего бы вдруг мы должны все вместе собраться, напрячься и старательно тестировать вашу технологию, сравнивая со всеми системами, что у нас есть? У нас своих дел полно. Я и так ведь три раза с Вами встречался, сидел часа по два, привёл на встречу Харина с Ивановым, Тутубалина, попросил Харина протестировать. Ну,

Вам предлагают на РОМИП - Вы даже не знали, что это такое. Нет, мол, тестируйте здесь и сейчас!

По-моему, вы здесь как раз занимаетесь агрессивным маркетингом, ничем иным.

Вы нарочно выступаете в провокационном стиле, подбиваете спорить, требуете от участников доказывать, что они не верблюды. Я вот, мол, заявляю, что Путин - дурак, и пусть он немедленно сюда выйдет и опровергнет меня.

Вы горячо утверждаете, что у всех поисковиков поиск похожих плохой! Неубедительно.

Мы же с вами смотрели на экране и Яндекс, и Рамблер, и Гугл. Как-то они ищут похожие, не такой он уж и плохой. Да, есть и нерелевантные находки.

А потом Харин посмотрел - и пишет, что у вас релевантность так себе. Каждый второй-третий документ сомнительный. Ну и что дальше?

И с чего это мы должны публиковать отчёт и защищать его от ваших опровержений?

Мы посмотрели, протестировали. У меня появилось своё мнение. Я его высказал. Отчего это я вдруг должен его кому-то доказывать (а вы будете горячо оспаривать)? Мне лично это неинтересно. Мы же вам не конкуренты, у нас нет заговора против Вас (но я уверен, что Вы его скоро обнаружите).

Лучше Вы сделайте веб-проект, запостите тут ссылку, желающие посмотрят.

Вы извините, это выглядит так, как если бы Вы пришли в какую-то компанию незнакомых вам людей, и стали кричать, что вы тут самый сильный и любому морду набьёте. "А, не хотите проверить, кто сильнее - значит, вы боитесь меня!. Давай, давай, выходи..."

А люди просто собрались чаю выпить, а не с вами драться.

Лев, Вы с вашими амбициями и куражом идите лучше на ринг - делайте продукт, продавайте, станьте круче Верити и Хамингбёрда, делайте доклады на конференции.

Наши досужие мнения станут вам не нужны.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
Т
На сайте с 08.02.2005
Offline
0
#34

Кстати, было бы интересно посмотреть на выводы толковых тестеров. Где же они? Может быть стоит выложить их сюда?

Это было бы очень кстати, а то как-то не очень хочется качать 300 мег просто так.

L
На сайте с 02.05.2004
Offline
35
#35
Как писал Ashmanov
Лев,

отвечаю: нет, ничего мы не готовы, а зачем?

Игорь, да потому как Вячеслав утверждал что новотека умеет тоже самое -- так вот я и хочу потестить. Причем я готов на тех же тестовых данных которые сейчас в инет (300 мб) проиндексирвоать движком новотеки и выдать на общественность результат -- от Вас не потребуется даже время тратить. Заметьте, что если бы Вяеслав не упомянул что новотека умеет делать тоже самое, то я бы и не предлагал с ней тестировать.

Но впрочем если Вы не хотите тестировать и сравнивать -- это Ваше право и тут без комментариев.

Как писал Ashmanov

а с чего бы вдруг мы должны все вместе собраться, напрячься и старательно тестировать вашу технологию, сравнивая со всеми системами, что у нас есть? У нас своих дел полно.

Так я же предлагаю вам не тратить время а провести тестирование самостоятельно. У меня и в мыслях не было предлагать Вам все бросить ради меня.

Я просил лишь рабочие комплекты которые можно откачать из Инет и проиндексить им сколько то данных, а потом поискать похожие и опубликовать результат.

Как писал Ashmanov

Вам предлагают на РОМИП

Обязательно буду учавствовать . В прошлом году просто не было смысла -- не было готового комплекта.

Как писал Ashmanov


Вы нарочно выступаете в провокационном стиле, подбиваете спорить, требуете от участников доказывать, что они не верблюды. Я вот, мол, заявляю, что Путин - дурак, и пусть он немедленно сюда выйдет и опровергнет меня.

Вообще то я ничего не утверждаю и не доказываю, а предлагаю дать ссылки на готовые комплект неважно каких технологий чтобы их самостоятельно протестить, от чего вы упорно уходите.

Как писал Ashmanov


Вы горячо утверждаете, что у всех поисковиков поиск похожих плохой! Неубедительно.
Мы же с вами смотрели на экране и Яндекс, и Рамблер, и Гугл. Как-то они ищут похожие, не такой он уж и плохой. Да, есть и нерелевантные находки.

Опять легкое передергивание. У поисковиков просто нет поиска похожих, а есть поиск по фразам, посему некорректно говорить что он плохой или хороший. Ну не могу я ни на одном поискорвие вогнать в запрос например 10кб текста и нажать найти похожие......

Как писал Ashmanov

А потом Харин посмотрел - и пишет, что у вас релевантность так себе. Каждый второй-третий документ сомнительный. Ну и что дальше?

Игорь, а можно я опубликую мои комментарии к отчету Харина с указанием на то что ряд выводов не соотвествует действительности?

Свои то комментарии я безусловно могу и сам опубликовать, но вот чтобы публиковать отчет Харина нужно Ваше согласие -- я не собираюсь нарущать правила приватности и публиковать без Вашего согласие.

Так даете согласие? Если да то я выложу в Инет ссылки и на отчет Харина и на свои комментарии к этому отчету.

Вам Игорь, если помните я эти комментарнии отсылал.

Как писал Ashmanov

И с чего это мы должны публиковать отчёт и защищать его от ваших опровержений?
Мы посмотрели, протестировали. У меня появилось своё мнение. Я его высказал.

Ну вообще то я ожидал что если Вы мнение высказываете, то будете мотивировать его какими то фактами, которые каждый желающий может проверить сам.

Как писал Ashmanov


Вы извините, это выглядит так, как если бы Вы пришли в какую-то компанию незнакомых вам людей, и стали кричать, что вы тут самый сильный и любому морду набьёте. "А, не хотите проверить, кто сильнее - значит, вы боитесь меня!. Давай, давай, выходи..."
А люди просто собрались чаю выпить, а не с вами драться.

Ну извините про то что нельзя обсуждать новые технологии я не знал. А изначально запостить сюда инфу меня попросил через конференцию сврус Сергей Петренко.

И сравнить мне надо не для того чтобы убедится что наши технологии лучше, а для объективности. Вполне возможно что после тестирования обнаружится что некоторые моменты нам надо дорабатывать.

По моему это нормальное желание. Причем, заметьте ни Вас ни Вячеслава обидеть цели не ставилось. Но просто меня как человека с техническим образованием доводы без доказательств как то не убеждают........

Т
На сайте с 08.02.2005
Offline
0
#36

Leom,

Ashmanov

Прям детектив какой-то.

Хотелось бы реально увидеть комментарии тестов Харина.

Чувствую, что это будет более чем интересно...

B
На сайте с 02.09.2002
Offline
42
bvd
#37
Как писал Тайлер
[Прям детектив какой-то.
....
Чувствую, что это будет более чем интересно...

При ПРАВИЛЬНОМ тестировании это всегда детектив,

так как необходимо определиться:

1) с коллекцией для тестирования (насколько она представительна)

2) с задачей (что считать похожим) - в РОМИПе это будет (если будет) скорее всего сумма мнений двух-трех студентов, которые не знают какую систему оценивают

3) При этом тестеры НЕИЗБЕЖНО будут несогласны между собой и, возможно, в значительной мере. Поэтому возникает проблема ИНТЕРПРЕТАЦИИ полученных результатов (то есть как суммировать противоречивые результаты).

Третий пункт весьма важен - всякое там "самотестирование" чужой технологии с критическими выводами - сомнительно по определению.

Поэтому в TREC, РОМИП и т.п., например, уделяется специальное внимание подписанию соглашения о правилах участия в тестировании, в частности, избегать использования результатов тестирования в рекламе.

Ashmanov
На сайте с 21.11.2000
Offline
66
#38
Как писал Leom

У поисковиков просто нет поиска похожих, а есть поиск по фразам, посему некорректно говорить что он плохой или хороший.

Лев, у поисковиков есть поиск похожих, и мы его с вами вместе тестировали в переговорной месяц назад. В результатах поиска можно у каждой ссылки на документ попросить найти похожие на него.

Тогда вы почему-то не отрицали наличия такого поиска у Я, Г, Р.


Игорь, а можно я опубликую мои комментарии к отчету Харина с указанием на то что ряд выводов не соотвествует действительности?

Достаточно уже вашего утверждения о том, что вы отвергаете выводы отчёта. Отчёт делался для внутренних целей, готовить его для публичной публикации не вижу смысла.

Нет события.


Ну вообще то я ожидал что если Вы мнение высказываете, то будете мотивировать его какими то фактами, которые каждый желающий может проверить сам.

Лев, я например, считаю, что автомобиль с полным приводом лучше переднеприводного на зимней дороге. Но это не значит, что я готов немедленно вступить с вами в бурную дискуссию на пятьдесят сообщений с каждой стороны, или отдать вам свой автомобиль для сравнительного тестирования.


Ну извините про то что нельзя обсуждать новые технологии я не знал.

Можно. Если обсуждать. А вот грузить всех читателей маркетинговыми поливами не стоило бы.


Но просто меня как человека с техническим образованием доводы без доказательств как то не убеждают........

А вы именно такие доводы и приводите. Тогда приведите хоть одно доказательство того, что у вас есть новая, уникальная, хорошо работающая технология. Ваша демо-версия таким доказательством не является. Увы.

А об алгоритме вы молчите, как партизан.

То есть читателей форума Вы хотите убедить именно простыми декларациями? А они ведь тоже в основном имеют высшее техническое образование...

Я вот тоже имею такое образование. Трижды с вами встречался, ничего, кроме маркетинговых деклараций не услышал, а штука - по существу не работает.

Я выхожу из этой дискуссии, всего доброго. Давайте подождём второй версии, выложенной в сеть и участия в РОМИПе.

L
На сайте с 02.05.2004
Offline
35
#39
Как писал Ashmanov


Лев, у поисковиков есть поиск похожих, и мы его с вами вместе тестировали в переговорной месяц назад. В результатах поиска можно у каждой ссылки на документ попросить найти похожие на него.
Тогда вы почему-то не отрицали наличия такого поиска у Я, Г, Р.

Так это не поиск похожих по содержанию.

В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие.

И кстати тогда Вы сами признали что поиск похожих у Я, Г, Р работает не совсем предсказуемо. Нужен пример -- ну давайте приведу.

Yandex запрос

Блокировка рекламы в интернет

Вот ссылка на скриншот с рез-тами

http://66.98.219.196/screens/1.gif

1-ый документ отсутсвует. Второй есть и вот что когда его гружу

http://66.98.219.196/screens/2.gif

И вот что выдает когда жму жать похожие на него

http://66.98.219.196/screens/3.gif

Да уж похожие ничего не скажешь......

Идем далее берем 3-ий из списка -- вот как он выглядит

http://66.98.219.196/screens/4.gif

А теперть жмем похожие и берем типа самый похожий на него (который сразу после него) и видим

http://66.98.219.196/screens/5.gif

Ладно --может у гугля лучше -- ну что же берем запрос к гуглю

best ad blocker и видим результат

http://66.98.219.196/screens/6.gif

Жмем на первый же результат на похожие и видим

http://66.98.219.196/screens/7.gif

начиная с 3-его документа ни о какой похожести и говорить не приходится.

Да и вторая линка тоже в общем то не в тему -- по содержанию она ну совсем другая, там только предлагается интеграция с adscleaner -- но причем здесь похожесть по содержанию.....

Ну пример с rambler я уже приводить не стал -- надо будет -- приведу.

Видите ли Игорь -- если я что то утверждаю, то готов приводит доказательство своих слов, чтобы народ мог их проверить.

Как писал Ashmanov


Достаточно уже вашего утверждения о том, что вы отвергаете выводы отчёта. Отчёт делался для внутренних целей, готовить его для публичной публикации не вижу смысла.
Нет события.

Ага выводы отчета как и то что яндекс и гугл ищет документы похожие по содержанию я отвергаю, но естественно публиковать его публично без Вашего разрешения я не буду, хотя как вижу по форуму народ был бы не против -- аргументы всеже интересней чем просто глое мнение, пусть даже и очень авторитетного человека.

Как писал Ashmanov


Можно. Если обсуждать. А вот грузить всех читателей маркетинговыми поливами не стоило бы.

Ух , а где маркетинг то? Желание потестить с другими системами, коих как некоторые утверждают множество -- это грузить маркетингом?

Как писал Ashmanov


А вы именно такие доводы и приводите. Тогда приведите хоть одно доказательство того, что у вас есть новая, уникальная, хорошо работающая технология. Ваша демо-версия таким доказательством не является. Увы.
А об алгоритме вы молчите, как партизан.

Ну надеюсь выше подробный пример доказывающий что яндекс и гугл не ищет походие убедителен?

И демо версия является доказатьельством -- можно проиндексировать до гига данных и посмотреть на результат, а можно скаачать 300 подготовленных мег и с ними поиграться.

А про алгоритмы -- так и буду молчать -- это богатсво нашей компании, как впрочем и вы наверно не будете рассказывать источники ваших финансовых поступлений если я об этом спрошу........ И кстати правильно сделаете. Только я и спрашивать об этом не буду -- считаю некорректным......

QUOTE]Как писал Ashmanov


То есть читателей форума Вы хотите убедить именно простыми декларациями? А они ведь тоже в основном имеют высшее техническое образование...
Я вот тоже имею такое образование. Трижды с вами встречался, ничего, кроме маркетинговых деклараций не услышал, а штука - по существу не работает.

Помилуйте как раз декларации идут с Вашей стороны без всяких дрказательств, а с моей и демо версия, которая реально работает и объяснение почему у яндекса и гугля нет поиска документов похожих по содержанию и готовность провести тесты.

А на РОМИП в этом году однозначно буду учавствовать.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#40

Лев, к сожалению, я в упор не вижу конструктива в Ваших действиях.

Сначала Вы заявляете, что Ваша технология работает лучше других, а когда Вас спрашивают - лучше каких конкретно и как Вы это докажете, Вы начинаете просить у всех подряд линки на другие технологии. Вам не кажется, что допрежь того, как хвалиться, порядочный разработчик сам такие линки найдет?

Ну надеюсь выше подробный пример доказывающий что яндекс и гугл не ищет походие убедителен?
И демо версия является доказатьельством -- можно проиндексировать до гига данных и посмотреть на результат, а можно скаачать 300 подготовленных мег и с ними поиграться.

Вы сравниваете яблоки с валенками. Где Ваша демоверсия, которой можно проиндексировать 11 терабайт данных в 400 миллионах документов? Давайте Вы проиндексируете столько, сколько Яндекс, а потом будем сравнивать результаты поиска похожих.

Вот меня сегодня спросили, как мне контекстный поиск Yahoo!, я честно сказал - достойный поиск, находит related результаты для англоязычных запросов на ура и не хуже человека. С русским сложнее, но явного позорища не наблюдается. Лично мне он нравится больше гугловского - но это можно сравнивать хотя бы потому, что оба поиска охватывают весь веб - а если не охватывают, то им никто не виноват.

Вы же упорно продолжаете сравнивать свои результаты по своей тщательно подготовленной базе и результаты вебовских поисковиков - по вебовским базам. Я Вам несколько раз задавал вопрос - а что FAST Enterprise Search, Verity Ultraseek и прочие - и каждый раз Вы тщательно обходили цитированием этот вопрос, как бы его и не было вовсе. Ну, мне остается повторить сакраментальное - sapienti sat.

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий