vitali_y

vitali_y
Рейтинг
33
Регистрация
23.05.2007

такое уже есть - не помню только url

>>>

Сообщение от amso

И почему-то вот не создается ощущения, что в ней делался акцент на качество поиска только для лоска, чтобы заманить инвесторов. Ключевое слово - релевантость - точность попадания. Пейджранк это просто инструмент для определения релевантности, который был придуман в конкретное время, и, понятное дело, он может со временем чем-то дополняться или быть вытеснен другим инструментом.

Да, именно для этого ПейджРанк и использовался.

>>>

google Пейджранк - это не инструмент определения релевантности - по крайней мере из того что я про него читал и на что там делается упор. это скорее инструмент - фильт против всякого рода нечестного поднятия в выдаче.

Согласен со Славой Шевцовым насчит персонификации - нету смысла в этом совершенно никакого.

vitali_y добавил 07.02.2008 в 18:38

роботов-мозгов-клонов анализирующих инфу никаких не будет конечно - в ближайшие лет 100. да и с ними технология поиска останется тойже принципиально что есть и сейчас

vitali_y добавил 07.02.2008 в 18:43

текущие алгоритмы - насколько мне известно в состоянии эффектирно фильтровать/ранжировать инфу. учет ссылок нужен скорее для другой цели чем ранжирование - и при нормальном/идеальном условии (т.е. отсутствии спама в инете) ссылочное ранжирование по сути своей бессмысленно

vitali_y добавил 07.02.2008 в 18:45

google запудрил всем мозг своим pageraNkom - хотя по сути это скорее рекламная фишка аля microsoft

я спросил у ясеня: сколько будет дважды двадцать?

ясень мне ответил - посчитайка сам...

Жизнеспособно ли это - время покажет. Мое мнение - что нет.

Еще для смеха - "куда пошел козел когда пришел наполеон" :)

ну и т.д. и т.п.

и падеж и глаголь - где истина Андрей :)

Потенциально такая "работа в стол" меня не пугает - поскольку это хобби и здесь я хозяин.

to Leom:

Телефон напишу - поговорить - мне тоже интересно.

Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb. Поэтому все что написано выше - подразумевает именно этот мой тест. В ближайшее время сделаю этот тест общедоступным. Конечно при большем объеме будут сложности - т.е. потенциально они могут возникнуть у меня уже при объеме порядка 10gb текста - что примерно будет соответствовать индексу в 2gb - тут уже сложность - поскольку у меня лишь 1 индексный файл в результате. На большие объемы я пока и не замахиваюсь - проблеммы с разростанием индекса - в принципе решаемы - наступит момент я их решу. Скорость индексирования при больших объемах у меня потенциально останется на том же уровне - рост количества документов тут не помеха. Есть у меня еще возможность ускорить индексирование - на данный момент я не ставлю себе такую задачу - быть тут первым. Ну и время поиска - будет сравнимо с чтением нужной индексной информации из файла индекса.

Поскольку даже самые фанатичные коллекционеры различных доков не собирают их больше 5 gb (сужу по себе) - тестирование на 100 gb для меня сейчас не приоритет. И соревноваться с вами тут я не собираюсь. А что возникнут при таких объемах тонкости - 100%. После того как реализую некоторые намеченные фичи - (у остальных подобное уже есть) - я сделаю это по своему - может кто посчитает что для него это то что нужно - можно будет объявить релиз. Сейчас это игрушка которой я что называется - "козыряю" - правда feedback пока небольшой - это нормально - даже хорошо.

Именно скорость индексирования searchinfo заставила меня искать пути как сделать мое индекирование сравнимым по скорости - в принципе на моем тесте ваша программа индексировала минут 5 у меня минут 6. Я тоже считаю скорость индексирования важным показателем - тут вам конечно респект.

To All:

Для любителей конкретных цифр - обещаю - напишу ревью - со сравнительным анализом - когда придет время - оринтироваться буду на 5 может 20 gb текста. Ну и старый тест на 700mb там будет. Повторю еще раз - имею возможность сделать его общедоступным - сделаю это в ближайшее время. Тут не раз упоминался trec.nist.gov - там я не нашел corpusa файлов для тестирования - так же нет такого корпуса в общедоступном - одинаковом для всех виде на схожем по тематике русском треке - типа это коммерческая информация - в общем - если есть заинтересованные - мой корпус бесплатен - первые заинтересовавшиеся - смогут его получить - :) с условием прежде скачать и посмотреть StopKa.

>>>

такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?

>>>

тут могу сказать - StopKa - достаточно быстро строит индекс - быстрее - чем yndex desktop, lucent, microsoft search - чуть медленнее searchinfo - с google desktop - не сравнивал - т.к. индексирует в idle режиме - еще есть возможность ускорить - пока я никуда не тороплюсь...

индекс по размерам как я уже говорил самый маленький - правда тут нужно искать золотую середину - ведь чем больше индекс - тем лучший результат поиска можно получать.

в остальном - по использованию оперативной памяти при индексировании - около 700 mb - yndex скушал что-то около 16 mb - тут несомненно победитель - stopka - 100 mb - searchinfo - 200-250 mb про остальных не помню

результат по запросам - примерно одинаковый у всех - тут я могу еще играться - очень трудно выразить человеческую релевантность цифрой - поэтому вероятно алгоритм у всех примерно тот же с различными вариациями - lucent - тут может чуть в худшей ситуации - но это imho

качество продукта - я думаю можно определить поддрержкой и наличием сопутствующих фич - как то поддерживаемые форматы докуметнов, проверка на плагиат, ну и т.п.

Я в Минске. Насчет синонимов - если говорите что есть примеры - и не смешно - верю. Я думаю вообще это решаемо - с пом. базы синонимов языка и предварительной обработки. У меня в программе сейчас такого нет.

размеры кстати будут поменьше чем у Leom-а - ну это конечно что туда сохранять - пока я добился самого маленького индекса среди google desktop, yndex desktop, searchinfo, lucent, microsoft search - что тестировал точно и вспомнил на вскидку - индекст - конечно будет зависеть от содержимого 1 Gb текста - примнерно мегабайт 100-150-200...

протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

Всего: 92