такое уже есть - не помню только url
>>>
Сообщение от amso
И почему-то вот не создается ощущения, что в ней делался акцент на качество поиска только для лоска, чтобы заманить инвесторов. Ключевое слово - релевантость - точность попадания. Пейджранк это просто инструмент для определения релевантности, который был придуман в конкретное время, и, понятное дело, он может со временем чем-то дополняться или быть вытеснен другим инструментом.
Да, именно для этого ПейджРанк и использовался.
google Пейджранк - это не инструмент определения релевантности - по крайней мере из того что я про него читал и на что там делается упор. это скорее инструмент - фильт против всякого рода нечестного поднятия в выдаче.
Согласен со Славой Шевцовым насчит персонификации - нету смысла в этом совершенно никакого.
vitali_y добавил 07.02.2008 в 18:38
роботов-мозгов-клонов анализирующих инфу никаких не будет конечно - в ближайшие лет 100. да и с ними технология поиска останется тойже принципиально что есть и сейчас
vitali_y добавил 07.02.2008 в 18:43
текущие алгоритмы - насколько мне известно в состоянии эффектирно фильтровать/ранжировать инфу. учет ссылок нужен скорее для другой цели чем ранжирование - и при нормальном/идеальном условии (т.е. отсутствии спама в инете) ссылочное ранжирование по сути своей бессмысленно
vitali_y добавил 07.02.2008 в 18:45
google запудрил всем мозг своим pageraNkom - хотя по сути это скорее рекламная фишка аля microsoft
я спросил у ясеня: сколько будет дважды двадцать?
ясень мне ответил - посчитайка сам...
Жизнеспособно ли это - время покажет. Мое мнение - что нет.
Еще для смеха - "куда пошел козел когда пришел наполеон" :)
ну и т.д. и т.п.
и падеж и глаголь - где истина Андрей :)
Потенциально такая "работа в стол" меня не пугает - поскольку это хобби и здесь я хозяин.
to Leom:
Телефон напишу - поговорить - мне тоже интересно.
Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).
Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb. Поэтому все что написано выше - подразумевает именно этот мой тест. В ближайшее время сделаю этот тест общедоступным. Конечно при большем объеме будут сложности - т.е. потенциально они могут возникнуть у меня уже при объеме порядка 10gb текста - что примерно будет соответствовать индексу в 2gb - тут уже сложность - поскольку у меня лишь 1 индексный файл в результате. На большие объемы я пока и не замахиваюсь - проблеммы с разростанием индекса - в принципе решаемы - наступит момент я их решу. Скорость индексирования при больших объемах у меня потенциально останется на том же уровне - рост количества документов тут не помеха. Есть у меня еще возможность ускорить индексирование - на данный момент я не ставлю себе такую задачу - быть тут первым. Ну и время поиска - будет сравнимо с чтением нужной индексной информации из файла индекса.
Поскольку даже самые фанатичные коллекционеры различных доков не собирают их больше 5 gb (сужу по себе) - тестирование на 100 gb для меня сейчас не приоритет. И соревноваться с вами тут я не собираюсь. А что возникнут при таких объемах тонкости - 100%. После того как реализую некоторые намеченные фичи - (у остальных подобное уже есть) - я сделаю это по своему - может кто посчитает что для него это то что нужно - можно будет объявить релиз. Сейчас это игрушка которой я что называется - "козыряю" - правда feedback пока небольшой - это нормально - даже хорошо.
Именно скорость индексирования searchinfo заставила меня искать пути как сделать мое индекирование сравнимым по скорости - в принципе на моем тесте ваша программа индексировала минут 5 у меня минут 6. Я тоже считаю скорость индексирования важным показателем - тут вам конечно респект.
To All:
Для любителей конкретных цифр - обещаю - напишу ревью - со сравнительным анализом - когда придет время - оринтироваться буду на 5 может 20 gb текста. Ну и старый тест на 700mb там будет. Повторю еще раз - имею возможность сделать его общедоступным - сделаю это в ближайшее время. Тут не раз упоминался trec.nist.gov - там я не нашел corpusa файлов для тестирования - так же нет такого корпуса в общедоступном - одинаковом для всех виде на схожем по тематике русском треке - типа это коммерческая информация - в общем - если есть заинтересованные - мой корпус бесплатен - первые заинтересовавшиеся - смогут его получить - :) с условием прежде скачать и посмотреть StopKa.
такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?
тут могу сказать - StopKa - достаточно быстро строит индекс - быстрее - чем yndex desktop, lucent, microsoft search - чуть медленнее searchinfo - с google desktop - не сравнивал - т.к. индексирует в idle режиме - еще есть возможность ускорить - пока я никуда не тороплюсь...
индекс по размерам как я уже говорил самый маленький - правда тут нужно искать золотую середину - ведь чем больше индекс - тем лучший результат поиска можно получать.
в остальном - по использованию оперативной памяти при индексировании - около 700 mb - yndex скушал что-то около 16 mb - тут несомненно победитель - stopka - 100 mb - searchinfo - 200-250 mb про остальных не помню
результат по запросам - примерно одинаковый у всех - тут я могу еще играться - очень трудно выразить человеческую релевантность цифрой - поэтому вероятно алгоритм у всех примерно тот же с различными вариациями - lucent - тут может чуть в худшей ситуации - но это imho
качество продукта - я думаю можно определить поддрержкой и наличием сопутствующих фич - как то поддерживаемые форматы докуметнов, проверка на плагиат, ну и т.п.
Я в Минске. Насчет синонимов - если говорите что есть примеры - и не смешно - верю. Я думаю вообще это решаемо - с пом. базы синонимов языка и предварительной обработки. У меня в программе сейчас такого нет.
размеры кстати будут поменьше чем у Leom-а - ну это конечно что туда сохранять - пока я добился самого маленького индекса среди google desktop, yndex desktop, searchinfo, lucent, microsoft search - что тестировал точно и вспомнил на вскидку - индекст - конечно будет зависеть от содержимого 1 Gb текста - примнерно мегабайт 100-150-200...
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут