Да, возможно.
Но у автора статьи есть налаженные личные контакты в большинстве крупных поисковых систем (если не ошибаюсь он единственный из журналистов, пишущих по-русски, который взял интервью у Сергея Брина ),
поэтому кроме компиляций из прессы он как правило использует данные полученные в личном общении, в гостях, переписке и т.п.
Чем и интересен :)
Официально с докладом не планировали, т.к. продвижение сайта на Мете не очень интересно большей части российской публики.
А в частном порядке, возможно кто-нибудь будет.
Игорь, поясните, пожалуйста, про "вредность".
На наш взгляд, динамический индекс, если спроектирован и реализован грамотно, обеспечивает всю функциональность статического, при этом позволяет поддерживать высокую актуальность индекса и практически не требует администрирования.
Кстати, мне показалось, в предлагаемом Вами движке используется не полноценная русская морфология, а стемминг.
Самый простой пример - запрос "подборка" и запрос "подборок".
Такая "морфология" идет в поставке siteMETA бесплатно.
Александр, ну к чему риторика :)
Я не писал, что Google и Altavista не движки.
Движки. Но не для обычного сайта.
Предложения Google и Altavista - это предложения для создания внутрикорпоративных поисковых систем (по крайней мере они сами так себя позиционируют) и очень крупных сайтов.
Использовать такие решения для сайта в несколько тысяч страниц
- нецелесообразно (на мой взгляд). Для этого существует ряд других,
более оправданных решений.
На мой взгляд дело в балансе - потребности/функциональность/стоимость.
Учитывать только одну стоимость неверно.
Для некоторых сайтов достаточно бесплатного скрипта,
для других, действительно, выгоднее арендовать поиск
(Кстати, как Вам известно, у нас тоже есть такое предложение
от $10 в месяц http://meta-ukraine.com/business/service.asp
некоторых наших клиентов устраивает поисковый сервис,
а другие предпочитают приобрести поисковый движок)
А для третьих сайтов наиболее рациональное решение
- лицензировать поисковый движок.
Так что пусть и ишак, и эмир живут и занимаются своими любимыми делами. :)
По поводу расчетов. Можно посчитать и более оптимистично.
2000 страниц - до 25МБ. (размер страницы зависит от сайта)
Т.е. всего $290, покупка становится выгоднее аренды по $20/мес
через год и три месяца.
Дешевле Goggle? Однозначно! :)
siteMETA дешевле тех программ для поиска по сайту, которые предлагаются на российском рынке. Кроме того у нас достаточно дифференцированная
ценовая шкала. Стоимость зависит от объема индексируемых документов.
Если сайт небольшой, нет необходимости сразу покупать дорогую программу, можно купить лицензию за $20 на 1 МБ, а с ростом сайта расширять и лицензию.
В бесплатной версии ограничение до 11МБ или до 1000 документов.
самый недорогой движок от Google - $28 000
от Altavista - $30 000
Поэтому поисковыми движками для сайтов их можно считать условно.
Ну разве что для о-очень больших сайтов. :)
Юрий, программа для поиска по сайту есть у нашей компании.
http://sitemeta.com/
Главное отличие от других программ на эту тему
- истинно динамический индекс.
Индексирующий модуль постоянно отслеживает появление и изменение документов на сайте
и оперативно вносит соответствующие изменения в индекс,
в результате чего индекс всегда отражает текущее состояние Web-сервера
и поиск ведется по актуальной версии сайта.
Программа корректно работает с документами на всех европейских
языках, а для русского, украинского и английского есть еще полноценная морфологическая поддержка
(словарная и бессловарная)
Пара-тройка тысяч страниц - это небольшая база. :)
Ссылку на сайт программы требуется ставить только в бесплатной некоммерческой версии.
Для коммерческой версии программы такого требования нет.
Попробуйте сделать поиск по сайту при помощи программы siteMETA http://sitemeta.com/
Довольно просто устанавливается и настраивается. Можно задать зоны для поиска.
http://meta-ukraine.com/es/
Поисковые системы Европы и стран СНГ.
Версия исправленная и дополненная.
Видели рабочую демоверсию реализации этого подхода для поиска.
Качество поиска пока не впечатляет.
Очень сильно не впечатляет. :)
Но авторы не сдаются и обещают новую версию и новое качество.
А вот здесь, кстати, есть отзывы на статью:
http://www.computerra.ru/conferences/materials/thread4162.html
Таким образом можно отлавливать явные фальсификации. И то, наверняка, во многих случаях достоверную проверку будет осуществить непросто (Добавились новые документы на сайт, сайт изменил структуру, был недоступен и т.п.) Кроме программной части потребуется еще штат "контролеров", которые будут отделять козлищ от агнцев и разбираться с незаслуженно обиженными.
Мне кажется, идея отдать создание индекса на откуп владельцам ресурсов чем-то похожа на ситуцию с ключевыми словами и описаниями в метатегах. Пока веб был "научной" средой и авторы текстов были заинтересованы, чтобы их тексты находились только теми, кто их действительно хочет найти, это работало. А сейчас слова в метатегах на многих сайтах - это шум, на который большинство поисковиков перестало обращать внимание.
Владелец сайта не может объективно представлять свой ресурс в поисковой системе, у него задачи другие :)