Когда Яндекс исправит ситуацию с:
---
1) Удалением сайта из индекса. http://webmaster.yandex.ru/delurl.xml "Все документы по адресу www.site.ru будут удалены из базы Яндекса в течение нескольких дней." растягивается уже более чем на 1-2 месяца по некоторым сайтам
2) Соблюдение директивы Host: в robots.txt, когда сайт индексируется по www.site.ru, когда указано Host: site.ru уже после того, как robots.txt был размещен 1-2 недели. При этом сайт с www и без www не склеивается более 1-2 месяца и в Яндексу существуют одновременно 2 копии частично пересекающихся сайтов (один 550 страниц, другой 150 страниц, при этом 50 страниц одинаковых)
3) Когда переиндексация некоторых авторитетных, часто обновляемых сайтов Рунета (хотя бы их главных страниц) происходит реже 2-3 раз в год!!! Так как "Сохраненные копии" почти всех крупных сайтов имеют дату апрель-август 2006 года, т.е. некоторые сайты не индексируются основным роботом по 6 месяцев!!! Более того у почти 50% сайтов при нажатии на ссылку "Сохраненная копия" пишется "страница не найдена", т.е. получается что страницы нет в базе Яндекса ...???
На основе всего этого складывается впечатление, что есть огромные проблемы у индексирующего робота Яндекса. Если бы не быстроробот, то поиск бы вообще осуществлялся по Рунету 6-ти месячной давности!!! Это так и если да, то когда планируется исправить ситуацию?
Страница http://www.rembook.ru/astra.php на самом деле не проиндексирована Google. Она отображается в поиске потому, что она найдена по ссылке и Google еще не успел зайти на сайт и не видел еще /robots.txt
По этому она и отображается без Title и снипета
--
www.rembook.ru/astra.php
Похожие страницы
Вообще скорее всего (вероятность 99.99%) мы будем использовать Яндекс.XML:
1) 60,000 слов * (100/50) 2 страницы по 50 сайтов каждая (в XML без разницы делать 10 или 50) * 5 апдейтов в месяц = 600,000 по 25 рублей за 1000 это всего 15,000 рублей
2) Обновление бэков в начале можно сделать 1 раз в месяц, потому как толку от их обновления каждый апдейт 0, потому как бэки есть, а работать они начинают не сразу после появления. Если предположить, что в среднем у сайтов будет по 100 бэков (на 3-10 страницах будет менее 50), то получаем 60,000 слов * 100 сайтов * (100/50) = 12,000,000 запросов опять по 25 рублей это 300,000 рублей что тоже не так уж и много!!!
Так что будем укладываться в ~10,000 долларов в месяц. Думаю, что именно так и поступим. Даже если со временем начнем обновления бэков каждый апдейт, то сумма все равно получится в пределах ~50,000 долларов в месяц. Для нас это приемлемо!
Ярослав, вы зарегистрированы. Спасибо! Ждем теперь бета-тестирования проекта, которое случится в ноябре! :)
Я думаю, что сервис окупится только за счет экономии на продвижении собственных клиентов Корпорации РБС. По этому нежелание платить не будет помехой для реализации и успешной работы проекта! Хотя лично я готов бы был платить и $5,000 в месяц за такой сервис, но цена будет конечно же не такой. Какой - пока не могу ответить. Все будет зависить от конечной стоимости реализации проекта и от количества платных пользователей в нем.
Проект делается не на коленке и стоимость его велика. По этому на конечную стоимость проекта регистрация сотни другой хостингов за $10-20 в месяц не повлияет и не проблема с них организовать выкачку :)
Другой вариант - покупать XML выдачу. Он тоже рассматривается!
to Wolf Ну конечно не сайтов, а документов=страниц :) Ты как всегда прав! ;)
А вот по этой части (я не знаю 20% или 5% получится) как раз мы сможем давать более качественную выдачу, потому как сможем учесть при ранжировании все то, что было описано, НАПРИМЕР (не значит что будем), вот здесь: /ru/forum/67612
Потому как нагрузка от посетителей у нас будет почти 0-я, сайтов в индексе меньше, страниц меньше, апдейты делать можно не так часто ну и т.д.
:)
Ну пока вроде об этом ничего не было написано? :) Мы же % с Рунета выкачиваем - какой поисковик!!! Вы ошиблись! :)
Для вИЦ конечно придется выкачать весь Рунет, но опять же таки сохранять мы его не собираемся. Все в пределах только 60,000 слов, 100 сайтов в выдаче и всех бэклинков. Думаю, что это не более 10% от Рунета.
Сохраняется страница, которая найдена в результатах поиска и сохраняются все страницы, на которые установлен бэклинк на найденную страницу. По этому делаете экспертный отчет и получается все про исходящие ссылки как с найденной страницы, так и по бэклинкам. Можно например посчитать усредненную статистику по тому сколько содержится всего ссылок на тех страницах на которых установлены бэклинки на сайт, находящийся на 1-м месте или среднее по 100 сайтам и т.д.
Т.е. вытащить можно будет любую информацию которую только захочется. Именно для этого и нужны эксперты, потому как отчетов можно придумать хоть 1,000,000. Есть % от Рунета, ограниченный 60,000 словами а далее можно делать все то, что могут делать сами поисковые системы. Более того, можно делать в пределах 100 позиций свою выдачу, составив свой коэффициент ранжирования. Путем проб и ошибок можно сделать выдачу на 99% совпадающую с выдачей поисковой системы и таким образом вычислить используему формулу релевантности.
Интересно? :)
Да и забыл сказать, что 60,000 слов это старт, а далее слова будут добавляться экспертами.
Ну и не забудьте, что база будет хранить всю историю во времени. Абсолютно любой аналитический отчет можно будет еще построить с историей развития от апдейта к апдейту. Предполагается, что каждые 6-12 месяцев база будет расти в 2 раза :)
Это не скрипт, а 10-20Террабайтная база с комплексом более 100аналитических инструментов.
Хотел бы еще добавить от себя, что в разделе аналитических инструментов для экспертов и для внутреннего использования (в коммерческой и бесплатной версиях этого не будет) будет доступен очень простой язык составления АБСОЛЮТНО ЛЮБЫХ аналитических отчетов, чем-то схожий на SQL язык запросов.
Таким образом имея экспертный доступ можно будет получить совершенно любую информацию, о которой только можно подумать, составить самый извращенный отчет по тому или иному сайту или по тому или иному слову.
Сайт: вводим сайт и получаем список из тех 60,000 слов по его позициям в пределах 100, найденным страницам, бэклинкам на эти страницы, % содержанию тех или иных слов в бэклинках или даже % содержания ключевых слов на страницах, на которых установлены бэклинки
Слово: получаем набор 100 сайтов, их бэклинки, % содержания ключевого слова в бэклинках, % уникальных ссылок, % содержания ключевых слов на страницах бэклинка раздельно по каждой из 100 позиций результата поиска
При этом я привел лишь то, что смог придумать находу пока писал пост. Сделать можно будет абсолютно любой отчет, потому как у вас есть:
1) Позиции по словам
2) Бэклинки по каждой позиции
3) Помимо этого есть сами страницы, которые содержат бэклинки или находятся в выдаче по тем или иным словам
По этому "извращаться" можно будет как только угодно на языке сходном с синтаксисом SQL запросов, ну или пользоваться стандартными отчетами и отчетами, которые составили другие эксперты!
PS Ну и по первой части - нам будет известен показатель вИЦ всех сайтов Рунета :) Тоже в принципе не очень бесполезная информация! :)