в этом ничего удивительного - у нормально раскрученного сайта может набегать в день порядка 10мег логов. складировать всё это просто расточительно. обычно хостеры скармливают накопившийся за день объём логов специальным программам статистики - например webalizer, который у себя оставляет уже обобщёную информацию.
ЗЫ я недавно написал скрипт для работы с текущим логом, который ещё не был удалён с сервера. этот скрипт умеет показаывать переходы на сайт со внешних ссылок, поисковые запросы, по которым пришли, страницы которые были прочитаны роботами. могу поделиться недорого. подробности личкой.
Эта идея не нова, хотя пользоваться ей умудряются немногие. В рекламе она получила отдельный термин "вирусный маркетинг". Самый яркий имхо пример - miliondollarhomepage. Помнится ещё стёбный сайт про дрова (лесоматериалы).
Вот для того, чтобы бригадирам не пришлось писать сайты и статьи в газеты была придумана профессия журналиста. Их основные профессиональные навыки состоят в том, чтобы быстро вытянуть из "бригадира" максимум полезной информации по теме и написать всё это так, чтобы понять смогла даже доярка из соседнего колхоза. Опыт показал, что лучше всего для этого подходят репортёры из ежедневных или еженедельных газет - и скорости у них хорошие и слог отточен редполитикой, которая годами подстраивается под обывателя.
могут :) но вам от этого никакого проку.
1. текст находящийся в внутри тэгов <script> и <object> не индексируются.
подключаемые из внешних файлов скрипты даже не загружаются роботами, а также большинство роботов не читает файлы css.
2. рекомендую перестать думать о тупой накачке страницы ключевиками. значительно лучше написать текст, в котором совершенно нормально будут сочетаться нужные слова и опубликовать его открыто. Если этот текст будет интересным, то от этого все выиграют - и ваш сайт и посетители.
😆 😆 😆 а где там написано, что именно у яндекса всё найдётся? где там написано, что для этого будет искаться везде? кроме того, когда результатов поиска ноль, то и слоган честно меняется на "Найдётся всё. со временем". 😆 😆 😆 So, they doing their best (c)
во первых о каком поисковике идёт речь?
во вторых - сколько внешних ссылок на сайт появилось за эти 3-4 месяца и насколько они пиаристые?
ну посещение роботом ещё ничего не значит. особенно учитвая, что разные DC шлют разных роботов. так что всё-таки лучше дождаться когда страницы появятся в кэше. у меня вон на свежем сайте тоже ща в логах куча посещений робота, но посетители как ходили из гугла лишь по его rss и index.html так и ходят и в кэшах ДЦ всего 5 страниц (одна даже с ошибкой закэшировалась)
не надо придираться - каталог гугла это страница гугла, а там информация с какого-то одного DC. тулбар берёт PR с ближайшего DC. когда всё устакнится с апдэйтом - тулбар будет показывать то же что и все DC, поскольку они станут синхронными. в том то и прикол смотреть по разным датацентрам, чтобы увидеть как идёт апдэйт и заранее предугадать что покажет тулбар.
тебе никто не мешает снифануть какой запрос делает тулбар по твоему сайту и пробежаться с ним по всем ДЦ меняя IP в запросе.
PS клиентам не важно, что один ДЦ из ~90 показывает 7 когда на остальных 0 - они платят за то, что на тулбаре.
они уже в индексе? =)
вот что пишет по этому поводу MattCuts
читал это. ок, у Катса действительно написано, что это программные изменения алгоритма. информация про AMD-64 тоже была из доверенного источника. в данный момент ясно что структура кэша поменялась и что в данный момент кэш неактуальный.
т.е. нужно дождаться апдэйтов и потом уже ставить опыты над "большим папой". Кстати у меня сложилось впечетление, что Катс врядли в курсе аппаратных деталей, так что вопрос насчёт архитектуры считаю открытым.
сами домены не учитываются - главное это ссылки