smscat

smscat
Рейтинг
50
Регистрация
23.02.2006
Wolverine:
сейчас попробую.
Я нашел эти папки в них много файлов, но я не нашел там полной статистики, такое впечатление, что это всего лишь за несколько дней.

в этом ничего удивительного - у нормально раскрученного сайта может набегать в день порядка 10мег логов. складировать всё это просто расточительно. обычно хостеры скармливают накопившийся за день объём логов специальным программам статистики - например webalizer, который у себя оставляет уже обобщёную информацию.

ЗЫ я недавно написал скрипт для работы с текущим логом, который ещё не был удалён с сервера. этот скрипт умеет показаывать переходы на сайт со внешних ссылок, поисковые запросы, по которым пришли, страницы которые были прочитаны роботами. могу поделиться недорого. подробности личкой.

Matsa:
Вот сегодня читал статью на ленте.ру,
там опубликовали список самых разводных статей (с их источником url) написанных на 1 апреля.
Соответственно можно предположить, что ссылка будет иметь огромный вес после этого.

Эта идея не нова, хотя пользоваться ей умудряются немногие. В рекламе она получила отдельный термин "вирусный маркетинг". Самый яркий имхо пример - miliondollarhomepage. Помнится ещё стёбный сайт про дрова (лесоматериалы).

CatRegist:
Угу.., а как вот к примеру мне написать интересную и эстетически правильную статью по строительству и попасть на ленту.ру? Да и вообще как может новичок написать что то интересное на какую либо тему в которой он неразбирается? А к примеру несчитаю, что бригадир строительной бригады будет сайт создавать.. и главное ВЫВОДИТЬ В ТОП )))

Вот для того, чтобы бригадирам не пришлось писать сайты и статьи в газеты была придумана профессия журналиста. Их основные профессиональные навыки состоят в том, чтобы быстро вытянуть из "бригадира" максимум полезной информации по теме и написать всё это так, чтобы понять смогла даже доярка из соседнего колхоза. Опыт показал, что лучше всего для этого подходят репортёры из ежедневных или еженедельных газет - и скорости у них хорошие и слог отточен редполитикой, которая годами подстраивается под обывателя.

coinking:
Могут ли ключевые слова и фразы отсутствовать в коде страницы, а быть спрятанными, например, в скриптах? Плюсы и минусы этого…

могут :) но вам от этого никакого проку.

1. текст находящийся в внутри тэгов <script> и <object> не индексируются.

подключаемые из внешних файлов скрипты даже не загружаются роботами, а также большинство роботов не читает файлы css.

2. рекомендую перестать думать о тупой накачке страницы ключевиками. значительно лучше написать текст, в котором совершенно нормально будут сочетаться нужные слова и опубликовать его открыто. Если этот текст будет интересным, то от этого все выиграют - и ваш сайт и посетители.

obfuscator:
Давно вот думаю...
Есть же там какой-то закон о рекламе, где говорится, что нельзя обманывать потребителя и все такое прочее.
Яндекс трендит на право и на лево что у него "Найдется все"
Вон забанили мне сайт. Могу подавать в суд на яндекс? Обманули дескать, ни хрена мой сайт не находится, ну вообще никак 😆

😆 😆 😆 а где там написано, что именно у яндекса всё найдётся? где там написано, что для этого будет искаться везде? кроме того, когда результатов поиска ноль, то и слоган честно меняется на "Найдётся всё. со временем". 😆 😆 😆 So, they doing their best (c)

во первых о каком поисковике идёт речь?

во вторых - сколько внешних ссылок на сайт появилось за эти 3-4 месяца и насколько они пиаристые?

Joe:
Ну блин ты загнул 😆 Я же имел ввиду посещение роботом :)

ну посещение роботом ещё ничего не значит. особенно учитвая, что разные DC шлют разных роботов. так что всё-таки лучше дождаться когда страницы появятся в кэше. у меня вон на свежем сайте тоже ща в логах куча посещений робота, но посетители как ходили из гугла лишь по его rss и index.html так и ходят и в кэшах ДЦ всего 5 страниц (одна даже с ошибкой закэшировалась)

Newbie:
Ну тулбар, это ж не страница Гугла 🚬 И скажу, что это не самый надежный источник, бывает, что он показывает не то, лучше смотреть по датацентрам. А вот самый надежный источник обычным смертным не доступен 😂

не надо придираться - каталог гугла это страница гугла, а там информация с какого-то одного DC. тулбар берёт PR с ближайшего DC. когда всё устакнится с апдэйтом - тулбар будет показывать то же что и все DC, поскольку они станут синхронными. в том то и прикол смотреть по разным датацентрам, чтобы увидеть как идёт апдэйт и заранее предугадать что покажет тулбар.

тебе никто не мешает снифануть какой запрос делает тулбар по твоему сайту и пробежаться с ним по всем ДЦ меняя IP в запросе.

PS клиентам не важно, что один ДЦ из ~90 показывает 7 когда на остальных 0 - они платят за то, что на тулбаре.

Joe:
smscat,
Конкретно за эту неделю: 4 дня назад добавил сайт в гугл, вчера поставил сайтмап. сегодня гугл сжевал 400 страниц.

они уже в индексе? =)

вот что пишет по этому поводу MattCuts

Q: “My sitemap has about 1350 urls in it. . . . . its been around for 2+ years, but I cannot seem to get all the pages indexed. Am I missing something here?”
A: One of the classic crawling strategies that Google has used is the amount of PageRank on your pages. So just because your site has been around for a couple years (or that you submit a sitemap), that doesn’t mean that we’ll automatically crawl every page on your site. In general, getting good quality links would probably help us know to crawl your site more deeply. You might also want to look at the remaining unindexed urls; do they have a ton of parameters (we typically prefer urls with 1-2 parameters)? Is there a robots.txt? Is it possible to reach the unindexed urls easily by following static text links (no Flash, JavaScript, AJAX, cookies, frames, etc. in the way)? That’s what I would recommend looking at.
Newbie:
Смотрите, взял с блога Мэта Катса:

читал это. ок, у Катса действительно написано, что это программные изменения алгоритма. информация про AMD-64 тоже была из доверенного источника. в данный момент ясно что структура кэша поменялась и что в данный момент кэш неактуальный.

MattCuts:
Q: “This datacentre http://64.233.185.104/_ works differently to all of the others. Noticed just a few hours ago. . . . . Where does that DC fit into the scheme of things? Is it mainly made from newly spidered data?”
A: Sharp eyes, g1smd. That wouldn’t surprise me. As Bigdaddy cools down, that frees us up to do new/other things.

т.е. нужно дождаться апдэйтов и потом уже ставить опыты над "большим папой". Кстати у меня сложилось впечетление, что Катс врядли в курсе аппаратных деталей, так что вопрос насчёт архитектуры считаю открытым.

сами домены не учитываются - главное это ссылки

Всего: 307