smscat

smscat
Рейтинг
50
Регистрация
23.02.2006
Donald:
Создаете файл robots.txt, в нем пишите примерно:
User-Agent: *
Disallow:
Host: www.site.ru

хорошенький советик. если на www.site.ru уже набежало 110 тица а ты его просто удалить из индекса хош? ну и диверсант 😆

уж лучше таки склеить через 301

RewriteCond %{HTTP_HOST} !^www.site.ru$

RewriteRule ^ http://www.site.ru%{REQUEST_URI} [R=301,L]

тогда эффект от ссылок с www не потеряются.

shroff:
один добрый вебмастер, строивший сайт по интересной мне теме, оставил открытый доступ в /stat, куда выкидываются результаты работы вебалайзера. ;)
к сожалению, поисковые запросы, приводившие на сайт, искажены до полной нечитабельности.

не подскажет ли кто-нибудь можно ли "извне" как-то все-таки прочитать эти запросы?
а может можно как-нибудь выкачать сами логи?

народ наверно прикалывается.

поисковые запросы в вэбалайзере искажены потому, что поисковики принимают запросы в разных кодировках. Проще всего с запросами google и msn - достаточно браузер переключить в отображение utf-8. Апорт и Румблер работают с cp1251. яндекс принимает запросы как в cp1251 так и в koi-8. недавно писал анализатор логов (http://establishment.com.ua/getsearch.pl) с разбором поисковых запросов и столкнулся с проблемой определения кодировки в запросах Яндекса (мой простенький алгоритм выручает в ~90% случаев, но это не фонтан для чего-то серьёзного)

склеиваются не сылки а похожие страницы.

фактически несколько страниц с одним текстом будут в серпе одной позицией с пометкой (N результатов)

этот механизм придуман для того, чтобы не выдавать кучу страниц с одним (или очень похожим) текстом в серпе. фактически - борьба с плагиаторами.. только прискорбно, когда плагиатора выставляют основной ссылкой, а хозяин контента попадает в совокупную ссылку "другие результаты". некоторые хитрецы пытаются склить свою страницу с реальной высокопопулярной страницей воруя контент... только это очень сложно обернуть в свою сторону...

я тебе идею покруче подкину - продавай ссылки с http://google.com/ig - там PR 8!

:d :d :d :d :d

Independence:
smscat, объясни мне про связь RSS и Sitemap?

формат очень близкий. и если RSS нужен для предоставления статей (а теперь через него индексируют), то sitemap - для скоростного обновления - там указываются даты измененй страниц, чтобы боту не ходить без толку на неизменившиеся страницы.

Independence:

Может я что-то пропустил? Кто-то из поисковиков Sitemap уже по RSS читает?

Yahoo уже официально заявили об индексации через RSS, Google и Яндекс открыли поиск по блогам, что фактически ознчает их индексацию фидов. Конечно RSS не даёт даты, но приблизительным аналогом карты сайта является (и при этом его формат машиночитаем изначально)

RSS тоже своеобразно влияет (Yahoo например берёт легко), но для индексации лучше использовать карту сайта. Конкретно под Google есть возможность использовать http://google.com/webmasters/sitemaps там же есть инструмент генерации sitemap для статики. Для всех остальных карту сайта нужно делать как отдельную страницу с ссылками.

Если есть желание действительно эфективно использовать RSS и sitemap то нужно писать скрипты. В случае с sitemap обязательно требуется время последнего обновления страницы и чтобы делать sitemap из динамического контента нужно в базе хранить и время обновления контента.

хм... нормально работает...

может это у конкретно вашего ДЦ проблемы... впрочем эта система у них распределена географически...

nytronix:
Я тоже замечал такое, но лично у меня вызывает сомнения целесообразность использование этого. Думаю, просто и транслитом где-то в гугле засветиться сайт. не думаю, что гугл пытается перевести транслит в кириллицу.

насчёт гугла согласен - ему всё равно..

уже около года собираю статистику. есть указания на то, что яндекс оценивает транслит... хотя эффекта от этого маловато. уже планирую делать ссылки на том же языке, что и заголовок. единственное, что меня останавливает - невоспроизводимость распечатанной ссылки (что в некоторых проектах недопустимо).

tutonhamon_:
Здравствуйте!
Хотел спросить кто-то знает как работает alexa. И вообще на каком принципе она строит свой рэнг.

спасибо заранее.

считает посетителей по тулбару

а вобще в этой ветке это офтоп

nytronix:
но все равно не так как страницы с постоянным адресом. динамические страницы он очень осторожно забирает. и индексация дольше проходит.

Это тоже миф.

замтил что сайты где установлен php_BB чаще посещаются ботами

как известно, с индексацией "динамических" ссылок могут быть проблемы... я имею виду ссылки в которых есть знак "?" после которого идут параметры скрипта.
пример: site.com/script.php?var=value
лучше такого вида ссылки заменить на что-нибудь типа:
site.com/script/value/ например...

этого мало. боты отлично отличают динамику по заголовкам "Last-Modified" и "Content-length". потому если хотите реально маскировать, прийдётся делать обработку запросов "If-Modified-since" и эмулировать "Last-Modified" (например я это делаю на http://ostrov.zp.ua)

кстати, не забывайте, если ваши скрипты используют сессии, то session id будет в любом случаи (если этого явно не запретить) дописываться во все url как параметр (при посещении сайта ботами), даже если вы спрячите php расширение файла...

ну тут вобще ничего сложного - ini_set('url_rewriter.tags','');

Всего: 307