comedy89

Рейтинг
54
Регистрация
20.11.2009

Суть не в том какой ответ нам вернёт сайт.

Покажет ту же страницу или 404 ошибку.

Вопрос в том являются ли для ПС эти страницы - страницами по двум разным адресам, но с одинаковым контентом.

Промелькнула такая мысль что можно ввести сайт под фильтр или просто насолить владельцу сайта если спарсить все ссылки сайта перевести их в верхний регистр и сделать страницу на народе со всеми ссылками ведущими на сайт в верхнем регистре. Тем самым создав дубли страниц (в случае если для пс это разные страницы). И вообще ввести путаницу для ПС т.к. на сайте например только в нижнем регистре будут ссылки.

У меня просто стоит транслитор и я называю статью по русски а он в англиский транслирует урлы.

И если я буду знать что у меня все урлы в нижнем то с помощью проверки на php урла на регистр при обращении с верхним просто выдавать 404 ошибку или как вариант 301 перенаправление.

Также с помощью правила в роботсе можно блокировать дополнительные параметры в урле после знака вопроса Disallow: /*?

comedy89 добавил 17.05.2010 в 01:18

evgeny_kostin:
Посмотрите в адресную строку браузера. Посмотрели? Теперь заходите на
Открылось? Если что, showthread написано с заглавной буквы!

Сорри за дубль, браузер глюканул…

Да я о том же - чтобы не было дублей поставили 404 ошибку

Ну вообще если быть честным, то это не статические страницы а динамические.

то есть из базы вытаскивается статья с данным урлом. но так как в mysql есть два вида поля (регисторозависимый и нет).

В данном случае я использую регисторонезависимый поэтому для движка сайта это одна и таже страница.

Другой вопрос - как на это реагирует поисковая система?

evgeny_kostin если для пс разные то тогда в нижнем регистре будем писать)

блокировать доступ по ip

Ked32:
В целом это порочный путь. Есть другие способы защиты авторства, на серче как-то один продавался за большие деньги.

Много денег нет - ресурс пока что некоммерческий.

Первый год будет держаться на чистом энтузиазме (пока посещалка не поднимится)

Уже почти никто не парсит контент на свой сайт с помощью фрэймов (от них спасает яваскрипт)

а вот от php парсера трудно скрыться - поэтому приходится вести наблюдение за подозрительными визитами.

file_get_contents() и регулярных выражений достаточно чтобы полностью онлайн парсить сайт.

Когда посещений станет побольше и ИЦ подрастет тогда можно снять ограничение или сделать его более мягким.

Знаю сайт который недоступен сейчас а у него было 100 тыс.посещений в день с 5000 страниц.

Вот интересно если сайт уже 5 лет в индексе яши то если он после апдейта вылетит а кто-нибудь у себя зальёт копию сайт (вдруг у него такая была) или через сохреннёнку полезет, то когда старый сайт возобновит работу на сколько процентов он сохранит свои позиции

mikes:
Верно. Приходится хранить исходный документ хотя бы для формирования сниппета. Вероятно, это не единственная необходимость.



Не думаю, что это будет иметь негативный эффект в обозримом будущем. С другой стороны, Гугл ведь говорит, что возможно ухудшение ранжирования сайтов, запрещающих индексацию вебархивом. Т.е. поисковые системы используют все больше косвенных факторов. В общем, я бы не стал закрывать эту ссылку.

А зачем вам это, если не секрет?

Я веду самостоятельную статистику переходов по сайту и посетителей (php + mysql)

было замечено что с некоторых ip адресов было обращение в течение нескольких дней только на одни урлы (то есть из 40 запросов к сайту все на одну статью).

Таким образом могут парсить сайт.

Сейчас сайт немного такое вычисляет и банит по ip адресу.

+ если от одного пользователя слишком много запросов за короткое время то он или бот или скачивает сайт (через приготовленный парсер или через прогу-скачивалку).

таких я тоже бану - хорошо что таких не много.

Если человека забанить то он сможет просматривать только через прокси т.к. ip забанен (список прокси пока не знаю где достать).

(я конечно понимаю что вы сейчас начнете говорить что я таким образом мог забанить целую сеть пользователей)

Статей на сайте не много - контент интересный, (100 статей). сайт пока что новый поэтому трастовости нет у него.

а кто упёртый сильно тот может и через сохраненные копии контент вытащить.

вот подумал еще одну дырку закрыть.

Пока сайт будет лезть ввверх по позициям - архивную копию буду оставлять.

sear4er:
Правильно Disallow: /*? Уже миллиард раз обсуждалось ;)
П.С. А количество ссылок на site.ru всё растёт и растёт естественным путём :)

То есть закрытие дублей этим правилом еще актуально.

Просто всё время думал что если на сайт сделают плохие люди или по неосторожности ссылку со знаком вопроса то сайт проиндексируется дважды, а это не есть хорошо)

в таком крупном сайте

http://www.woman.ru/robots.txt

нет такого правила. так как они защищаются от дублей?

А разве здесь не стоит nofollow?:)

раньше видел такие реализации тепловой карты только на платных тарифах.

теперь же всё бесплатно.

единственное смущает - яндекс.метрика стала нас радовать, но не использует ли яндекс в своей системе ранжирования сведения с метрики?

а мне Ли не нравится за старый дизайн и установку счетчика в виде картинки.

поэтому юзаю яндекс.метрику в паре с гугл.аналитикс.

Первый больше за счет большей простаты чем гугл.аналитикс

парень спрашивает как лучше провести навигацию

по возрастанию страниц или по убыванию страниц.

то есть самую первую запись делать на последней странице или же на первой.

comedy89 добавил 10.05.2010 в 17:52

думаю не важно как, главное анонс не очень большим делать. иначе дубль контента будет

Всего: 372