resident

Рейтинг
58
Регистрация
08.04.2004

а в каком месте li не показывает реалтайм? мне что-то в голову ничего не приходит.

а чем лучше можно поинересоваться?

по-моему без реф ссылки там не зарегиться

сами индексируют я же писал

Каширин не знает про Янгу?

также стоит отметить объемы спайлог

Google 19 427 250

Yandex 17 198 458

и лайвинтернет

Яндекс 154,799,175

Google 118,837,560

так что в топку методику спайлог

показывает в качестве бэка домен с www

знает очень малую долю от того что знает яндекс

лично у меня робот данного поисковика заблокирован, думаю у некоторых тоже => вход в область поиска значительно затруднен для новых поисковиков

на странице, которая запрещена в robots.txt, может быть ссылка на страницу, которая не запрещена, если робот не будет по ним ходить, то как он найдет таки страницы?

абсолютно защититься никак, но можно максимально усложнить процесс парсинга так, что не будет экономической выгоды парсить. Как вариант защиты придумалось ставить куку-ключ дающую право открыть следующую страницу (или несколько страниц, тк пользователь может открыть несколько страниц и из-за задержки соединения он могут придти не в том порядке в каком отправлялись) и при каждом запросе обновлять куку (кука привязана к ip и user-agent). это ограничит использование прокси в рамках одной сессии качания и подстановку разных user-agent. в результате получатся цепочки запросов. если цепочка слишком длиная (для каждого сайта индивидуально), то проверяем ее капчей.

например тут есть скрипт который считает обращения с ip и при превышении лимита выдает капчу, есть список разрешенных и запрещенных ip. для храненния использует оперативку, хотя может быть и другое хранилище поддерживаемое классом System/SharedMemory

а что в них нового? я не помню какие были раньше. написали бы хоть для сравнения

Всего: 74