- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть у кого нибудь под рукой свежий полный список IP яндекса?
Дело в том, что на хосте Заказчика многие сотни тысяч страниц (в базе около 10 миллионов позиций) , и иногда их пытаются выкачать. Поэтому хозяином сервера был поставлен лимит 200 документов.
Для поисковиков по юзерагенту выставлен "анлим", но ИМХО лучше все-таки это по IP делать (кстати, сервер виндовый), чтобы он мог нормально проиндексировать максимум на сервере.
Собственно говоря для этого и нужен список.
Можно в личку, если прямо на форум постить не хочется.
:beer:
Советую самим базу сформировать, т.к. это придется апдейтить ее постоянно.
beroot, что апдейтить придется - оно понятно
Но у тебя наверняка база имеется ;?) 🚬
Посмотри здесь: http://www.ripe.net/fcgi-bin/whois?form_type=simple&full_query_string=&searchtext=213.180.206.248&do_search=Search
albion, спасибо :)
Avatar, пожалуйста. Еще список отослал в личку
albion, спасибо. первой ссылки достаточно, чтобы всю сеть Яндекса выловить.
эх, если бы все так было.
Но у тебя наверняка база имеется ;?)
Дак с апдейтилки и начинать надо:
пишешь алгортм который просекает, что это бот se,
далее цеплеяшь к
albion, спасибо. первой ссылки достаточно, чтобы всю сеть Яндекса выловить.
у яндекса штук 50 диапазонов, сам вычислял как-то. только не по поиску, а скачивал полную райповскую базу.
и имейте ввиду, что:
http://www.ripe.net/fcgi-bin/whois?searchtext=COMPTEK-MNT-RIPE&form_type=simple
а вот и список:
http://www.ripe.net/fcgi-bin/whois?form_type=advanced&full_query_string=&searchtext=YANDEX-MNT&do_search=Search&inverse_attributes=mnt-by&ip_search_lvl=Default%28nearest+match%29&alt_database=ALL&object_type=inetnum
Есть у кого нибудь под рукой свежий полный список IP яндекса?🍻
Это поможет ? :)
<?php
// Параметры поисковой системы Яndex
private static function &get_yandex_params()
{
return array (
'title' => 'Поисковая система Яndex',
'networks' => array (
// [?] 213.180.192.0 - 213.180.223.255 -- Сеть RU-YANDEX-20000413
// состоящая, в свою очередь, из следующих небольших под-сетей:
// ------------------------------------------------------------
// [+] 213.180.192.0 - 213.180.193.255 -- COMPTEK-NET1
// [+] 213.180.194.0 - 213.180.195.255 -- COMPTEK-NET2
// [-] 213.180.196.0 - 213.180.197.255 -- COMPTEK-NET3
// [+] 213.180.198.0 - 213.180.198.255 -- YANDEX-198
// [-] 213.180.199.0 - 213.180.199.255 -- YANDEX-199
// [-] 213.180.200.0 - 213.180.200.255 -- YANDEX-200
// [-] 213.180.201.0 - 213.180.201.15 -- YANDEX-200-1
// [-] 213.180.201.20 - 213.180.201.23 -- YANDEX-201-20 (downlink to Comptek)
// [-] 213.180.201.32 - 213.180.201.63 -- YANDEX-201-32
// [-] 213.180.201.112 - 213.180.201.127 -- YANDEX-SLB-BBONE
// [-] 213.180.201.128 - 213.180.201.255 -- YANDEX-SALES-2 (офис продаж)
// [-] 213.180.202.0 - 213.180.202.63 -- YANDEX-NOC-0
// [-] 213.180.202.64 - 213.180.202.127 -- YANDEX-CORP
// [-] 213.180.202.128 - 213.180.202.159 -- YANDEX-MTECH
// [-] 213.180.202.160 - 213.180.202.175 -- YANDEX-202-160
// [-] 213.180.202.176 - 213.180.202.191 -- YANDEX-IT-LAB
// [-] 213.180.203.0 - 213.180.203.15 -- YANDEX-GRANTS
// [-] 213.180.203.64 - 213.180.203.227 -- YANDEX-203-64
// [-] 213.180.204.0 - 213.180.204.31 -- YANDEX-204-0
// [-] 213.180.204.32 - 213.180.204.255 -- YANDEX-204-32
// [-] 213.180.204.32 - 213.180.204.63 -- YANDEX-FRONTS-S-32
// [-] 213.180.205.0 - 213.180.205.15 -- YANDEX-205-S
// [-] 213.180.205.16 - 213.180.205.31 -- YANDEX-205-1-S
// [-] 213.180.205.32 - 213.180.205.255 -- YANDEX-205-32
// [+] 213.180.206.0 - 213.180.207.255 -- YANDEX-BIGSEARCH2
// [-] 213.180.208.0 - 213.180.208.255 -- YANDEX-PUB-VS (public virtual servers)
// [+] 213.180.209.0 - 213.180.209.255 -- YANDEX-209
// [+] 213.180.210.0 - 213.180.210.15 -- YANDEX-210-0
// [-] 213.180.210.16 - 213.180.210.23 -- YANDEX-210-16
// [-] 213.180.210.24 - 213.180.210.31 -- YANDEX-ZOO
// [-] 213.180.210.32 - 213.180.210.63 -- YANDEX-210-32
// [-] 213.180.210.64 - 213.180.210.95 -- YANDEX-210-64
// [-] 213.180.210.96 - 213.180.210.111 -- YANDEX-210-96
// [-] 213.180.210.112 - 213.180.210.127 -- YANDEX-210-112
// [-] 213.180.210.128 - 213.180.210.255 -- YANDEX-CORE-210
// [-] 213.180.211.0 - 213.180.211.127 -- YANDEX-SUPPORT-V
// [-] 213.180.211.128 - 213.180.211.255 -- YANDEX-SUPPORT-PV
// [-] 213.180.212.0 - 213.180.212.127 -- CTI-IPSOFT
// [-] 213.180.213.0 - 213.180.213.31 -- COMPTEK-GUESTS
// [-] 213.180.213.32 - 213.180.213.39 -- CTI-LAB-V
// [-] 213.180.213.40 - 213.180.213.47 -- CTI-LAB-V
// [-] 213.180.213.48 - 213.180.213.63 -- CTI-LAB-V
// [-] 213.180.213.64 - 213.180.213.127 -- COMPTEK-R
// [-] 213.180.213.128 - 213.180.213.159 -- COMPTEK-VPN2
// [-] 213.180.214.0 - 213.180.214.63 -- YANDEX-BS
// [-] 213.180.214.64 - 213.180.214.95 -- YANDEX-214-64
// [-] 213.180.214.128 - 213.180.214.255 -- YANDEX-214-128
// [-] 213.180.215.0 - 213.180.215.255 -- YANDEX-LX
// [+] 213.180.216.0 - 213.180.217.255 -- YANDEX-216 (Yandex search engine)
// [-] 213.180.218.0 - 213.180.218.255 -- YANDEX-218
// [-] 213.180.219.0 - 213.180.219.127 -- YANDEX-219-0
// [-] 213.180.221.0 - 213.180.221.255 -- YANDEX-221
// [-] 213.180.222.0 - 213.180.222.31 -- YANDEX-222-0
// [-] 213.180.222.32 - 213.180.222.63 -- YANDEX-222-32
// [-] 213.180.222.64 - 213.180.222.127 -- YANDEX-222-64
// [-] 213.180.222.128 - 213.180.222.143 -- YANDEX-222-128
// [-] 213.180.222.144 - 213.180.222.159 -- YANDEX-222-144
// [-] 213.180.222.160 - 213.180.222.191 -- YANDEX-222-160
// [-] 213.180.222.192 - 213.180.222.255 -- YANDEX-222-192
// [-] 213.180.223.0 - 213.180.223.255 -- YANDEX-223
//
3585392640, 3585393663, // 213.180.192.0-213.180.193.255 -- COMPTEK-NET1, COMPTEK-NET2
3585394176, 3585394431, // 213.180.198.0-213.180.198.255 -- YANDEX-198
3585396224, 3585396735, // 213.180.206.0-213.180.207.255 -- YANDEX-BIGSEARCH2
3585396992, 3585397263, // 213.180.209.0-213.180.209.255 -- YANDEX-209, YANDEX-210-0
3585398784, 3585399295 // 213.180.216.0-213.180.217.255 -- YANDEX-216 (Yandex search engine)
),
'agents' => array (
// Основной индексирующий робот. Посещает сайт примерно один раз в месяц, забирая не более 500
// страниц с кодом ответа '200 OK' за одно посещение. Для остальных кодов ответа ограничений нет.
// По моим данным эта информация пока еще не проверена, следует быть с ней внимательнее и проверить ее!
//
'Yandex/1.01.001 (compatible; Win16; I)' => 'text',
// Индексатор картинок. Запрашивает только файлы картинок.
// Для своей работы использует результаты работы предыдущего робота.
//
'Yandex/1.01.001 (compatible; Win16; P)' => 'image',
// Робот, определяющий зеркала сайтов. Не регулярно посещает страницы сайта, которые подозревает
// на предмет дублирования информации. Изредка посещает уже 'склеенные' страницы для проверки на
// предмет убирания дублирования. Если главные страницы двух сайтов признаются дублями, с большой
// долей вероятности робот считает все страницы сайта дублями, что не всегда верно.
//
'Yandex/1.01.001 (compatible; Win16; H)' => 'host',
// Робот, обращающийся к страничке при добавлении ее через форму «Добавить URL». Ходит только по
// команде человека (при сабмите формы «Добавить URL»). Каждый вносимый адрес почему-то посещает дважды.
// Иногда представляется как AddUrl или Addurl/2.0.
//
'Yandex/1.03.003 (compatible; Win16; D)' => 'check',
'Addurl/2.0' => 'check',
'Addurl' => 'check',
// Робот, обращающийся при открытии страницы по ссылке «Найденные слова». Заходит на страницы сайта
// асинхронно каждый раз, как человек в результатах поиска нажмет ссылку 'показать найденные слова'
// напротив адреса этой страницы.
//
'Yandex/1.03.000 (compatible; Win16; M)' => 'check',
// Агент-«простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он
// снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
//
'Yandex/2.01.000 (compatible; Win16; Dyatel; C)' => 'check',
// Агент-«простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
'Yandex/2.01.000 (compatible; Win 16; Dyatel; Z)' => 'check',
// Агент-«простукивалка» Яндекс.Директа. Он проверяет корректность ссылок из объявлений
// перед модерацией. Никаких автоматических действий не предпринимается.
//
'Yandex/2.01.000 (compatible; Win 16; Dyatel; D)' => 'check',
// Агент-«простукивалка» Яндекс.Новостей. Он формирует отчет для контент-менеджера,
// который оценивает масштаб проблем и, при необходимости, связывается с партнером.
//
'Yandex/2.01.000 (compatible; Win16; Dyatel; N)' =>'check',
// Пока - не ясно, что это за робот. В моих логах еще не встречался, я его не проверял.
'YandexBlog/0.99.101 (compatible; DOS3.30,B)' => 'news',
// Возможно - робот, прверяющий нарушения, но, скорее всего - предшественник одного из агентов-«простукивалок»
'Bond, James Bond (version 0.07)' => 'check'
),
'dothost' => true,
'hosts' => '/^[a-z0-9]+\\.yandex\\.ru$/',
'alert_agents' => '/(yandex|addurl)/i',
'alert_hosts' => '/yandex/i'
);
}
?>
Avatar, Леш, а ты уверен, что у Яндекса нет хитрых роботов, которые не подписываются юзерагентами и соответственно их IP мало кому известен? Ведь как-то должен Яндекс клоакинг отлавливать. А это самый простой способ - две копии одной страницы - одна получается обычным индексатором, а вторая - роботом, маскирующимся под юзера.