apple_rom

Рейтинг
51
Регистрация
13.09.2008
Должность
SEO hardware
Интересы
Intel vPro & BIOS development

Улетевшая второго февраля морда по фильтру ТС, которая после "стандартных" (уменьшение числа прямых вхождений) работ быстро и "туда же" вернувшаяся - вновь сейчас улетела. При чём улетела (вылез внутряк) по двухсловному, оставшись по однословному (который есть часть двухсловного) ВЧ "где надо". Никаких изменений в тексте (с тех пор) не производилось, хотя ссылочное - наращивалось, в т.ч. как раз анкоры с прямыми вхождениями по улетевшему ключу. Возможно совпадение, но как-то странно.

Задержки в LI от 4 до 8 секунд позволили спарсить лишь чуть более сотни тысяч запросов. Установленные "заведомо большие" (8-16 секунд) - спарсилось все (более двухсот тысяч).

п.с. использовался 109-й build, парсинг без мест в ПС.

Пару месяцев назад снимал статистику в несколько сотен тысяч запросов - задержка на ли.ру 1.0-1.1 вполне нормально проходила.

Беру свои слова обратно. Сейчас так больше не проходит, на большой скорости получается:

Too many requests from one IP: ххх.ххх.ххх.ххх.
Access denied for 60 minutes.
Limit: 1,000 requests per 10 minutes.
Denial till: Sat, 06 Mar 2010 10:35:08 GMT
Current time: Sat, 06 Mar 2010 10:02:58 GMT

Потому получается, что если в сумме снимать меньше 14000 запросов (столько получается "до бана" на максимальной скорости) - можно ставить минимальные задержки (~1секунда). А если больше - увеличивать.

Кстати, было бы крайне удобно, если бы была возможность это делать в самой программе. То есть запустить счётчик запросов с одного айпи и таймер. При приближению к "верхнему пределу" - засыпаем и ждём, чтобы не забанили. Прошло время - вновь погнали до "края десятиминутки". Так и максимально быстро получится и "нарушать" не придётся.

п.с. а пока "ждём" - можно парсить в ПС напарсенное в ЛИ. :)

Цитата:
p.s. большая просьба к тем, что собирает статистику с больших сайтов(более 10000 запросов) без прокси, поделитесь, пожалуйста, настройками(таймаутами).
С таким количеством желательно конечно прокси, но раз нет возможности, то для яндекса как минимум 15-25 сек, li.ru от 3 до 7, если использоваться Яндекс#1 то от 3 до 10 сек (но при использовании этого способа иногда неправильно определяет позиции по регионам).

Пару месяцев назад снимал статистику в несколько сотен тысяч запросов - задержка на ли.ру 1.0-1.1 вполне нормально проходила. Касаемо использования на таких объёмах определения позиций - не совсем понятно, зачем оно нужно - парсить сотни тысяч МЧ :) (Микро Частотников). Вполне можно снять первую тысячу отдельно (с местами) и после, без парсинга ПС - полностью.

Мордобойный

Месье теоретик, на практике свою теорию проверьте, и расскажите потом, какая выгода получилась.

Я - практик (такого подхода). Если есть возможность (взять качественных ссылок) - стараюсь брать не менее 2-3, а если дёшево и хороший сайт - не брезгую взять и десяток-другой. Да, много муторки - ручная работа, однако на выходе - (стабильный) рост тИЦ. Касаемо выгоды - конечно, меньше (по сравнению со "стандартным" - "одна ссылка с сайта"), но она - есть. Если ссылки берутся с прицелом "надолго" - считаю более выгодным именно такой подход. Если речь о говно- и сапо-сайтах (набить тИЦ и успеть навариться до его бана) - тогда, согласен, это не выгодно.

п.с. цель вышеописанного подхода - не рост тИЦ (это уже лишь как "побочный эффект"), а стабильность позиций сайта в долгосрочной перспективе.

Кто-нибудь знает, как сделать кириллицу в урлах на DLE ?

В своё время (в шестом году), когда прикручивал в кириллические ссылки в тогда ещё не поддерживающие это дело (пятый) друпал - пришлось серьёзно перепахать весь движок. Дело в том, что во всех местах (ядра и модулей вашей CMS) используется стандартные функции фильтрации для выдачи строки урла типа "plain_text" сотоварищи, которые как раз и фильтруют кириллицу. Надо их (всех - обычно это больше, чем одно место) изловить и "пропатчить".

Я к тому, что предположу в данном случае аналогичную проблему. Хотя, ещё раз повторюсь, совет "не использовать URL-кириллицу" в силе, ведь это стало результатом отрицательного опыта работы с нею более чем года на достаточно популярном сайте. Правда это было давно, но с учётом того, что до сих пор не пофиксили такие косяки... Хотя, подумал, с введением кириллических доменов - должны будут ещё раз серьёзно пересмотреть это дело. Но - сомневаюсь, да и игра не стоит свеч.

Такое (и не только это) есть в Yazzle - бэки можно посмотреть по PR, тИЦ, количеству ссылок и т.п.

У меня тИЦ прекрасно поднимается сапой. Что я делаю не так? :)

Уважаемый Jaf4. Неправильно ориентироваться на тот (действительно) факт, что "у меня всё правильно". Нужно также учитывать тот (тоже, возможно) факт, что у кого-то, где-то, с чем-то - может быть по-другому.

В переводе это обозначает то, что у меня тоже некоторые сайты (и в некоторых разделах) - отображаются правильно. А в некоторые - нет. На что я и указал. А раз так (есть реальные проблемы на реальных сайтах) - значит лишь одно - кириллицу Яндекс (в т.ч. его админка) знает, но не везде (в плане - как раз некоторые разделы типа "статистики" - обратывает некорректно).

Итого, вновь повторю, если учесть потенциальные проблемы, то они вряд ли перевесятся потенциальной выгодой. Значит рекомендация не применять кириллицу в урлах - в силе.

п.с. А вот когда учитываешь "потенциальные проблемы" - вот тогда уж урл в руки и кириллицу на шею...

Всего: 97