Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.
Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле?
Тюнинг robots.txt? Это мило 😊
И вот какой вопрос у меня: не понимаю, стоит или не стоит закрывать от индексации поисковиками профили игроков (примерно такого вида: ht tps://ww w.mafia syndi cate.ru/Ga mer/3986 - уберите пробелы).
Это не дубли, не пустые страницы с одной стороны, с другой стороны чем они пригодятся поисковикам - особо непонятно.
Каких-то чётких гайдов не нашёл, поэтому если у кого есть рекомендации по тому, как сделать выбор - приму с благодарностью.
Закрыть индексацию профилей без компромиссов. Во-первых, выше Дмитрий правильно сказал - это всегда маяк для притяжения спамеров. Если вы ресурсно даёте возможность использовать страницы своего сайта для ссылок - этим будут пользоваться.
Далее, надо ещё помнить о том, что не все пользователи хотели бы, чтобы через поиск находили их игровые профили. Со временем наверняка с этим столкнетесь.
Итого - не создавайте условий для будущих проблем, превентивно решайте этот вопрос.
Запрет к индексации и без компромиссов,
(вспомнилось вдруг - привет фанатам видеосалонов из 90-х) 😊
Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝
Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:
сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response"). на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"
После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.
Что это???
Именно так это происходит во время временной, либо постоянной блокировки IP со стороны сервера (нередко со стороны CDN сервиса).
Либо полный блок и FROG в процессе просто замирает и с текущего IP невозможно зайти на сайт (проверку проще всего организовать через TOR), либо временный - при превышении числа обращений к сайту, временная блокировка, которая со временем автоматически снимается.
Какое самое очевидное решение - снизить лимит нагрузки при парсинге, возможно вам удастся "проскочить" систему блокировки, напоминаю это здесь
Бывает и такое. Если это общие настройки шаред хостинга, то они просто игнорируют и говорят, у нас всё нормально, но на самом деле просто не собираются решать подобные "узкие вопросы", говорят - переходите на выделенный сервер, там для клиентов могут быть другие условия. Ну а если вы не клиент, то вообще присылают шаблонные ответы суть которых - становитесь клиентом, оплачивайте услуги и потом будем разговаривать про ваши хотелки.
Вопросы:
- сталкивались с подобным? Кто хостинг-провайдер?
Я в последние 2 года по клиентским анализам сталкиваюсь частенько. Крайний раз - буквально на прошлой неделе, CDN сервис блокировал, я написал клиенту с просьбой проверить, он передал мою просьбу админку и админ подтвердил, - ответил, ваш IP автоматически забанен - переносим его в список доверенных IP.
После этого действия Frog беспрепятственно всё спарсил.
Увы, принять политику хостинга и попытаться подстроиться. Frog как ни крути создаёт множественные параллельные (если число потоков несколько) и последовательные запросы к серверу и сервис хостинга в зависимости от своей политики может их блокировать - это их право определять порядок доступа.
По ситуации. Если вы арендуете выделенный хостинг и вам запрещают для работы подобный доступ к сайту - искать хостинг, где ваш IP внесут в список доверенных IP. Это, пожалуй, самый универсальный вариант.
Если всё равно банят (или договориться не удалось), а ситуации такие бывают, то я предпочитаю не работать с таким сайтом/клиентом. Я вообще последние несколько лет стараюсь не загонять себя в угол и не работать с проблемными клиентами, которые не хотят решать вопросы, не хотят вникать в процесс, не понимают, что современное продвижение - это путь технических и организационных преобразований, как сайта, так и бизнеса - словом, не работать с теми, кто не хочет, не может, не будет, не понимает - не созрел до того, чтобы решать текущие проблемы на качество ином уровне.
Однако, если расширять видение вопроса, то могут быть следующие варианты:
1) Как уже сказал выше попытаться изменить скорость запросов к серверу.
2) Вспомнить про то, что Frog даёт возможность изменить User-Agent и можно представиться, например, Гуглом,
в ряде случае это тоже помогает. Также там есть возможность кастомных настроек.
3) Если у хостинга есть ограничение на кол-во последовательных запросов, то можно рассмотреть варианты динамической смены IP в рабочем цикле парсинга.
- точно знаю, что есть сервисы, которые по времени, либо по команде обеспечивают смену IP на лету (такие предложения довольно частое явление у селлеров мобильных прокси);
- есть услуги VPN сервисов, которые делают это в вашем ручном управлении (условно говоря, вы устанавливаете клиент VPN на свой компьютер) и примерно на глаз через каждые 900 страниц ставите Frog на паузу и на горячую меняете переподключение к другому VPN серверу с другим IP - ожимаете паузу и продолжаете дальше собирать.
4) Добавлю еще возможности парсинга сторонними уже специализированными инструментами. Это уже конечно не про Frog вообще, но в ряде случае актуализирует некоторые важные задачи. Здесь я бы обратил внимание конечно на Зенку (Zennoposter), потому как по себя можно самостоятельно писать полноценные алгоритмы обработки данных. И A-Parser.
Для наглядности - в Зенке вы пишите шаблон или скрипт для парстинга рабочих данных, покупаете в районе 1000 рублей несколько сотен шарен IP-шников (которые вы будете использовать не только для этих целей) и формируете рабочий цикл, где автоматически меняете IP-шники.
Так, что коллега, пробуйте, но в принципе, когда что-то намеренно блокируется и не решается, то я уже морально не берусь за такие задачи. Хотя всегда существует спортивный интерес перебороть ситуацию, тут уж выбирайте, что вам ближе 😉
Скорость обхода влияет на результаты индексирования.
Это всё равно, что спросить - влияет ли скорость пешехода, идущего на работу, на качественные результаты его работы.
Как минимум ошибаетесь в том, что поддомены - это для Яндекса отдельные сайты и поисковые квоты (которые как раз раз коррелируют со скоростью обхода) у поддоменов разные.
Универсальный совет - поставьте ПС самой определять скорость индексации. Если хостинг не ругается на избыточную нагрузку от поисковых роботов от Яндекса, то вручную регулировать этот показатель нет необходимости.
Без компромиссов - над.
Например? Соц. сеть/комьюнити?
p.s. Ну а если глобально то перемены конечно уже подходят и вот-вот придут, про web 3.0 интересно расписано здесь (прямую ссылку давать не буду - так как уже банили на этом форуме с не понятной пометкой):
vc.ru/future/331769-chto-za-web-3-0-o-kotorom-vse-govoryat-i-kakie-nedostatki-nyneshnego-interneta-on-nameren-ispravit
Почитайте - походу туда все и движемся.
Прочитал, занятно, но пока воспринимаю как утопическую иллюзию.
Мировые корпорации, создающие технологии и системы управления не допустят потери власти и контроля (они десятилетиями над этим работали), поэтому описанная там утопическая децентрализация на мой взгляд может быть востребована лишь небольшой частью специализированных сообществ, но в массовое использование им хода не дадут, ибо на самом общем уровне "это не отвечает государственным интересам".
В данном случае исполнитель старательно накручивал поведенческие, чтобы ворваться в топ Яндекса.
Сколько он там продержится - вопрос хороший, мне самому интересно, послежу.
Это понятно, вы мне демонстрируете частотность запросов по Яндексу. Но если вы проверите данные Гугла для этого "сайта", то там будут нулевые результаты.
Это не сайт, это симулякр. Если вы посмотрите историю сайта, то с самого начала его старта осенью 2021 года итоговые данные по заказам там не менялись.
Его исполнитель умеет продвигать в топ Яндекса свои поделки путём накрутки ПФ. Но если даже вы напишите в тех. поддержку Яндекса и обратите внимание на эти "противоречивые" данные, то в последующие недели топовое присутствие этого сайта в Яндексе скорее всего закончится.
Подводя итог вышесказанному: тот кто умеет накручивать не спрашивает про написание комментариев, тот кто спрашивает про написание комментариев, очевидно, не умеет накручивать.
Вывод: вы не повторите успех продемонстрированного сайта, потому что дело, конечно, там не в комментариях.
p.s. Извините, если расстроил.
Так у него новостной сайт, важна скорость размещения, он ещё до публикации должен бежать к нотариусу?
Нет, там процедурно иначе всё решается. Если у новостного сайта есть статус СМИ, то охрана авторских прав уже решается через представителя инф. агентства, кем и будет выступать юрист. Такому юристу не составит труда составить док. базу, что материал был написан штатным сотрудником. Указание на конкретное лицо (автора) согласно штатному расписанию (впрочем никаких проблем нет обосновать внештатника), если есть редакционное задание.
Так что штучно там никто ничего не заверяет. Юрист подключается по мере возникновения рабочих для него вопросов. Юрист составляет претензию и если урегулирования нет, то направляет материалы в суд. Сейчас очень многие юристы занимаются подобной практикой и довольно успешно.
Форумчане выше уже ответили, но я отвечу немного развернув содержание ответа.
Решение данного вопроса лучше определять в зависимости от объёма данных. Если это десятки страниц, то либо выполнить это самостоятельно вручную, либо нанять исполнителя, кто также вручную скопипастит данные и вставит в необходимые ячейки Excel-я.
Если это сотни и уже тем более тысяч страниц + много рабочих полей, информацию с которых нужно точечно взять, то здесь уже будет актуален парсинг данных.
Для парсинга нужен будет программный инструмент, источники данных, целевые поля и скорее всего исполнитель. Это задача уже выше среднего уровня, потому как требует специальных знаний по парсингу.
Если вы отдаете задачу исполнителю под ключ, то вам и не нужен будет программный инструмент, потому что исполнитель выполнит задачу самостоятельно. Если вы сами захотите это выполнять, то здесь а) расходы на приобретение программы б) обучение методике в) время
Если задача несложная, то исполнителя для парсинга данных можно найти на Кворке и на специализированных форумах, в ТГ каналах.
Среди самых известных программ для парсинга - Zennoposter, у программы есть свой форум, где я думаю без проблем можно будет найти исполнителя для этой задачи.
Если вы не горите неумным и непреодолимым желанием делать всё самостоятельно, то цена вопроса может варьироваться от 500 до нескольких тысяч рублей, я бы ориентировался тысячи на две.
Может со скачком и пф улучшились?
Дело не только в конкретном увеличении отдельных показателей ПФ, дело ещё в полноте данных.
Больше спрос, шире запросный индекс, шире охват страниц, больше точек входа, шире информационная вовлечённость.