Антоний Казанский

Антоний Казанский
Рейтинг
787
Регистрация
12.04.2007
Должность
Частный интернет-маркетолог и SEO специалист
Интересы
Интернет-маркетинг, SEO, интернет реклама
Подробности на сайте https://akazansky.ru
chaser #:
работайте через прокси, и проблема решится.

Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.

Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле? 

q_metainfo :
в том числе и тюнингу robots.txt

Тюнинг robots.txt? Это мило 😊


q_metainfo :

И вот какой вопрос у меня: не понимаю, стоит или не стоит закрывать от индексации поисковиками профили игроков (примерно такого вида: ht tps://ww w.mafia syndi cate.ru/Ga mer/3986 - уберите пробелы).

Это не дубли, не пустые страницы с одной стороны, с другой стороны чем они пригодятся поисковикам - особо непонятно.

Каких-то чётких гайдов не нашёл, поэтому если у кого есть рекомендации по тому, как сделать выбор - приму с благодарностью.

Закрыть индексацию профилей без компромиссов. Во-первых, выше Дмитрий правильно сказал - это всегда маяк для притяжения спамеров. Если вы ресурсно даёте возможность использовать страницы своего сайта для ссылок - этим будут пользоваться.

Далее, надо ещё помнить о том, что не все пользователи хотели бы, чтобы через поиск находили их игровые профили. Со временем наверняка с этим столкнетесь.

Итого - не создавайте условий для будущих проблем, превентивно решайте этот вопрос

Запрет к индексации и без компромиссов,

 

(вспомнилось вдруг - привет фанатам видеосалонов из 90-х) 😊

regta :
Здравствуйте

Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝


regta :

Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:

сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"

После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.

Что это???

Именно так это происходит во время временной, либо постоянной блокировки IP со стороны сервера (нередко со стороны CDN сервиса).

Либо полный блок и FROG в процессе просто замирает и с текущего IP невозможно зайти на сайт (проверку проще всего организовать через TOR), либо временный - при превышении числа обращений к сайту, временная блокировка, которая со временем автоматически снимается.

Какое самое очевидное решение - снизить лимит нагрузки при парсинге, возможно вам удастся "проскочить" систему блокировки, напоминаю это здесь

   


regta :
Звонил в ТП хостинга - отмазываются, мол не при делах.

Бывает и такое. Если это общие настройки шаред хостинга, то они просто игнорируют и говорят, у нас всё нормально, но на самом деле просто не собираются решать подобные "узкие вопросы", говорят - переходите на выделенный сервер, там для клиентов могут быть другие условия. Ну а если вы не клиент, то вообще присылают шаблонные ответы суть которых - становитесь клиентом, оплачивайте услуги и потом будем разговаривать про ваши хотелки.


regta :

Вопросы:

- сталкивались с подобным? Кто хостинг-провайдер?

Я в последние 2 года по клиентским анализам сталкиваюсь частенько. Крайний раз - буквально на прошлой неделе, CDN сервис блокировал, я написал клиенту с просьбой проверить, он передал мою просьбу админку и админ подтвердил, - ответил, ваш IP автоматически забанен - переносим его в список доверенных IP.

После этого действия Frog беспрепятственно всё спарсил.


regta :
- как быть в таком случае? (возможно сталкивались, искали уже решение?)

Увы, принять политику хостинга и попытаться подстроиться. Frog как ни крути создаёт множественные параллельные (если число потоков несколько) и последовательные запросы к серверу и сервис хостинга в зависимости от своей политики может их блокировать - это их право определять порядок доступа.


regta :
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?

По ситуации. Если вы арендуете выделенный хостинг и вам запрещают для работы подобный доступ к сайту - искать хостинг, где ваш IP внесут в список доверенных IP. Это, пожалуй, самый универсальный вариант.

Если всё равно банят (или договориться не удалось), а ситуации такие бывают, то я предпочитаю не работать с таким сайтом/клиентом. Я вообще последние несколько лет стараюсь не загонять себя в угол и не работать с проблемными клиентами, которые не хотят решать вопросы, не хотят вникать в процесс, не понимают, что современное продвижение - это путь технических и организационных преобразований, как сайта, так и бизнеса - словом, не работать с теми, кто не хочет, не может, не будет, не понимает - не созрел до того, чтобы решать текущие проблемы на качество ином уровне.

Однако, если расширять видение вопроса, то могут быть следующие варианты:

1)  Как уже сказал выше попытаться изменить скорость запросов к серверу.

2)  Вспомнить про то, что Frog даёт возможность изменить User-Agent и можно представиться, например, Гуглом,

в ряде случае это тоже помогает. Также там есть возможность кастомных настроек.

3) Если у хостинга есть ограничение на кол-во последовательных запросов, то можно рассмотреть варианты динамической смены IP в рабочем цикле парсинга.

- точно знаю, что есть сервисы, которые по времени, либо по команде обеспечивают смену IP на лету (такие предложения довольно частое явление у селлеров мобильных прокси);

- есть услуги VPN сервисов, которые делают это в вашем ручном управлении (условно говоря, вы устанавливаете клиент VPN на свой компьютер) и примерно на глаз через каждые 900 страниц ставите Frog на паузу и на горячую меняете переподключение к другому VPN серверу с другим IP - ожимаете паузу и продолжаете дальше собирать.

4) Добавлю еще возможности парсинга сторонними уже специализированными инструментами. Это уже конечно не про Frog вообще, но в ряде случае актуализирует некоторые важные задачи. Здесь я бы обратил внимание конечно на Зенку (Zennoposter), потому как по себя можно самостоятельно писать полноценные алгоритмы обработки данных. И A-Parser. 

Для наглядности - в Зенке вы пишите шаблон или скрипт для парстинга рабочих данных, покупаете в районе 1000 рублей несколько сотен шарен IP-шников (которые вы будете использовать не только для этих целей) и формируете рабочий цикл, где автоматически меняете IP-шники.  

Так, что коллега, пробуйте, но в принципе, когда что-то намеренно блокируется и не решается, то я уже морально не берусь за такие задачи. Хотя всегда существует спортивный интерес перебороть ситуацию, тут уж выбирайте, что вам ближе 😉

mazafaka5 :
Скорость обхода яндексом, она вообще повлияет на позиции в поиске, или хоть на что-то существенное ?

Скорость обхода влияет на результаты индексирования.

Это всё равно, что спросить - влияет ли скорость пешехода, идущего на работу, на качественные результаты его работы.


mazafaka5 :
Магазин, 50 поддоменов по 1500-2000 страниц. Навредить не хочется. Думаю так, если Яндекс будет меньше грузить, то у посетителей загрузка страниц будет чуточку быстрее.  Возможно я ошибаюсь во всём.

Как минимум ошибаетесь в том, что поддомены - это для Яндекса отдельные сайты и поисковые квоты (которые как раз раз коррелируют со скоростью  обхода) у поддоменов разные. 

Универсальный совет - поставьте ПС самой определять скорость индексации. Если хостинг не ругается на избыточную нагрузку от поисковых роботов от Яндекса, то вручную регулировать этот показатель нет необходимости.

Dmitriy_2014 :
Как вы думаете, как лучше разместить рекламный блок над заголовком статьи или под заголовком

Без компромиссов - над.

Cuys #:
1. Создание собственного сервиса не связанного с коммерцией, но приводящий клиентов в коммерцию;

Например? Соц. сеть/комьюнити?


Cuys #:

p.s. Ну а если глобально то перемены конечно уже подходят и вот-вот придут, про web 3.0 интересно расписано здесь (прямую ссылку давать не буду - так как уже банили на этом форуме с не понятной пометкой):

vc.ru/future/331769-chto-za-web-3-0-o-kotorom-vse-govoryat-i-kakie-nedostatki-nyneshnego-interneta-on-nameren-ispravit

Почитайте - походу туда все и движемся.

Прочитал, занятно, но пока воспринимаю как утопическую иллюзию.

Мировые корпорации, создающие технологии и системы управления не допустят потери власти и контроля (они десятилетиями над этим работали), поэтому описанная там утопическая децентрализация на мой взгляд может быть востребована лишь небольшой частью специализированных сообществ, но в массовое использование им хода не дадут, ибо на самом общем уровне "это не отвечает государственным интересам".

Skinner2009 #:
считаете тут человек просто время потерял https://clip2net.com/s/4gUEaBY

В данном случае исполнитель старательно накручивал поведенческие, чтобы ворваться в топ Яндекса. 

Сколько он там продержится - вопрос хороший, мне самому интересно, послежу.


Skinner2009 #:
Вот статистика например в яндексе, это я отфильтровал по самой высокой частотности

Это понятно, вы мне демонстрируете частотность запросов по Яндексу. Но если вы проверите данные Гугла для этого "сайта", то там будут нулевые результаты.

Это не сайт, это симулякр. Если вы посмотрите историю сайта, то с самого начала его старта осенью 2021 года итоговые данные по заказам там не менялись.

Его исполнитель умеет продвигать в топ Яндекса свои поделки путём накрутки ПФ. Но если даже вы напишите в тех. поддержку Яндекса и обратите внимание на эти "противоречивые" данные, то в последующие недели топовое присутствие этого сайта в Яндексе скорее всего закончится.

Подводя итог вышесказанному: тот кто умеет накручивать не спрашивает про написание комментариев, тот кто спрашивает про написание комментариев, очевидно, не умеет накручивать.

Вывод: вы не повторите успех продемонстрированного сайта, потому что дело, конечно, там не в комментариях.

p.s. Извините, если расстроил. 

form777 #:

Так у него новостной сайт, важна скорость размещения, он ещё до публикации должен бежать к нотариусу? 

Нет, там процедурно иначе всё решается. Если у новостного сайта есть статус СМИ, то охрана авторских прав уже решается через представителя инф. агентства, кем и будет выступать юрист. Такому юристу не составит труда составить док. базу, что материал был написан штатным сотрудником. Указание на конкретное лицо (автора) согласно штатному расписанию (впрочем никаких проблем нет обосновать внештатника), если есть редакционное задание.

Так что штучно там никто ничего не заверяет. Юрист подключается по мере возникновения рабочих для него вопросов. Юрист составляет претензию и если урегулирования нет, то направляет материалы в суд. Сейчас очень многие юристы занимаются подобной практикой и довольно успешно.

apolozov :
Привет всем! Нужна база ресторанов конкретной локации (телефонные номера, сайты и тому подобное). В идеале - в Excel. Какой самый простой вариант (но так, чтобы не собирать ручками)?

Форумчане выше уже ответили, но я отвечу немного развернув содержание ответа.

Решение данного вопроса лучше определять в зависимости от объёма данных. Если это десятки страниц, то либо выполнить это самостоятельно вручную, либо нанять исполнителя, кто также вручную скопипастит данные и вставит в необходимые ячейки Excel-я.

Если это сотни и уже тем более тысяч страниц + много рабочих полей, информацию с которых нужно точечно взять, то здесь уже будет актуален парсинг данных. 

Для парсинга нужен будет программный инструмент, источники данных, целевые поля и скорее всего исполнитель. Это задача уже выше среднего уровня, потому как требует специальных знаний по парсингу. 

Если вы отдаете задачу исполнителю под ключ, то вам и не нужен будет программный инструмент, потому что исполнитель выполнит задачу самостоятельно. Если вы сами захотите это выполнять, то здесь а) расходы на приобретение программы б) обучение методике в) время

Если задача несложная, то исполнителя для парсинга данных можно найти на Кворке и на специализированных форумах, в ТГ каналах.

Среди самых известных программ  для парсинга - Zennoposter, у программы есть свой форум, где я думаю без проблем можно будет найти исполнителя для этой задачи.  

Если вы не горите неумным и непреодолимым желанием делать всё самостоятельно, то цена вопроса может варьироваться от 500 до нескольких тысяч рублей, я бы ориентировался тысячи на две.

SergejF #:

Может со скачком и пф улучшились?

Дело не только в конкретном увеличении отдельных показателей ПФ, дело ещё в полноте данных.

Больше спрос, шире запросный индекс, шире охват страниц, больше точек входа, шире информационная вовлечённость.  

Всего: 12568