Сделать скрипт, чтобы найти все страницы с сайта. Напишите дело несложное - Популярные вопросы про SEO

386

SmileP

31 июля 2019, 11:55

#71

postavkin:
По моему вопросу, есть конечно Page Wight (как то так пишется) - но он часа три составляет список. Вроде бы им можно да?

postavkin:
Есть документы, без меток и прочего. Как проверить что каждый из них есть в перелинковке сайта.

Всякие пауки не найдут страницы, на которых нет внутренних ссылок.

580

Алексей

31 июля 2019, 13:56

#72

SmileP:
Всякие пауки не найдут страницы, на которых нет внутренних ссылок.

Потому и нужен весь список урлов. Например из XML. Затем нужно найти на каждую страницу сколько раз ссылаются внутри сайта. Это скрипт легко выполнит. На ПХП это легко сделать. Главное корректно определять все кривые ссылки в коде, а то рукажопых наполнений сайтов много.

Поиск ссылок с помощью AdSense улучшил автоматизированные объявления В Конструкторе Яндекс.Карт появилась

P

601

postavkin

31 июля 2019, 14:02

#73

Алексей Питерский:
Потому и нужен весь список урлов. Например из XML. Затем нужно найти на каждую страницу сколько раз ссылаются внутри сайта. Это скрипт легко выполнит. На ПХП это легко сделать. Главное корректно определять все кривые ссылки в коде, а то рукажопых наполнений сайтов много.

Обязательно знать сколько раз или достаточно понять есть ли хоть одна ссылка?

Чтобы это сделать на пхп, надо

1. дать список урлов (вообще всех с сайта, их допустим 25000 и более) = "список". кстати это вообще не проблема.

2. скрипт будет брать поочередно урл из "списка" чтобы найти его вхождение в код любого документа из "списка".

3. в цикле (список) парсит код документа и проверяет есть ли вхождение такой подстроки в документ (абс или относительный). если да, прерывает, присваивает "ок" и переходит к п.2.

но и тут есть баг. допустим урл125, на него ссылается урл8727. 125й получит - ок, а вот ведь на 8727 может не быть ссылок.

имхо, не уверен что это не нагрузит, да и не все так просто

Сервис Seolib запустил модуль Поиск поддоменов сайта в XML Sitemap: самый непонимаемый

580

Алексей

31 июля 2019, 14:04

#74

Вот человека это заставить, повеситься точно! =)

---------- Добавлено 31.07.2019 в 17:09 ----------

Чуть быстрее будет такой маневр:

1) делаем карту сайта через язл! (там глубина до 4)

2) Берем отдельный список всех существующих страниц, например, из XML

3) Находим совпадения и удаляем, а где нет совпадений - это страница без ссылок из сайта!

Переход на https в Александр Садовский на конференции 13 лучших практик по

P

601

postavkin

31 июля 2019, 14:13

#75

Алексей Питерский:
Вот человека это заставить, повеситься точно! =)

---------- Добавлено 31.07.2019 в 17:09 ----------

Чуть быстрее будет такой маневр:
1) делаем карту сайта через язл! (там глубина до 4)
2) Берем отдельный список всех существующих страниц, например, из XML
3) Находим совпадения и удаляем, а где нет совпадений - это страница без ссылок из сайта!

Да все понятно, из подокументно проверяем.

А что делать если:

взяли урл1. он есть в урл125. но вот урл125 нигде не светится. урл125 - плохой. Что делать с урл1 ? Он "плохой" ? ))

скрипт написать дело несложное, незнаю только пройдет ли сервак нагрузку)

Search Engine Land: Как Яндекс приглашает на Я.Субботник Экспресс-доставка товаров с Маркета

[Удален]

31 июля 2019, 14:20

#76

postavkin:
Да все понятно, из подокументно проверяем.
А что делать если:
взяли урл1. он есть в урл125. но вот урл125 нигде не светится. урл125 - плохой. Что делать с урл1 ? Он "плохой" ? ))

У вас вообще с логикой как? Еще раз - все страницы, которое линкованы, найдет краулер. Все страницы с сайта, что есть, минус страницы краулера - те, на которые нет линков. И да, в этом нет ничего страшного. Естественно, сейчас пойдут пьяные вопли из питера, но для нормальных людей советую посмотреть выдачу по запросам типа "билеты отсюда туда" и т.п. Где просто берется база пересечений, и очень часто не линкуется в принципе - индексируется через sitemap. И ничего, очень даже висит в топах. Про откровенные доры вообще молчу.

2

Google: сканирование не зависит AnswerLogr - Что ищут Google: размер файла Sitemap

580

Алексей

31 июля 2019, 14:35

#77

postavkin:

скрипт написать дело несложное, незнаю только пройдет ли сервак нагрузку)

Аналогичная проблема есть? В ПХП можно задержку ставить и тем самым снизить нагрузку на ЦП и оставить на ночь , например.

---------- Добавлено 31.07.2019 в 17:39 ----------

Miha Kuzmin (KMY):
У вас вообще с логикой как? Еще раз - все страницы, которое линкованы, найдет краулер. Все страницы с сайта, что есть, минус страницы краулера - те, на которые нет линков. И да, в этом нет ничего страшного. Естественно, сейчас пойдут пьяные вопли из питера, но для нормальных людей советую посмотреть выдачу по запросам типа "билеты отсюда туда" и т.п. Где просто берется база пересечений, и очень часто не линкуется в принципе - индексируется через sitemap. И ничего, очень даже висит в топах. Про откровенные доры вообще молчу.

Ну да, только это снижает доверие к хосту. Если оптимизатор, то используй.

Так у человека по брендам нормально по позициям и ПФ там норм. А на проблемных страницах плохой ПФ из за отсутствия продаж + еще спам такой в виде скрытых архивных страниц.

Ну вот может отпишутся потом и скажут сильно помогло или нет. Но проверить стоит. Лучше на это потратить время и деньги, чем на покупку ссылок.

---------- Добавлено 31.07.2019 в 17:41 ----------

И да, денег жалеют на рекламу. Отдачи нет от контекста. Что то же нужно сделать для поднятия статистики по ПФ. Может проблема в товаре, а не контексте. Это основная проблема тогда, а не архивные товары!

* Пока смотрел конкурентов по тематике одежды, то увидел, что у многих иногда смена релевантной или близкой по смысловой, но более целевая есть!!! Это говорит о замере целевой стр через ПФ и яндекс так тестирует, а может из за спамности на хосте! Я думаю, что это комплексно + иногда и без спамных и с четкими ПФ бывали смены релевантной. Но позиции нормальные.

Когда Яндекс начинает "любить" Наличие или отсутствие GA Лендинг пейдж как инструмент

P

601

postavkin

31 июля 2019, 14:46

#78

Miha Kuzmin (KMY):
У вас вообще с логикой как? Еще раз - все страницы, которое линкованы, найдет краулер. Все страницы с сайта, что есть, минус страницы краулера - те, на которые нет линков.

Ллллогика! Вы правы. Теперь мне известны возможности краулера )

Miha Kuzmin (KMY):
И да, в этом нет ничего страшного. Естественно, сейчас пойдут пьяные вопли из питера, но для нормальных людей советую посмотреть выдачу по запросам типа "билеты отсюда туда" и т.п. Где просто берется база пересечений, и очень часто не линкуется в принципе - индексируется через sitemap. И ничего, очень даже висит в топах. Про откровенные доры вообще молчу.

Я думаю надо провести тест. Взять монобрендовый магазин с 200 товарами. Налить в него фиктивных товаров пару тысяч, без внутренних ссылок на эти товары и надпись в них засандалить "нет в продаже". Вы считаете что ничего не будет с основным запросом?

А что касается выдачи, да, там всякое есть и откровенное УГ и неоткровенное. Но это не отменяет "теорию" Питерского. Почему нет, а вдруг сработает.

1

Google: цена не влияет Google: Частое сканирование не Обязательные требования для успешного

580

Алексей

31 июля 2019, 14:46

#79

Miha Kuzmin (KMY), не злись! Сам любишь бесить народ!

---------- Добавлено 31.07.2019 в 17:50 ----------

postavkin:
Я думаю надо провести тест. Взять монобрендовый магазин с 200 товарами. Налить в него фиктивных товаров пару тысяч, без внутренних ссылок на эти товары и надпись в них засандалить "нет в продаже". Вы считаете что ничего не будет с основным запросом?

Ахтунг гарантирую! Ну может еще чуть подождать. Но старые тексты когда сплывали из за кривого движка и без цепочки навигации это быстро приводило к проседанию по всем запросам! 1-3 апа в индекс.

(С) Яндекс - ничего Яндекс. За пол года Обновление поисковой базы 1.07.19

P

601

postavkin

31 июля 2019, 14:51

#80

Про тексты и навигацию не понял. Можете пояснить? )

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, чтобы попасть в ответы Google Bard

Помогите определить фильтр в Яндексе