- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем доброго времени суток.
Вопрос аналогичен тому, что был задан в теме /ru/forum/516985
Есть сайт - site.ru, нужно выгрузить в документ какого либо формата тхт или эксель все проиндексированные в яндексе страницы. Страниц к слову больше 1000, так что url:site, site:site.ru - конструкции не подходят, нужно получить именно все из индекса.
Может кто сталкивался, подскажите пожалуйста.
Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿
Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿
Такое не всегда поможет, особенно если в индексе есть старые страницы, которых уже нет на сайте.
Во-первых, проиндексированные страницы можно выгрузить из вебмастеров. Во-вторых, можете составить список категорий сайта и проиндексировать запросами "url:site.ru/category/*".
Оба предложенных варианта - вполне рабочие, но плюс варианта от sunseeker7 в том, что он универсален, т.е. подойдет для любого сайта. Во втором случае нужно будет настраивать поисковые запросы для каждого сайта в отдельности.
Blaze1992, если у вас такая задача появляется регулярно, то могу написать для вас (платно) модуль для программы TOBBOT, который будет парсить страницы с вашего сайта и проверять их индексацию, например, по наличию кешированной версии страницы. Для полноценной работы скорее всего потребуются прокси и баланс на сервисе распознавания капчи.
Когда делаю технические аудиты поступаю так:
1. Распаршиваю пациента
2. Определяю структуру вложенности URL в эксельке, группирую URL по разделам. Статьи к статьям, карточки товаров разбиваю по категориям. Если их много, то печаль, но ничего не поделаешь.
3. Беру кусок каждого URL от максимальной вложенности к минимальной и составляю запрос типа site:site.ru inurl:shop/category1
4. Выдираю выдачу по этому запросу, в том числе и руками.
5. Что бы понять что лишнего в индексе относительно морды можно составлять сложные запросы, вычитая подразделы.
6. Сравниваю URL на сайте и URL в выдаче
7. Профит в виде нового robots.txt, URL на удаление, добавление.
Хорошую статью о том, как спарсить все проиндексированные страницы на днях Алаич написал: http://parser.alaev.info/practice/
Так что компарсер в зубы и вперёт