- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?
В любом случае (задача не совсем ясна), сначала нужно извлечь URL этих страниц. Я особо не заморачивался, сохранял страницы выдачи из браузера. Потом слил все в одну (cat). Далее, с помощью grep и awk отфильтровал, с помощью sort убрал дубликаты.
Вообще-то я говорил не про программную реализацию, а про готовое решение... :)
Какой программой можно спарсить проиндексированные страницы?
Реализация получения списка URL как бы готовая, там до программирования далеко. Консоль и немного логики. Если успеется (ухожу), могу на пальцах показать.
А задачу всё ещё не понял. Спарсить список URL, или получить сам контент страниц?
Именно спарсить все проиндексированные страницы.
Вот, значится. URL получены, их можно перенаправить в текстовый файл.
Далее, натравить на них любой менеджер закачек, тот же wget, опцией i.
Далее, задача получить из HTML TXT. Тут уж фантазия вольна, я бы скриптом, но ведь программ куча.
Какой момент вызывает непонимание?
Момент автоматизации. Сайтов много каждую страницу выдачи сохранять не очень удобно 😒
раньше использовал яшколюб, но сейчас он не актуален.
Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?
Эту задачу можно решить с помощью нашего десктопного приложения RDS API: http://www.recipdonor.com/rds-api
- собираем карту сайта с помощью программы Xenu's Link Sleuth: http://home.snafu.de/tilman/xenulink.html
- добавляем УРЛы в RDS API (вкладка страницы) и запускаем проверку "Индекс Я стр."
Стоимость проверки 0.3$ за 1000 проверок.
Или бесплатно с помощью плагина RDS bar для Firefox:
- установите последнюю версию плагина: https://addons.mozilla.org/ru/firefox/addon/rds-bar/versions/ и активируйте в Настройках функцию Интеграции плагина в поисковую выдачу Яндекса.
- зайдите на сайт (к примеру, devaka.ru), нажмите на значение параметра "Индекс Я" для перехода на страницу со списком 1000 проиндексированных страниц сайта http://yandex.ru/yandsearch?text=url:www.devaka.ru*%20|%20url:devaka.ru*&lr=213
- затем с помощью сочетания кнопок Ctrl+Y вы можете скопировать в буфер обмена проиндексированные страницы сайта devaka.ru, которые находятся на текущей странице поисковой выдачи Яндекса
- Пройдите по остальным страницам поисковой выдачи Яндекса, последовательно переходя по ссылкам
http://yandex.ru/yandsearch?p=1&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213
...
http://yandex.ru/yandsearch?p=10&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213
...
В результате проиндексированные страницы сайта devaka.ru будут добавляться в базу данных плагина откуда их можно будет легко экспортировать: chrome://rdstb/content/user/rds.html#pageslibrary/1
Кроме того, список проиндексированных страниц сайта devaka.ru полученных из выдачи Яндекса или после проверке в баре можно будет скопировать в буфер обмена с помощью сочетания кнопок CTRL+M
Подробнее о возможностях плагина можно прочитать здесь: https://addons.mozilla.org/ru/firefox/addon/rds-bar/