Dmitriy_2014

Dmitriy_2014
Рейтинг
370
Регистрация
01.07.2014
Интересы
Веб-технологии
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

cat urls.txt | xargs -I {} -P 10 sh -c 'echo "{}: $(curl -s -o /dev/null -w "%{http_code}" "{}")"'
Эта команда работает, но объяснить бы поподробней для новичков таких как я, примерно мы берем вывод из файла, передаем его xargs, xargs передает его sh, интерпретатору shell который выполняет curl для каждой ссылки отбрасывая все и оставляя только код ответа.
А почему, ну я понимаю что это наверное не быстро происходит, но я удалил через Инструменты -> Удаление страниц из поиска некоторые долго не удалявшиеся 404 страницы, и даже в Статус пишет что Удалена, но если зайти в Страницы в поиске -> Все страницы и скачать таблицу в CSV то там все еще будут те страницы которые я удалил и имеют Статус Удалена, ну то есть я понимаю что это не мгновенно наверное происходит, но какое время это занимает интересно, хотя в Инструменты -> Удаление страниц Статус поменялся на Удалена достаточно быстро, по моему менее суток, а вот из основной базы когда они удалятся непонятно?
alexbez #:

А также для удаления из индекса тех страниц, что были проиндексированы, но потом ты их закрыл от индексации и хочешь чтобы яндекс выкинул из индекса побыстрее. Ну а если отправить нормальную страницу, то яндекс отклонит такую заявку.


Понял, спасибо!
alexbez #:

Невозможно через этот инструмент случайно удалить нормальную страницу.

Так, а что будет если я вставлю URL нормальной страницы и нажму удалить, она не удалится, это только для удаления ещё не удалившихся сами собой 404-ых получается?
estic #:
Dmitriy_2014 #:Вообще странно, что вы про wget сразу не вспомнили. Это основная "рабочая лошадка" при выкачивании сайтов и т.п.


Я вам сразу написал: PHP CLI, читаете файл (целиком или построчно) и передаете каждую строку в PHP cURL, результат сохраняете в нужном виде.

Да через wget нормально, мне просто посмотреть ответы кодов состояния HTTP по списку URL.

Да я думал что-то простое есть типа как вот на этом сайте - https://coolakov.ru/tools/ping/, скопировал пачку и посмотрел, но там ограничение до 500 URL.
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

Это я уже тоже понял, я просто что-то вспомнил про - пусть каждая программа делает что-то одно, но хорошо, и совсем забыл, это же Linux - стопятсот команд с миллионом параметров в связке через каналы, короче я уже просканировал все через wget, все ОК, но все равно спасибо. И curl как я понял просто так из файла список URL не возьмет сама по себе.
estic #:
Что значит "проверь ссылки"? Этой неопределенностью сквозило еще из первого сообщения 😊
Да, какая уже разница, от этой неопределенности сквозит еще из первого сообщения!
demon155 #:
Что мешает отправить нормальные страницы на переобход роботом?
Так они сами автоматом, разве не переобойдутся, через какое-то время после удаления или они удалятся навсегда?
Artisan #:

$ man man

$ man wget

$ man grep

$ man sh

Вы бы так и сказали:

Что надо:

wget -o log --spider -i links.txt

-i чтобы из файла ссылки взять, но они должны быть списком с каждой новой строки.

--spider чтобы он файлы не скачивал и не сохранял их в виде html страниц.

-o чтобы в файл все сообщения по обойденным ссылкам сохранил в виде лога.

Потом можно посмотреть сколько 404 или 200:

grep 404 log | wc –l

Потом можно посмотреть какие конкретно ссылки с 404:

grep -B 2 404 log

-B чтобы две строки до строки со статусом 404 показались в которой ссылка.

А linkchecker прикольная утилита, но что-то у меня не получилось ей скормить список ссылок из файла.

Наверное, для этих целей лучше curl использовать.

Но, я думал, что есть что-то простое типа: проверьссылки имяфайла
Vladimir #:
У этого сайта есть и меню, и  есть структура сайта, к которой вы не привыкли. Структура которая обеспечивает  максимальный рейтинг для главной и каталогов.

Когда берет злость, начните с изучения  структур сайта, тогда будет понятна одна из основных составляющих 80к.
Я не знаю где вы там меню увидели, там вверху только одна кнопка перехода на главную, ну если это меню со множеством элементов то, ну окей, про какую структуру вы говорите тоже не понятно, если про рубрики, ну то они и как бы и у меня есть и, наверное, у всех. У него еще и великолепный и всем нужный сайдбар абсолютно пустой, да и функций почти ни каких кроме оставить комментарий. Какая у него структура… У меня кстати все всегда в порядке, я просто чуть-чуть недоволен, у меня нету 80К :)
Всего: 2005