- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый вечер!
Есть карта сайта sitemap.xml, необходимо извлечь все ссылки для определения параметров страниц.
Какой программой или скриптом можно реализовать?
Сканировать сайт не вариант.
Буду благодарен за советы.
Content Downloader это делает точно.
shell есть?
grep и awk легко сделают.
Есть карта сайта sitemap.xml, необходимо извлечь все ссылки
Любой правильный блокнот с поддержкой регулярок.
Только причем тут
для определения параметров страниц.
?
Только причем тут
Наверное, ТС хочет запулить эти ссылки в какую-то программу.
Наверное, ТС хочет запулить эти ссылки в какую-то программу.
Мб. Но зачем эта инфа в "ТЗ" (неполная\непонятная)? :)
Любой правильный блокнот с поддержкой регулярок.
Только причем тут
?
Спасибо!
Сегодня был ап PR и хотелось бы все страницы сайта проверить на + -
Вот скрипт допилить руками вывод под себя
---------- Добавлено 06.12.2013 в 20:55 ----------
http://pochesnomu.ru/pr/ можете сразу проверить пыр внутряков
$lines = file('sitemap.xml');
$allMatches = array();
foreach ( $lines as $line_number => $line ) {
$line = trim($line);
preg_match_all('/(?<=\<loc\>)(.*?)(?=\<\/loc\>)/U', $line, $matches,PREG_SET_ORDER);
if($matches){
if ( $matches[0][0] != '' ) {
$allMatches[] = $matches[0][0];
};
};
};
$list = '';
foreach ( $allMatches as $url ) {
$list .= $url."\n";
};
$fh = fopen('urllist.txt', "w+");
fwrite($fh, $list);
fclose($fh);
// print out list to provide some feedback...
echo $list;
Тоже работает
Немного проще вариант :)
$myxml = file_get_contents("sitemap.xml");
preg_match_all("#<loc>(.+?)</loc>#i", $myxml, $match);
$allurl = implode("\r\n", $match[1]);
$fh = fopen("allurl.txt", "w+");
fwrite($fh, $allurl);
fclose($fh);
echo $allurl."<h2>Готово</h2>";
Что-то не впечатляет PHP в этой задаче.
Вот на sh:
cat sitemap.xml | grep http: | awk -F \<loc\> '{print $2}' | awk -F \</loc\> '{print $1}' | sort -u