- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте!
Необходимо спарсить тайтлы всех страниц указанного сайта, чем это можно сделать?
То есть скрипт/софт бегает по УРЛам сайта и сохраняет <title>содержимое</title> каждой страницы
Можно. Проще будет wget -r, далее парсить заголоки.
ewg777, Не совсем разбираюсь (VPS есть, но с ним на Вы) не могли бы Вы скинуть готовую солюшину?
ewg777, Не совсем разбираюсь (VPS есть, но с ним на Вы) не могли бы Вы скинуть готовую солюшину?
Опять и снова.
Здесь принято/положено/надо обсуждать именно техническую сторону вопроса.
Хотите солюшн? В спец раздел или обращайтесь лично к специалистам.
TAFF, карта хмл сайта есть?
Есть похожий софт, могу заточить под этот вопрос и пропарсить что нужно. Сам софт дать не могу.
TAFF, карта хмл сайта есть?
Нету
Есть похожий софт, могу заточить под этот вопрос и пропарсить что нужно. Сам софт дать не могу.
Хрефер?
TAFF добавил 20.02.2010 в 15:35
TAFF, карта хмл сайта есть?
Протупил... Есть!
Протупил... Есть!
а там разве тайтлы не указаны?? может банально убрать не нужные тэги и пересохранить в нужный формат.
а там разве тайтлы не указаны?
Нет, не указаны...
Вообще желательно не привязываться к карте сайта, она есть не везде, желательно:
скрипт/софт бегает по УРЛам сайта и сохраняет <title>содержимое</title> каждой страницы
Хрефер?
Самописный.
Тогда все легко и просто
$url = "http://site.ru/sitemap.xml";
function FetchUrl($url, $postvars, $timeout, $ref, $blank){
sleep($timeout);
echo @date("r")." fetching $url \r\n";
$ch = curl_init();
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_TIMEOUT,30);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_URL, trim($url));
curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE);
$result = curl_exec($ch);
if($blank == "1"){
$result = preg_replace("/\n/", "", $result);
$result = preg_replace("/\r/", "", $result);
}
curl_close($ch);
return $result;
}
$page = FetchUrl($url, NULL, NULL, NULL, NULL);
preg_match_all("!<loc>(.*?)<\/loc>!si", $page, $out);
foreach($out[1] as $link){
$page = FetchUrl($link, NULL, NULL, NULL, NULL);
preg_match("!<title>(.*?)<\/title>!si", $page, $tit);
exec("echo '".$link."|".trim($tit[1])."' >> ready.txt");
}
?>
урлы в файле ready.txt