Как спарсить url и title всех страниц сайта?

12
Stravinsky
На сайте с 06.09.2007
Offline
110
7676

Subj. С минимальным количеством гемора какие есть способы?

Financia
На сайте с 03.06.2009
Offline
230
#1

Netpeak Spider

M
На сайте с 09.12.2016
Offline
27
#2

Content Downloader-прога платная но она того стоит. Для доров отличная штука

ключевые слова книги 435070 слов: Название;Автор;Описание;Ссылка на картинку ключевые слова торрент 1699115 слов: Название;Описание ключевые слова скачать. 8057953. Почищено от дублей, стоп-слов
Mish-ka
На сайте с 08.06.2011
Offline
414
#3

Screaming Frog SEO Spider

Серч уже не торт => https://se.guru
orka13
На сайте с 28.03.2011
Offline
102
#4

Проверить, вдруг Sitemap.xml присутствует.

Продажи шаблона Google-Translate (Гугл Переводчик), скорость: 20 млн ключей/час, с прокси, без API. (http://zennolab.com/discussion/threads/prodazhi-shablona-google-translate.43684/) Переводит ключи, статьи, HTML+PHP файлы (целые сайты, доры) с сохранением верстки!
L
На сайте с 25.12.2013
Offline
314
#5

Ксену пройти все страницы сайта, а потом php скриптом распарсить их на тайтлы. Бесплатно, сердито и довольно быстро.

Недорогой, надежный и отзывчивый VPS хостинг ( https://bit.ly/3eXUnNN ) Проверенная пуш партнерка с ежедневными выплатами ( https://vk.cc/9wLSrL)
one
На сайте с 15.04.2007
Offline
336
one
#6
Mish-ka:
Screaming Frog SEO Spider

Я за него. Приятный интерфейс, мощный функционал, широкая статистика. Лежит на торентах.

Xenu какой то деревянный на мой взгляд.

Решения для автоматизации действий ( https://www.facebook.com/automationstudio20/ ) в интернете.
tatiananatolna
На сайте с 03.10.2016
Offline
25
#7

Для решения этой задачи вы можете воспользоваться следующими ресурсами:

http://backlinks-checker.dimax.biz/tools/parser_title_description.php

https://netpeaksoftware.com/spider

https://www.screamingfrog.co.uk/seo-spider/

AESCBC192
На сайте с 11.06.2016
Offline
51
#8


ini_set( "display_errors" , 1 );

error_reporting( E_ALL / ^ E_DEPRECATED ^ E_NOTICE );

set_time_limit( 0 );

ini_set( "memory_limit" , "1512M" );

header( "Content-Type: text/plain;" );

/**
* site URL
*/
$site_url = "site.com";
$site_url = "http://" . $site_url;

/**
* first request to site
*/
$main_page_content = file_get_contents( $site_url );

if ( strlen( $main_page_content ) != 0 && !empty( $main_page_content ) )
{
$aregxp = "<a.+?href\s*?=['"](\S+?)['"] [^>]>";

preg_match_all( $aregxp , $main_page_content , $page_self_urls_conds );

$filtrated = array( );
foreach ( $page_self_urls_conds as $url )
{
if ( stristr( $url , $site_url ) OR $url[0] == "/" )
{
$filtrated[ ] = $url;
}
}

$max_requests_count = 1000;

$used_urls = array( );

$filtrated = array_unique( $filtrated );

while ( count( $filtrated ) || $max_requests_count != 0 )
{
$max_requests_count--;
$page_content = file_get_contents( $site_url );
if ( strlen( $main_page_content ) != 0 && !empty( $main_page_content ) )
{
preg_match_all( $aregxp , $main_page_content , $page_self_urls_conds );

foreach ( $page_self_urls_conds as $url )
{
if ( ( stristr( $url , $site_url ) OR $url[0] == "/" ) AND !in_arry( $url , $filtrated ) AND !in_array( $url , $used_urls ) )
{
$filtrated[ ] = $url;
}
}
}

$used_urls[ ] = $site_url;

$result = implode( "\r\n" , array_map("trim" , $filtrated ) );
$fp = fopen( "result.txt" , "w" );
fwrite( $fp , $result );
fclose( $fp );
unset( $fp , $result );
}

}

exit( 0 );

+ дебаг, если нужен, так как набирал прям в окне сообщения.

S
На сайте с 21.08.2017
Offline
2
#9

***93;(\S+?)***91 что это такое в скрипте не работает скрипт.

Ищу партнера - инвестора для запуска wap click партнерки. (/ru/forum/971046)
master_jeday
На сайте с 15.05.2010
Offline
231
#10

Вот давно скрипт валяется. https://yadi.sk/d/mwgkr--V3MHryU Парсит тайтлы с sitemap.xml.

В f1 - урл карты сайта. В f2 куда сохранять.

Дорвеи на заказ с гарантией трафика ( /ru/forum/993918 ) >>> Осторожно, в телеге/скайпе есть клоны! Проверяйте, что общаетесь именно со мной через личку!
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий