Вопросы новичков. Часть 3

stev
На сайте с 21.06.2009
Offline
152
#831
lipton:
это пока сложновато ). мне бы совсем для тупых, чтобы одно окошко. вставил урл- получил список. всё, что я нашел - либо не то, либо ссылки нерабочие, либо сложное типа такого.
ладно, спасибо, будем искать. )

Ввести url сайта, отметить <title> и </title>, и нажать кнопку запуска - это сложно? 😕

Палим приватные темы ➔ Slivup.Biz (http://goo.gl/Etp8gO) Прокси: 1 IP от 16 руб. 5 дней здесь (https://vk.cc/akA6wg).
lipton
На сайте с 30.06.2006
Offline
110
#832
stev:
Ввести url сайта, отметить <title> и </title>, и нажать кнопку запуска - это сложно? 😕

в описании ничего про это.

Парсер Content Downloader используют, чтобы спарсить:

– товары из интернет-магазинов в CSV таблицы (столбцы в таблицах настраиваются под нужные Вам параметры);

– тексты, статьи, описания;

– фотографии, картинки, изображения на компьютер;

– файлы (например, парсинг flash-игр, рефератов, торрентов);

– контактные данные: e-mail, телефонные номера, адреса, Skype и т.д. (сохранение полученных данных в TXT, или HTML, или CSV форматы на выбор);

– скрытую (hidden) информацию, которая становится визуально отображаемой только после выполнения действия (например, нажатия на кнопку «показать номер» или «показать контактные данные» — эта функция доступна только в лицензии ULTIMATE);

– данные, которые доступны только после авторизации пользователя на сайте;

– ссылки с сайта по заданным параметрам и фильтрам;

– отдельные части кода страницы WEB-документа (сохранение данных в нужном Вам формате);

– XML-карту сайта.

и н.х мне все это (ну сейчас по кр. мере), если мне нужно тупо спи..ть титлы?

я ж знаю, что есть простые скрипты, по быстрому найти не смог, думал кто-то посоветует.

ага..) да сам найду, говно вопрос. )

J-ran
На сайте с 24.06.2012
Offline
262
#833
lipton:
по быстрому найти не смог, думал кто-то посоветует

Попробуй Xenu’s Link Sleuth. Там есть в файле экспорта отчёта и все title сайта в том числе. Правда, не помню в TXT или нет. Прога бесплатная, десктоп.

lipton
На сайте с 30.06.2006
Offline
110
#834
J-ran:
Попробуй Xenu’s Link Sleuth. Там есть в файле экспорта отчёта и все title сайта в том числе. Правда, не помню в TXT или нет. Прога бесплатная, десктоп.

спс, попробую. )

stev
На сайте с 21.06.2009
Offline
152
#835

lipton, а тебе сайт надо парсить или sitemap.xml?

Если второе, то вот:

<?php

$url = "http://сайт.ru/sitemap.xml";

function FetchUrl($url, $postvars, $timeout, $ref, $blank){

sleep($timeout);

echo @date("r")." fetching $url \r\n";

$ch = curl_init();

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);

curl_setopt($ch, CURLOPT_HEADER, false);

curl_setopt($ch, CURLOPT_TIMEOUT,30);

curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

curl_setopt($ch, CURLOPT_URL, trim($url));

curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE);

$result = curl_exec($ch);

if($blank == "1"){

$result = preg_replace("/\n/", "", $result);

$result = preg_replace("/\r/", "", $result);

}

curl_close($ch);

return $result;

}

$page = FetchUrl($url, NULL, NULL, NULL, NULL);

preg_match_all("!<loc>(.*?)<\/loc>!si", $page, $out);

foreach($out[1] as $link){

$page = FetchUrl($link, NULL, NULL, NULL, NULL);

preg_match("!<title>(.*?)<\/title>!si", $page, $tit);

exec("echo '".trim($tit[1])."' >> ready.txt");

}

?>

Во ворой строке вводи ссылку на сайтмапу, запускай в браузере и жди.

Спарится в файл ready.txt.

зы: поиском по Сёрчу скрипт нашел, есличо.

Проверил, парсит.

[Удален]
#836

как Пастухов напарсил миллиард кеев?

lipton
На сайте с 30.06.2006
Offline
110
#837

stev, спс. парсить надо конкретные сайты.

на форуме я тоже искал, но.. )

Kuloresov
На сайте с 15.10.2007
Offline
178
#838
lipton:
а тайтлы кто-то парсит? если да, подскажите плз простой скриптик. так, чтобы урл морды вставил, а на выходе все титлы с сайта в тхт. спс )

расчехлил... 😂

https://yadi.sk/d/PNG5ufkF3ErRJE

Только что набросал скриптик, на BAS, он делает полностью рабочую программку, при первой установке распаковывается долго, 1 минуту, но потом запускается быстро.

Mish-ka
На сайте с 08.06.2011
Offline
407
#839
lipton:
спс. парсить надо конкретные сайты.
на форуме я тоже искал, но.. )

Блин, да качните вы сеоспайдер, по моей ссылке выше.

Там урл морды вставил и все. Через 3 минуты на выходе все тайтлы, дескрипшены, Н1, Н2, и еще куча интересных вещей.

Прога простая, как двери и должна быть мастхэв у любого сеошника или дорвейщика.

В фри версии ограничение - 500 страниц.

На торрентах есть без ограничений.

UPD. Вот, как специально для вас тема. )))

/ru/forum/958456

Серч уже не торт => https://se.guru
[Удален]
#840
Mish-ka:
Блин, да качните вы сеоспайдер, по моей ссылке выше.
Там урл морды вставил и все. Через 3 минуты на выходе все тайтлы, дескрипшены, Н1, Н2, и еще куча интересных вещей.
Прога простая, как двери и должна быть мастхэв у любого сеошника или дорвейщика.
В фри версии ограничение - 500 страниц.
На торрентах есть без ограничений.

UPD. Вот, как специально для вас тема. )))
/ru/forum/958456

тут особо и прог не надо. java + jsoup. делается за час-другой

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий