Написал свой первый граббер...

128

Alkoshenko

22 июля 2012, 18:26

1914

Решил попрактиковаться.

Подопытный - это мой сайт

Решил с простенького: со всех страниц моего сайта спарсить название страниц(то, что между тегом h1, он у меня один на странице)

Все старницы взял с sitemap.xml

ну и каждую страницу загонял в переменную функцией file_get_contents и потом регуляркой брал, то что мне надо.

в итоге получилось вот такое чудо - сам граббер (где-то минуту-две парсит данные)

и сам код граббера


<?php



echo "

<style>

h1{font-size: 16px;}

table{

    padding: 0!important;

    font-size: 12px;

    color: #6E9F17;

   border-collapse: collapse;

}

td{

    padding: 5px;

    border: 2px solid #e5e5e5;

}

tr:hover{background-color: #efefef;}

</style>\n

";

$contents = file_get_contents('http://www.gistoryja.ru/sitemap.xml');



preg_match_all("/[<][l][o][c][>].*.[<][\/][l][o][c][>]/",$contents, $c);



$i = count($c[0])-1;





while ($i != 0)

{

  $c[0][$i] = strip_tags($c[0][$i]);

  $contents = file_get_contents($c[0][$i]);

  preg_match("/[<][h][1][>].*.[<][\/][h][1][>]/",$contents, $array);

  $i2 = 0;

  $array2[] = $array[$i2];

  $i2++;

  $i--;

}



echo '<table width="100%">';

foreach ($array2 as $item)

{

  echo "<tr>";

  echo '<td>' . $item . '</td>';

  echo "</tr>";

}



echo '</table>';

У меня вопрос: чего он так долго парсит? Можно как-нибудь увеличить скорость работы парсера?

Я примерно правильно всё сделал или есть способы парсинга получше?

1762

LEOnidUKG

22 июля 2012, 18:54

#1

Это зависит от вашего провайдера и провайдера сервера.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

196

Милованов Ю.С

22 июля 2012, 19:04

#2

Попробуйте залить парсер на свой сайт, и тогда заработает быстрей:)

Леонид правильно Вам сказал, все дело в соединении(скорость). Пока скрипт зачитает файл, пока регуляркой пройдется(по всему файлу!) и т.д. К тому же для ПХП регулярки это ресурсоемкий процесс. Насколько знаю, ПЁРЛ с регэкспами более дружен и работает намного быстрей. Если есть потребность в парсинге чего-то емкого - юзайте ПЁРЛ.

Подпись))

Как выбрать хостинг: часто Google: сканирование не зависит Google Analytics добавил в

A

128

Alkoshenko

22 июля 2012, 19:11

#3

есть всякие веб-сервисы которые чекают позиции сайта.

Они же сами инфу не придумывают, а парсят данные с выдачи ПС, так же?

Почему они быстро работают? Почти моментально вроде как.

196

Милованов Ю.С

22 июля 2012, 19:16

#4

Наверное всякие яндексы имеют деньги на норм выделенный канал, и возможно чекеры имеют норм канал. Попробуйте сами с яндекса спарсить первые 10 тайтлов сайтов, которые в выдачу попадают и посмотрите.

427

siv1987

22 июля 2012, 19:19

#5

/[<][l][o][c][>].*.[<][\/][l][o][c][>]/

Лол.

/<loc>(.+?)<\/loc>/

A

128

Alkoshenko

22 июля 2012, 19:22

#6

Милованов Ю.С, попробую)

siv1987, когда-то читал про эти регулярки, но всё забылось. Надо опять будет почитать.

427

siv1987

22 июля 2012, 19:29

#7

siv1987, когда-то читал про эти регулярки, но всё забылось. Надо опять будет почитать.

Да вам бы не только про регулярки почитать, не мешало бы еще и про foreach, можно вдвое сократить этот г-код.

88

ArtBlogger

22 июля 2012, 19:34

#8

file_get_contents вне зависимости от скорости соединения работает очень долго, советую для начала присмотреться к curl, а затем можно и multicurl попробовать. Я обычно пишу парсеры так: получаю страницу через функцию curl, через регулярку собираю все ссылки на статьи, передаю массив ссылок в multicurl, получаю массив результатов, экспортирую его на нужный сайт и перехожу к следующей странице. В multicurl указываю количество потоков равное количеству ссылок на странице. Получается самый оптимальный вариант парсинга по скорости.

1

Google начал просить пользователей Автоматизация сбора данных для Как робот Яндекса индексирует

A

128

Alkoshenko

22 июля 2012, 19:38

#9

ArtBlogger, спасибо, почитаю про этот curl

---------- Добавлено 22.07.2012 в 23:45 ----------

А можно сделать граббер, который авторизируется на каком-нибудь сайте и потом уже делает свои дела...

или который может отпралять POST запросы...? :)

Gigya: 88% пользователей в Google тестирует новый формат Google внёс изменения в

1762

LEOnidUKG

22 июля 2012, 19:50

#10

А можно сделать граббер, который авторизируется на каком-нибудь сайте и потом уже делает свои дела...

Вот как раз CURL это и умеет.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Open AI тестирует память для ChatGPT