Где брать user-agent для парсера? Я знаю где.

humbert
На сайте с 16.03.2006
Offline
536
2276

Где брать user-agent для своего парсера?

В логах своих посещаемых сайтов

set_time_limit(0);

$a_user_agents=array();
$files=scandir("logs");
for($i=2;$i {$file_handle = @fopen("logs/".$files[$i], "r");
while (!feof($file_handle))
{$line = fgets($file_handle);
preg_match_all('/"(.*?)"/si', $line, $user_agent);
$a_user_agents[]=$user_agent[1][count($user_agent[1])-1];
}
@fclose($file_handle);
}

$a_user_agents=array_unique($a_user_agents);
sort($a_user_agents);
echo implode("<br>", $a_user_agents);

Создайте любой файл с расширением php, скопируйте в него код, что представлен выше. Создайте папку logs, залейте туда логи своих посещаемых сайтов (не надо большие логи, достаточно 1-2 мб веса). Запустите скрипт и вот вам список юзер-агентов, которые посещают ваш сайт.

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
ewg777
На сайте с 04.06.2007
Offline
225
#1

Зачем так сложно?

http://www.useragentstring.com/pages/useragentstring.php

http://www.user-agents.org/

http://www.google.ru/search?hl=ru&q=user+agents+list&lr=&aq=0&oq=user+agents+

p.s. для чего так много кода? file + foreach гораздо быстрее

humbert
На сайте с 16.03.2006
Offline
536
#2

file не съест большой файл, а действительно положит сервер:)

Да и просто люблю придумывать то, что давно придумано, свое оно роднее. Пусть код и коряв, но работает.

Да и дает реальные результаты по юзер-агентам сайта, мало ли кому интересно станет кто ходит по его сайту

[Удален]
#3

humbert, знали бы вы bash, обошлись бы в 1 строчку ... cat logs/*.log | awk "{ print $8; }" | uniq

что нить такое =))

R
На сайте с 29.02.2008
Offline
16
rgu
#4

[ATTACH]39518[/ATTACH]

только вчера нагуглил, почти 4К :)

ПС.

За скрипт спасибо!

Пошел изучать логи :))

zip user_agents.zip
Пассивный заработок (http://artriva.ru/article/informaciya-o-fotobankax.html) на фотографиях. Статистика (http://artriva.ru/tools/li/) liveinternet.ru для любого сайта
zmitrok
На сайте с 18.01.2008
Offline
50
#5

humbert, интересный подход, ведь так можно не только UA добывать!

T.R.O.N
На сайте с 18.05.2004
Offline
314
#6
humbert:
Где брать user-agent для своего парсера?

а зачем его брать. Хоттите чтобы к Вам относились нормально, подписывайте парсер нормально, своим именем. Если же делате что-то не очень хорошее, по UA банить и так не будут.... К тому-же, просто откройте логи совего сайта и выберите все уники. Получится несколько тысяч. Только накой....

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
humbert
На сайте с 16.03.2006
Offline
536
#7

Ну тут вопрос не в том зачем, а где. Этож можно спросить про то, зачем самому делать пельмени, когда можно готовые купить.

Я считаю себя кодером и мне просто интересно работать с разными данными, в том числе и с их обработкой и структурированием, вот сидел и написал, может кому и пригодится:)

humbert добавил 24.07.2009 в 13:55

P.s. вот сейчас сижу и пишу парсер прокси. Понятно, что есть готовые варианты, но мне хочется свое.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий