Parsim.ru - нужна помощь по javascript - для всеобщего блага и всеобщего парсинга :)

12
euhenio
На сайте с 21.09.2001
Offline
357
#11
Muff:
Вопросы:
Не ясно, нужно ли сейчас парсить wordstat, если есть почти халявный кейколлектор?
Кроме соц.сетей и там где нужна поддержка js, что ещё парсить то нужно?



Чем могу поспособствовать:

Могу написать нормальный мануал как этим вообще пользоваться.
Могу подкинуть пару вещей которые надо парсить под логином для репозитория, если дело пойдёт.

-круто.

Про кейколлектор - ну да, но одно дело под всякую надобность программку ставить, а другое - взять и нажать на кнопочку )

Хорошо было бы по js поспособствовать, типа какую-то простую схему продумать, чтобы парсилки собирать было проще.

Str256:
А какие требования к закладке? Во первых, это только мозилла? Во вторых, флешплеер какой версии нужен? В 10-м, на странице вордастата, нажимаю на закладку - сразу выпадает ошибка:

-я там по живому начал вторую парсилку вордстата делать, но пока не доделал, если речь о ней, то да, там при окончании парсинга чото вылетает. Флеш не нужен. У меня ФФ, на других не проверял, дело будущего )

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
A4
На сайте с 05.01.2012
Offline
55
#12

Прошу прощения у ТС, но я не до конца понял задачу парсера, хотя скрипт ваш start2.js рассматриваю так сказать в живую)) Вам требуется чтобы парсер парсил и скачивал например картинки по определенному кею со страницы? Или не картинки а скажем музыку или еще что-то, так? Ну думаю дальше картинок не пройдет(музыка по прямым линкам мало где лежит) Или даже больше - вы хотите парсить статьи этим букмарклетом или как там его, и сохранять спарсенное в виде файла? Нууу универсальный парсер это слоожно, я такой вам не сделаю. А выдирать картинки - это просто. Ищем на странице все теги <img в alt="" которых есть один из ключевиков и дальшше это как-то сохраняем куда-то хДД Или просто выводим в виде списка, а юзерь сам все сохраняет...(второе прощще) Но опять же не все(!) ставят alt к картинкам(например в соцсетях оно не стоит) Имхо ваша идея стоит разработки - но это утопия

euhenio
На сайте с 21.09.2001
Offline
357
#13
aftamat4ik:
хотя скрипт ваш start2.js рассматриваю так сказать в живую))

-а зачем его рассматривать ) это чисто промежуточное всё

ну какая универсальность.

но простота разработки парсеров - это очень хорошо

сервисов слишком много - на каждый парсера не напасешься )

* и тут есть плавный переход от парсилок к персональным небольшим спамилкам, только методом пост запрос отсылать

A4
На сайте с 05.01.2012
Offline
55
#14
ну какая универсальность.

Хы) То есть под каждый отдельно взятый сайт будет делаться отдельно взятая парсилка? Например под гугловыдачу - 1 код, под яшку другой и так далее? На самые популярные сервисы и сайты(вконтагт, фейсбуг, йоутуб....). Ну тогда нужно вам сниппет на аякс писать, и даные страницы передавать php скрипту. ЗАчем? А вот в пхп скрипте будут обрабатываться полученные данные. В общем из js файла передаем POST запросом урл сайта с которого парсили и html содержимое страницы.

Принимаем это все, и исходя из урла(например это yandex.ru) выбираем правила обработки содержимого. После чего получаем выдачу так сказать, и передаем ее назад скрипту, или со скрипта редиректим на страницу парсера, где будет результат.

Если бы юзался jquery(я без него не могу) Было бы примерно так:

Javascript файл

$.ajax({

url:"/obrabotka.php",//путь к скрипту
data: {url:window.location.href,data:$(document).html()}
tipe:"POST"
}).done(function(data){
alert(data);//результат парсинга
});

PHP файл

//хеадэр контент - типе утф-8 и так далее.....

$url = $_POST['url'];

$html = $_POST['data'];

if($url=="www.yandex.ru" || $url == "yandex.ru"){
//парсим яндекс регулярными выражениями например в переменную result
//после чего
echo $result;
}else

if($url == "www.googlr.com"){
}
....

это так просто от руки набросал, чтоб понятнее было....

А еще на php картинки можно скачать, могу даже код дать хД

function load_image($inputurl){


$filename = substr($inputurl,strrpos($inputurl,'/')+1,strlen($inputurl));//получаем имя файла
$url = $inputurl;
$filename = './images/new'.$filename;//переименовываем, ибо не красиво...
file_put_contents($filename, file_get_contents($url));
set_time_limit(20);
return substr($filename,1,strlen($filename));
}


---------- Добавлено 03.11.2012 в 21:52 ----------

Одна из идей создания универсального парсера тут http://habrahabr.ru/post/147967/

(правда я ее не до конца понял, Там конец материала - это 3 идущих подряд перевода строки. У меня ни на 1 сайте материал так не заканчивается.... Зато идея с получением начала статьи хороша)

Можно даже(если делать оочень долго качественно и с опытным персооналом) с помощью такой схемы сделать платный букмарклет(по дешевке). Например при его запуске будет запрос на логин с паролем и так далее. А на конечном сайте кабинет юзеря, и возможность импорта спарсенного в файлы формата Зебрума, и в дампы(или как там их) баз данных вордпресса и друпала. Ну и уникализатор например забабахать(как я подозреваю к этому все и катится). Опять же использование аякса полностью обезопасит ваш код от чужих на него посягательств хД

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий