Файлзиллу не советую.
Я сам раньше с файлзиллой работал - доканало, то ошибки при подключении по 21 порту выдавал, то имена файлов в win-1251 кодировке заливал.... Сейчас на winscp перешел - лучшего пока не видел)
Хы) То есть под каждый отдельно взятый сайт будет делаться отдельно взятая парсилка? Например под гугловыдачу - 1 код, под яшку другой и так далее? На самые популярные сервисы и сайты(вконтагт, фейсбуг, йоутуб....). Ну тогда нужно вам сниппет на аякс писать, и даные страницы передавать php скрипту. ЗАчем? А вот в пхп скрипте будут обрабатываться полученные данные. В общем из js файла передаем POST запросом урл сайта с которого парсили и html содержимое страницы.
Принимаем это все, и исходя из урла(например это yandex.ru) выбираем правила обработки содержимого. После чего получаем выдачу так сказать, и передаем ее назад скрипту, или со скрипта редиректим на страницу парсера, где будет результат.
Если бы юзался jquery(я без него не могу) Было бы примерно так:
Javascript файл
$.ajax({ url:"/obrabotka.php",//путь к скрипту data: {url:window.location.href,data:$(document).html()} tipe:"POST" }).done(function(data){ alert(data);//результат парсинга });
PHP файл
//хеадэр контент - типе утф-8 и так далее..... $url = $_POST['url']; $html = $_POST['data']; if($url=="www.yandex.ru" || $url == "yandex.ru"){ //парсим яндекс регулярными выражениями например в переменную result //после чего echo $result; }else if($url == "www.googlr.com"){ } ....
это так просто от руки набросал, чтоб понятнее было....
А еще на php картинки можно скачать, могу даже код дать хД
function load_image($inputurl){ $filename = substr($inputurl,strrpos($inputurl,'/')+1,strlen($inputurl));//получаем имя файла $url = $inputurl; $filename = './images/new'.$filename;//переименовываем, ибо не красиво... file_put_contents($filename, file_get_contents($url)); set_time_limit(20); return substr($filename,1,strlen($filename)); }
(правда я ее не до конца понял, Там конец материала - это 3 идущих подряд перевода строки. У меня ни на 1 сайте материал так не заканчивается.... Зато идея с получением начала статьи хороша) Можно даже(если делать оочень долго качественно и с опытным персооналом) с помощью такой схемы сделать платный букмарклет(по дешевке). Например при его запуске будет запрос на логин с паролем и так далее. А на конечном сайте кабинет юзеря, и возможность импорта спарсенного в файлы формата Зебрума, и в дампы(или как там их) баз данных вордпресса и друпала. Ну и уникализатор например забабахать(как я подозреваю к этому все и катится). Опять же использование аякса полностью обезопасит ваш код от чужих на него посягательств хД
Прошу прощения у ТС, но я не до конца понял задачу парсера, хотя скрипт ваш start2.js рассматриваю так сказать в живую)) Вам требуется чтобы парсер парсил и скачивал например картинки по определенному кею со страницы? Или не картинки а скажем музыку или еще что-то, так? Ну думаю дальше картинок не пройдет(музыка по прямым линкам мало где лежит) Или даже больше - вы хотите парсить статьи этим букмарклетом или как там его, и сохранять спарсенное в виде файла? Нууу универсальный парсер это слоожно, я такой вам не сделаю. А выдирать картинки - это просто. Ищем на странице все теги <img в alt="" которых есть один из ключевиков и дальшше это как-то сохраняем куда-то хДД Или просто выводим в виде списка, а юзерь сам все сохраняет...(второе прощще) Но опять же не все(!) ставят alt к картинкам(например в соцсетях оно не стоит) Имхо ваша идея стоит разработки - но это утопия
Забей на все книги)) Хотя не, изучи с++ по книжке(он на пхп похож), указатели можешь не учить(хотя в с++ без указателей тууго). Главное массивы циклы,условия, функции, основы ооп... Даже не С++ - выучи Си#, так вернее будет. И учи не на виндовс формз а на консоли. То - есть пиши консольные приложения. Ну я так начинал с си и кончил пхп. На это дело ушло 3 года хДД и я еще полный профан, всего пару серьезных вещей осилил. Хочешь быстрее? Сечас есть такая вещ как видеоуроки. Скачай видеоуроки по работе с COdeIgniter или ZendFramework или чем-то подобным. Там все описывается. Выучив все это ты сможешь даже подрабатывать фрилансом. Короче вещ полезная. По мере обучения и с джабаскриптом познакомишься и с цсс(там все вообще очень просто)...
Благодарю)) Теперь знаю куда копать)
О да я такой(думаю не 1 я, судя по тому что у чела творится хД)) А на счет коварства то лучше приставить нож к горлу и попросить, чем просто попросить... Ибо в этом случае человек у которого просиш радуется в двойне) Радуется что ему дали жить дальше и радуется тому что помоч сумел хД😂 И к стати возможно из-за платности битрикса сайты на нем потенциальному хакеру кажутся более привлекательными, так как на платных CMS 100% СДЛ делают(наверное...) Вот он и ломает их. ссылка с сдл по идее стоит гораздо больше... Вот это и объяснение. Думаю будь у вас на джуле или вордпрессе сайты с хорошим тиц - он ломал бы их.
Возможно это у вас по серверу вирус гуляет - ибо все признаки на лицо. Вы считаете что сайты ломают через sql инъекции и прочий бред? По мне так у вас где-то троян сидит или червяк.... Возможно кто-то из вашей фирмы написал деймон и запустил его. Этот деймон, например, позволяет получить пароли от сайтов. Я например кгда сайт универа делал и отдавал учетку главного админа сделал так: создал в папке(защищенной хтакесс паролем) файл, который выводит содержимео файла configuration.php в джумле. Таким образом я получил доступ к фтп и mysql.... Теперь если выпрут из универа - хана им хДД Учитесь елки палки.... Вы никого на днях не увольняли?)) Просто может этот чел тоже хитрым оказался....
_________________________________
Ага) Так вам буржуям и надо. Да здравствуют те кто ломает платные CMS хД
Зарегался таки) Создал проект, выбрал тематику, отфильтровал... Посмотрел. Ничего так сайты - я бы не сказал что сателлиты - прям сдл. Приятные дизайны, к каждому материалу картинки и прочее и прочее) Даже у тех что имеют 0 пузомерки. Специалисты прям делают)
Вот вот) Парсер написать труда то не составило, уже написал точнее. Но только не уник он парсит, и опять - же что парсить то?))
Скачал с торрента архив рефератов, вбил в гугл 1 строку - и вышло 31 200 результатов хДД https://www.google.ru/search?complete/search?client=hp&hl=ru&gs_nf=3&tok=Rvpk4YFod5YXD2DcOD-qJg&cp=115&gs_id=f&xhr=t&q=%D0%9F%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%BE%D0%B5%20%D1%80%D0%B5%D0%B3%D1%83%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D1%8F%D0%B5%D1%82%20%D1%81%D0%BE%D0%B1%D0%BE%D0%B9%20%D1%81%D0%BB%D0%BE%D0%B6%D0%BD%D1%8B%D0%B9%20%20%D0%B8%20%20%D0%BC%D0%BD%D0%BE%D0%B3%D0%BE%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BD%D1%8B%D0%B9%20%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%2C%20%D0%BE%D1%81%D1%83%D1%89%D0%B5%D1%81%D1%82%D0%B2%D0%BB%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%20%D1%81%20%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E%20%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D1%85%20&ech=1&psi=T5GJUO-1Gu7Z4QTG4YC4AQ.1351192911657.1&emsg=NCSR&noj=1&ei=T5GJUO-1Gu7Z4QTG4YC4AQ
Видимо я чем то не тем страдаю...
А сгенерить сам сайт в принципе не сложно - Зебрум лайт)) Можно даже таблицу стилей для темы генерить на пхп так-то))
Вроде все просто - но что то не хочется мне сделанные такм образом сайты в сапу выкладывать - ох и не окупятся они...
Фантазия хДД
Это конечно странно, но ссылки с joomla сайтов в sape покупают плохо. Возможно из - за большого числа дублей страниц в самой джумле(больше ничего не придумал). Гораздо лучше там висят такие движки как Wordpress и Друпал. Это странно но с вордпресс сайта, с гораздо более плохим контентом ссылки покупаются активние, чем с сайта на джумле - что странно...
Относительно вопроса ТС - код сапы добавлять в шаблон(тему) сайта. Например у меня шаблон сайта состоит из нескольких файлов(head.php body.php и footer.php) поэтому я вставил в начало файла head.php такой код:
<?php global $sape; if (!defined('_SAPE_USER')){ define('_SAPE_USER', '(тут имя папки с кодом сапы)'); } require_once($_SERVER['DOCUMENT_ROOT'].'/'._SAPE_USER.'/sape.php'); $sape = new SAPE_client(); ?>
Ну и потом в футере, например вставляеться код на вывод самих ссылок.