- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Многопоточный парсер контента.
На входе: урл сайта.
На выходе (опционально):
- список линков
- текстовое содержание всех страниц (без тэгов)
- выборочное содержание страниц (частичный парсинг)
Для тонкой настройки парсинга имеется блэклист и вайтлист + парсинг по шаблону. Можно парсить определенные страницы. Скачать и все остальное можно по линку в подписи.
p.s. копипаст наше все. :)
А возможность парса картинок будет в дальнейшем? А то сейчас что то не нашел...
пример парсенного текста?
как происходит выборка "нужного" контента? или парсится весь текст вподряд и на выходе получается что-то типа такого:
ДомойНачалоКонтакт Продукция нашего завода составляет значительную часть Фото.1Токарный станок потребления рынка
number4, нормально парсится, если юзать парсинг по шаблону (спарсит то, что сам пропишешь). При парсинге всего текста страницы, возможны казусы, конечно.
"парсить" картики можно любым даунлоад менеджером, вначале, отпарсив на них линки. Но это просто сделать, на самом деле. посмотрю на днях.
сделайте тогда парсинг какого-нибудь сайта (кроме новостных порталов), тематика и сложность сайта не важна.
выложите килобайт контента и урл откуда был спарсен контент.
Крутая штука! Очень. Но я никак не могу ничего спарсить. Приведите пример какого-нибудь сайта и выложите ПОЖАЛУЙСТА шаблон (название блока, начало, конец). Конкретно. Заранее очень-очень благодарен.
Что такого крутого в парсере, которым можно немочь что-либо спарсить)))
abcdoor, сайт http://www.sigraem.com/
[blockname]main_screen[/blockname][start]div align="left"> <div align="center"><img src="[/start][stop]"[/stop]
[blockname]title[/blockname][start]<title>[/start][stop]</title>[/stop]
[blockname]main_text[/blockname][start]<DIV class=text1>[/start][stop]<div class="quote">[/stop][-cleantext]
[blockname]screens[/blockname][start]target="_blank"><img src="[/start][stop]"[/stop][-all]
жмешь save, в вайтлист пишешь .html
на выходе, например (парсер удаляет все форматирование, за исключением тега br):
<title>Prison Break: The Conspiracy (2010/RUS/ENG/RePack by REXE) » Скачать игры</title>
<main_screen>http://10pix.ru/img1/2685/1808208.jpg</main_screen>
<main_text>
<br><br> Prison Break – это экшен с видом от третьего лица, создаваемый на основе одноименного телевизионного сериала, известного российским зрителям под названием "Побег". Действие игры разворачивается параллельно событиям первого сезона "Побега". В игре Prison Break вам предстоит управлять человеком по имени Том Пэкстон. <br>
Информация об Игре <br> Название: Prison Break: The Conspiracy <br> Жанры: Adventure / Action (Shooter) / Stealth / 3rd Person <br> Язык Интерфейса: Русский (текст) / Английский (озвучка)<br> Год выпуска: 2010 <br> Разработчик: ZootFly <br> Издатель: Deep Silver <br> Тип издания: RePack <br> Таблетка: Не требуется <br> Формат файла: .iso <br> Платформа: PC <br> Размер файла: 1.12 Gb <br><br>Он является агентом так называемой "Компании" - организации, которая подставила Линкольна. Его отправляют в тюрьму для того, чтобы выяснить, зачем Майкл Скофилд попытался ограбить банк. Герою предстоит столкнуться с некоторыми персонажами, которые фигурировали в телесериале, а так же исследовать территорию тюрьмы "Фокс Ривер" и сразиться с противниками. <br><br> <br><br> Особенности RePack'a <br>> Hичего не вырезано / не перекодировано <br>> Использован русификатор от ENPY Studio<br>> RePack by REXE<br><br> Системные требования: <br>> Windows XP / Vista / Windows 7 <br>> Intel Core 2 Duo <br>> ОЗУ 256 Мб <br>> Видеокарта 256 Мб совместимая с Direct X <br>> 6 Гб свободного места на диске <br>> Звуковая плата, совместимая с DirectX 9.0 <br><br> MD5: d9f239a05162d3f6e5c9ea3a4cbb30c0<br><br> Скачать игру - Prison Break: The Conspiracy (2010/RUS/ENG/RePack by REXE) <br></main_text>
<screens>
http://10pix.ru/img1/2572/1808201.th.jpg
http://10pix.ru/img1/2653/1808205.th.jpg
http://10pix.ru/img1/2669/1808206.th.jpg</screens>
п.с. на блоге я писал как им пользоваться
Что такого крутого в парсере, которым можно немочь что-либо спарсить)))
Это что-то типо того, когда ты всю жизнь юзал paint и рисовал в нем члены. А потом тебе на комп поставили фотошоп, ты нихрена не можешь сделать, но рабости просто полные штаны)
А возможность парса картинок будет в дальнейшем? А то сейчас что то не нашел...
данные удалены
Картинки можно спарсить отдельно Парсером Картинок:
/ru/forum/520201
ты даже насрать нормально не можешь.
верни пост, плакса.