- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?
Просьба оценить сам алгоритм. Если возникают баги при парсинге текст урл плиз в личку.
Если возникнут желающие, то на основе этого алгоритма можно сделать полноценный парсер с подгрузкой всех страниц домена и т.д.
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?
Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).
Хорошенько бы оттестировали и все ок, почти готовый продукт :).
А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).
ну так себе:
<hr> burunduk
06.03.2008 17:59
Андрей
06.03.2008 18:15
99th
06.03.2008 18:30
06.03.2008 22:07
99th
06.03.2008 22:31
06.03.2008 23:26
06.03.2008 23:29
99th
06.03.2008 23:42
06.03.2008 23:57
99th
07.03.2008 00:02
07.03.2008 00:09
99th
07.03.2008 00:10
Alexander
07.03.2008 09:54
tyt1
07.03.2008 10:50
tyt1
07.03.2008 10:52
tyt1
07.03.2008 11:40
99th
07.03.2008 13:26
tyt1
07.03.2008 18:01
99th
07.03.2008 18:13
tyt1
07.03.2008 20:24
99th
07.03.2008 21:06
tyt1
07.03.2008 21:39
99th
07.03.2008 21:56
tyt1
08.03.2008 09:47
99th
08.03.2008 15:12
Виктор
08.03.2008 16:31
99th
08.03.2008 20:49
09.03.2008 03:55
Сергей
09.03.2008 19:19
99th
09.03.2008 20:28
Сергей
09.03.2008 21:09
10.03.2008 11:13
99th
11.03.2008 02:18
Alexander
12.03.2008 16:22
Alexander
12.03.2008 16:33
99th
12.03.2008 17:39
<hr>
а применение, по-моему, напрашивается само собой: спарсить весь смысловой контент рунета. Если есть бот, который правильно определяет как рипнуть смысловое содержимое без предварительной ручной подготовки к парсингу (забивание сигнатур, и пр), то его предназначение - рипать все подряд (поскольку в "подряд" его основная фишка). Я бы пустил его по инету гулять, через пару месяцев у вас на руках был бы огромный текстовый корпус. А если еще и обдуманно направлять его в кравлинге, то вообще красота.
зы
ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?
ты его продавать будешь?
от языка не зависит +
работает быстро +
но, такие ковычки {} не игнорирует?
или статья такая попалась?
Ни ferra.ru, ни ixbt.com не прохавал (именно заглавные страницы).
Выдирает только текст, расположенный в тегах <p></p>, обрубая ссылки и картинки?
из тегов <strong> текст не хавает..
Главные страницы хреново работают т.к. там текста немного. чем в статье больше текста тем лучше.
C форумами тоже не очень работает.
Нет на тег параграфа вообще никак не завязано.
Картинки пока игнорируются, но привязать их использование не проблема.
Вообще мысли такие, сделать парсер статей. Т.е. ввел ссылку либо список ссылок и тебе выдаются статьи, а потом их экспортируешь в нужный формат sql либо CMS. Видел подобный продукт но идея загнулась т.к. небыло качественного саппорта и обновлений. Если продукт действительно востребован, я могу занятся разработкой. Поэтому пожалуйста отписываем мысли, если хотите что то видеть особое тоже напишите :)
ЧерныйKот добавил 14.03.2008 в 11:09
P.S. если обнаружили баги пример урла плиз в личку.
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.
Сделал бы и сейчас, но у меня хостинг дешевый, думаю админы будут ругатся если пользователи SE форума создадут довольно объемный траф.
ЧерныйKот, тащи уж и ссылки на сами статьи в пределах домена. Чего их руками-то все забивать.
+1. Без автоматики смысла нет. Руками быстрее текст скопипастить можно, чем парсером.
не хочет работать, ввел 3 адреса - результат один: