А почем такое творение продать можно? (контент граббер)

223

kostich

9 сентября 2006, 03:00

1571

Писал очень давно, а сейчас появилось желание упаковать для продажи и собственно заработать... аналоги в природе вроде отсутствуют. Какие-то куски могу продать отдельно.

Набор утилит представляет собой автоматическую систему для грабинга контента. Написано всё на php, а из СУБД юзает только MySQL, но можно какую-то либу более универсальную присобачить.

Вкусности:

Гибкие возможность подключения своих модулей во всех утилитах

- архитектура кода чем-то напоминает второй apache

- любой писк через хук

- на любой хук можно повесить таблицу тасков

- параметры передаются массивами

- документация на api в каком-то виде есть

- инфа для run-time в globals

- все конфиги в xml

Скачивалка url-ей:

- работает с сокетами в non-blocked

- понимает два типа http проксей

- под конкретный сайт можно указать набор user-agent-ов/проксей и т.д.

- обработчик кукаф отсутствует, но его можно очень быстро приделать

- понимает несколько степеней агрессивности (если пару тыс проксей дать, то это DDOS получается... на дефолтной фряхе с дефолтным php 700 сокетов (параллельных коннектов) без вопросов, а 5 тыс сокетов тянет после небольшого тюнинга)

- доступно с десяток хуков на которые можно вешать список обработчиков

- кормить её надо xml конфигом, но модуль для взятия списка url из MySQL или plain-text написан... в xml как-то удобнее, т.к. под каждый сайт можно табличку обработчиков индивидуально сделать

- очень быстро превращается в программу для создания нагрузки на http сервер

- есть возможность повесить хук на закрытие сокета и программа превращается в обычную DDOSилку или-же будет дропать конект после получения заданного количества байт (изначально эта утилита была эмулятором DDOS для отладки системы JSQuest)

- присутствуют модули под GET и POST

- присутствует модуль для обработки редиректов

- присутствует модуль для повторных попыток

Если бы в php был интерфейс в kqueue/kevent, то наверное написал бы под него :D... управлять полосой скачки из php фактически невозможно... модуль для работы через socks скоро будет дописан.

Набор парсеров и генераторов URL для скачки

- конфигурирование под конкретный сайт в полупедальном режиме

- умеют слизывать url для скачки из html

- умеют генерировать url по заданному сценарию (десяток сценариев уже написан)

- умеют ходить по imap в mail-box на который сыпится подписка с yandex.news (закаченные письма могут вычищать)

- есть модуль под google news

- есть модуль для SMF

- есть модули для каких-то сайтов, что бы ходить в "фотки по теме"

- что-то еще умеют, но основные ценности выше

Генераторы regexp и парсерсы (большой набор модулей)

- конфигурирование в полупедальном режиме (модуль под конкретную часть сайта нужно или задать или подобрать)

- какие-то куски написаны с использованием нейронок (обучение под виндой, но под php скоро портирую)

- аля regexp-ы под типичные новостные сайты генерируется фактически автоматом (максимально чистое выдирание!!! на основе анализа множества страниц... если html правят не руками, то 100%... обломов пока еще не было, а как будут, то скажу 99 :D: )

- умеют выдирать контент из произвольных страниц (грязно)

- на грязные способы можно вешать какие-то фильтры

- есть модули автоматической генерации фильтров

- есть множество хуков для пост обработки

- интегрированно с генераторами URL (фотки и связанный контент можно цеплять)

Пост обработчики

- умеют smarty

- умеют пару шаблонок из каменного века

- умеют в mysql

- умеют просто в файлы

- умеют генерировать "рефераты"

В планах сделать on-line сервис, но если кому-то хочется что-то купить, то с радостью продам.... что-то очень дорого, а что-то можно обсудить.

PS. Если есть вопросы, то задавайте... тут под 20 мегов phpшного кода и что бы все фичи описать, то нужно потратить уйму времени.

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.

404

Segey

9 сентября 2006, 03:06

#1

kostich:
- конфигурирование под конкретный сайт в полупедальном режиме

Вот самы йинтересный момент, что значит в педальном?

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

519

greenwood

9 сентября 2006, 03:12

#2

нормально можно продать, только надо знать где продавать

K

223

kostich

9 сентября 2006, 03:34

#3

Segey:
Вот самы йинтересный момент, что значит в педальном?

Отсутствует GUI. Что-то параметрами из консоли, а что-то в xml файлах с конфигами. Что бы кормить генерилку "regexp" надо отобрать сколько-то страниц визуально, а это уже "педали". Если сайт на типичном двигуне и в URL идёт перебор id, то это значительно проще, но это всё нужно контролировать. На выходе получается фактически PCRE, которое нужно чуток доработать руками... в новых парсерах получается кусок php кода с обработками... полный автомат может сделать и можно... ниасилил.

PCRE можно генерировать после каких-то обработок даже. Не обязательно кормить её html... можно кормить обичным текстом. Попробуй выкинуть из страницы все html тэги и ты поймешь о чем идёт речь. Сразу нарисуются эти "Главная Домой Поиск Почта Контакты"... один из обработчиков анализирует повторяющиеся фрагменты, а потом генерит что-то, с помощью чего можно проверить эту страницу на соответствие и потом из неё грабануть.

Есть детектор каких-то блоков... т.е. сначала из страницы автоматически выделяются блоки, а потом уже на каждый блок можно повесить что-то своё. Но конфиги все руками, т.к. если начинаю думать о GUI, то получается что-то совсем грандиозное.

Среди грязных выдиралок есть такие, которые работают по совершенно дибильным алгоритмам... самое главное это то, что они работают. К примеру, самая старая, которая писалась для мониторинга новостей. Она выкидывала все html тэги, а в тексте оставляла какие-то расстояние... ну т.е. там объём выкинутых тэгов и т.д... в промежутке получался текстовый файл, в котором по мимо текста была какая-то дополнительная инфа для обработки... далее тупо брался набор каких-то условий (расстояния между абзацами, длина абзацев, количество поряд идущих... etc) и по этим параметрам выгребалось всё, что отвечает этим условиям + то, что стоит рядом... самое удивительное, когда не надо выгребать чисто, а нужен только контент по теме, этот способ подходит на 100%... а если что-то цепляет лишнее, то нужно пару параметров подкорректировать.

Когда генерируешь рефераты, то можно брать только самые большие абзацы.... как вариант. Или 30% самых длинных абзацев... и т.д. и т.п...

У меня есть модуль, на базе нейронки, который берет всё, что считает нужным. Когда он обучался, то его кормили как хорошим контентом, так и плохим. Не буду озвучивать количество нейронов, но тормозило жутко. Длина слов, расстояния между словами, количество заглавных букв, количество дат, количество слов в кавычках, количество запятых, количество точек, количество предложений... и т.д. и т.п.... в него грузилось всё, что только можно выкусить.. в т.ч. и количество слов, которые не проходили проверку по спелчекеру. Потом что-то выкинулось, какие-то параметры, т.к. нейронка загнулась... выгребает оно более или менее, но не со всех страниц... вопрос в том, а для чего нужен контент.

Т.е. вот возможно качнуть кучу страниц, потом задать какой-то ключ, а потом выгрести что-то, что можно использовать для написания статьи и т.д... когда это писалось, то речи о передиралове не шло... это скорее был инструмент для каких-то копирайтеров.

Представь себе, что тебе нужно обработать сотню статей, которые ты потом в своей аналитике будет как-то цитировать.... на копипасты можно убить цельный день, так же как и на чтение. А тут у нас получается всё красиво... копипастим "реферат" в ms word, потом выкидываем лишнее и пишем коменты.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

9 сентября 2006, 04:56

#4

Выжимка что-ли ?

K

223

kostich

9 сентября 2006, 06:35

#5

greenwood:
Выжимка что-ли ?

что за выжимка?

107

chulan

9 сентября 2006, 08:13

#6

что за выжимка?

Представь себе, что тебе нужно обработать сотню статей, которые ты потом в своей аналитике будет как-то цитировать.... на копипасты можно убить цельный день, так же как и на чтение. А тут у нас получается всё красиво... копипастим "реферат" в ms word, потом выкидываем лишнее и пишем коменты.

вот про этот реферат и вопрос...На выходе получается выжимка из текстов ?

K

223

kostich

9 сентября 2006, 08:54

#7

chulan:
вот про этот реферат и вопрос...На выходе получается выжимка из текстов ?

Нет. Рефератом это называть слегка погорячился (он там в кавычках кстати). Скорее получается склейка из кусков, которые отвечают определенным условиям. Когда нужен контент для собственноручного анализа, то каждый выкинутый кусок может повлиять на результат.

Хотя, если кое что добавить, то думаю какая-то выжимка получаться и будет... в том виде, в котором вы подразумеваете. Т.е. более или менее чистая.

519

greenwood

9 сентября 2006, 09:40

#8

kostich:
Т.е. более или менее чистая.

читабельная

107

chulan

9 сентября 2006, 12:10

#9

да если после грабинга по теме будет выдавать реально ЧИТАБЕЛЬНЫЙ текст- то да вещь стоящая будет

M

108

Menvil

9 сентября 2006, 12:36

#10

да да интересно отпишись что там за текст получается в итоге

а лучше пример сделанный по принципу: это это и вот это подаем на вход, на выходе получаем вот это.

Изучаем правила форума ()

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Зачем быть уникальным в мире, где все можно скопировать