- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Писал очень давно, а сейчас появилось желание упаковать для продажи и собственно заработать... аналоги в природе вроде отсутствуют. Какие-то куски могу продать отдельно.
Набор утилит представляет собой автоматическую систему для грабинга контента. Написано всё на php, а из СУБД юзает только MySQL, но можно какую-то либу более универсальную присобачить.
Вкусности:
Гибкие возможность подключения своих модулей во всех утилитах
- архитектура кода чем-то напоминает второй apache
- любой писк через хук
- на любой хук можно повесить таблицу тасков
- параметры передаются массивами
- документация на api в каком-то виде есть
- инфа для run-time в globals
- все конфиги в xml
Скачивалка url-ей:
- работает с сокетами в non-blocked
- понимает два типа http проксей
- под конкретный сайт можно указать набор user-agent-ов/проксей и т.д.
- обработчик кукаф отсутствует, но его можно очень быстро приделать
- понимает несколько степеней агрессивности (если пару тыс проксей дать, то это DDOS получается... на дефолтной фряхе с дефолтным php 700 сокетов (параллельных коннектов) без вопросов, а 5 тыс сокетов тянет после небольшого тюнинга)
- доступно с десяток хуков на которые можно вешать список обработчиков
- кормить её надо xml конфигом, но модуль для взятия списка url из MySQL или plain-text написан... в xml как-то удобнее, т.к. под каждый сайт можно табличку обработчиков индивидуально сделать
- очень быстро превращается в программу для создания нагрузки на http сервер
- есть возможность повесить хук на закрытие сокета и программа превращается в обычную DDOSилку или-же будет дропать конект после получения заданного количества байт (изначально эта утилита была эмулятором DDOS для отладки системы JSQuest)
- присутствуют модули под GET и POST
- присутствует модуль для обработки редиректов
- присутствует модуль для повторных попыток
Если бы в php был интерфейс в kqueue/kevent, то наверное написал бы под него :D... управлять полосой скачки из php фактически невозможно... модуль для работы через socks скоро будет дописан.
Набор парсеров и генераторов URL для скачки
- конфигурирование под конкретный сайт в полупедальном режиме
- умеют слизывать url для скачки из html
- умеют генерировать url по заданному сценарию (десяток сценариев уже написан)
- умеют ходить по imap в mail-box на который сыпится подписка с yandex.news (закаченные письма могут вычищать)
- есть модуль под google news
- есть модуль для SMF
- есть модули для каких-то сайтов, что бы ходить в "фотки по теме"
- что-то еще умеют, но основные ценности выше
Генераторы regexp и парсерсы (большой набор модулей)
- конфигурирование в полупедальном режиме (модуль под конкретную часть сайта нужно или задать или подобрать)
- какие-то куски написаны с использованием нейронок (обучение под виндой, но под php скоро портирую)
- аля regexp-ы под типичные новостные сайты генерируется фактически автоматом (максимально чистое выдирание!!! на основе анализа множества страниц... если html правят не руками, то 100%... обломов пока еще не было, а как будут, то скажу 99 :D: )
- умеют выдирать контент из произвольных страниц (грязно)
- на грязные способы можно вешать какие-то фильтры
- есть модули автоматической генерации фильтров
- есть множество хуков для пост обработки
- интегрированно с генераторами URL (фотки и связанный контент можно цеплять)
Пост обработчики
- умеют smarty
- умеют пару шаблонок из каменного века
- умеют в mysql
- умеют просто в файлы
- умеют генерировать "рефераты"
В планах сделать on-line сервис, но если кому-то хочется что-то купить, то с радостью продам.... что-то очень дорого, а что-то можно обсудить.
PS. Если есть вопросы, то задавайте... тут под 20 мегов phpшного кода и что бы все фичи описать, то нужно потратить уйму времени.
- конфигурирование под конкретный сайт в полупедальном режиме
Вот самы йинтересный момент, что значит в педальном?
нормально можно продать, только надо знать где продавать
Вот самы йинтересный момент, что значит в педальном?
Отсутствует GUI. Что-то параметрами из консоли, а что-то в xml файлах с конфигами. Что бы кормить генерилку "regexp" надо отобрать сколько-то страниц визуально, а это уже "педали". Если сайт на типичном двигуне и в URL идёт перебор id, то это значительно проще, но это всё нужно контролировать. На выходе получается фактически PCRE, которое нужно чуток доработать руками... в новых парсерах получается кусок php кода с обработками... полный автомат может сделать и можно... ниасилил.
PCRE можно генерировать после каких-то обработок даже. Не обязательно кормить её html... можно кормить обичным текстом. Попробуй выкинуть из страницы все html тэги и ты поймешь о чем идёт речь. Сразу нарисуются эти "Главная Домой Поиск Почта Контакты"... один из обработчиков анализирует повторяющиеся фрагменты, а потом генерит что-то, с помощью чего можно проверить эту страницу на соответствие и потом из неё грабануть.
Есть детектор каких-то блоков... т.е. сначала из страницы автоматически выделяются блоки, а потом уже на каждый блок можно повесить что-то своё. Но конфиги все руками, т.к. если начинаю думать о GUI, то получается что-то совсем грандиозное.
Среди грязных выдиралок есть такие, которые работают по совершенно дибильным алгоритмам... самое главное это то, что они работают. К примеру, самая старая, которая писалась для мониторинга новостей. Она выкидывала все html тэги, а в тексте оставляла какие-то расстояние... ну т.е. там объём выкинутых тэгов и т.д... в промежутке получался текстовый файл, в котором по мимо текста была какая-то дополнительная инфа для обработки... далее тупо брался набор каких-то условий (расстояния между абзацами, длина абзацев, количество поряд идущих... etc) и по этим параметрам выгребалось всё, что отвечает этим условиям + то, что стоит рядом... самое удивительное, когда не надо выгребать чисто, а нужен только контент по теме, этот способ подходит на 100%... а если что-то цепляет лишнее, то нужно пару параметров подкорректировать.
Когда генерируешь рефераты, то можно брать только самые большие абзацы.... как вариант. Или 30% самых длинных абзацев... и т.д. и т.п...
У меня есть модуль, на базе нейронки, который берет всё, что считает нужным. Когда он обучался, то его кормили как хорошим контентом, так и плохим. Не буду озвучивать количество нейронов, но тормозило жутко. Длина слов, расстояния между словами, количество заглавных букв, количество дат, количество слов в кавычках, количество запятых, количество точек, количество предложений... и т.д. и т.п.... в него грузилось всё, что только можно выкусить.. в т.ч. и количество слов, которые не проходили проверку по спелчекеру. Потом что-то выкинулось, какие-то параметры, т.к. нейронка загнулась... выгребает оно более или менее, но не со всех страниц... вопрос в том, а для чего нужен контент.
Т.е. вот возможно качнуть кучу страниц, потом задать какой-то ключ, а потом выгрести что-то, что можно использовать для написания статьи и т.д... когда это писалось, то речи о передиралове не шло... это скорее был инструмент для каких-то копирайтеров.
Представь себе, что тебе нужно обработать сотню статей, которые ты потом в своей аналитике будет как-то цитировать.... на копипасты можно убить цельный день, так же как и на чтение. А тут у нас получается всё красиво... копипастим "реферат" в ms word, потом выкидываем лишнее и пишем коменты.
Выжимка что-ли ?
Выжимка что-ли ?
что за выжимка?
вот про этот реферат и вопрос...На выходе получается выжимка из текстов ?
вот про этот реферат и вопрос...На выходе получается выжимка из текстов ?
Нет. Рефератом это называть слегка погорячился (он там в кавычках кстати). Скорее получается склейка из кусков, которые отвечают определенным условиям. Когда нужен контент для собственноручного анализа, то каждый выкинутый кусок может повлиять на результат.
Хотя, если кое что добавить, то думаю какая-то выжимка получаться и будет... в том виде, в котором вы подразумеваете. Т.е. более или менее чистая.
Т.е. более или менее чистая.
читабельная
да если после грабинга по теме будет выдавать реально ЧИТАБЕЛЬНЫЙ текст- то да вещь стоящая будет
да да интересно отпишись что там за текст получается в итоге
а лучше пример сделанный по принципу: это это и вот это подаем на вход, на выходе получаем вот это.