- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
У меня есть чистилка мусора и готовый парсер есть, куда она встроена, но он 2007-го года, просто новые форматы поисковиков вписать. Мне все некогда переделать. Тоже серверный скрипт. Я им работал.
ну так кидай его сюда, иначе для чего эти хвастанья никому не нужные.
ну так кидай его сюда, иначе для чего эти хвастанья никому не нужные.
ТС этой темы могу скинуть. Парсит именно статьи с сайтов. Чистилка норм. работает. Весь код в одном файле - 20 кб. примерно. Парсит с 5-ти поисковиков. Два метода - курл и сокеты, второй многопоточный.
ТС этой темы могу скинуть. Парсит именно статьи с сайтов. Чистилка норм. работает. Весь код в одном файле - 20 кб. примерно. Парсит с 5-ти поисковиков. Два метода - курл и сокеты, второй многопоточный.
ну так ТС думаю будет не против
Я бы еще скрипт "типограф" прикрутил. Очень удобно. Потому, что спаршеный текст бывает корявым, да и если вырезается часть, то пробелы лишние, запятые и всякие косяки остаются.
Я бы еще скрипт "типограф" прикрутил. Очень удобно. Потому, что спаршеный текст бывает корявым, да и если вырезается часть, то пробелы лишние, запятые и всякие косяки остаются.
по типогрфу хорошая идея.
+ чекбокс линк на источник
+ что-то вроде списка заменяемых/стираемых слов
AESCBC192, а можете сделать, чтобы со всех сайтов собирал только статьи без лишнего? Несколько лет назад поднимал тему. /ru/forum/749528
AESCBC192, а можете сделать, чтобы со всех сайтов собирал только статьи без лишнего? Несколько лет назад поднимал тему. /ru/forum/749528
За 4 года не нашли нужный софт? )
В подписи.
Ещё не скачал, но говорю - Спасибо!
Хотя ещё поглядим, как парсить будет))
Небольшой фикс + фильтр стопслов с возможностью удаления текста при вхождении слова + фильтр трэшсимволов с возможностью замены
data/stopwords.txt
/* удалит весь текст при вхождении в него word1*/
word1;del
/* заменит все вхождения word2 на zamena2*/
word2;zamena2
/* вырежет все вхождения word3 */
word3;
data/trashchars.txt
/* удалит все вхождения char1 */
char1;
/* заменит все вхождения char2 на newchar2 */
char2;newchar2
+ сохранение линка на источник (если требуется).
Download: https://www.sendspace.com/file/f8jg6f
Спасибо за софт, взял на заметку полезные вещи, например get_codepage и FiltratePageContent
я это делаю через dotpack/php-boiler-pipe и j0k3r/php-readability, чтобы не разбирать страницу на элементы.