Парсер текста по кею. Многопоток. [Free]

123
twiprogon
На сайте с 22.07.2013
Offline
189
#11
vastmanager:
У меня есть чистилка мусора и готовый парсер есть, куда она встроена, но он 2007-го года, просто новые форматы поисковиков вписать. Мне все некогда переделать. Тоже серверный скрипт. Я им работал.

ну так кидай его сюда, иначе для чего эти хвастанья никому не нужные.

LimonBucks.com (http://limonbucks.com) - Лучшие условия для конверта мобильного трафика
[Удален]
#12
twiprogon:
ну так кидай его сюда, иначе для чего эти хвастанья никому не нужные.

ТС этой темы могу скинуть. Парсит именно статьи с сайтов. Чистилка норм. работает. Весь код в одном файле - 20 кб. примерно. Парсит с 5-ти поисковиков. Два метода - курл и сокеты, второй многопоточный.

S
На сайте с 08.09.2009
Offline
155
#13
vastmanager:
ТС этой темы могу скинуть. Парсит именно статьи с сайтов. Чистилка норм. работает. Весь код в одном файле - 20 кб. примерно. Парсит с 5-ти поисковиков. Два метода - курл и сокеты, второй многопоточный.

ну так ТС думаю будет не против

T
На сайте с 15.11.2011
Offline
120
#14

Я бы еще скрипт "типограф" прикрутил. Очень удобно. Потому, что спаршеный текст бывает корявым, да и если вырезается часть, то пробелы лишние, запятые и всякие косяки остаются.

Дешевые VDS - Дешевле некуда! (http://0ll0.ru/4Ta9y)
AESCBC192
На сайте с 11.06.2016
Offline
51
#15
Tecak:
Я бы еще скрипт "типограф" прикрутил. Очень удобно. Потому, что спаршеный текст бывает корявым, да и если вырезается часть, то пробелы лишние, запятые и всякие косяки остаются.

по типогрфу хорошая идея.

+ чекбокс линк на источник

+ что-то вроде списка заменяемых/стираемых слов

Никанет
На сайте с 26.07.2010
Offline
131
#16

AESCBC192, а можете сделать, чтобы со всех сайтов собирал только статьи без лишнего? Несколько лет назад поднимал тему. /ru/forum/749528

N0
На сайте с 11.09.2010
Offline
126
#17
Никанет:
AESCBC192, а можете сделать, чтобы со всех сайтов собирал только статьи без лишнего? Несколько лет назад поднимал тему. /ru/forum/749528

За 4 года не нашли нужный софт? )

В подписи.

AS
На сайте с 18.01.2015
Offline
68
#18

Ещё не скачал, но говорю - Спасибо!

Хотя ещё поглядим, как парсить будет))

Фарма блог (http://luckydrug.com/)
AESCBC192
На сайте с 11.06.2016
Offline
51
#19

Небольшой фикс + фильтр стопслов с возможностью удаления текста при вхождении слова + фильтр трэшсимволов с возможностью замены

data/stopwords.txt

/* удалит весь текст при вхождении в него word1*/

word1;del

/* заменит все вхождения word2 на zamena2*/

word2;zamena2

/* вырежет все вхождения word3 */

word3;

data/trashchars.txt

/* удалит все вхождения char1 */

char1;

/* заменит все вхождения char2 на newchar2 */

char2;newchar2

+ сохранение линка на источник (если требуется).

Download: https://www.sendspace.com/file/f8jg6f

bolyk
На сайте с 16.02.2006
Offline
175
#20

Спасибо за софт, взял на заметку полезные вещи, например get_codepage и FiltratePageContent

я это делаю через dotpack/php-boiler-pipe и j0k3r/php-readability, чтобы не разбирать страницу на элементы.

Thunder v3. Дорген (http://ifirestarter.ru/product/10) | MassSiteProxy. Скрипт клонирования сайтов (http://ifirestarter.ru/product/12) | CPAgen CPA дорген (http://ifirestarter.ru/product/14) | (http://fast-index.ru/article)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий