UPD Парсер тематического контента {free} Pt2

Dos3
На сайте с 07.01.2011
Offline
363
#11
AESCBC192:
а что за продукт?

да какой продукт, шучу же я

но ты же видишь что у меня сейчас желания троллить нет, с похмелья я :(

и я искренне желаю тебе выкладывать новый софт

AESCBC192
На сайте с 11.06.2016
Offline
51
#12
Dos3:
с похмелья я

ты всегда с похмелья?)) или только в моих топиках)

twiprogon
На сайте с 22.07.2013
Offline
189
#13

вроде подобное кто то выкладывал в этом разделе, ток кажется ник был другой у чела.

LimonBucks.com (http://limonbucks.com) - Лучшие условия для конверта мобильного трафика
Z
На сайте с 07.06.2013
Offline
63
#14
AESCBC192:
пс уже не помню какие но штук 10 наверно есть.

Хаха, там один гугл.

[Удален]
#15
Zick:
Хаха, там один гугл.

А сам парсер то работает, или к нему нейронку еще нужно прикрутить?

AESCBC192
На сайте с 11.06.2016
Offline
51
#16
twiprogon:
вроде подобное кто то выкладывал в этом разделе, ток кажется ник был другой у чела.

конкретизируй, какой софт? какой чел выкладывал? намеки тут ненужно кидать. софт мой 100%

---------- Добавлено 25.02.2017 в 12:39 ----------

Zick:
Хаха, там один гугл.

не подходит? удалил. ушел с темы. тролота бл.

---------- Добавлено 25.02.2017 в 12:40 ----------

vastmanager:
А сам парсер то работает, или к нему нейронку еще нужно прикрутить?

иди рыбок корми олень чешуйчастый.

---------- Добавлено 25.02.2017 в 12:44 ----------

twiprogon, это моя тема ***ух ты ***ный.

[Удален]
#17
AESCBC192:

иди рыбок корми олень чешуйчастый.

Я рыбок, хомяков, кролика, черепашку, пятерых собак и двух котов уже покормил, но парсер не работает нифига..🤪

AESCBC192
На сайте с 11.06.2016
Offline
51
#18
vastmanager:
но парсер не работает нифига

тебя сложно воспринимать всерьез будучи адекватным. ты тупа клоун.

Dos3
На сайте с 07.01.2011
Offline
363
#19

так чё, получается тс снова всех наебал ? и прога очередное говно :D

Z
На сайте с 07.06.2013
Offline
63
#20

"Хаха" и сам скрипт.

Сначала выбирается текст из всех <div>, а потом из всех <p>.

Так теги могут быть вложены друг в друга, получаем дубли.

Например, в одном из исходных файлов статья трижды дублировалась, подтаскивая текст уникальных для сайта скриптов (это к тому, что это не 3 одинаковых статьи в выдаче).

И тут подходим к следующему - практически нет фильтрации. Удаляются html теги, проверяется кодировка и вхождение символов ');' и '<!--'. Аллес 🤪

Хотя нет. Еще в кусках текста (оставляет только от 1200 символов) вычисляется средняя длина слов (должна быть не больше 20) и средняя длина предложений (не менее 130). Откуда эти цифры и как они помогают фильтровать текст - для меня загадка.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий