Мне похрен на твои интересы - Doorways & Cloaking - Практические вопросы оптимизации

UPD Парсер тематического контента {free} Pt2

AESCBC192 · 2026-07-01T11:06:48.0000000Z

Небольшой фикс + фильтр стопслов с возможностью удаления текста при вхождении слова + фильтр трэшсимволов с возможностью замены data/stopwords.txt /* удалит весь текст при вхождении в него word1*/ word1;del /* заменит все вхождения word2 на zamena2*/ word2;zamena2 /* вырежет все вхождения word3 */ word3; data/trashchars.txt /* удалит все вхождения char1 */ char1; /* заменит все вхождения char2 на newchar2 */ char2;newchar2 + сохранение линка на источник. https://yadi.sk/d/G9WYl1jT3ESJMc

51

AESCBC192

25 февраля 2017, 16:27

#51

Dos3:
напиши чем ты уже пробовал парсить

в личку ему пиши. мне твое фуфло неинтересно.

363

Dos3

25 февраля 2017, 16:29

#52

AESCBC192:

н а схерали ты сюда приперся его софт впаривать

так тыж сам спросил - есть ли нормальный платный софт, а не говно как в первом посте, я и ответил

51

AESCBC192

25 февраля 2017, 16:31

#53

Dos3, слыш ты щень, за словами следи, дерьмо на первой паге одно - это ты непрошенное.

363

Dos3

25 февраля 2017, 16:32

#54

AESCBC192:
в личку ему пиши. мне твое фуфло неинтересно.

а мне похрен на твои интересы :)

51

AESCBC192

25 февраля 2017, 16:32

#55

Dos3:
так тыж сам спросил - есть ли нормальный платный софт

а где именно я задл такой вопрос в данном топике?

ядаже знаю ответ. - нигде.

167

slavok

25 февраля 2017, 16:33

#56

очевидно всеже таки ради тролинга.

а что есть в платных парсерах чего нет в этом? только конструктив. я даже спрашивал прямо - что добавить?

Да нет, действительно интересно было.

Ну в теме уже ведь писали, парсит только с 1 поисковика. Нет прокси. Встречаются дубли контента, когда один и тот же текст парсится несколько раз.

Это явные недостатки, о которых я узнал, даже не скачивая Ваш парсер.

А если потестить и сраванить с тем же X-parser'ом, то думаю недостатков будет больше в разы.

ПФ. Дорого. Эффективно. В ЛС

Почему не кликают по Умное продвижение доров и Парсинг 7 млн. слов

51

AESCBC192

25 февраля 2017, 16:33

#57

Dos3:
а мне похрен на твои интерес

ну и с**л отсюда

[Удален]

25 февраля 2017, 16:34

#58

AESCBC192:
да ты чё. предлагаешь брутить запрсами урл?

---------- Добавлено 25.02.2017 в 19:21 ----------

н а схерали ты сюда приперся его софт впаривать

могу сказать, как я делаю. несколько серваков с кравлерами. общая база урлов. бегают по сайтам, ищут rss фиды, скачивают фиды (из них чистый текст проще получать, так как это валидный xml). потом создается индекс скачанных текстов. по индексу я ищу подходящие для морфинга тексты. язык определяется по тексту. узкое место это поиск по индексу, так как для поисковых запросов все-таки приходится парсить Google/Bing autocomplete. ты про word2vect писал. думаю, что можно использовать для получения кейвордов из самого текста. далее задача классификации тематики текста. я где это видел. по-моему, Stanford NLP это делает

1

Как проверить регион сайта? PostDLE программа для автоматического Требуется создать новостной сайт,

51

AESCBC192

25 февраля 2017, 16:35

#59

slavok, ну не тести. что я тебе еще сакажу, если допилить самому не судьба - можешь денег отлистать за хэпарсер... или ап подождть.

363

Dos3

25 февраля 2017, 16:36

#60

AESCBC192:
Dos3, слыш ты щень, за словами следи, дерьмо на первой паге одно - это ты непрошенное.

да не нервничай ты так, а то клаву ещё сломаешь, и скучно в разделе станет 🙅

1

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Open AI тестирует память для ChatGPT

UPD Парсер тематического контента {free} Pt2