Культ Технологии, наверное, давно это было хех. Но мы говорим о невозможности полной автоматизации собирания статей - Doorways & Cloaking

Парсер статей.

Dank0 · 2008-08-03T09:55:11.0000000Z

Вопрос такой есть ли уже готовые продукты подобного рода, которые при подаче на вход скрипта html страницы на выходе дают статью находящуюся на ней, без мусора и всякого рода дребедени? Есть ли бесплатные вещи подобного рода или проще написать свой, если да может ктонибудь поделится алгоритмом??? 8)

324

response

3 августа 2008, 22:14

#31

la-la-la:
тем более поиск источников статей на автомат тоже особо не поставишь

http://l00t.ru/databases/faces2.html

:)

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

LL

39

la-la-la

3 августа 2008, 22:50

#32

response:
http://l00t.ru/databases/faces2.html

:)

=> поиск источников статей на автомат ставится как нефиг делать ? 🙄

видели мы кравлеры, только не понял, к чему это было

324

response

4 августа 2008, 08:41

#33

la-la-la:
=> поиск источников статей на автомат ставится как нефиг делать ? 🙄

видели мы кравлеры, только не понял, к чему это было

это к тому, что некоторые не парятся и пытаются выглядеть гуглем. А еще к тому, что тебе чтобы найти достаточно контента для своих доров, в принципе и пары недель "поиска источников на автомате" хватит, без особых заумностей.

LL

39

la-la-la

4 августа 2008, 11:20

#34

response:
тебе чтобы найти достаточно контента для своих доров, в принципе и пары недель "поиска источников на автомате" хватит, без особых заумностей.

мне хватит десятиминутного затачивания парсера под несколько источников, которые я найду за минут 5 и двухчасовой работы парсера - и вообще без заумностей :)

но мы о разном, я о невозможности полной автоматизации собирания статей, именно статей, а не просто текста, это не про доры

response:
некоторые не парятся и пытаются выглядеть гуглем

ага, попутно рождая темы в разделе гугла "Гугл ложит мой сервак, не смотря на роботс, что мне делать?"

Ш2

9

школьнег_29A

4 августа 2008, 11:30

#35

тут народ в основном двигается по адалту, эротических рассказов со stulchik.net имхо за глаза должно хватить под доры) у меня для технология такая - брать с каждого рассказа по абзацу и замешивать туда ключевые слова.. как по вашему норм такое ?

зыж: сорри за офтоп)

FIDO FOREVER !

180

-EX-

4 августа 2008, 11:45

#36

школьнег_29A, а еще лучше перемешивать предложения...

С уважением, Андрей aka EX

324

response

4 августа 2008, 12:45

#37

la-la-la:

но мы о разном, я о невозможности полной автоматизации собирания статей, именно статей, а не просто текста, это не про доры

кстати, именно хорошую статью а не текст можно таки выдернуть на автомате. попробовать во всяком случае. Отталкиваться, например, от того утверждения, что хороший документ есть сеошный документ, соотв. ввести критерии на семантику, и попробовать фильтровать подобным образом. Думаю может получиться нормалек.

А про настройку под конкретные источники я тебе так скажу, что ты можешь всю ночь парсить сайт, и потом увидеть, что оказывается контент там заюзанный и непригодный, а пробники, которые ты брал до этого, ну они просто были исключением, которое не попало в индекс (хотя ты сам наверняка с подобным сталкивался).

И, если уж на то пошло, и мы говорим о ручном затачивании, то встает вопрос "а нужен ли парсер?". Я когда-то давно собирал порно рассказы, так я почти весь стульчик собрал вручную в опере минут за сорок, и этого контента хватило не на одну пачку говнотекстов. Соул соул, как говорится.

la-la-la:
ага, попутно рождая темы в разделе гугла "Гугл ложит мой сервак, не смотря на роботс, что мне делать?"

кладет! ☝

LL

39

la-la-la

4 августа 2008, 15:01

#38

response:
кстати, именно хорошую статью а не текст можно таки выдернуть на автомате. попробовать во всяком случае. Отталкиваться, например, от того утверждения, что хороший документ есть сеошный документ, соотв. ввести критерии на семантику, и попробовать фильтровать подобным образом. Думаю может получиться нормалек.

это, конечно, что-то умное... в общем можно и так, товарищ проктолог 😂

только по такому признаку можно найти, а не выдернуть... выдернуть статью без мусора никак не получится (конечно, нет ничего невозможного, но...), к тому же найденное (именно по такому прзнаку) в большинстве статьей являться не будет, уж лучше искать раздел "Статьи" на сайте

response:
А про настройку под конкретные источники я тебе так скажу, что ты можешь всю ночь парсить сайт, и потом увидеть, что оказывается контент там заюзанный и непригодный, а пробники, которые ты брал до этого, ну они просто были исключением, которое не попало в индекс (хотя ты сам наверняка с подобным сталкивался)

ох и о разном мы говорим...

response:
Я когда-то давно собирал порно рассказы, так я почти весь стульчик собрал вручную в опере минут за сорок, и этого контента хватило не на одну пачку говнотекстов.

вот так Культ Технологии, наверное, давно это было :)

324

response

4 августа 2008, 19:38

#39

la-la-la:

ох и о разном мы говорим...

ладно, проехали ))

la-la-la:
вот так Культ Технологии, наверное, давно это было :)

ну вообще да )

D0

32

Dank0

4 августа 2008, 21:23

#40

хех... вроде все соображающие люди, но понаписывали же ведь уже 4-е страницы а толковых советов НОЛЬ и даже меньше.

Цитировать не буду всем кто писал и.т.д. про свои файловые системы, про то как хорошо подогнать, и про то как вы сдуваете весь сайт....

Могу сказать одно выдрать пусть не всегда качественно всю статью - можно. Пусть в 70% ты вырвешь все полностью а в 30% скрипт отбросит статью ибо не сможет решить она ли это, но это лучше чем скачать сайт и сделать дубликат всего что там есть и все в куче без тематик и.т.д. ( более подробных тематик имеется ввиду) то как говорили выше- вперед и с песней на все что уже есть, но если у вас при каждом парсинге по 1000 источников и с каждого источника вы заберете максимум 10 статей? стоит ли подгонять скрипт?? вообщем тема угасла проще самому додумать то что уже есть...

З.Ы.

Видел результаты парсера который в 70% минимум все выдерает ☝.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, если ваша email-рассылка попала в спам

Парсер статей.