Парсер статей.

response
На сайте с 01.12.2004
Offline
324
#31
la-la-la:
тем более поиск источников статей на автомат тоже особо не поставишь

http://l00t.ru/databases/faces2.html

:)

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
LL
На сайте с 27.09.2007
Offline
39
#32

=> поиск источников статей на автомат ставится как нефиг делать ? 🙄

видели мы кравлеры, только не понял, к чему это было

response
На сайте с 01.12.2004
Offline
324
#33
la-la-la:
=> поиск источников статей на автомат ставится как нефиг делать ? 🙄

видели мы кравлеры, только не понял, к чему это было

это к тому, что некоторые не парятся и пытаются выглядеть гуглем. А еще к тому, что тебе чтобы найти достаточно контента для своих доров, в принципе и пары недель "поиска источников на автомате" хватит, без особых заумностей.

LL
На сайте с 27.09.2007
Offline
39
#34
response:
тебе чтобы найти достаточно контента для своих доров, в принципе и пары недель "поиска источников на автомате" хватит, без особых заумностей.

мне хватит десятиминутного затачивания парсера под несколько источников, которые я найду за минут 5 и двухчасовой работы парсера - и вообще без заумностей :)

но мы о разном, я о невозможности полной автоматизации собирания статей, именно статей, а не просто текста, это не про доры

response:
некоторые не парятся и пытаются выглядеть гуглем

ага, попутно рождая темы в разделе гугла "Гугл ложит мой сервак, не смотря на роботс, что мне делать?"

Ш2
На сайте с 24.07.2008
Offline
9
#35

тут народ в основном двигается по адалту, эротических рассказов со stulchik.net имхо за глаза должно хватить под доры) у меня для технология такая - брать с каждого рассказа по абзацу и замешивать туда ключевые слова.. как по вашему норм такое ?

зыж: сорри за офтоп)

FIDO FOREVER !
-EX-
На сайте с 07.07.2006
Offline
180
#36

школьнег_29A, а еще лучше перемешивать предложения...

С уважением, Андрей aka EX
response
На сайте с 01.12.2004
Offline
324
#37
la-la-la:

но мы о разном, я о невозможности полной автоматизации собирания статей, именно статей, а не просто текста, это не про доры

кстати, именно хорошую статью а не текст можно таки выдернуть на автомате. попробовать во всяком случае. Отталкиваться, например, от того утверждения, что хороший документ есть сеошный документ, соотв. ввести критерии на семантику, и попробовать фильтровать подобным образом. Думаю может получиться нормалек.

А про настройку под конкретные источники я тебе так скажу, что ты можешь всю ночь парсить сайт, и потом увидеть, что оказывается контент там заюзанный и непригодный, а пробники, которые ты брал до этого, ну они просто были исключением, которое не попало в индекс (хотя ты сам наверняка с подобным сталкивался).

И, если уж на то пошло, и мы говорим о ручном затачивании, то встает вопрос "а нужен ли парсер?". Я когда-то давно собирал порно рассказы, так я почти весь стульчик собрал вручную в опере минут за сорок, и этого контента хватило не на одну пачку говнотекстов. Соул соул, как говорится.

la-la-la:
ага, попутно рождая темы в разделе гугла "Гугл ложит мой сервак, не смотря на роботс, что мне делать?"

кладет! ☝

LL
На сайте с 27.09.2007
Offline
39
#38
response:
кстати, именно хорошую статью а не текст можно таки выдернуть на автомате. попробовать во всяком случае. Отталкиваться, например, от того утверждения, что хороший документ есть сеошный документ, соотв. ввести критерии на семантику, и попробовать фильтровать подобным образом. Думаю может получиться нормалек.

это, конечно, что-то умное... в общем можно и так, товарищ проктолог 😂

только по такому признаку можно найти, а не выдернуть... выдернуть статью без мусора никак не получится (конечно, нет ничего невозможного, но...), к тому же найденное (именно по такому прзнаку) в большинстве статьей являться не будет, уж лучше искать раздел "Статьи" на сайте

response:
А про настройку под конкретные источники я тебе так скажу, что ты можешь всю ночь парсить сайт, и потом увидеть, что оказывается контент там заюзанный и непригодный, а пробники, которые ты брал до этого, ну они просто были исключением, которое не попало в индекс (хотя ты сам наверняка с подобным сталкивался)

ох и о разном мы говорим...

response:
Я когда-то давно собирал порно рассказы, так я почти весь стульчик собрал вручную в опере минут за сорок, и этого контента хватило не на одну пачку говнотекстов.

вот так Культ Технологии, наверное, давно это было :)

response
На сайте с 01.12.2004
Offline
324
#39
la-la-la:

ох и о разном мы говорим...

ладно, проехали ))

la-la-la:
вот так Культ Технологии, наверное, давно это было :)

ну вообще да )

D0
На сайте с 06.01.2008
Offline
32
#40

хех... вроде все соображающие люди, но понаписывали же ведь уже 4-е страницы а толковых советов НОЛЬ и даже меньше.

Цитировать не буду всем кто писал и.т.д. про свои файловые системы, про то как хорошо подогнать, и про то как вы сдуваете весь сайт....

Могу сказать одно выдрать пусть не всегда качественно всю статью - можно. Пусть в 70% ты вырвешь все полностью а в 30% скрипт отбросит статью ибо не сможет решить она ли это, но это лучше чем скачать сайт и сделать дубликат всего что там есть и все в куче без тематик и.т.д. ( более подробных тематик имеется ввиду) то как говорили выше- вперед и с песней на все что уже есть, но если у вас при каждом парсинге по 1000 источников и с каждого источника вы заберете максимум 10 статей? стоит ли подгонять скрипт?? вообщем тема угасла проще самому додумать то что уже есть...

З.Ы.

Видел результаты парсера который в 70% минимум все выдерает ☝.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий