зацените плиз теперь и мой доргенчиг :)

response
На сайте с 01.12.2004
Offline
324
5380

Зацените, плиз, тулзу. Накатал вчера поутру, сегодня добил еще чуток.

Берет запрос, обращается к Яндексу, переходит по страницам топ10, вынимает оттуда предложения (фразы, оканчивающиеся на точку, восклицательный или вопросительный знаки), причем предложения делятся на "хорошие" - содержащий ключевик, по которому делался поиск, и "обычные" - не содержащие этот ключевик, либо содержащие его в непринимаемой заданными регэкспами форме.

После того, как топ10 распарсен, вы можете пронаблюдать результаты: щелкаем крыской по урлу, выводимому в верхнем окне, снизу видим "хорошие" и "обычные" фразы, полученные с этой страницы.

Далее справа есть форма генерации текста. Выбираем финальный лимит фраз в генерируемом тексте, указываем соотношение "хороших" фраз к "обычным" (настраиваем тематическую воду), и жмем "Сгенерить".

Прога бегает по массивам фраз, используя следующий алгоритм (ключевые моменты):

- берется "хорошая фраза" n-го урла, добавляется в результирующий текст.

- последующие x "обычных" фраз (та самая вода, количество которой мы указали перед генерацией) , берутся из последующих урлов (n+1, n+2, ..., n+n), по рандому из каждого.

- далее индекс используемого для добычи "хорошей" фразы урла сдвигается на один.

Ну и т.д.

Приследовалась цель свести к минимуму совместное использование "хороших" и "обычных" фраз из одного документа, или хотя бы сделать расстояние максимальным.

Само собой, демка "наколенная". Отлавливается крайне мало эксепшынов, только необходимый минимум типа таймаута (кстати, о таймаутах она умалчивает, так что если вы уверены, что результат должен быть, а его нет - попробуйте попинговать опрашиваемые серваки - может дело в соединении).

Если тестовый образец покажет себя хорошо, допишу учет количества использования фраз (сейчас фразы могут повторяться, ибо используется рандом), ну и пр. улучшения, делающие контент наиболее "оригинальным" ;)

Так же надо будет поработать над выемкой фраз. Для теста используйте слово "коттедж" - сейчас в топ10 яндекса висят нормальные тексты :bl: . Но например по "голым девушкам" висит шлак (менюшки всякие, фразы без пунктуации и пр.), с которым у дора ниче особо не получается.

В общем я сам понимаю, что тут еще работать и работать, но пока потестю так :)

Congen.zip - там один .exe файл, без иконки, 32 кила в оригинале (если у вас больше, то может и у меня вирь).

2.txt - пример выходного текста (50 предложений по запросу "коттедж", 3 "обычных" фразы на одну "хорошую").

Жду ваших каментов :idea:

зы

для работы доргена необходим второй дотнет.

ззы

ой, наврал! в "обычные" фразы попадают вообще любые предложения. Весь день пока не за компом был, собирался пофиксить, сделать выборку только предложений БЕЗ ключевика, в итоге сжился с мыслью, что уже все готово. В общем, это тоже в раздел 2do :)

zip Congen.zip
txt 2.txt
Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
[Удален]
#1

При открытии файла:

Необходимый файл динамической библиотеки MSCOREE.DLL не найден.

Scorpio
На сайте с 04.03.2006
Offline
47
#2
seoplugin:
При открытии файла:
Необходимый файл динамической библиотеки MSCOREE.DLL не найден.

ТС написал "для работы доргена необходим второй дотнет." ;)

[Удален]
#3

что такое дотнет?

Scorpio
На сайте с 04.03.2006
Offline
47
#4
response
На сайте с 01.12.2004
Offline
324
#5

да не качайте уже эту дрянь, она кривая. Писал по утру, там даже предложений на выходе создается не столько, сколько попросили )

Сейчас есть получше вариант, уже и глубина выборки из топа настраивается, и предложений вроде правильное количество выдает, но все равно много чего стоило бы доделать.

Мне в ней плюс - она выдает контент в XML, который потом скармливается собственному постеру, а тот его выкладывает, прицепляя картинки.

Правда, как оказалось, это не лучший способ по добыче контента. Если в каких-нибудь коттеджах еще нормально, полно полноценных предложений и пр., то во многих темах, таких, как например МФУ, полноценных предложений мало, и становится трудно выцеплять удачные куски. Конечно, можно хватать не предложения как таковые, а искать кеи и брать по несколько слов правее и левее, или там до стопсайна типа < или как-то еще (точки у нас в рунете вообще никто не ставит, а об восклицательных знаках и мечтать не приходится), но задумка была именно в вытаскивании нормальных предложений, чтобы юзер в снипе не так сильно палил.

mustafa
На сайте с 28.10.2005
Offline
202
#6

response, а о количестве запрсов ты не подумал? Ну допустим мне надо по-быстрому сделать дор на 20к страниц, каждая страничка под свой кей, ну и контент везде под этой кей... И как же сделать 20к запросов к яндексу? А если таких доров разово надо штук 50 сделать?

I
На сайте с 20.11.2006
Offline
108
#7
mustafa:
response, а о количестве запрсов ты не подумал? Ну допустим мне надо по-быстрому сделать дор на 20к страниц, каждая страничка под свой кей, ну и контент везде под этой кей... И как же сделать 20к запросов к яндексу? А если таких доров разово надо штук 50 сделать?

Запросов к яндексу не 20к, с яндекса ведь берутся только урлы сайтов, а текст с самих сайтов, насколько я понял. По крайней мере если это не так, то так стоило бы сделать. )

Интересное начало, автору терпения и не останавливаться на достигнутом, тогда может получиться очень даже полезный продукт. )

mustafa
На сайте с 28.10.2005
Offline
202
#8
iamask:

Запросов к яндексу не 20к, с яндекса ведь берутся только урлы сайтов, а текст с самих сайтов, насколько я понял.

ну а урлы-то к каждому ключевику ведь надо взять? Т.е. если у нас 20к кеев, то урлов нужно 200к.

p.s. у ТС по-моему предложения формируются из сниппетов серпа, а не из самих сайтов - хотя это все равно ничего не меняет.

I
На сайте с 20.11.2006
Offline
108
#9

20к кеев - это многова то, но пусть так. На одной странице результатов поиска яндекса можно выводить до 100 сайтов = 100 урлов одним запросом и потом распарсить страницу, т. е. уже не 200к запросов, а 2000. Уже легче, хотя согласен что все равно много. Но если с интрвалами по времени их посылать, то могут и не обидеться. )

urbanajangla
На сайте с 20.01.2005
Offline
52
#10

Знаете, товарищи, на вкус и цвет доргенчика нет :)

{купить|продать} {морды|мордашки|внутренние|статьи|ссылки в тексте} (http://www.setlinks.ru/?pid=1837)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий