Программка определения позиций сайта

[Удален]
#51

спс за прогу!

было бы круто реализовать возможность добавления/редактирования поисковиков самостоятельно.

например xml-ку какую-нить редактировать.

P0
На сайте с 22.08.2008
Offline
145
#52

ruSkif, инвесторы? Звучит заманчиво.kravovich, предложение неплохое, сам думал об этом. Можно попробовать.

Кстати, подключил поддержку украинского языка и google.com.ua Спасибо IOAN'у

SESpider v0.4.9 (2.62 Мб)

или

SESpider v0.4.9u (133.87 кб)

добавление Google.com.ua:

AddGoogleComUa (1.22 кб)

one
На сайте с 15.04.2007
Offline
336
one
#53

Кто нибудь добился таких настроек что бы в бан у гугла не попадать? Поделитесь... Устал экспериментировать... :)

Решения для автоматизации действий ( https://www.facebook.com/automationstudio20/ ) в интернете.
P0
На сайте с 22.08.2008
Offline
145
#54

Мне вот интересно, у гугла информация о запросах пользователя собирается по всем доменам или каждый ловит капчу самостоятельно?

Platon007 добавил 26.09.2008 в 13:47

kravovich, ваше предложение реализовано.

Руководство к использованию.

теперь есть возможность устанавливать новые поисковики без сторонней прораммы, достаточно подложить файл install.xml в папку. Пример его содержания:


<seinstall>
<item>
<name>Google.com.ua</name>
<id-name>google.com.ua</id-name>
<class-name>ru.vingrad.platon.sespider.GoogleComUaSpider</class-name>
<requests-per-period>1</requests-per-period>
<period>1000</period>
</item>
<item>
<name>Peace.Will.Come</name>
<id-name>configurable.name</id-name>
<class-name>ru.vingrad.platon.sespider.ConfigurableSpider</class-name>
<requests-per-period>1</requests-per-period>
<period>1000</period>
</item>
</seinstall>

1-й item устанавливает google.com.ua, который уже в программе, но не отображается в списке поисковиков.

name - имя поисковика, значение, которое отображается в списке поисковиков

id-name - уникальное имя поисковика, по нему можно удалить поисковик

class-name - путь к классу

requests-per-period - число запросов за период времени

period - сам период ^_^

2-й item намного интересней.

Теперь у мастеров появилась возможность настраивать собственные поисковики. для этого

нужно class-name установить ru.vingrad.platon.sespider.ConfigurableSpider

остальное всё такое же как в 1-м элементом + появилась привязка к id-name, дополнительная информация для подобных поисковиков будет браться из файла /conf_spiders/<%id-name%>.cfg

Описание самого файла:


query=http://peace.will.com/search.html?keyword=%s&start=%d
regexp=<li><a href="(.+?)">(.+?)</a><div class="s">(.*?)<br>
regexp.linkPos=1
regexp.titlePos=2
regexp.descriptionPos=3
items-per-page=10
query.encoding=UTF-8
query.units=1

query - запрос к поисковику, %s - ключевая фраза, %d - позиция с которой начинается выдача. Если вы не знаете, как форматировать строку, то порядок объявления %s и %d строгий, т.е. сначала ключевая фраза, затем позиция.

regexp - выражение, по которому идет выборка из текста полученного от поисковика.

regexp.linkPos-позиция в регулярном выражении ссылки на сайт

regexp.titlePos-заголовок сайта в снипете

regexp.descriptionPos-описание сайта в снипете

items-per-page - количество позиций на странице, которые выдает поисковик

query.encoding - кодировка, в которую необходимо закодировать ключевое слово

query.units - поисковик исчисляет позицию в страницах или в позициях, к примеру google выдает в позиция, то query.units=1, если это yandex, который выдает в страницах, то query.units=10, других значений быть не может, но на строгое их ведения я не обращаю внимания.

Platon007 добавил 26.09.2008 в 14:00

а если быть точнее query без проблем можно записать так:

query=http://peace.will.com/search.html?start=%2$d&keyword=%1$s

Platon007 добавил 26.09.2008 в 14:15

SESpider v0.4.10 (2.63 Мб)

или

SESpider v0.4.10u (139.23 кб)

SF
На сайте с 06.09.2008
Offline
1
#55

Прикольно. Сделал свой чекер, сайт находит, но на какой-то другой позиции...

P0
На сайте с 22.08.2008
Offline
145
#56

Приношу свои извинения, поторопился запустить в народ.

query.units=1 означает, что поисковик воспринимает параметр как страницу, т.е. например yandex

query.units=0 означает абсолютную позицию, т.е. как у google

SESpider v0.4.10 (2.63 Мб)

или

SESpider v0.4.10u (139.27 кб)

Platon007 добавил 26.09.2008 в 15:46

Также принимаю предложения о месте хранения файлов, ifolder меня напрягает своей всплывающей рекламой, и уверен всех остальных.

Platon007 добавил 26.09.2008 в 15:48

SuperFly, если что-то получилось, прошу в студию.

sabotage
На сайте с 14.02.2007
Offline
192
#57

Platon007, сколько скачиваний? Могу положить у себя.

SF
На сайте с 06.09.2008
Offline
1
#58

Да, тут темку на форуме как-то заметил /ru/forum/267653

Вот, решил проверить, справится ли эта проргаммка с задачей.

install.xml

<seinstall>
<item>
<name>Тут.by</name>
<id-name>tut.by</id-name>
<class-name>ru.vingrad.platon.sespider.ConfigurableSpider</class-name>
<requests-per-period>1</requests-per-period>
<period>1000</period>
</item>
</seinstall>

conf_spiders/tut.by.cfg


query=http://search.tut.by/?rs=1&query=%s&ru=0&tc=0&page=%d
regexp=<li>\\s*<h3>\\s*<a href="(.+?)">.*?</a>\\s*<a href=".+?" target="_blank">(.+?)</a>.*?</h3>(.+?)<br>
regexp.linkPos=1
regexp.titlePos=2
regexp.descriptionPos=3
items-per-page=15
query.encoding=UTF-8
query.units=1

Долго парился с install.xml, оказалось его надо сохранять в уникоде UTF-8.

P0
На сайте с 22.08.2008
Offline
145
#59

sabotage, как видите, я постоянно выкладываю новые файлы. Вас достану просить залить новый файл. И статистика количества скачиваний есть?

Platon007 добавил 26.09.2008 в 16:05

скачиваний совсем немного, может 6 в сутки есть.

Platon007 добавил 26.09.2008 в 16:10

SuperFly, ☝

sabotage
На сайте с 14.02.2007
Offline
192
#60

Platon007, данные фтп отправил в личку. Можно воспользоваться по желанию.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий