Инструмент для удобной работы с базами AllSubmitter.

[Удален]
#51

Вышла новая версия. В ней улучшена работа с проверкой убитых ссылок. Теперь можно самостоятельно решить, какие коды ответов сервера считать убитыми ссылками. Так же можно отфильтровать редиректы, forbidden и пр. коды.

Наконец-то актуализирован help.

За апдейтами обращайтесь на почту.

Покупка теперь стоит $10, зато можно получить подарки...

Megavolt
На сайте с 23.12.2005
Offline
179
#52

aldic, как реализована проверка на забаненность в яндексе?

Иногда лучше жевать.... (С)
[Удален]
#53

Вот так:

function IsBan($url)

{

$result = false;

$yaca = "http://www.yandex.ru/yandsearch?serverurl=";

$url = GetFullHost($url);

$url2 = $yaca.$url;

$page = "";

$page = @file_get_contents($url2);

// found answer & result = 0

if (preg_match("/<title>.*?\(\s*(\d+)\)/i", $page, $regs))

{

if ($regs[1] == "0")

$result = true;

}

return $result;

}

Тут встроена и защита от блока яндекса, если что...

[Удален]
#54

Теперь можно получить утилиту бесплатно при покупке лицензии на сабмитер через нашу партнерку. Получаете сразу обе программы по одной цене + базы в подарок.

[Удален]
#55

Алгоритм проверки белости каталога. На данный момент по соотношению <качетсво определения/разумная скорость> самый лучший, что придумали. Предлагаем на обсуждение и если будет перспектива, можно встроить в утилиту.

----

Процесс состоит из двух этапов.

1. Проверить прямые ли ссылки (достаточно просто)

2. Проверить требуются ли обратки

Первое, как уже написал, сравнительно не сложно определяется парсингом, главное точно нацелиться на нижний уровень, а не попасть в рубрикатор. Проблема больше техническая.

Второе сложнее, т.к. тут вообще с виду не подобраться. Решение:

Берем выборочно пару (число уточняется) ссылок из каталога из разных разделов и идем на эти сайты. Если на них нет ответных ссылок, значит велика вероятность, что каталог белый.

Проблемы:

а) страниц на сайте много и ссылки можно искать оч. долго. Нужно определить вероятность и выбрать наиболее важные участки поиска, на основании которого сделать с определ. вероятностью вывод, что ссыолк не найдено.

б) Сайт может быть недавно в каталоге и ссылок обратных еще не поставить. ли не поставил вообще, но в каталоге недавно и можеры его еще не удалили. Или в каталоге давно, но ссылки грохнул и еще не удален. В общем, есть опр. вероятность, но не большая.

Пункт а решается так же парсингом ответа Я. на предмет ссылающихся страниц.

В общем, если подойти с правильного бока, алгоритм вырисовывается. Требуется обсуждение и ваше мнение...

P
На сайте с 12.02.2006
Offline
183
#56
aldic:
Алгоритм проверки белости каталога. На данный момент по соотношению <качетсво определения/разумная скорость> самый лучший, что придумали. Предлагаем на обсуждение и если будет перспектива, можно встроить в утилиту.

----

Процесс состоит из двух этапов.
1. Проверить прямые ли ссылки (достаточно просто)
2. Проверить требуются ли обратки

Первое, как уже написал, сравнительно не сложно определяется парсингом, главное точно нацелиться на нижний уровень, а не попасть в рубрикатор. Проблема больше техническая.

Второе сложнее, т.к. тут вообще с виду не подобраться. Решение:

Берем выборочно пару (число уточняется) ссылок из каталога из разных разделов и идем на эти сайты. Если на них нет ответных ссылок, значит велика вероятность, что каталог белый.

Проблемы:

а) страниц на сайте много и ссылки можно искать оч. долго. Нужно определить вероятность и выбрать наиболее важные участки поиска, на основании которого сделать с определ. вероятностью вывод, что ссыолк не найдено.

б) Сайт может быть недавно в каталоге и ссылок обратных еще не поставить. ли не поставил вообще, но в каталоге недавно и можеры его еще не удалили. Или в каталоге давно, но ссылки грохнул и еще не удален. В общем, есть опр. вероятность, но не большая.

Пункт а решается так же парсингом ответа Я. на предмет ссылающихся страниц.

В общем, если подойти с правильного бока, алгоритм вырисовывается. Требуется обсуждение и ваше мнение...

Я не программер, поэтому по-существу вопроса сказать могу мало, единственно что, это алгоритм проверки обраток очень сложно составить ибо есть каталоги, которые ставят ссылки сначала страницы, есть которые с конца, и те и другие будут не проиндексированы это понятно, если только брать из середины (то есть в каталоге 10 страниц, то можно парсить ссылки с 5-ой к примеру), но тут хзагвоздка другого рода, очень часто наблюдал, что ссылки с этих внутренних запрятанных страниц плохо индексируются Яндексом, но если после парсинга проверить вручную, то, наверное, реализовать такое можно, но как технически подойти к этому я не представляю и сколько ресурсов может занять такая проверка

Если такой алгоритм будет написан и будет работать, уйду в отпуск, сразу 🚬

[Удален]
#57

promosite, вот пока основная проблема развернуть алгоритм так, чтобы проверка хотя бы 100 каталогов была бы приемлемой по времени. Пока ползаем по каталогам и смотрим движки - какие есть варианты реализации страниц ссылок в них. Ну и попутно решили поспрашивать может кто какую идейку подкинет :-)

За хорошие (разумные, полезные, интересные и пр.) идеи программку вышлем бесплатно... :)

Artlight
На сайте с 15.09.2003
Offline
123
#58
aldic:
Пункт а решается так же парсингом ответа Я. на предмет ссылающихся страниц.

Чтобы меньше парсить, надо в качестве "области поиска" задавать сайт на котором ищем страницы ссылающиеся на каталог. Тогда можно просто анализировать строку:

Результат поиска: страниц — 1
Область поиска: сайт — www.site.ru

Обменяю свой вмр на ваш яд курс 1-1
[Удален]
#59

А идея проверять через Яндекс очень хороша. Можно так же гугл использовать... только движок утилиты надо будет изменить, т.к. работать всеравно долше будет...

F
На сайте с 07.02.2006
Offline
64
#60

aldic,

проверить сами каталоги нереально...

лучше проверить через какой либо поисковик

Лечение сайтов от вирусов (http://fstrange.ru/coder/php/cure-joomla-phpshell.html) |Ремонт iPhone в Ростове (http://a-stor.ru/iphone/remont-iphone-5-v-rostove.html)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий