распознавания платных ссылок

Vindovs
На сайте с 02.09.2007
Offline
25
564

Автор скрипта http://ivbeg.livejournal.com/ попросил меня выложить здесь для тестирования, хотелось бы услышать отзывы.

http://urlus.ru/linkcheck/

Из явных недостатков на сегодняшний момент:

- Срабатывание начинается с наличия не менее 4-х таких ссылок на странице. Практически гарантированное срабатывание начинается с большего их числа;

- Пока ещё велик процент ложных срабатываний для блогов и, пока ещё, радикальных решений как это обойти нет поскольку владельцы блогов могут размещать ссылки как через ссылкообменники так и через механизм blogroll в Вордпрессе.

- каждый новый подключенный критерий анализа весьма ресурсоёмок. Хотя сейчас их включено 13 из, примерно, 40, то при включении всех 40 обработка 1 страницы будет занимать до 30 секунд - 1 минуты. Впрочем, это решаемо.

И конечно, не стоит пока относится к этому алгоритму серьезно. Я его делал proof-of-concept, так сказать для разминки.

Контекстная реклама (http://www.uts-media.ru/context), проконсультирую по icq. А так же Блог о состояние рекламного рынка рунета (http://www.uts-media.ru/blog/). Самые свежие новости!
[Удален]
#1

http://venality.name - вот рабочий вариант есть, всех распознает кто есть кто

[update]: не знал, что не на все срабатывает

I
На сайте с 19.02.2008
Offline
0
ivb
#2

http://venality.name не распознаёт как минимум:

- oldvladivostok.ru

- www.trud.ru

- www.rg.ru

- www.gzt.ru

и ещё массу до кучи.

---

sander
На сайте с 02.07.2004
Offline
114
#3

Vindovs, что обозначает, к примеру "Низкий уровень 5.95" после проверки ресурса?

И еще. У Вас там опечатка: "Предполагаемные платные ссылки на". Лишняя н

banshee(oleg)
На сайте с 12.08.2007
Offline
140
#4

Какие критерии определения платности, помимо "?", использует скрипт? Намекните в личку, чтоли, если это великий секрет. Интересно просто, на основе чего вы принимаете решение.

I
На сайте с 19.02.2008
Offline
0
ivb
#5

Уважаемые, собственно автор алгоритма я. Vindovs, просто дал ссылку тут.

Рейтинг рассчитывается по основе "веса" ссылки и группы ссылок - это цифра которая рядом рейтингом и далее по делиться на 4 шкалы:

- от 4 до 10 - низкая вероятность

- от 10 до 20 - средняя вероятность

- от 20 до 50 - высокая вероятность

- выше 50 - практически гарантия

Соответветственно алгоритм не говорит "да" или "нет", а рассчитывает ссылочный "потенциально платный" вес.

Что такое "?" я не в курсе:) подробностей алгоритма раскрыть не могу, скажу лишь что там сейчас порядка 13 критериев и логика заточена не только самой ссылки, но совокупной окружающей её на странице информации. Соответственно страницы где платных ссылок меньше 4 пока не определяются и, скорее всего, определяться не будут.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий