Методы парсинга базы белых каталогов в Allsubmitter

V
На сайте с 19.10.2006
Offline
97
1176

Задача:

из собранной базы каталогов выкинуть как можно больше "мусора", остаться должны только те которые размещают ссылку безвозмездно и от её размещения есть какой то эффект, с точки зрения Яндекса, для прогоняемого сайта.

Решение:

1. отсееваются домены ответившие кодом <> 200 (при двухкратном прогоне с разрывом в неделю) (вероятно мертвые)

2. отсееваются домены у которых в индексе Яндекса меньше 50и страниц, при этом в индексе одного из других поисковиков страниц меньше 50и или больше 70. (при двухкратном прогоне с разрывом в 2 недели) (вероятно забаненные или забытые)

Вопрос:

по каким параметрам (доступным Allsubmitter'у) можно еще отфильтровать мусор?

(до первого ручного прогона)

Интересно ваше мнение и идеи.

inetessentials
На сайте с 19.05.2005
Offline
480
#1

есть такой сервис http://baza.garb.ru/index.php?idk=2 отвеивает мертвяки и черные каталоги..

остальное лучше ручками думаю

Продвигаем естественно (http://www.inetessentials.ru/) и непринужденно Проект All in Top (http://www.allintop.ru/) - обучение поисковой оптимизации без воды и на реальных примерах
V
На сайте с 19.10.2006
Offline
97
#2

inetessentials, спасибо за ответ, это полезный сервис, но в процессе сбора базы он был найден одним из первых, эх видимо и правда дальше придется ручками

broken
На сайте с 03.10.2006
Offline
228
#3

то что описано в требованиях выше - можно отсортировать через смайл. дело 5 минут. если хотите - могу помочь.

V
На сайте с 19.10.2006
Offline
97
#4

broken, выражаю благодарность за помощь, жаль плюсик не могу пока ставить )

[Удален]
#5
valdissom:
1. отсееваются домены ответившие кодом <> 200 (при двухкратном прогоне с разрывом в неделю) (вероятно мертвые)

Вероятно переехала на другой адрес страница добавления (достали спамом).

2. отсееваются домены у которых в индексе Яндекса меньше 50и страниц, при этом в индексе одного из других поисковиков страниц меньше 50и или больше 70. (при двухкратном прогоне с разрывом в 2 недели) (вероятно забаненные или забытые)

Вероятно ещё не проиндексированные. Даже если забаненые - бан (особенно в свете последнеё реабилитации каталогов) явления временное. К тому же - Яндекс не единственный поисковик которым пользуются в России.

по каким параметрам (доступным Allsubmitter'у) можно еще отфильтровать мусор?
(до первого ручного прогона)

Имхо, только ручным прогоном, с последующим анализом полученных беков - всё остальное это только небольшое подспорье.

V
На сайте с 19.10.2006
Offline
97
#6

jorevo, спасибо за рекомендации, я все больше склоняюсь к ручному прогону, во всяком случае уже начал, эхх не легкая это работа ))).

[Удален]
#7
valdissom:
jorevo, спасибо за рекомендации, я все больше склоняюсь к ручному прогону, во всяком случае уже начал, эхх не легкая это работа ))).

Здесь /ru/forum/comment/1774973 вам небольшое подспорье (плод почти годовой работы) мой блек-лист из 10 с лишним тыс. сайтов. Только плиз не принимайте за безоговорочную рекомендацию к удалению всего что там содержится, у всех разные подходы к комплектованию базы да и человеческий фактор способствует ошибкам. Но то что там 90% мусорных линков, это я пожалуй могу гарантировать. :)

V
На сайте с 19.10.2006
Offline
97
#8

jorevo, спасибо, такая информация всегда пригодится, делюсь своим блеклистом, естественно его тоже не советую принимать за истину, после вашего поста о нецелесообразности моего подхода к фильтрации. Но для списка подозрительных он подойдет.😎

zip dead_links.zip

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий