Фильтрация ссылок по URL

12
[Удален]
#11
yanus:
/tost/ а это персональное "фи" сайту datot'а с тостами?

не, в данном случае это исключение, как правило в индексе подобное не держится из-за низкого качества

yanus:
вообще, чем жоще настраивать фильтры, тем больше шансов попасть на "заточенные" под сапу ГС ))

так я против них ни чего не имею, если это не сетка, а они фильтруются в другом месте :)

Василий Колодин
На сайте с 17.12.2008
Offline
250
#12

Поизучая различные примеры, тузлы и прочее, в настоящее время остановился на следующем (для плагина винка):

=[0-9a-f]{32}|%|/\?|show|topic|profile|user|displayimage|gallery|archive|view|photo|page|post_[0-9]|forum|comment|search|feed|rss|date|calendar|board|product|memberlist|print|p=[0-9]|page=[0-9]|question|link|cgi-bin|tag|tegi|sid=|artist|games|warez|erotica|dating|film|prikol|xxx|porno|love|katalog|kat.php|catalog|cat=|category|section
Юзаю Бегет с 2013 года. Начни юзать и ты: https://beget.com/p64496/ru/hosting/virtual
kbv79
На сайте с 24.03.2007
Offline
167
#13

Маловат списочек. Удобнее группировать по типам:

=[0-9a-f]{32}
|search|poisk|select|/cgi-bin/
|forum|phorum|topic|showpost|showthread|message|new_mess|comment
|profile|showuser|member|user|&nick=|avatars
|gallery|galery|displayimage|image_id|photo|foto
|category|rubriks|taxonomy
|virtuemart|shop|productID|product.php
|wallpapers|oboi/
|vacancy|view_vacancy|view_vac|vac_id|rezzume
|akkordi
|warez|varez|tracker|torrent|dvdrip|hdrip

film - спорная категория, 50% будут варезники и фильмы он-лайн, ещё 10-20 - афиши, но остальное нормальные страницы. Варезники проще "добить" через фильтр контента.

S2
На сайте с 07.01.2008
Offline
611
#14

kbv79, а почему вы print не включили в список?

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
kbv79
На сайте с 24.03.2007
Offline
167
#15
Str256:
kbv79, а почему вы print не включили в список?

Я просто не весь список привел, главное направление, а дословность:

|tag|tegi
|print|prn=
|pda
|sitemap
|akkordi
|postal-codes
|playlist
|ucoz
|youtube
|/eng/
|fgames|flashki|flash
|sms-payment

Это спорные моменты:

|/2000/|/2001/|/2002/|/2003/|/2004/|/2005/|/2006/|/2007/|/2008/|/2009/|/2010/
|/page/|/pages/
|&archive|/archives/
MyOST
На сайте с 22.01.2006
Offline
559
#16
kbv79:
Это спорные моменты:

не - это нормальные моменты, которые позволяют убрать часто дубли страниц, да - вылетят и нормальные, но абсолютное большинство по годам - будут дубли , архивы (проверял).

Всегда же пытаемся обойтись малой кровью :)

вородпрессовские года можно иначе зафильтровать, к примеру

2001/01|2001/02 ...

но оно же зацепит и простые посты, допустим как уже приведенный в этом топике http://seom.info/2010/06/23/pokupka-ssylok/ - у которого внутри сайта НЕТ дублей

Тоже самое со знаком & например - можно им убирать различные сортировки, коих нереально много, только он зацепит еще и друпал, к примеру.

С другой стороны есть явные признаки не желательных движков dn=photos|image_id|displayimage - и другие, которые явно характеризуют страницу/часто сайт в целом, как галерею, порой очень тупо распарсенную.

Лучше всего работает ступенчатый метод, когда есть явные признаки НЕ желательных сеток, как вариант, либо дублей, а также есть "группа риска". Детальная настройка - помощник, но этим нужно заниматься довольно плотно, иногда проще отменить по общему списку.

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()
kbv79
На сайте с 24.03.2007
Offline
167
#17

Я согласен, что лучше отменить заявку на хорошем, чем купить на плохом.

Ступенчатый метод, на самом деле, имеет недостатки и минусы.

Смысл ведь в том, чтобы по результатам одних проверок составлять ГБЛ, а по результатам других просто отменять.

Но даже когда мы отсеиваем, уж совсем казалось бы некачественных доноров, есть риск промахнуться.

Например, отсев варезников. По LF и TF:

|warez|varez|tracker|torrent|dvdrip|hdrip|xxx и т.п.

и

Rapidshare|Deposite|Letitbit|Vip-file|Shareflare|TurboBit

Все равно попадают хорошие сайты - у одного баннер от Letitbit, у другого просто пара файлов, залитых на Рапиду для экономии хостинга, третий назвал пост в блоге "xxx", четвертый выложил обзор торрентов.

То, что хорошие сайты попадут в GBL - полбеды, возможно, что на других проектах уже куплены ссылки на этих сайтах и мы их потеряем.

MyOST
На сайте с 22.01.2006
Offline
559
#18
kbv79:
Все равно попадают хорошие сайты

любая автоматическая система анализа будет сметать не только плохое, ибо все "исключения" можно сделать только при модели проверки на совмещение факторов, т.е. летитбит + слово варез + еще что-то = плохой, просто летитбит на странице - не равно плохой.

Модель проверки такую можно сделать, но не в рамках винка на данный момент, здесь чуть другой подход нужен и еще больше времени на составление таких факторов.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий