BaseFix - приемы работы с базами каталогов

12
[Удален]
7017

Сама утилита BaseFix находится здесь и предназначена для быстрой и эффективной обработки баз, позволяя в разы экономить время. Но кроме того при знании основ работы с ней, можно сделать гораздо больше.

На форуме уже есть тема, где описана сама утилита BaseFix, в этой теме будут и дальше обсуждаться технические вопросы и предложения.

В этой ветке решили

1) Собрать для новичков основные приемы как чем пользоваться

2) Поделиться тонкостями и "секретами", что еще можно "выжать" из BaseFix при умелом подходе (кто как использует утилиту)

3) Обсудить что еще стоит добавить именно из приемов обработки

В ближайшие дни я выложу здесь основной перечень приемов что и как можно сделать с базами. Пока можете параллельно описывать свои наработки.

Всем хорошего общения...

[Удален]
#1

Первый основной прием - слияние баз.

Чаще всего имеется две или более баз, разрозненных, частично пересекающихся, которые нужно объединить в одну общую.

Берете одну базу и загружаете в поле "Файл с базой", вторую базу в поле "Сравнить с базой". Нажимаете "Поехали" и на выходе в окошке получаете список каталогов из второй базы, которые отсутствуют в первой.

Два примечания.

1) База по умолчанию выдается в старом (наиболее совместимом) формате AllSubmitter, так что бы работало у всех, независимо от версии программы.

2) База выдается в виде исходного текста - так удобнее - можно ее посмотреть визуально в окошке. При желании жмете "Получить в виде файла", задаете имя и расширение для файлы и туда запишется база из окошка.

Теперь об опциях.

По умолчанию, если не указано другое, слияние баз даст только новые каталоги из второй указанной базы, а не объединенный список. Для того, чтобы получить все уникальные каталоги из обеих баз, надо поставить опцию "Добавить", вместо "Показать новые".

Слияние нескольких баз происходит путем многократного попарного слияния. Здесь имеет место обычная математическая работа со множествами - пересечение, вычитание, объединение. Этот набор операций над базами полдностью поддерживается утилитой и позволяет собирать базы в любом сочетании.

Есть опция "Показывать удаленные каталоги". Это очень удобно, потому что фактически из баз ничего не удаляется, просто в окно выдается отобранный по заданным условиям список каталогов. А все неотобранные будут показаны в другом окне если включить опцию "Показывать удаленные каталоги". Так можно получать любые "срезы" баз одновременно - например, сравнив две базы увидеть новое в первом окне и увидеть повторы - во втором окне. Комбинируйте на свой вкус.

Примеры.

Вы получили новую базу от кого-то. У вас есть своя "белая", проверенная и своя "черная" - с явным мусором. Вам нужно обновить свое "хозяйство".

Вариантов много, комбинируйте, вот один из них:

Первый проход. Берем Новую базу и сравниваем ее с Черной. Для этого включаем "Показывать удаленные каталоги", первой базой указываем Черную, второй Новую. На выходе в выдаче имеем каталоги из новой базы, которых не было в черной, а в окне ниже - удаленные - каталоги Новой базы, которые были у вас в Черной базе - мусор, то есть. Сохраняем результат выдачи в файл.

Второй проход.

Берем первой базой Белую, включаем "Показать новые" и второй базой указывае только что полученную из обработки базу (Новая без Черной). На выходе получаем каталоги, которые были в Новой базе, но не были в вашей Белой - т.е. потенциальные белые и новые для вас. Сохраняем базу и в сабмитере или как угодно проверяем. Потом черные из нее добавите к своей Черной, белые к Белой.

Описано долго - по факту 30 секунд на все действия. С накоплением Белой и Черной базы эффективность растет, проверка новых баз очень быстрая.

P
На сайте с 12.02.2006
Offline
192
#2

О респект создателю программы, у меня дольше получалось делать, теперь оптимизируем процесс с учетом данных инструкций

[Удален]
#3

Как работать с базами AllSubmitter разных версий.

Используя опцию "Выдавать в новом формате xml" можно выбирать какой формат базы вам требуется. Если работаете с новой версией сабмитера и база тоже новой версии и хочется сохранить все поля из нее - тогда выставляйте опцию новой версии.

В остальных случаях рекомендуется оставить эту опцию отключенной для получения базы старого, наиболее совместимого формата, в которой заодно уберется много чужого "мусора" (если базы чужие, а не ваши) и она будет раза в полтора меньше весить.

[Удален]
#4

Большой блок опций "Работа с тИЦ"

После введения в AllSubmitter поддержки тИЦ эти опции остались интересны тем, у кого старая версия сабмитера, либо тем кто находит работу с тИЦ через BaseFix более удобной.

Кстати сказать, есть все основания полагать, что многие нововведения в AllSubmitter были результатом того, что сначала эти опции появились в BaseFix и доказали, что на них есть спрос. Таким образом, BaseFix способствовал всеобщему прогрессу :-) Позже сабмитер стал поддерживать многие фишки, которые ранее умел только BaseFix, вплоть до шифрации баз (наша недавняя разработка была тут же внедрена в AllSubmitter).

Обосновав таким образом наличие некоторых, казалось бы, уже не столь актуальных функций утилиты, продолжу описание работы с тИЦ.

Раньше AllSubmitter не умел работать с тИЦ каталогов в базе, предлагая только читать PR и довольствоваться этим. В нем не было даже полей для хранения тИЦ, потому выбрали все параметры, которые использует BaseFix, хранить с поле комментариев - просто, удобно и наглядно.

Опции позволяют пройти по базе и просканировать тИЦ для каждого каталога. Для сканирования тИЦ можно выбрать и две базы сразу, пересекая их и работая с тИЦ, однако, понятнее и удобнее работать с одной.

Итак, загружаем нужную базу в поле "Файл с базой". Включаем опцию "Сканировать тИЦ" и в поле "не более" ставим 100-300 (в зависимости от конекта к сети) - это число каталогов, которое будет пройдено за один проход. Штука в том, что работа сервера ограничена по времени и сразу пройти большую базу, допустим на 3000 каталогов, долго. Потому сканирование разбивается на проходы кусочками. После того как отсканируются тЦИ для первых 300 каталогов, надо выбрать опцию "Брать из выдачи" и "Сканировать только для неизвестных" и продолжить сканирование - будут просканированы следующие 300 штук. И так далее. Если включить опцию "Показывать подробную статистику" будет видно сколько каталогов уде просканировано в базе, средние показатели тИЦ и пр. Удобно ориентироваться.

Теперь некоторые детали. Просканировав тИЦ для каталога утилита в его комментарии пишет с круглых скобках тИЦ и для этого каталога тИЦ считается известным. Потому чтобы не сканировать уже известные каталоги и сделана опция "Сканировать только для неизвестных".

Однако, если у вас старая база и тИЦ в ней неактуальны, можно один раз при первом проходе включить опцию "Пометить нулевые тИЦ, как неизвестные" и в этот раз и далее все каталоги с тИЦ 0 будут пересканированы заново.

Некоторые возможности BaseFix до сих пор более гибкие. например, вы можете пересканировать только тИЦ=0 или если нужно, все каталоги с тИЦ от указанной величины. Обычно это актуально для каталогов с низким тИЦ, чтобы проверить на сколько они подрасли. Для этого ОТКЛЮЧАЕТЕ "сканирование только для неизвестных" и ставите в поле "Пропускать известные тИЦ от" тИЦ, до которого надо пересканировать. Все каталоги в базе с тИЦ меньше указанного, будут пересканированы.

Ну и, наконец, опция YBan. Тут все просто. Яндекс не любит, когда его базу грузят бестолковыми запросами и может закрыть доступ к тИЦ после длительной работы. Это происходит с любой утилитой и она начинает выдавать запрет на тИЦ. Чтобы не тратить время и сразу заметить это, можно указать сколько подряд неудачных сканов будет считаться баном. После этого сканер остановится.

[Удален]
#5

Блок опций "Проверки "

Используется для чистки базы по "внешним" источникам. Внутренними источниками будем называть все данные, которые есть в самой базе, а внешними - все остальные.

Удалять английские и глухие

Эта опция прозодит по базе и для каждого каталога считывает кусочек страницы, на которую указывает URL. Далее проводится анализ считанного текста - распознается кодировка и с учетом кодировки проверяется есть ли на сайте хотя бы 3 русских слова. Если нет - сайт считается не русским. Берется не вся страница, а кусочек именно потому, чтобы сэкономить время на обход всей базы, т.к. процедура очень долгая. Так же некоторые сайты слишком долго отвечают на запрос или "висят". Такие сайты считаются "глухими" и так же подлежат удалению по этой опции. в перспективе, если будет спрос а это, можно сделать возможность самостоятельно указать сколько килобайт сайта читать для спроверки на "русскость". Пока же можно сказать, что данный фильтр 100% отсеивает нерусские сайты, но иногда "цепляет" некоторые русские в виду того, что там в достаточной близости к заголовку не встречается русских слов (есть такие сайты).

В режиме $UseSockets = 1 (настраивается внутри файла basefix.phtml) программа пытается подключить к сайтам через сокеты, что быстрее. Иначе работает как с внешними файлами.

Удалять "мёртвые" ссылки

В режите $UseSockets = 1 программа подключается к каждому каталогу в базе по указанному адресу (а не по домену) и читает код ответа. Можно задать какие коды считаются "мертвыми ссылками" - по умолчанию 404 (документ не найден) и 403 (доступ запрещен)

Удалять "забаненые" каталоги

Нашумевшая опция, по которую много было сказано. Появилась по просьбе пользователей после обширного бана каталогов яндексом. Проходит по базе и для каждого каталога проверяет сколько страниц каталога есть в индексе Яндекса. Можно задать число страниц и если в базе Яндекса их меньше, чем задано - считается забаненным. Дело в том, что бывает бан не всего каталога, а его части, когда "голова" остается в выдаче. Исходим из идеи, что каталог - это минимум 10 страниц.

Один момент - есть молодые каталоги, которые ЕЩЕ не вошли в базу яндекса - они так же могут попасть в этот фильтр как забаненные.

Удалять каталоги без ссылки на сайт

Очень мощная опция, по сути позволяет проверить "белость" каталогов в базе. Проведя регистрацию по базе через месяц-другой воспользуйтесь этой опцией и узнайте какие из каталогов по информаци Яндекса содержат ссылку на ваш сайт. Проверяется по каждому каталогу есть ли в страницах этого каталога, которые имеются в базе Яндекса, страницы со ссылкой на ваш ресурс. Если нет - путь ваша ссылка хоть самая крупная и заметная в каталоге - Яндекс ее "не знает" и толку от нее нет.

Так же захватывается как полное отсутствие ссылки так и редирект-ссылки, то есть "ПОЛНАЯ ПРОВЕРКА НА БЕЛОСТЬ".

Проверять только первые N ссылок

Аналогично скану тИЦ чтобы не перегружать систему проверять базу можно порциями. Для проверенных в комментарии пишется отметка о результата и повторно они не проверяются.

Снять пометки с проверенных (BAN & DEAD)

Включив опчию, можно перед началом проверки снять пометки с уже проверенных на "мертвость" и бан каталогов, чтобы проверить их повторно.

Снять пометки с проверенных (BACK)

Аналогично предыдущему, но отдельно для проверки обратных ссылок.

P
На сайте с 12.02.2006
Offline
192
#6

Хороший мануал, спасибо, надо Вам это дело в фак и рассылку на сайте с архивом скрипта

[Удален]
#7

Да уже думали, как тут допишем, немного подкорректируем текст и надо его в help к программе включить.

P
На сайте с 12.02.2006
Offline
192
#8

Будет просто замечательно

[Удален]
#9

Блок опций "Фильтрация"

Тут вообще все просто. Опции предназначены для отбора в баз необходимых каталогов. Действует как на одну базу, так и при загрузке двух баз для сравнения. В случае двух баз, сначала проводится сравнение баз, а потом на результат накладываются фильтры.

Все задействованные фильтры накладываются одновременно, т.е. будут применены все, а не "любой из".

PR от .. до..

Отбирает только те каталоги, PR которых укладывается в указанный диапазон. Аналогично для тИЦ.

начинающиеся на символы от ... до ...

Будут отобраны только те каталоги, которые начинаются на один из символов в указанном диапазоне. При том http:// и пр. не учитываются, первым символом считается именно символ имени хоста

Можно отбирать как ряд символов, например, указав от "a" до "c" можно отобрать каталоги, начинающиеся на A, B на C. А можно выбрать только нужную букву, например, от А до А.

Полезно, если надо нарезать базу по алфавиту на части. Типа "алфавитной диеты" - сегодня регистрируем сайт только в каталогах на "А", завтра только на "B" и т.д. :-)

Удалять каталоги в домене *.com

Банально - удалит все каталоги .com Зачем? Уже не знаю, раньше было актуально.

Удалять по маске

Удалит из базы все каталоги, которые "зацепятся" маской. Вместо точки (.) используйте * - в остальном полный аналог регулярных выражений, например, работает такая маска: (v*+s)|(bb) Например, указав маску

(*.h1.ru) вы удалите все каталоги на бесплатном хостинге H1

параметр "кроме" позволяет "спасти" каталог, удаленный по маске, если он соответствует маске "кроме". Так можно задавать исключение из удаления по маске.

[Удален]
#10

Сортировки

Оригинальая сортировка осталяет все как есть

Сортировка по алфавиту - расставляет каталоги в базе в алфавитном порядке, начиная с A и до Z

Сортировки по тИЦ и PR расставляют каталоги в базе по тИЦ и PR соответственно в порядке убывания. тИЦ и PR при том не скнируются, а берутся из текущей информации базы, потому неизвестные покадут в конец, хотя могут реально иметь высокий ранг. Потому сначала просканируйте базу на нужный параметр.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий