Как подбирать базы для Аллсаба?

[Удален]
516

Доброго, уважаемые форумчане! :)

Решился наконец и своими руками поработать ;) Есть желание собрать собственную базу каталогов для Аллсаба. Вернее отсортировать тот ужас, который находится в свободном полете.

Кто как обрабатывал и сортировал базы: очень прошу подсказать алгоритм. Как можно подробнее. Я понимаю что у каждого свои секреты... Но. Всегда есть "но", которое называется - "Дадим дорогу молодым ;)"

Заранее всем огромное спасибо за внимание и потраченное на посты время!

Никулин М добавил 03.03.2010 в 18:01

Случайно наскочил на сайт, где в комментарии было следующее:

Народ не парьтесь, не качайте зря гигабайты, рабочих баз для Allsubmitter 4.7 практически нет, проверено! Те кто профессионально этим занимается ориентируются тоже на проффесионалов, а те работают с Allsubmitter 5.х. А базы для пятого на Allsubmitter 4.7 практически не работают и дело тут вовсе не в конвертации. Я скачал пару баз с сети, запустил тестовую регистрацию и получил 7% успешных регистраций, вставил бэклинки прогнал еще раз получилось 10%:((( Прогнал тестовый участок в полуавтомате, а потом его же в автомате и... все работает!

Вывод - надо делать свою базу проходя ее в ручном режиме. Я, конечно, трезво оцениваю свои силы и понимаю что в одиночку создать приличную базу нереально, надо привлекать помощников. Но для этого надо иметь какую то основную базу над которой уже можно работать. Вот такую базу, назовем ее alfa, я и создал.

Итак, как я ее собирал. Первым делом поскачивал с сети ВСЕ общедоступные бесплатные базы, затем просмотрел их и разбил по степени полезности и сортированности. После этого начал по одной добавлять в программу исключая дубликаты. Получилось порядка 140 000 сайтов. После этого я их проверил на отклик сервера и название сайта. С плохим откликом и вирусами убирал в черный список (65 000). Следующий этап сортировка. Сортировал по названию, url, строке успешной регистрации создавая категории - каталоги (16 000), каталоги статей (3 000), иностранные (2 500), мусор (17 000), несортированное (2500), доски объявлений (6 000), полуавтомат(16 000) и рассылки (4500), куда вошли гостевые книги, форумы, блоги, RSS, добавление новостей и комментариев (в скобках итоговое количество). После чего запустил тестовый говносайт, со всеми возможными категориями, на прогон по каталогам и получил 1200 успешных. Остальные вылетали, большей частью, с ошибкой "нет распознанной формы". С помощью эталонных форм я просеял эти неудачные, мусор и полуавтомат. Определило около 8000 из которых половина сразу идет в успешные, а со второй половинай надо еще покопаться. Ну а с остальными надо уже разбираться только вручную.

Какие планы на ближайшее будущее. Разобраться с автокаталогами, автодосками и автокаталогами статей. Из иностранных и полуавтомата оставить только сайты с высокими показателями. Каталоги статей рассортировать на автоматические и тематические, доски объявлений на автоматические, тематические и региональные. Из успешных сделать beta версию 1.0. После чего заняться разбором остального, по мере поступления выпуская обновления для этой базы. Для этого и нужны добровольцы. Приглашаю всех желающих принять участие в проекте. Все что нуждается в сортировке я разбил на куски, примерно по 1000 сайтов которые надо пройти в режиме полуавтомата и рассортировать, согласно структуре базы. Понятное дело, что все участники проекта не только получат эту базу, но и будут получать все обновления к ней. У вас есть возможность потратив немного своего времени получить не только мой, более чем 2-х месячный труд, но и результат работы многих людей! Каждая база будет передаваться с вшитым в нее персональным шифром. Пользователь который ее выложит в сети будет лишен всех привилегий. Прошу отнестись к этой мере с пониманием, но если база попадет в свободный доступ, то вся работа над ней прекратиться, зачем что то делать когда можно скачать бесплатно?
Заявки присылайте на адрес *******@yandex.ru
Любителей халявы предупреждаю сразу, результаты буду проверять!

Какие планы на дальнейшее будущее. После того как все вышеперечисленное будет разобрано, выпустить финальную версию, которую потом только чистить и добавлять. Это тоже планируется делать в виде открытого проекта (ведь не зря Firefox потихоньку обгоняет IE:). В идеале, хотелось бы получить самую полную РАБОТОСПОСОБНУЮ базу для Allsubmitter 4.7. Поскольку я, лично, не пользуюсь тем что находится в папке рассылки, то и развивать ее не планирую, но если будет спрос, то почему бы и нет? По мере развития проекта, я планирую создать сайт базы, где будут выкладываться информация по базе, проводиться обсуждения, опросы и.т.д.
P.S.
Проект уже запущен, уже есть первые результаты, но для завершения работ нужны еще люди. Присоеденяйтесь!

Кто может прокомментировать с пояснениями в виде пошагового руководства действия автора данного коммента?

ЛЮДИ, ПОЖАЛУЙСТА! ХОТЬ ССЫЛКОЙ НА ИНФУ ПО ТЕМЕ ПОДЕЛИТЕСЬ...

Light Phantom
На сайте с 17.03.2007
Offline
188
#1

Можно только сразу шлак отсеять. Оставшееся все равно вручную проходить надо.

Сначала ищем по базе сайты, содержащие в УРЛах forum, guestbook, board и т. д. Все это отправляем в черный список, потом проверяем ответ сервера. Все, что выше 200 - в черный список (хотя, я сразу не удаляю, а перемещаю в отдельную категорию (не знаю даже на что я надеюсь:)), потом определяем кол-во проиндексированных страниц (<35 страниц в индексе - откидываем). Остальные начинаем проверять тщательно.

В первую очередь лучше пропарсить выдачу, а потом уже добалять мусор из паблика.

Запаситесь терпением и временем. Это даже не десятки, а сотни часов работы, чтобы перебрать всё УГ, которое валяется в свободном доступе.

[Удален]
#2

Light Phantom, мегареспект тебе =) Откликнулся :)

Кто может сказать, как проверять типы бэклинков? ну например, требует, но не проверяет и т.п.?

Light Phantom
На сайте с 17.03.2007
Offline
188
#3
Никулин М:
ну например, требует, но не проверяет и т.п.?

А если по логике рассудить? ) Естественно, пытаться разместить без обратки и смотреть появится ли сайт в каталоге и не пропадет ли он оттуда через некоторое время.

[Удален]
#4
Light Phantom:
А если по логике рассудить?

Нелегкая это работа... Это ж надо все 20000-30000 каталогов пробежать... Мрак...

Еще если вопрос (всплыл по ходу дела): всмысле

Light Phantom:
проверяем ответ сервера. Все, что выше 200 - в черный список
Как этот ответ проверить (это же пинговка, как я понял). Это можно сделать в АллСабе или ручками? И вообще логика этого шаманского действа? :)

ОГРОМНОЕ СПАСИБО! С тем количеством вопросов которые не перестают появляться скоро фак можно будет делать "Базы АллСаба своими руками" ;)

Light Phantom
На сайте с 17.03.2007
Offline
188
#5
Никулин М:
Это ж надо все 20000-30000 каталогов пробежать... Мрак...

Боюсь, что гораздо больше ) У меня в блэк листе 55 000 ссылок. Еще столько же надо проверить )

Light Phantom добавил 04.03.2010 в 01:44

Никулин М:
Как этот ответ проверить (это же пинговка, как я понял). Это можно сделать в АллСабе или ручками? И вообще логика этого шаманского действа?

Да, есть в Олсабе

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий