Ну через какое-то время может получиться так что умрут 27 из 30 причём 15 из них умрут "неправильно" и Robozilla об этом не узнает. Я не говорю что это будет вот прям сейчас, но при быстрых темпах каталога ситуация выглядит не такой уж нереальной. Вот сейчас я открыл раздел почти наугад.Ткнул в нижнюю ссылку - ошибка с редиректом на хостера. Мертвяк. Чуть выше одна за другой идут два URL с одинаковым тайтлом, но с разным описанием. На одном из них одна картинка с ссылкой на второй URL и вобщем-то всё (ну ещё дата последнего обновления и рекомендуемые разрешение/обозреватель). Такое тоже можно было бы отследить на автомате. Это я потыкал ещё не во все ссылки в разделе (всего штук в 5 из 15). Так что некоторые проблемы есть уже сейчас и они ощутимы.
AOL/Time Warner то ли имеет акции Google то ли гарантированную возможность выкупить n-ое количество этих акций в течении какого-то срока. Так что какое-то отношение к гуглу всё-таки имеет. :)
Ну вобщем как бы там ни было у AOL'а тоже не должно быть проблем с программистами.
P.S. Раздел с мертвяком и "дублем" отсылаю в личку.
Это-то я думаю всем понятно.
Тем кто заинтересован в его развитии я бы советовал написать хотя бы примитивную автоматическую систему проверки живучести сайта примерно в том виде (с тем же контентом/направленностью) в котором он был добавлен в каталог (а не то что делает ваша Robozilla если судить по описанию - тупо смотрит отклик без анализа контента). Т.е. при удалении какого-либо ключевого контента(он должен задаваться редактором) сайт автоматом ставился бы в список сайтов требующих проверки. Понятно что система будет не простая(я написал вкратце неполную идею, там надо контролировать путь от морды до страниц с ключевым контентом, статистические параметры окружения и т.д. и т.п.). Почему на данный момент dmoz не может отследить даже примитивное превращение сайта в одну страничку с картинкой(см. пример выше на пяток постов) - для меня загадка. Вернее я понимаю почему, но ведь автоматически отследить такое можно элементарно тем более что размер каталога очень даже невелик и больших вычислительных мощностей для таких проверок не понадобится(да и нет у гугла с этим проблем)...
Хотя люди которые могут такое написать вряд ли станут это делать бесплатно. Я лично не стану, потому как представляю примерно объём работы - писал уже в своё время интеллектуальный авточекер правда в другой области. Но говорят у гугла много программистов и среди них есть даже не индусы :) - вот пусть напишут.
А пока такой или подобной автоматизации нету, я лично считаю идею с добровольными редакторами утопичной. Как я уже писал - чем больше становиться каталог тем больше там будет таких неявных "мертвяков". И скоро в заявке редактора(я сходил ознакомился, подавать не стал - прочитал "Мы тяжело работаем для того чтобы Открытый Каталог был справедливым и беспристрастным справочником." и понял что особого желания "тяжело работать" забесплатно нету :) , ну если серьёзно - то желания нету из-за вышеозвученного моего видения перспективы каталога в том виде в котором он есть) будут просить указать не три сайта которые вы хотели бы добавить, а трёх "мертвяков" которых надо удалить. :)
Вот такие у меня мысли. А количеством редакторов проблему не решить. Вернее решить можно, но качество и "красивость решения" пострадают и будет велико влияние человеческого фактора.
Хотел я возразить Lor'у, что не всё так плохо - зашёл в один раздел в World:Russian и увидел один сайт состоящий из одной страницы с логотипом и PR 5. Второй сайт ну вобщем формально конечно можно поместить в тот раздел, но он состоит из одной страницы с которой можно скачать фильм(тут многие догадаются о разделе :) ) на 44 метра который якобы является фильмом-пародией и снят каким-то бухим русским поляком в пустом поезде (полезность и достойность этого ресурса поразила видимо редактора очень сильно что он включил его в раздел). Фильм такой может снять семилетний ребёнок: снимается бутылка с какой-то фигнёй которая "движется" под тревожную музыку по почти пустой электричке. На фильме написан в углу реальный сайт владельца, титры идут на польском. PR у странички тоже пятёрка с неё 2 ссылки на другие сайты владельца. Т.е. если я захочу в DMOZ в этот раздел, то сопру какоё-нибудь видео с конкурса начинающих режиссёров наложу адрес сайта, слабаю страничку за 5 минут на народе - и всё вот я и в DMOZ'е. :) Сомневаюсь что всё так было - налицо либо продажность либо абсолютная некомпетентность редактора(которого в этом подразделе уже/ещё нету). Кстати всего в этом разделе 8 сайтов. 25% явного дерьма - неслабый процент.
Зашёл в другой раздел - оказалось всё более-менее чисто. Больше никуда не ходил.
Вобщем вот такие результаты нерепрезентативной выборки.
P.S. Ссылки на указанные сайты отправляю приваткой merzliakov'у чтобы не было обвинений в голословности.
Молодец. Теперь успей понять что за это(keyword только в meta keywords и отсутствие его в контенте) тебя гугл слегка зафильтрует. Был у него какой-то фильтр специально по keyword'ам. Проверял на keyword-спам и на несоответствие keyword'ов контенту. Может конечно чего-то у гугла поменялось, но думаю этот фильтр остался.
Это робот индексатор картинок. Ползать по идее может и после бана. Некоторое время.
Ходят страшилки для клоакеров про чёрного чекера, который ползает полностью кося под браузер с незасвеченным IP не из Я. А после ползания различные роботы складывали 2+2 с чёрным чекером и выявляли клоакеров на раз.
Знакомых клоакеров нету, так что ни подтвердить ни опровергнуть страшилку не могу.
Необязательно тук тук был.
Есть предположение что ходит по топу высокочастотников, по сайтам имеющим в прошлом "наказания", по сайтам "ракетой вверх", по участникам линкопомоечного обмена ну и уже как дополнение по стуку (для того чтобы натравить дятла на url в размытом неконкретном стуке вполне хватит умений секретарши :) ). Предположение впрочем из гаданий на кофейной гуще ну и из небольшой статистики по разноплановым проектам. :)
Надо бы для эксперимента настучать на свой проект на который дятел не залетал пока. Но лень. :)
Главное чтобы саппорт знал разницу между помойкой и нормальным каталогом. И что вас так беспокоит загруженность работников Я? Пусть работают. :)
И интересно кому по-вашему надо сделать доступным стук в саппорт? Критиковать существующую систему много ума не надо - вы предложите решение. Мне что-то в голову ничего не приходит кроме как фильтровать параноиков совершивших определённый процент ложного стука. Но что мешает этим параноикам писать с другого мыла?
А с точки зрения логики запрещать стучать тем кто таким образом убирает конкурентов, а сам не брезгует грязными приёмами, и лезет наверх точно не надо. Даже если у него КПД 50% он значительно подчистит выдачу, а когда вылезет сам, то и его подчистят - и будет всем пользователям поисковика счастье. :)
Ну пример прямо скажем не очень. Мы всё же не в начале 90-х живём. И единая диспетчерская служба направит скорые куда надо, и если есть резерв, то пошлёт даже лишние на всякий случай. Хотя про все города и страны не скажу конечно. Контрпримеры придумываются на раз, но как я уже писал - забейте на аналогии в данном случае.
Ну реально полезным сайтам "для людей" мелкие грешки прощаются. Только вот вопрос "кому от этого плохо?" имеет ответ: плохо от этого конкурентам которые тоже соответствуют запросу на все 100%, но не имеют "пары спорных моментов". Может только из-за этой пары спорных моментов (а может и весьма э-э бесспорных :) ) вы и оказались выше.
Моя твоя понимай. Спасибо. Буду работать над собой. Но боюсь уже поздновато. :) Видимо поэтому мне не быть(и слава Богу) написателем новостей и наполнителем контента. :)
Ну так я и порекомендовал ему исправить ошибку. Мог бы вообще промолчать - она бы висела ещё пару месяцев.
Я-то вообще безграмотен как пень. Особенно страдаю кривым построением предложений на русском - сам иногда не могу с первого раза прочитать. :) Но если я уж чего и выкладываю на сайт, то стараюсь вычитывать пару раз.
Про абузы в Я и про работу от которой я устаю чего-то без травы не пойму. Ну да и ладно.