Грыбочек

Рейтинг
14
Регистрация
23.07.2005
helenaom:
Я не думаю, что отслеживание "умерших" сайтов - это самая важная задача. С точки зрения посетителя лучше, чтобы на интересующую его тему в разделе было 30 сайтов, даже если 3 из них уже "умерли", чем всего 3 сайта, а то и вообще ни одного. В русскоязычной части каталога - это не такая уж и редкая ситуация.

Ну через какое-то время может получиться так что умрут 27 из 30 причём 15 из них умрут "неправильно" и Robozilla об этом не узнает. Я не говорю что это будет вот прям сейчас, но при быстрых темпах каталога ситуация выглядит не такой уж нереальной. Вот сейчас я открыл раздел почти наугад.Ткнул в нижнюю ссылку - ошибка с редиректом на хостера. Мертвяк. Чуть выше одна за другой идут два URL с одинаковым тайтлом, но с разным описанием. На одном из них одна картинка с ссылкой на второй URL и вобщем-то всё (ну ещё дата последнего обновления и рекомендуемые разрешение/обозреватель). Такое тоже можно было бы отследить на автомате. Это я потыкал ещё не во все ссылки в разделе (всего штук в 5 из 15). Так что некоторые проблемы есть уже сейчас и они ощутимы.

helenaom:

ДМОЗ к Гуглу не имеет никакого отношения. Владельцем каталога является компания AOL/Time Warner.

AOL/Time Warner то ли имеет акции Google то ли гарантированную возможность выкупить n-ое количество этих акций в течении какого-то срока. Так что какое-то отношение к гуглу всё-таки имеет. :)

Ну вобщем как бы там ни было у AOL'а тоже не должно быть проблем с программистами.

P.S. Раздел с мертвяком и "дублем" отсылаю в личку.

helenaom:

На практике это обычно означает, что подавляющее большинство людей, которые выражают желание стать редакторами каталога, делают это с целью добавления своих собственных сайтов. Соответственно, они не приходят обычно в ДМОЗ чтобы туда добавить сайты других вебмастеров. Я понятно объясняю?

Это-то я думаю всем понятно.

helenaom:

Хочу еще раз пригласить в каталог тех, кто заинтересован в его развитии.

Тем кто заинтересован в его развитии я бы советовал написать хотя бы примитивную автоматическую систему проверки живучести сайта примерно в том виде (с тем же контентом/направленностью) в котором он был добавлен в каталог (а не то что делает ваша Robozilla если судить по описанию - тупо смотрит отклик без анализа контента). Т.е. при удалении какого-либо ключевого контента(он должен задаваться редактором) сайт автоматом ставился бы в список сайтов требующих проверки. Понятно что система будет не простая(я написал вкратце неполную идею, там надо контролировать путь от морды до страниц с ключевым контентом, статистические параметры окружения и т.д. и т.п.). Почему на данный момент dmoz не может отследить даже примитивное превращение сайта в одну страничку с картинкой(см. пример выше на пяток постов) - для меня загадка. Вернее я понимаю почему, но ведь автоматически отследить такое можно элементарно тем более что размер каталога очень даже невелик и больших вычислительных мощностей для таких проверок не понадобится(да и нет у гугла с этим проблем)...

Хотя люди которые могут такое написать вряд ли станут это делать бесплатно. Я лично не стану, потому как представляю примерно объём работы - писал уже в своё время интеллектуальный авточекер правда в другой области. Но говорят у гугла много программистов и среди них есть даже не индусы :) - вот пусть напишут.

А пока такой или подобной автоматизации нету, я лично считаю идею с добровольными редакторами утопичной. Как я уже писал - чем больше становиться каталог тем больше там будет таких неявных "мертвяков". И скоро в заявке редактора(я сходил ознакомился, подавать не стал - прочитал "Мы тяжело работаем для того чтобы Открытый Каталог был справедливым и беспристрастным справочником." и понял что особого желания "тяжело работать" забесплатно нету :) , ну если серьёзно - то желания нету из-за вышеозвученного моего видения перспективы каталога в том виде в котором он есть) будут просить указать не три сайта которые вы хотели бы добавить, а трёх "мертвяков" которых надо удалить. :)

Вот такие у меня мысли. А количеством редакторов проблему не решить. Вернее решить можно, но качество и "красивость решения" пострадают и будет велико влияние человеческого фактора.

Хотел я возразить Lor'у, что не всё так плохо - зашёл в один раздел в World:Russian и увидел один сайт состоящий из одной страницы с логотипом и PR 5. Второй сайт ну вобщем формально конечно можно поместить в тот раздел, но он состоит из одной страницы с которой можно скачать фильм(тут многие догадаются о разделе :) ) на 44 метра который якобы является фильмом-пародией и снят каким-то бухим русским поляком в пустом поезде (полезность и достойность этого ресурса поразила видимо редактора очень сильно что он включил его в раздел). Фильм такой может снять семилетний ребёнок: снимается бутылка с какой-то фигнёй которая "движется" под тревожную музыку по почти пустой электричке. На фильме написан в углу реальный сайт владельца, титры идут на польском. PR у странички тоже пятёрка с неё 2 ссылки на другие сайты владельца. Т.е. если я захочу в DMOZ в этот раздел, то сопру какоё-нибудь видео с конкурса начинающих режиссёров наложу адрес сайта, слабаю страничку за 5 минут на народе - и всё вот я и в DMOZ'е. :) Сомневаюсь что всё так было - налицо либо продажность либо абсолютная некомпетентность редактора(которого в этом подразделе уже/ещё нету). Кстати всего в этом разделе 8 сайтов. 25% явного дерьма - неслабый процент.

Зашёл в другой раздел - оказалось всё более-менее чисто. Больше никуда не ходил.

Вобщем вот такие результаты нерепрезентативной выборки.

P.S. Ссылки на указанные сайты отправляю приваткой merzliakov'у чтобы не было обвинений в голословности.

pay:


Успел понять, что ключевые слова точно учитываются Yahoo, MSN, AltaVista и Wanadoo Search. С них есть заходы по слову, которое встречается на всём сайте только один раз - в ключевых словах на первой странице.

Молодец. Теперь успей понять что за это(keyword только в meta keywords и отсутствие его в контенте) тебя гугл слегка зафильтрует. Был у него какой-то фильтр специально по keyword'ам. Проверял на keyword-спам и на несоответствие keyword'ов контенту. Может конечно чего-то у гугла поменялось, но думаю этот фильтр остался.

betam:
Yandex/1.01.001 (compatible; Win16; P)
Такой бот ползает по сайту. Когда такой бот приходит - бан возможен (т.е. возможно ли, что бан уже состоялся) или нет?

Это робот индексатор картинок. Ползать по идее может и после бана. Некоторое время.

NULL:
Может это частичная замена каталожного чекера Mozilla/4.0 (compatible; MSIE 5.0; YANDEX)? Чекер перестал ходить 14 июля, а дятел начал ходить с 19 июля. Кстатит Чекер с Бондом пересекались.
Может они с выдачей решили поступить как с каталогом - сайт сдох - убираем из SERP, сайт ожил - добавляем в SERP. Поэтому и дергает только индексную страницу. Никто не хочет сделать "эксперимент" - завалить ночью свой сайт и утром взглянуть на выдачу? :)

Ходят страшилки для клоакеров про чёрного чекера, который ползает полностью кося под браузер с незасвеченным IP не из Я. А после ползания различные роботы складывали 2+2 с чёрным чекером и выявляли клоакеров на раз.

Знакомых клоакеров нету, так что ни подтвердить ни опровергнуть страшилку не могу.

aur:
я никаких объявлений не отправляла. так что у меня версия только одна
тук тук
клюв бы вырвала :))

Необязательно тук тук был.

Есть предположение что ходит по топу высокочастотников, по сайтам имеющим в прошлом "наказания", по сайтам "ракетой вверх", по участникам линкопомоечного обмена ну и уже как дополнение по стуку (для того чтобы натравить дятла на url в размытом неконкретном стуке вполне хватит умений секретарши :) ). Предположение впрочем из гаданий на кофейной гуще ну и из небольшой статистики по разноплановым проектам. :)

Надо бы для эксперимента настучать на свой проект на который дятел не залетал пока. Но лень. :)

Dkarlov:
... Я зря сделал стук в саппорт доступным всем. Я согласен, что доры, перекаченные страницы ключевиками и сделанными одними заголовками (что Я определяется) это плохо. Но когда человек узнавший, что за линк фарм может быть бан и не имеющий понятий чем помойка отличается от каталога ручного обмена ссылками - начнет писать абузы, сапорт сам пожалеет и видимо уже пожалел, и запустил Дятла. Окончательную проверку всё равно делают люди, а это гемор на попу Яндекса.

Главное чтобы саппорт знал разницу между помойкой и нормальным каталогом. И что вас так беспокоит загруженность работников Я? Пусть работают. :)

И интересно кому по-вашему надо сделать доступным стук в саппорт? Критиковать существующую систему много ума не надо - вы предложите решение. Мне что-то в голову ничего не приходит кроме как фильтровать параноиков совершивших определённый процент ложного стука. Но что мешает этим параноикам писать с другого мыла?

А с точки зрения логики запрещать стучать тем кто таким образом убирает конкурентов, а сам не брезгует грязными приёмами, и лезет наверх точно не надо. Даже если у него КПД 50% он значительно подчистит выдачу, а когда вылезет сам, то и его подчистят - и будет всем пользователям поисковика счастье. :)

Dkarlov:

Пример из жизни: Один мой товарищь по пьяни разбил голову об три скорых и лавочку с бабушкой ...

Ну пример прямо скажем не очень. Мы всё же не в начале 90-х живём. И единая диспетчерская служба направит скорые куда надо, и если есть резерв, то пошлёт даже лишние на всякий случай. Хотя про все города и страны не скажу конечно. Контрпримеры придумываются на раз, но как я уже писал - забейте на аналогии в данном случае.

Ярик:

- вот висит сайт в топе и соответствует запросу на все 100%
кому от этого плохо? -

так находится чудо человечек (видимо конкурент..) в лупу сайт рассмотрит найдет пару спорных моментов и давай стучать направо, налево... и на форуме до кучи запостит "а почиму у мине ИЦ 850, а у того на первом месте 100 - как он туда попал?"

Ну реально полезным сайтам "для людей" мелкие грешки прощаются. Только вот вопрос "кому от этого плохо?" имеет ответ: плохо от этого конкурентам которые тоже соответствуют запросу на все 100%, но не имеют "пары спорных моментов". Может только из-за этой пары спорных моментов (а может и весьма э-э бесспорных :) ) вы и оказались выше.

TimeBomb:

Ознакомьтесь пожалуйста: http://cn.ru/edu/rus/rus/ch11.html#76:)
Руская езык - пеши харашо!:)

Моя твоя понимай. Спасибо. Буду работать над собой. Но боюсь уже поздновато. :) Видимо поэтому мне не быть(и слава Богу) написателем новостей и наполнителем контента. :)

TimeBomb:

... считаю, что указание человеку на его ошибки должно все-таки носить характер рекомендательный, и не использоваться как аргумент для принижения собеседника в споре...

Ну так я и порекомендовал ему исправить ошибку. Мог бы вообще промолчать - она бы висела ещё пару месяцев.

Dkarlov:
15% слетело примерно, большинство восстановил. А вы можете похвастаться своей граммотностью? Я понимаю что абузы в саппорт Я требуют исключительной граммотности, но и вы когда устаете от своей работы допускаете ошибки.

Я-то вообще безграмотен как пень. Особенно страдаю кривым построением предложений на русском - сам иногда не могу с первого раза прочитать. :) Но если я уж чего и выкладываю на сайт, то стараюсь вычитывать пару раз.

Про абузы в Я и про работу от которой я устаю чего-то без травы не пойму. Ну да и ладно.

Всего: 125