что вы прицепились к алгоритму? Щас модно ребрендинги проводить, вот и Я решил не отставать, хотя бы гримом своей морды :)
Каталог стал неразличим совершенно. Вообще, впечатление такое, будто диз заточен под разрешение 1280, уж слишком нагроможденно выглядит страница при 1024...
http://jemchujina.ru сам у них собираюсь брекеты ставить...
Буду 100% с самого утра!
ТС, а вы раньше были как-то связаны с информационными ресурсами? Нет? Тогда вас огорчу - только для того, чтобы найти по-настоящему грамотных тестеров и журналистов у вас может уйти 3 мес., а то и все 6, т.к. их надо будет ПЕРЕМАНИВАТЬ у конкурентов. Это во-первых.
Во-вторых. Как мне представляется, инфопортал должен быть заточен под требования своей тематики, иметь свои "фишки". Как это можно реализовать на базе каких-то готовых решений - загадка (за исключением применения модульной структуры, но ядро-то все равно создается с нуля). Раз уж вы хотите работать в авто/аудио/софт темах, то вам НАДО будет выделяться среди конкурентов, иначе раскручивать проект придется ой как долго (имеется ввиду именно построение аудитории, а не СЕО).
В-третьих, формулировка "есть ХХХХХ баксов и ХХ мес. - куда их девать" пагубна уже по своей сути. Хорошие проекты создавались не с этого...
PS успешные порталы создаются на всем протяжении своей жизни (дизайн, программинг, копирайтинг, реклама), поэтому тут более уместно спросить "хватит ли 60000 для старта"...
Тираж листовок (тем более цветных) стоит гораздо дороже модуля в газете. Просто не хотят они конкуренции, в газетах ведь не только их объява...
Если предположить, что это так, то единственная причина, по которой они не впали в немилость к Я (а три даже в закрытую часть ЯКа добавили бесплатно) - это уникальный сервис. Точнее, сервис сейчас уже не уникальный, а раньше это было единственное место упорядоченной и довольно обширной информации о ряде предметов. В таком случае, это доказывает "мануальное" происхождение фильтра, т.к. робот не способен определять "нужность" сайта юзерам.
В таком случае, я готов признать существование такого "фильтра", но с немного другой организацией, чем здесь озвучивали - существует 3 этапа добавления домена в черный список (ЧС):
1. Специально обученный робот ходит по базе Я и выискивает очень похожие страницы. При определенном проценте схожих текстовых блоков сайт попадает в лист рассмотрения (ЛР).
2. Модератор (назовем так) смотрит сайты из ЛР и выбирает те, которые добавляются в ЧС.
3. Периодически робот проверяет, остался ли контент на сайтах из ЧС неуникальным или нет. Если контент переписали, то сайт или автоматом выходит из ЧС, или отправляется в ЛР.
Илюх, поздравляю! Всего тебе и сразу! 🍻
PS Жаль, что вчера в курилку только утром заходил, а то б ни за что не пропустил... :(
Ладно, опишу технологию - берется исходник статьи, вырезается внешнее обрамление, вырезаются баннеры и прочая фигня, убираются все спаны, дивы, лишние БРы и прочий мусор (чего только не встретишь, особенно сайт панасоника радует...). После этого полученный код обшивается своим дизайном и добавляется на сайт. Таким образом, облегчается вес страницы (иногда реально в 2 раза) и объектная модель документа, убираются "лишние символы". Ну а чистка кода и верстка - неразрывные вещи :)
Ceres, я лишь сказал, что в случае существования автоматического фильтра, обмануть его можно изменив верстку. Поскольку у всех наших СМИ контент-системы такие г**яные, что мусора вычищаешь оттуда иногда 50% от общего текста, вполне возможно, что робот считает такой "очищенный" контент уникальным. Хотя это, на мой взгляд, нелогично, т.к. верстка должна вырезаться при анализе. С другой стороны, в этом случае у пользователя появляется возможность получать одну и ту же информацию из поиска по 2 каналам - исходному, перегруженному лишними символами, и дублеру, так сказать облегченной версии...
Мое имхо - фильтра нет. Ну или он есть, но его обойти ооочень просто, достаточно грамотно (с HTML-синтаксической точки зрения) переписать исходник, а не вставлять себе на сайт этот маразм старого верстальщика в неизменном виде. У меня 40 сайтов ПОЛНОСТЬЮ построены на статьях из всяких онлайн-сми, своих там максимум 2 странички из 10-15. Ни на одном не наблюдаю указанного занижения позиций...