YuraZ

YuraZ
Рейтинг
95
Регистрация
05.06.2006
AlexCanada:
Может Отпуск???

насколько мне известно, ТС действительно в отпуске :)

solnikolay:
Еще раз повторю: если контент уникальный, то сделают грабер.

если хорошо коммерческий и интересный, само собой упрут. Но я же не писал, что обрезание до анонсов в RSS спасет полностью, написал "должно сильно уменьшить кол-во копий контента". ;)

Тут еще такое дело - готовые парсеры RSS есть бесплатные, а чтобы html парсить надо уже регэкспы знать самому, всеж-таки преграда :)

solnikolay:
Вообще-то используется CMS, соответственно расположение меню и контента всегда одно и тоже. В этом случае можно пользовать xsl/xslt преобразования.

cms много и разных, в том числе самоделок, в том числе переделанных со смененным дизайном. Парсят контент как правило с множества сайтов. Для RSS одного парсера хватит, для html - или нехилый программистский талант для универсальной системы или настройка парсера под каждый сайт. Трудозатраты очевидно разные.

Спасибо, Екатерина, добавили бы еще возможность отправить площадку в архив и будет вообще хорошо.

> но не с того начали, жигули останутся жигулями, сколько не ставь на них обвеса и наклеек

Offtop: интересно, что за манера на форуме вместо нормальной критики откровенно "наезжать" на Бегуна? Не первый раз натыкаюсь...

Trump:
Так программисты-то тоже не дураки, скрипт ходит по ссылке в RSS-новости и сливает весь свежий контент целиком

распарсить html намного сложнее, чем RSS. Обрезание RSS-фида до анонсов должно сильно уменьшить кол-во копий контента.

Учитывая проблемы с первоисточником полностью весь контент отдавать в RSS не стоит скорее всего, отдавайте первые несколько предложений со ссылкой на полную версию на сайт.

solnikolay, ну если вписать что-то после </html>, то это не во всех браузерах будет видно (у вас не опера случаем, она кажется показывает). Хотя согласен, есть способы и понадежнее.

Вроде первоначальный вопрос был - зачем яндекс индексирует после </html>, имхо потому что неопытные веб-мастера "косячат".

Albion, это не server, a client-side клоакинг, когда код один и тот же, но юзер не видит некоторых частей, специально спрятанных через CSS или JS допустим. Имхо клоакинг, ничем не отличается от старого-доброго белого шрифта на белом фоне :)

Это разумно на самом деле, тк такие умельцы есть среди веб-мастеров, что у них по неск. раз на странице </body></html>, потом что-нибудь дописано, потом </body></html>. А яндексу весь этот ужас индексировать как-то надо.

sergey24:
Ни поверите - я сейчас в такой ситуации :)
НО когда буду делать новые проекты, то буду знать - что ни кто не сп*здит его, а если спи*дят, то хрен что им яша даст.
И это в меня всиляет огромную надежду на то-что халявщики и дибилы здохут, из-за того, что только как пиз*ить на больше мозгов не хватает. 😂

Извините, не совсем понял смысла поста. У вас уже растащили сайт(ы) и он(и) попал под фильтр. Но почему вы уверены, что будущие не попадут? Нормальных технических средств, чтобы поисковые роботы индексили текст, а другие роботы его не тырили - нет. Носиться по другим сайтам и переписываться с ними и с хостерами - нужно время, да и часть отправит просто подальше на просьбу убрать дубль. А хостер вообще не должен решать, кто у кого украл, иначе такого может нарешать.

Всего: 296