Они сами говорят что откажется ссылка:
Т.е. Яндекс теоретически вообще не будет индексировать никакой документ (Word, PDF, и даже Flash не говоря уже о HTML) больше 10 Мб не зависимо от кол-ва полезного контента. Есть подозрение, что html > 1-2 Мб может вызвать туже реакцию, просто из логики если вебмастер не может сделать нормальный размер страницы на 99% это плохой сайт.
Опять таки если даже проиндексирует один раз скорее всего в следующий раз зайдет очень не скоро => будет страдать скорость появления обновлений в кеше.
WhiteSmartFox добавил 08-12-2010 в 15:59
Почему? У меня в webmaster.yandex.ru есть ошибки индексации:
Причем там размер страниц куда меньше Мб, а у этого сайта более миллиона страниц в поиске Я (если верить webmaster'у). Справедливости ради надо сказать что там на страницах было много и просто текстового контента, а не только html (но тем не менее размер для индексации имеет значение).
P.S. Ок, давайте зададим вопрос: Есть у кого -либо кто читает эту тему сайт с весом страниц (чистого HTML) под 3-5 Мб каждая и как хорошо и часто его индексирует Я или Гугл?
Режется он конечно режется, только вот скачивать его роботу все равно приходится и обрабатывать тоже (по крайне мере я не могу представить способа как можно скачать текст без html), а поскольку ресурсы любого поисковика ограниченные, вполне логично предположить что если бот скачает 5Мб страницу и получить с неё всего 2Кб реального текста, и сайт не имеет высоких показателей у ПС, он может забить на скачивание остальных страниц сайта, ибо кпд затрат ресурсов к получению полезного текста в кеше ПС слишком мало (Занимался принципами работы ботов ПС, некоторый кпд полезности дальнейшего скачивания страниц сайта у них всегда есть, ибо основная задача поисковика получить максимум полезной информации при минимуме затрат ресурсов).
WhiteSmartFox добавил 08-12-2010 в 11:30
Не валидный код как раз не большая проблема, если теги режутся целиком это боту глубоко пофиг. Главное чтобы он мог выделить текст страницы и ссылки (ну и теги title, h1 и т.п.). Ибо как я говорил ресурсы ПС ограничены и заниматься всякими глупостями вроде проверки валидности кода или совпадения элементов html и css классов у него просто нет ресурсов (Как заявляют в Яндексе добавление любой проверки увеличивающей время обработки страниц на 1% умноженное на 200 серверов, означает необходимость покупки 2 новых серверов за большие $).
WhiteSmartFox добавил 08-12-2010 в 11:32
Это я имел в виду, теоретически автор может взять шаблон с клоакингом даже не подозревая об этом и получить бан.
Очень странно смотрите
У вас воруют контент или он не уникальный?
Ну перестать индексировать или понижать в выдаче это слишком круто, иногда на подобных сайтах находится именно то что нужно, причем на "нормальных" сайтах нужной информации нет.
Предлагаю по аналогии с строчкой "Этот сайт может нанести вред вашему компьютеру", добавлять рядом с описанием строчку "Этот сайт использует навязчивую pop-up рекламу" и можно добавить фильтр по аналогии со взрослым контентом "не искать на сайтах с pop-up рекламой". А уже сами пользователи пусть решают нужны им такие сайты или нет (у кого-то давно стоит банерорезки и им вообще пофиг).
В теории двумя:
1) очень большой размер шаблона (несколько Мб только html, и такие шаблоны я видел), робот может решить что лучше проидексировать несколько десятков страниц другого сайта, чем одну страницу такого тяжелого :)
2) в шаблоне есть скрытый любым способом текст / ссылки, один текст отдается боту, другой пользователю
По аналогии, приходите вы в универ, говорите научите меня программировать, а как начну зарабатывать на этом сразу заплачу за обучение, что вам ответят?
Не говоря о тот факт, что в большинстве случаях после обучения даже спасибо не говорят, а уж о деньгах вообще никто не вспомнит.
А зачем это учителю? За время что он потратит на ваше обучение он мог бы с десяток таких же проектов сделать (причем своих собственных), наняв на нудную работу кого-нибудь со стороны. Или у вас есть интересный и готовый (но не раскрученный и не монетезированный) проект с большим кол-вом уникального контента?
P.S. У вас ИМХО 4 варианта
1) сотрудничать с кем либо по принципы вы делайте ретрайт/копирайт, дизайн, он продвижение и рекламу, а вы учитесь.
2) сделать несколько своих сайтов с ретрайтом/копирайтом контента и пробовать продвигать и зарабатывать на них, потом уже задавать конкретные вопросы на этом форуме
3) заплатить реальные деньги за обучение сразу и сейчас
4) устроится к кому-либо помощником SEO за копейки и возможно научитесь продвигать сайты, но тут есть риск что будите постоянно делать одинаковую и нудную работу не дающую большого опыта.
Все остальное утопия, обучение кого-либо это слишком дорого по времени (и силам), нанять кого-либо на нудную работу гораздо дешевле.
Возможен, но не гарантирован.
Нет, если покупка продажа не носит регулярного характера это не бизнес. Понятно что если кто-то подает 30 стиральных машин это уже бизнес.
WhiteSmartFox добавил 05.12.2010 в 00:17
Тут вопрос из разряда "не пойман значит не вор", кто узнает что он торгует обогревателями это дело десятое (например, соседи по гаражу в налоговую стукнут)- факт что он нарушает закон, а уже поймают его или нет это совсем другое дело.
WhiteSmartFox добавил 05.12.2010 в 00:23
На 99% уверен, что у налоговой есть другие занятия чем проверка интернет магазинов. Даже если налогавая решить прижать ваш интернет магазин и на сайте есть ваш телефон и адрес, то все равно вы можете послать их лесом, т.к. кто-угодно мог использовать ваши данные без спросу в инете.
Т.е. чтобы реально прижать инет магазин им надо высылать фальшивых покупателей, проверять реально вы продаете товар и т.п., а это слишком для них слишком сложною
Нет, не правда
Flash давным давно индексируется, а под сайтами на Java вы понимаете аплеты Java чтоли? Открою по секрету настоящие серьезные сайты на Java делают на JSP + EJB, а не аплетах.