Это я сказал не по-русски:) Веду сайт, который генерирует контент. В выдаче по запросу, который содержится на гл.странице, он появляется где-то через три-четыре дня после того, как там болтаются "коперы":) Здесь, конечно, рулят новости яндекса, потому как можно оказаться "выше результатов поиска"...
Грамотно не смогу сформулировать, поскольку не программер. Но:
1. Как-то же ж борются с дорвеями и пр.
2. Уже есть, пусть и несовершенные сервисы типа webtestplagiat
3. Без вмешательства людей обойтись нереально, поэтому и нужно вмешательство людей. А сажать человека сличать статьи на тему "бурбулятивные аспекты размножения крокозюбликов при скрещивании с мюмзиками", наверное, жестоко...
Егор, я не об авторстве. Это у меня, конечно, наболело, но к теме топика не относится:) Я о том, что юзеру глубоко наплевать, релевантный его запросу текст содержится на порносайте, или на сайте Владимира Владимировича Путина. И юзер имеет право получать нужные ему сведения от первоисточника.
В том-то и дело, что я уверен в обратном:) По крайней мере, на моем сайте происходит именно так:)
К примеру, Вы опубликовали на своем сайте статью. Я ее перевалил на свой и, как порядочный человек, поставил сцылку на первоисточник. Но уеб-мастер я ушлый, поэтому развесил сцылки (а еще и сделал заголовок более ПС-friendly), а заодно расколбасил РСС по всяким агрегаторам. В результате какое-то время в выдаче по запросу, содержащемуся в статье, мой сайт будет выше Вашего. Совершенно распространенная ситуация, правда?:)
Но если у ПС есть фильтры на содержание линков и их качество, что мешает сделать фильтры контента? По крайней мере, по высокочастотникам написать программу для этого можно. Естественно, на каком-то этапе придется вмешиваться человеку, но это и сейчас происходит...
Не, ну давайте определимся с терминологией. Под первоисточником контента, в данном случае, корректно подразумевать сайт. Не аффтора, или его оффлайновые записки, а именно сайт, где эта информация появилась до того, как всякие скрипты перенесли ее в другое место:). Главная задача ПС, на мой взгляд, - выдача пользователю наиболее корректной информации. А она, в большинстве случаев, исходит от первоисточника. Если же первоисточник чего-нибудь стырил у кого-то, то здесь должен разбираться тот, у кого стырили, а не ПС.
Просто на каждом шагу встречается ситуация - кто-то что-то наваял, но индексируется сайт хуже, чем тот, на котором эта же информация перепечатана... Дальше не мне Вам рассказывать:)
Ото ж. У гугля есть изрядно сайтов с миллионами страниц. А яндекс - тот же гугль, только год назад:)
Ну, в большинстве случаев она не так уж и сложна
Дык это... Как бы сказать - это ж то, что есть в индексе, а не есть физически на сайте.
Хотя если Вы именно об индексе, то готов согласиться
Дык ить даже в яке сейчас очень много крупных сайтов. И они, вроде бы, разбиты по тематике (можно спорить, насколько корректно, но это - просто факт). А если крупный сайт добавляет у себя новую тему? Каждый раз тарахтеть об этом модераторам? Они ж руками везде если лазить будут, то ротация пойдет неимоверная в связи с эпидемией шизофрении среди сотрудников отдельно взятой компании... Как, к примеру, быть с тематикой "вторичных" ресурсов? Которые занимаются переводом иностранных текстов, или формируют дайджесты чужих?
Не знаю, мне кажется, что вся эта тематика - черная магия и будет помирать. Рулить будет контент. То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации. Это, наверное, сложнее, чем бить по тематике...
Все сайты приличных СМИ. У каждого, кстати, есть еще и тематика - деловое издание существенно отличается по контенту от таблоида, спортивного, эротического и др. И воевать с этим сложно. Другой вопрос, что у некоторых архивы зашиты и продаются за деньги и нужно ли поисковику держать у себя в индексе все это счастье, - диспутабельно.
Встречал сайты заводов, где страниц действительно сотни тысяч. Другой вопрос, насколько разумно делать это именно так...
Сайты всяческих парламентов с законодательством. Как, кстати, определять тематику законодательства? По слову "законодательство"? Или по отраслевым признакам? Юзер-то едва ли ищет "что-то про законодательство" (если он не студент)... Юзер ищет "нормативные акты, регулирующие разведение кроликов в Бобруйском районе"...
Всякого рода онлайновые игрушки...
Полагаю, что таких сайтов действительно много