Bloody dude

Bloody dude
Рейтинг
68
Регистрация
16.03.2006
Bor-ka:
а на чем основывается Ваша уверенность? Яндекс обладает телепатией и ходит первым в гости к автору контента?

Это я сказал не по-русски:) Веду сайт, который генерирует контент. В выдаче по запросу, который содержится на гл.странице, он появляется где-то через три-четыре дня после того, как там болтаются "коперы":) Здесь, конечно, рулят новости яндекса, потому как можно оказаться "выше результатов поиска"...

Bor-ka:
стоп, а кто говорит о высокочастотниках? Статью "влияние погоды на марсе на размножение кроликов" (с) нельзя назвать высокочастотником.

Грамотно не смогу сформулировать, поскольку не программер. Но:

1. Как-то же ж борются с дорвеями и пр.

2. Уже есть, пусть и несовершенные сервисы типа webtestplagiat

3. Без вмешательства людей обойтись нереально, поэтому и нужно вмешательство людей. А сажать человека сличать статьи на тему "бурбулятивные аспекты размножения крокозюбликов при скрещивании с мюмзиками", наверное, жестоко...

Егор, я не об авторстве. Это у меня, конечно, наболело, но к теме топика не относится:) Я о том, что юзеру глубоко наплевать, релевантный его запросу текст содержится на порносайте, или на сайте Владимира Владимировича Путина. И юзер имеет право получать нужные ему сведения от первоисточника.

Bor-ka:
Bloody dude, а Вы уверены, что Яндекс проиндексируем первым именно первоисточник информации? Может он его через сутки проиндексирует, кога инфу растащат на 1000 сайтов?

В том-то и дело, что я уверен в обратном:) По крайней мере, на моем сайте происходит именно так:)

Bor-ka:
расскажите, пожалуйста, алгоритм определения

К примеру, Вы опубликовали на своем сайте статью. Я ее перевалил на свой и, как порядочный человек, поставил сцылку на первоисточник. Но уеб-мастер я ушлый, поэтому развесил сцылки (а еще и сделал заголовок более ПС-friendly), а заодно расколбасил РСС по всяким агрегаторам. В результате какое-то время в выдаче по запросу, содержащемуся в статье, мой сайт будет выше Вашего. Совершенно распространенная ситуация, правда?:)

Но если у ПС есть фильтры на содержание линков и их качество, что мешает сделать фильтры контента? По крайней мере, по высокочастотникам написать программу для этого можно. Естественно, на каком-то этапе придется вмешиваться человеку, но это и сейчас происходит...

Егор:
По дате? А если украли еще до публикации? :)

Не, ну давайте определимся с терминологией. Под первоисточником контента, в данном случае, корректно подразумевать сайт. Не аффтора, или его оффлайновые записки, а именно сайт, где эта информация появилась до того, как всякие скрипты перенесли ее в другое место:). Главная задача ПС, на мой взгляд, - выдача пользователю наиболее корректной информации. А она, в большинстве случаев, исходит от первоисточника. Если же первоисточник чего-нибудь стырил у кого-то, то здесь должен разбираться тот, у кого стырили, а не ПС.

Просто на каждом шагу встречается ситуация - кто-то что-то наваял, но индексируется сайт хуже, чем тот, на котором эта же информация перепечатана... Дальше не мне Вам рассказывать:)

Segey:
Однако индексация происходит, хотя когда-то все работало на 64мб памяти ;)

Ото ж. У гугля есть изрядно сайтов с миллионами страниц. А яндекс - тот же гугль, только год назад:)

Bor-ka:
имхо, задача не решаема. это не могут решить люди, а Вы хотите машину это заставить делать. В один день вышло 10 одинаковых книжек в разных обложках 10 авторов, вопрос - кто у кого стыбзил?

Ну, в большинстве случаев она не так уж и сложна

aka352:
Bloody dude,
Результат поиска: страниц — 139 611
Область поиска: сайт — www.lenta.ru

Результат поиска: страниц — 103 575
Область поиска: сайт — www.utro.ru

Результат поиска: страниц — 55 413
Область поиска: сайт — www.pravda.ru

Дык это... Как бы сказать - это ж то, что есть в индексе, а не есть физически на сайте.

Хотя если Вы именно об индексе, то готов согласиться

Bor-ka:
тогда крупные вероятно будут описаны в каталоге и тематика им будет задана человеком, а все остальные попадут либо в автотематику, либо будут считаться нетематичными.

Дык ить даже в яке сейчас очень много крупных сайтов. И они, вроде бы, разбиты по тематике (можно спорить, насколько корректно, но это - просто факт). А если крупный сайт добавляет у себя новую тему? Каждый раз тарахтеть об этом модераторам? Они ж руками везде если лазить будут, то ротация пойдет неимоверная в связи с эпидемией шизофрении среди сотрудников отдельно взятой компании... Как, к примеру, быть с тематикой "вторичных" ресурсов? Которые занимаются переводом иностранных текстов, или формируют дайджесты чужих?

Не знаю, мне кажется, что вся эта тематика - черная магия и будет помирать. Рулить будет контент. То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации. Это, наверное, сложнее, чем бить по тематике...

aka352:
Вы можете привести много примеров подобных сайтов?

Все сайты приличных СМИ. У каждого, кстати, есть еще и тематика - деловое издание существенно отличается по контенту от таблоида, спортивного, эротического и др. И воевать с этим сложно. Другой вопрос, что у некоторых архивы зашиты и продаются за деньги и нужно ли поисковику держать у себя в индексе все это счастье, - диспутабельно.

Встречал сайты заводов, где страниц действительно сотни тысяч. Другой вопрос, насколько разумно делать это именно так...

Сайты всяческих парламентов с законодательством. Как, кстати, определять тематику законодательства? По слову "законодательство"? Или по отраслевым признакам? Юзер-то едва ли ищет "что-то про законодательство" (если он не студент)... Юзер ищет "нормативные акты, регулирующие разведение кроликов в Бобруйском районе"...

Всякого рода онлайновые игрушки...

Полагаю, что таких сайтов действительно много

Всего: 1262