funsad

Рейтинг
116
Регистрация
15.11.2000

<font face="Verdana" size="2">Originally posted by NewsSearch:
Originally posted by funsad:
  • хорошо продумает алгоритмы выдирания новостей, чтобы не беспокоить понапрасну модераторов,

- модераторы могут даже не знать</font>

Я имел в виду, что модератор -- это человек, который отслеживает изменения дизайна и формата новостей на сайтах, входящих в ленту. Чем меньше у него будет работы, тем прибыльней может оказаться система.

То, что уже делается на RunetNews, еще далеко от идеала. Сайт пока не очень удобно читать, нет возможности добавить страницу, новостную ленту которой я хочу отслеживать, а также нельзя указать тему интересной мне новостной ленты и соответствующие ей сайты. Хотелось бы видеть фильтрацию одинаковых новостей и выдачу новостей на одну тему единой лентой (без разбивки по сайтам).

С уважением,

Александр Садовский.

P.S. Что касается моего сайта, просто нет времени обновлять, хотя материалов в черновиках скопилось на 10-15 выпусков. Попробую в течение недели найти время.

[This message has been edited by funsad (edited 19-09-2001).]

<font face="Verdana" size="2">Originally posted by Gray:
Саша, ты не забывай, что Moreover - довольно внушительная компания, а не дело рук энтузиаста-одиночки.</font>

Безусловно. Но если NewsSearch

  • отладит свой движок на примере тех же сайтов о поисковиках,
  • научится вылавливать новости с узкотематических сайтов и
  • фильтровать новости с крупных сайтов,
  • хорошо продумает алгоритмы выдирания новостей, чтобы не беспокоить понапрасну модераторов,
  • продумает интерфейс модератора, например, для подбора ключевых слов (выдача падежных форм по слову в именительном падеже, сбор статистики по словам с сайтов со 100% соответствием тематики и кластеризация этих слов и т.д.),
  • отладит выдачу этих новостей в виде ленты,

то такая лента новостей, я уверен, будет пользоваться популярностью. А повторить успех для другой темы не составит труда. Вот Руслан Курепин писал движок для конкурса юмористических рассказов полгода-год. А для конкурсов стихов, фантастики и т.д. повторил все это чуть ли не за неделю.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by NewsSearch:
Всем спасибо - с БС понятно.
А моготь мне рассылку новостей (чужих)организовать?
</font>

Рассылку имеет смысл организовывать, если будет возможность выбрать узкую тему новостей. Но, в то же время, если рассылка будет автоматической (а иначе это серьезный труд), то качество ее будет невысокой.

Например, смотрим на первую страницу данной Энциклопедии ПС, новости Moreover. Три новости говорят об одном и том же (AltaVista names new CEO, cuts staff...), две другие новости не слишком выдающиеся. В итоге, такой выпуск было бы читать скучно.

Но есть одно интересное применение уже разработанного движка -- сделать русский аналог Moreover и обеспечить хороший охват сайтов. То есть предоставлять сайтам ленты новостей (или хотя бы на своем сайте в соответствующих разделах) на разные темы. К примеру, в ленту по поисковым системам можно включить новости 3-4 специализированных русскоязычных сайтов, и новости с остальных сайтов, если в них входят определенные ключевые слова ("Altavista", "Yandex", etc.). При грамотном подборе сайтов и ключевых слов, такие ленты могли бы стать очень полезными.

Сайты, ищущие по новостям, есть (Яндекс-Новости, Рамблер, Апорт, Паук Новостей и др.) Но во всех основная проблема в том, что:

1) в качестве источников включены только крупные сайты;

2) нет подробного разбиения по темам, разделы слишком крупные (вроде "Технологии", "Спорт", когда меня могут интересовать только микропроцессоры и скалолазание).

Если такой движок заработает, то список ключевых слов, уверен, помогут составить пользователи.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by ewspam:
Как вы относитесь к идеям Андрея Иванова?</font>

Я довольно подробно обсуждал их в личной переписке с Андреем, и, если он пожелает, может процитировать мои письма.

Если кратко, то идеи интересные, но нуждаются в развитии и серьезной стратегии продвижения, чтобы нивелировать имеющиеся недостатки.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
Да, для тех кто не понял
Имелся ввиду сайт под №1 по запросу.
Даю слово, что страница "релевантная" запросу единственная на всём сайте, и уж тем более такими словами никто не ссылается.
</font>

Артем, считаю, что данный пример не самый удачный.

1. О количестве страниц.

Как ясно видно в результатах, Яндекс считает, что на сайте CluB не менее 11 документов (см. Еще с сервера не менее 11 док.). Неважно, что это одна и та же страница, из-за сложной структуры форума UBB, в которой Яндекс еще не умеет отличить ответ от собственно сообщения, для Яндекса на сайте 11 страниц с текстом запроса (это фраза "Бритни Спирз без одежды", пусть знают и о этом форуме ).

2. О релевантности.

Если не считать сайтов, найденных по ссылке (в которых есть не вся фраза, а только слова "Бритни Спирз"), то вся фраза целиком (а Яндекс, замечу, как и другие поисковики, очень любит совпадения длинных фраз) есть только на двух сайтах: CluB и еще одном. Все остальные относятся к "нестрогому соответствию".

3. Выводы.

Если из двух подходящих сайтов на CluB есть 11 страниц с ключевой фразой, а на другом сайте -- 2 страницы, и выиграл CluB, значит, тезис о важности числа страниц не опровергнут.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by iseg:
1. Отношения метапоисков с поисками должны быть урегулированы. Как это сделано во всем мире.</font>

Скажите, Илья, по каким критериям работа того или иного скрипта рассматривается Яндексом как "annoying behaviour" или, cпаси и избави, "sexual harassment"? Скажем, у меня возникла необходимость написать и запустить скрипт для исследования работы Яндекса как поисковой системы (например, для оценки релевантности). Где можно прочитать о том, как должен общаться скрипт с Яндексом, чтобы оба были удовлетворены?

Шутки шутками, а разобраться действительно сто'ит, потому что потребность в таких скриптах есть, и не только у меня.

<font face="Verdana" size="2">"Яндекс не разрешает менять дизайн страницы выдачи, т.е. страницы результата поиска."</font>

Тогда давайте определимся, что такое дизайн. Отключение картинок в браузере -- это изменение дизайна? А смена разрешения монитора? Если вместо страницы будет выдана ее часть (без всякого изменения), считается ли это посягательством на дизайн?

Если уж идет отсылка на официальный документ, хотелось бы разобраться с терминами, которые в нем упоминаются.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by NewsSearch:
Конечно возможно, что владалец сайта, что-то изменит (например URL) в этом случае робот сообщит, что не может определить ... Это сигнал модератору.</font>

В любом случае объем работы модераторов будет не меньше, чем в обычной БС, а может оказаться и значительно выше. Следовательно, организовывать такую БС в надежде на низкие затраты нет смысла. Это раз.

Второе -- у меня совсем нет уверенности в том, что новости будут иметь больший CTR, чем обычная реклама. Как бы ни была обманчива реклама, она всегда сделана с целью привлечь, а новости есть новости. Качественный таргетинг тоже маловероятен, потому что он будет основываться только на типе сайта, как и в традиционных БС, а не на типе новости. А если CTR будет ниже обычного, нет никакого резона предпочесть данную БС традиционным.

С уважением,

Александр Садовский.

Яндекс ответил:

Действительно, 14 сентября был закрыт доступ какому-то невоспитанному роботу. Этот робот задавал существенное количество запросов, нарушающих абсолютно четко написанные запреты в файле robots.txt. Файлы robots.txt на наших серверах предназначены не для красоты, как Вы, вероятно, подумали. Они содержат пожелания, обязательные для всех роботов.
Я не видел никаких официальных просьб сделать исключение для роботов компании TopPing. Если Вам это интересно, обращайтесь по адресу webadmin@yandex.ru, указанному на всех страницах нашего сайта.

Дмитрий Тейблюм
Яндекс

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 15-09-2001).]

<font face="Verdana" size="2">Originally posted by wolf:
Опаньки, откуда такая информация? По-моему так было раньше, до введения нового алгоритма на основе PageRank.</font>

PageRank был добавлен 23 мая 2001, а чуть позже, 6 июня, Илья Сегалович ответил написал данную информацию на форуме Яндекса.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by mager:
И они влияют только на главные или на все
страницы сайта?
</font>

В Яндексе при группировке результатов поиска по сайтам (как делается по умолчанию) на позицию сайта влияют число и ранг всех страниц сайта с ключевым словом.

С уважением,

Александр Садовский.

Всего: 1503