Digester

Рейтинг
2
Регистрация
18.02.2010
Zoltrix:
Посмотрите тут: http://www.mlg.ru/smi/ratings/1587/

Да, спасибо. Посмотрели. Ничего впечатляющего...

Что-то мне подсказывает, что эту статистику они делаю вручную... В пункте ТОП-10 самых цитируемых информационных агентств странно закрашены ячейки в последнем столбце. Да и посмотреть достоверность данных нельзя (а значит можно всегда кого-угодно поднять в ТОП). У нас же можно кликнуть и посмотреть реальный ИЦ. А составлять отчетность за месяц для нас тоже не проблема. И кстати, спасибо за идею. Кстати, нам не совсем понятны цифры Медиалогии: Regnum - ИЦ 489,95. Приписка внизу мало о чем говорит. Ни формулы, ни подробной статистики... Пустые цифры, которые не играют никакой роли...

Отсутствие, некоторых источников объясняется тем, что у нас все источники открытые. Если источник не предоставляет RSS канал, значит к нам он не попадает. Да и в отличии от Медиалогии - мы новости не продаем...

Zoltrix:
У вас появился индекс цитирования, который как-то странно работает. Например, если сравнивать с данными, публикуемыми Медиалогией, то видна очень большая разница по топовым источникам. Ну с Интерфаксом (не путать с Интерфакс-Украина) то понятно, почему его нет. А Итар-Тасс и Regnum где?

на 2ое апреля имеем:
organization: "Regnum" meta: -(300001F) - 351 новость
organization: "Интерфакс" meta: -(300001F) - 558 новостей
organization: "Итар-Тасс" meta: -(300001F) - 491 новость

Здравствуйте, очень рады, что вы обратили внимание на один из наших последних сервисов. Но, вынужден Вас огорчить, к сожалению вы неверно составили запросы. Скорее всего это связано с тем, что некорректно поняли назначение слова meta:. Данное слово у нас пока не задокументировано, но оно используется в некоторых запросах, в частности в Индексе цитируемости. Словом META, у нас так обозначается источник, причем в скобках указывается его уникальный ID. Соответственно, если перед скобками стоит МИНУС, то этот источник должен быть исключен из результатов поиска. Таким образом мы получаем Индекс цитирования, а именно - все документы, содержащие название источника, но при этом в качестве источника это название выступать не может.

Если вы хотите получить индекс цитирования для Регнум, то запрос будет следующий:

organization: "Regnum" meta: -(3000018) (сейчас это менее 10 документов)

ID (что указали Вы) = 300001F - принадлежит Коммерсанту. Таким образом вы искали документы, где упоминался Регнум по всем источникам кроме Коммерсанта.

Почему-то Ругнум мало кто цитирует, кроме него самого :)

В Медиалогии - мы вообще не нашли Индекс цитирования, точнее нашли общий ИЦ за месяц, но там в ТОП нет тех источников, что указали вы.

На всякий случай мы проверили еще раз на ИЦ, и у нас он работает абсолютно исправно...

А почему вам понятно, почему у нас нет Интерфакса?

Мы произвели кое-какие изменения в сторону избавления от "похожих" статей... Теперь, так называемых "дублей" станет меньше...

юни:
Попса какая-то... по geology - одна ссылка.

Digester, кстати - англоязычные ресурсы не планируете подключить?

Вообще, в планах такое есть...

Людей пока для этого не хватает...

Digester добавил 25.03.2010 в 20:50

Tarry:
Давал, и сейчас даёт, только новости уже не свежак, кроны отрублены в прошлом году. :)

А кстати, чуть не забыл! Его единокровный брат до сих пор в строю, но на буржуйском поле :) Там как раз можно посмотреть как это всё было в оригинале, сюжетирование новостей (сборка похожих заметок в сюжет), последние, главные новости, и прочее. Эх, жаль мне лень уже всем этим заниматься... http://www.trimnews.com/

Сайт похож на ваш... Один движок? Или один скопировал дизайн у другого?

юни:
Желательно поплотнее, конечно. Переписать новость своими словами, например.

Но это в будущем, сейчас народ справляется своими силами, скорее всего.

Вообще, мы стараемся все делать автоматически... Руками то новости мы не пишем :)

На что значит поплотнее?

Ведь суть сервиса в том, чтобы людям не писать ничего, а чисто положиться на автоматизацию. Если нам для каждого запроса писать новость руками, то это уже не бесплатно получится, и долго :)

Digester добавил 25.03.2010 в 19:55

юни:
И да, проект интересен. Особенно, если будет уделяться должное внимание поискам новых источников информации (и особенно - на редкие темы).

У нас сейчас примерно 450 источников... Список мы периодически пополняем. Стараемся не брать источники, которые делают полный копи-паст и ничего своего не пишут. Плюс мы берем только те, у кого есть RSS. И все наши источники рабочие, чего не скажешь о источниках того же самого Яндекса...

юни:
По таким ключам много новостей?

На самом деле вал лучше самому проверить это... Достаточно зайти на сайт www.digester.ru и вбить эти слова в поиск. За весь период больше всего "Землеустройство".

юни:
Планируется отдавать результат в разных форматах, начиная с текстового?

Да, планируется. Планируется вообще отдавать в разных форматах. Для этого, если сервис признают нужным и полезным будет на нашем сайте создан личный кабинет, в котором каждый сможет создавать запросы. Пока это не автоматизировано, и все мы делаем сами вручную (имеется ввиду RSS канал).

юни:
Обработкой (уникализацией) новостей не хотите заняться?

Конечно, хотим! Если только вы объясните, что это такое :) Меня слова местами и заменять некоторые синонимами? Это? Просто пока наш текст не может являться уникальным, т.к. его уже кто-то написал. А вот аннотации у нас могут быть уникальными (их можно посмотреть на сайте, именно аннотации показываются под ссылками).

ants:
почему в каналах нет картинок и текст неотформатирован?

Текст не отформатирован, потому что это RSS. Мы можем напихать туда тегов, но считаем, что это личное дело каждого. Если посмотрите, то в текст есть разметка /n /t - ничего не мешает вам их заменить на <br> и будет все отлично.

Пока никто на это не жаловался. Но если этого будет не хватать, то мы всегда сможем выдавать текст с тегами. Просто в данном случае к вам приходит полностью готовый и распарсированный от всякого мусора текст.

Картинки мы можем тоже вытаскивать из новостей, но это уже более авторская вещь, нежели распарсированный текст. Но думаю, что мы можем давать в RSS ссылку на картинку, которая располагается на сайте источнике.

Пока это под вопросом. На начальном этапе мы даем только чистый текст. Если хотите, мы можем в RSS прикрепить ссылку на изображение...

Digester добавил 25.03.2010 в 16:34

Tarry:
Делал похожий сервис (http://rss20.ru) пару-тройку лет назад, от нечего делать, через пол-года в баню :D По началу трафа огрёб хорошо, и даже появились пользователи, кто ставил себе импорт, но потом всё накрылось пи... медным тазом. До сих пор в бане, хоть там и нету уже самих новостей. Забил. А вам удачи, помню, что было очень увлекательно все это кодить :) Но проблема в том, что есть Яндекс.Новости, которые это делают.

Интересный ресурс...

Вот несколько замечаний (поправьте если не так):

- Яндекс.Новости не дает полный текст новостей и я не нашел как сделать так, чтобы по моему запросу мне сформировали определенный RSS

- Ваш сервис дает (давал) информеры (как я понял), но не дает сам RSS, с которым пользователь мог бы делать все, что ему вздумается. Но думаю раз вы сделали такое - то не трудно сделать чистый RSS. И плюс ваш сервис так же не давал полный текст.

- Сейчас по-моему уже сложно найти то, чего еще нет. Но никогда не поздно создать что-то лучше того, что существует. У нас есть технология, работу которой можно увидеть на сайте. Так почему бы ее не использовать для чего-то еще... Что мы, собственно, мы здесь и предлагаем.

Надеюсь, не чем не обидел...

nouhau:
а можно ленту по автомобильной тематики

nouhau добавил 25.03.2010 в 01:32
почему нет ответа?

nouhau добавил 25.03.2010 в 01:49
почему нет ответа?

Да, можно...

http://digester.ru/RSS.aspx?n=AUTO

Можно так же немного ограничить область запроса, например, брать только новости связанные со словом "Концепт"

А ответа не было потому, что в 01:32 люди обычно уже спят :)

lucene:
По сути похоже, только иногда попадаются очень похожие статьи, с этим что-то можно сделать? И еще можно ли, например, давать не полный текст статьи, а аннотацию?

Да, похожие статьи могут попадаться и как уменьшить количество повторов - я говорил уже в этой ветке. Но зная, что не все любят листать форум назад - скажу еще раз. Можно, и даже желательно создавать не просто запрос на Газ и Нефть, а при желании составлять что-то более конкретное. Например, можно ограничить запрос некоторыми источниками, или же добавить какие-либо ключевые слова. Тогда некоторые дубликаты само-собой пропадут.

На самом деле, полностью исключить похожие документы не так просто. Например, если есть две новости на одну тему и одна новость содержит только краткую информацию, а другая более подробную. Какую из этих двух новостей выдавать? Они обе обо одном и том же, количество слов, примерно одинаковое, оба источника достаточно известные... Пока не прочитаешь новость - не поймешь какую из них можно выкинуть, а какую оставить. А так как, все автоматизировано и поставлено на поток - это надо как-то делать программно. Мы пока работаем над этой проблемой, и если у вас есть какие-то предложения, мы с радостью их рассмотрим.

От себя добавлю, что пока, мы рассматриваем вариант, составления списка приоритетных источников...

Что касается вопрос с аннотациями, то ответ - ДА. Мы можем давать вам аннотация вместО распарсированного текста или вместЕ с текстом в отдельном теге. Примеры аннотаций вы можете посмотреть на нашем сайте. Если вам устраивает получать аннотации, что в свою очередь гарантирует некоторую уникальность - то мы можем давать вам их. Просто в заявке укажите, что желаете получать аннотации таким-то способом...

lucene:
По нефти и газу можно?

Можно: http://digester.ru/RSS.aspx?n=GAZOIL

Такое подходит?

12 3
Всего: 26