Да, спасибо. Посмотрели. Ничего впечатляющего...
Что-то мне подсказывает, что эту статистику они делаю вручную... В пункте ТОП-10 самых цитируемых информационных агентств странно закрашены ячейки в последнем столбце. Да и посмотреть достоверность данных нельзя (а значит можно всегда кого-угодно поднять в ТОП). У нас же можно кликнуть и посмотреть реальный ИЦ. А составлять отчетность за месяц для нас тоже не проблема. И кстати, спасибо за идею. Кстати, нам не совсем понятны цифры Медиалогии: Regnum - ИЦ 489,95. Приписка внизу мало о чем говорит. Ни формулы, ни подробной статистики... Пустые цифры, которые не играют никакой роли...
Отсутствие, некоторых источников объясняется тем, что у нас все источники открытые. Если источник не предоставляет RSS канал, значит к нам он не попадает. Да и в отличии от Медиалогии - мы новости не продаем...
Здравствуйте, очень рады, что вы обратили внимание на один из наших последних сервисов. Но, вынужден Вас огорчить, к сожалению вы неверно составили запросы. Скорее всего это связано с тем, что некорректно поняли назначение слова meta:. Данное слово у нас пока не задокументировано, но оно используется в некоторых запросах, в частности в Индексе цитируемости. Словом META, у нас так обозначается источник, причем в скобках указывается его уникальный ID. Соответственно, если перед скобками стоит МИНУС, то этот источник должен быть исключен из результатов поиска. Таким образом мы получаем Индекс цитирования, а именно - все документы, содержащие название источника, но при этом в качестве источника это название выступать не может.
Если вы хотите получить индекс цитирования для Регнум, то запрос будет следующий:
organization: "Regnum" meta: -(3000018) (сейчас это менее 10 документов)
ID (что указали Вы) = 300001F - принадлежит Коммерсанту. Таким образом вы искали документы, где упоминался Регнум по всем источникам кроме Коммерсанта.
Почему-то Ругнум мало кто цитирует, кроме него самого :)
В Медиалогии - мы вообще не нашли Индекс цитирования, точнее нашли общий ИЦ за месяц, но там в ТОП нет тех источников, что указали вы.
На всякий случай мы проверили еще раз на ИЦ, и у нас он работает абсолютно исправно...
А почему вам понятно, почему у нас нет Интерфакса?
Мы произвели кое-какие изменения в сторону избавления от "похожих" статей... Теперь, так называемых "дублей" станет меньше...
Вообще, в планах такое есть...
Людей пока для этого не хватает...
Digester добавил 25.03.2010 в 20:50
Сайт похож на ваш... Один движок? Или один скопировал дизайн у другого?
Вообще, мы стараемся все делать автоматически... Руками то новости мы не пишем :)
На что значит поплотнее?
Ведь суть сервиса в том, чтобы людям не писать ничего, а чисто положиться на автоматизацию. Если нам для каждого запроса писать новость руками, то это уже не бесплатно получится, и долго :)
Digester добавил 25.03.2010 в 19:55
У нас сейчас примерно 450 источников... Список мы периодически пополняем. Стараемся не брать источники, которые делают полный копи-паст и ничего своего не пишут. Плюс мы берем только те, у кого есть RSS. И все наши источники рабочие, чего не скажешь о источниках того же самого Яндекса...
На самом деле вал лучше самому проверить это... Достаточно зайти на сайт www.digester.ru и вбить эти слова в поиск. За весь период больше всего "Землеустройство".
Да, планируется. Планируется вообще отдавать в разных форматах. Для этого, если сервис признают нужным и полезным будет на нашем сайте создан личный кабинет, в котором каждый сможет создавать запросы. Пока это не автоматизировано, и все мы делаем сами вручную (имеется ввиду RSS канал).
Конечно, хотим! Если только вы объясните, что это такое :) Меня слова местами и заменять некоторые синонимами? Это? Просто пока наш текст не может являться уникальным, т.к. его уже кто-то написал. А вот аннотации у нас могут быть уникальными (их можно посмотреть на сайте, именно аннотации показываются под ссылками).
Текст не отформатирован, потому что это RSS. Мы можем напихать туда тегов, но считаем, что это личное дело каждого. Если посмотрите, то в текст есть разметка /n /t - ничего не мешает вам их заменить на <br> и будет все отлично.
Пока никто на это не жаловался. Но если этого будет не хватать, то мы всегда сможем выдавать текст с тегами. Просто в данном случае к вам приходит полностью готовый и распарсированный от всякого мусора текст.
Картинки мы можем тоже вытаскивать из новостей, но это уже более авторская вещь, нежели распарсированный текст. Но думаю, что мы можем давать в RSS ссылку на картинку, которая располагается на сайте источнике.
Пока это под вопросом. На начальном этапе мы даем только чистый текст. Если хотите, мы можем в RSS прикрепить ссылку на изображение...
Digester добавил 25.03.2010 в 16:34
Интересный ресурс...
Вот несколько замечаний (поправьте если не так):
- Яндекс.Новости не дает полный текст новостей и я не нашел как сделать так, чтобы по моему запросу мне сформировали определенный RSS
- Ваш сервис дает (давал) информеры (как я понял), но не дает сам RSS, с которым пользователь мог бы делать все, что ему вздумается. Но думаю раз вы сделали такое - то не трудно сделать чистый RSS. И плюс ваш сервис так же не давал полный текст.
- Сейчас по-моему уже сложно найти то, чего еще нет. Но никогда не поздно создать что-то лучше того, что существует. У нас есть технология, работу которой можно увидеть на сайте. Так почему бы ее не использовать для чего-то еще... Что мы, собственно, мы здесь и предлагаем.
Надеюсь, не чем не обидел...
Да, можно...
http://digester.ru/RSS.aspx?n=AUTO
Можно так же немного ограничить область запроса, например, брать только новости связанные со словом "Концепт"
А ответа не было потому, что в 01:32 люди обычно уже спят :)
Да, похожие статьи могут попадаться и как уменьшить количество повторов - я говорил уже в этой ветке. Но зная, что не все любят листать форум назад - скажу еще раз. Можно, и даже желательно создавать не просто запрос на Газ и Нефть, а при желании составлять что-то более конкретное. Например, можно ограничить запрос некоторыми источниками, или же добавить какие-либо ключевые слова. Тогда некоторые дубликаты само-собой пропадут.
На самом деле, полностью исключить похожие документы не так просто. Например, если есть две новости на одну тему и одна новость содержит только краткую информацию, а другая более подробную. Какую из этих двух новостей выдавать? Они обе обо одном и том же, количество слов, примерно одинаковое, оба источника достаточно известные... Пока не прочитаешь новость - не поймешь какую из них можно выкинуть, а какую оставить. А так как, все автоматизировано и поставлено на поток - это надо как-то делать программно. Мы пока работаем над этой проблемой, и если у вас есть какие-то предложения, мы с радостью их рассмотрим.
От себя добавлю, что пока, мы рассматриваем вариант, составления списка приоритетных источников...
Что касается вопрос с аннотациями, то ответ - ДА. Мы можем давать вам аннотация вместО распарсированного текста или вместЕ с текстом в отдельном теге. Примеры аннотаций вы можете посмотреть на нашем сайте. Если вам устраивает получать аннотации, что в свою очередь гарантирует некоторую уникальность - то мы можем давать вам их. Просто в заявке укажите, что желаете получать аннотации таким-то способом...
Можно: http://digester.ru/RSS.aspx?n=GAZOIL
Такое подходит?