- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Доброе время суток!
Я занимаюсь тематической кластеризацией полнотекстовых документов в институте. Пока все достаточно примитивно: частотный анализ, кластерный анализ...
Вот собственно в чем дело: для проведения исследований необходима исходная база полнотекстовых документов на русском языке. Около 250 документов. Количество тем - 5 или 6.
Я понимаю, что формирование такой базы дело не минутное, но буду очень благодарен за помощь.
Даже если есть документов 50 на одну тему, буду очень благодарен.
Также приветствуются ссылки на публичные базы.
Заранее спасибо за помощь. ChasovskyAV@mpei.ru
Могу выдать такую базу, но с одним условием - можно будет посмотреть результаты и получить краткое описание алгоритма :) Если это не проблема, то мой e-mail в профайле.
TREC
Есть публичные русскоязычные коллекции: http://romip.narod.ru
С уважением
Михаил Маслов
Запустилась бета-версия еще одного новостного поисковика - Новотека.
Если интересно, посмотрите на качество кластеризации.
Точность на сегодня неплохая, мусора в 5 темах (Лукашенко, Тебуев, Шеремет, ЦАС, венесуэл.пожар) не обнаружил. Полноту не проверил, как это сделать без серьезных затрат и не представляю.
Вопрос: как вы оцениваете важность новости, по количеству публикаций за фиксированный период?
Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.
Пока да - это самая простая и надежная мера. Я думаю, что в дальнейшем важность конкретного события будет зависеть как от времени, так и от авторитетности источников, которые напечатали что-то об этом событии.
Посмотрел - с большим опозданием - эту дискуссиию, пытаюсь понять - о чем идет речь ...
... семантические образы (наборы терминов с весами) ...
- разве СУТЬ "семантической образЦОВОСТИ" может быть сведена к "набору терминов" (даже если - "с весами")???
Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.
это, конечно, отрадно слышать, но хотелось бы узнать, как эта "хорошая" точность определяется
Давайте рассмотрим 22 октября, тема (по итогам дня) называется "Из Беслана выдворили сайентологов" (34 сообщения).
Судя по всему разработчики, конечно, считают, что тема о Беслане.
Однако, выбирая в качестве заголовка темы ПОСЛЕДНЕЕ сообщение (перед этим висело "14 пострадавших от теракта в Беслане покинули столичные больницы" - 3 сообщения из 34 про 14 человек, про сайентологов-то вообще 1/34), авторы ресурса рождают у пользователя ожидание (психологическое), что тема более близка к заявленной, чем есть на самом деле.
Авторы ресурса перекладывают на пользователя обязанность делать выводы какая же на самом деле была основная тема.
То есть, что же такое ТОЧНОСТЬ в Novoteka.
Судя по всему разработчики, конечно, считают, что тема о Беслане.
Борис, на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.
А разве в приведенном примере непонятно, какова основная тема? Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?
Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.
Отличительная особенность новостей заключается в том, что среди других источников информации они имеют максимальную энтропию, так как события с равной вероятностью могут развиваться по любому сюжету.
Кроме того, события всегда зависят друг от друга, поэтому зародившееся с утра событие к вечеру может либо затухнуть, либо быть разбито на серию более мелких, связанных с ним. Это вызывает определенные трудности, так как события в начале дня могут быть абсолютно "не похожи" на события в конце дня.
На данный момент ведутся работы, чтобы определить степень связи простых событых с целью показать не просто некое плоское событие, а попытаться сделать этот показ всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.
на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.
А разве в приведенном примере непонятно, какова основная тема?
Мне как "читающему газеты" понятно.
Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы
Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?
Разве это мои проблемы как пользователя? Это - Ваши проблемы.
В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.
Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.
отчего же. Точность - она и в Африке точность:
если есть некоторая тема, которая в Вашем случае задается
заголовком темы + фрагментом последнего сообщения,
то элементарно подсчитать, сколько попавших туда сообщений соответствует ожиданиям пользователя.
Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".
Вопрос в том, мне кажется, что сейчас Вы неаккуратно формулируете эти ожидания.всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.
а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.
Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?
-------
Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.
Но сегодня-то там и название темы другое - что-то о выборах Керри, где лежит и Клинтон со своим ООНством. Что же есть вообще схожего между этими линиями (США что ли? ). Хотелось бы понять - тут уже я даже как "читающий газеты" не могу понять - относительно чего (какой-такой первоначальной новости) все это чудо построилось. И как здесь считать "точность"?