под новостной портал
russiontoday.ru
russiontoday.com
http://en.wikipedia.org/wiki/.tk
Тут кто-то хостинг за рекламу обсуждал, а эти халявщики только прокси на оригинальный сайт ставят только по http и за рекламу
Закрывают урлу если за 90 дней меньше 25 посетителей, альтернатива - купить за 6 баксов
Трехбуквеннники не дают - штуку $ хотят
Попробовал зарегить
хорошо не поспешил - оказалось банк ликвидирован :)
А как потом продлять, будут ли сложности, проблемы? Просветите чайника пожалуйста
Продлить через кого можно будет?
В курсе. Мне руководитель подкидывает мысли типа построения некой аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining Все это мне непонятно и пришлось выбрать ... Вот
Пока что написать магистерскую :)
Ху, наконец определится с конкретной задачей
Будет система отслеживания ПЛАГИАТА
на lsa.colorado.edu не опубликовано. Уж очень онлайн демки мне запали.
10x, Таки стоит передописать...
Для повышения качества работы алгоритмов дополнительно может осуществляться предварительная обработка входной информации. Наиболее эффективными являются следующие средства повышения качества:
• Стемминг
Нормирование слова, приведение к единому корню. Модель SnowBall для построения математического алгоритма была предложена Портером еще в (давненько так) [15]. Сегодня можно найти реализации модели практически для всех языков
• Лингвистические базы
Базы переводов для независимости от языка написания документа и базы синонимов
• Разбиение документа на части, определение и суммирование результата полеченного для пар частей как независимых документов. Описаны результаты применения для классификации текстов [10]
• Метод каскада
Оптимизация может использоваться для поиска схожих документов среди проиндексированных данных. Заключается в кластеризации групп документов и выделении центрового документа (возможно, виртуального). Отрицательный результат сравнение документа-запроса с центром кластера исключает потребность выполнять операции с документами входящими в кластер.
• Рассмотрение при индексировании пар слов наряду с одиночными словами [12]
Задачи определение схожести информации за классификацией расположены в область информационного поиска (IR). Существование универсальных/наиболее распространенных моделей представления информации а также применения вышеприведенных алгоритмов улучшения качества создает ложное впечатление сходства алгоритмов поиска по запросу с определением схожести документов. Часто это мотивируется возможностью запрос представить в виде документа. Документ действительно можно представить в виде запроса, однако используемые в ПС алгоритмы анализа запросов, определение релевантности и что самое главное алгоритмы и структура индексов ПС не предназначены для больших запросов. Исследования приведенные в AOL (со слов Сегаловича (тех. Директор Яндекса) на searchengines.ru) показывают TODO: !!!Найти сами исследования!!!, что работающие на стандартных алгоритмах сервера просто не выдерживают нагрузок.
Тем не менее представить запрос в виде документа и поиск по запросу свести является возможным, таким образов поиск схожих есть более общая постановка задачи поиска информации (здесь однако подстерегает сложно выбора наиболее релевантных документов)
Литература
1. Lyman P., Varian Hal R. How much information 2003? (http://www.sims.berkley.edu/research/projects/how-much-info-2003/printable_report.pdf)
2. Кларк Д. Закон Мура остается в силе // Ведомости. – 2003. - № 11 (http://www.silicontaiga.ru/home.asp?artId=2066)
3. Кириченко К.М. Герасимов М.Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог’2001 (http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm)
4. Ланде Д.В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. – М.: Издательский дом «Вильямс», 2005. – 272 с.
5. Collection Statistics for Fast Duplicate Document Detection. ABDUR CHOWDHURY, OPHIR FRIEDER, DAVID GROSSMAN, and MARY CATHERINE McCABE Illinois Institute of Technology.
6. An Information-Theoretic Definition of Similarity Dekang Lin Department of Computer Science University of Manitoba Winnipeg, Manitoba, Canada R3T 2N2
TODO: !!!Найти правильное описание работы!!!
7. Эффективный способ обнаружения дубликатов web доку-ментов с использованием инвертированного индекса. Сергей Ильинский, Максим Кузьмин, Александр Мелков, Илья Сегалович TODO: !!!Найти правильное описание работы!!!
8. Некоторые автоматические методы детектирвания спама, доступные большим почтовым системам. Илья Сегаловия, Яндекс TODO: !!!Найти правильное описание работы!!!
9. TODO: !!! Найти первоисточник!!!
10. Некрестьянов. Тематико-ориентированные методы информационного поиска. Кандидатский дисер. TODO: !!!Найти правильное описание работы!!!
11. TODO: !!!Найти работу (была на английском в pdf)!!!
12. Губин Максим Вадимович. ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА ЗАО «Информационная компания “Кодекс”», Max@gubin.spb.ru Материалы какой-то конференции TODO: !!!Найти правильное описание работы!!!
13. www.aot.ru
14. TODO: !!!Найти материалы крымской конференции по автоматизации библиотечных фондов!!!
15. Найти работу Портера
Не секрет, КПИ, ТЕФ(Апродос), Спец. "Программное обеспечение автоматизированных систем", тема "Исследование алгоритмов определения схожести документов с построением аналитических отчетов". Ведет Гагарин
Спасибо! Думаю может подойти, особенно если будут какие-то коефициенты близости к заданой теме. Если надо вручную что-то делать, то пока не готов сказать тему ибо у меня пока сыровато с алгоритмами (еще 9 месяцев до апогея). Надеюсь можно будет запросить данные по теме через некоторое время
Это магистерская работа. Если в комерческом проекте формировалась большая база, буду благодарен за небольшой кусочек со статистикой. Нужно дабы хоть как-то обьективно оценить качество и хоть как-то с чем-то сравнить