vuhrust

Рейтинг
157
Регистрация
29.06.2005

под новостной портал

russiontoday.ru

russiontoday.com

http://en.wikipedia.org/wiki/.tk

Тут кто-то хостинг за рекламу обсуждал, а эти халявщики только прокси на оригинальный сайт ставят только по http и за рекламу

Закрывают урлу если за 90 дней меньше 25 посетителей, альтернатива - купить за 6 баксов

Трехбуквеннники не дают - штуку $ хотят

Попробовал зарегить

Internal Server Error
The server encountered an internal error or misconfiguration and was unable to complete your request.

Please contact the server administrator, webmaster@nic.tk and inform them of the time the error occurred, and anything you might have done that may have caused the error.

More information about this error may be available in the server error log.

хорошо не поспешил - оказалось банк ликвидирован :)

А как потом продлять, будут ли сложности, проблемы? Просветите чайника пожалуйста

Продлить через кого можно будет?

bvd:
я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем

В курсе. Мне руководитель подкидывает мысли типа построения некой аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining Все это мне непонятно и пришлось выбрать ... Вот

greenwood:
я цель конечной не понял

Пока что написать магистерскую :)

Ху, наконец определится с конкретной задачей

Будет система отслеживания ПЛАГИАТА

nis:
Интересно, а почему вы считаете, что не опубликовано?

на lsa.colorado.edu не опубликовано. Уж очень онлайн демки мне запали.

10x, Таки стоит передописать...

Для повышения качества работы алгоритмов дополнительно может осуществляться предварительная обработка входной информации. Наиболее эффективными являются следующие средства повышения качества:

• Стемминг

Нормирование слова, приведение к единому корню. Модель SnowBall для построения математического алгоритма была предложена Портером еще в (давненько так) [15]. Сегодня можно найти реализации модели практически для всех языков

• Лингвистические базы

Базы переводов для независимости от языка написания документа и базы синонимов

• Разбиение документа на части, определение и суммирование результата полеченного для пар частей как независимых документов. Описаны результаты применения для классификации текстов [10]

• Метод каскада

Оптимизация может использоваться для поиска схожих документов среди проиндексированных данных. Заключается в кластеризации групп документов и выделении центрового документа (возможно, виртуального). Отрицательный результат сравнение документа-запроса с центром кластера исключает потребность выполнять операции с документами входящими в кластер.

• Рассмотрение при индексировании пар слов наряду с одиночными словами [12]

Задачи определение схожести информации за классификацией расположены в область информационного поиска (IR). Существование универсальных/наиболее распространенных моделей представления информации а также применения вышеприведенных алгоритмов улучшения качества создает ложное впечатление сходства алгоритмов поиска по запросу с определением схожести документов. Часто это мотивируется возможностью запрос представить в виде документа. Документ действительно можно представить в виде запроса, однако используемые в ПС алгоритмы анализа запросов, определение релевантности и что самое главное алгоритмы и структура индексов ПС не предназначены для больших запросов. Исследования приведенные в AOL (со слов Сегаловича (тех. Директор Яндекса) на searchengines.ru) показывают TODO: !!!Найти сами исследования!!!, что работающие на стандартных алгоритмах сервера просто не выдерживают нагрузок.

Тем не менее представить запрос в виде документа и поиск по запросу свести является возможным, таким образов поиск схожих есть более общая постановка задачи поиска информации (здесь однако подстерегает сложно выбора наиболее релевантных документов)

Литература

1. Lyman P., Varian Hal R. How much information 2003? (http://www.sims.berkley.edu/research/projects/how-much-info-2003/printable_report.pdf)

2. Кларк Д. Закон Мура остается в силе // Ведомости. – 2003. - № 11 (http://www.silicontaiga.ru/home.asp?artId=2066)

3. Кириченко К.М. Герасимов М.Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог’2001 (http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm)

4. Ланде Д.В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. – М.: Издательский дом «Вильямс», 2005. – 272 с.

5. Collection Statistics for Fast Duplicate Document Detection. ABDUR CHOWDHURY, OPHIR FRIEDER, DAVID GROSSMAN, and MARY CATHERINE McCABE Illinois Institute of Technology.

6. An Information-Theoretic Definition of Similarity Dekang Lin Department of Computer Science University of Manitoba Winnipeg, Manitoba, Canada R3T 2N2

TODO: !!!Найти правильное описание работы!!!

7. Эффективный способ обнаружения дубликатов web доку-ментов с использованием инвертированного индекса. Сергей Ильинский, Максим Кузьмин, Александр Мелков, Илья Сегалович TODO: !!!Найти правильное описание работы!!!

8. Некоторые автоматические методы детектирвания спама, доступные большим почтовым системам. Илья Сегаловия, Яндекс TODO: !!!Найти правильное описание работы!!!

9. TODO: !!! Найти первоисточник!!!

10. Некрестьянов. Тематико-ориентированные методы информационного поиска. Кандидатский дисер. TODO: !!!Найти правильное описание работы!!!

11. TODO: !!!Найти работу (была на английском в pdf)!!!

12. Губин Максим Вадимович. ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА ЗАО «Информационная компания “Кодекс”», Max@gubin.spb.ru Материалы какой-то конференции TODO: !!!Найти правильное описание работы!!!

13. www.aot.ru

14. TODO: !!!Найти материалы крымской конференции по автоматизации библиотечных фондов!!!

15. Найти работу Портера

Не секрет, КПИ, ТЕФ(Апродос), Спец. "Программное обеспечение автоматизированных систем", тема "Исследование алгоритмов определения схожести документов с построением аналитических отчетов". Ведет Гагарин

Спасибо! Думаю может подойти, особенно если будут какие-то коефициенты близости к заданой теме. Если надо вручную что-то делать, то пока не готов сказать тему ибо у меня пока сыровато с алгоритмами (еще 9 месяцев до апогея). Надеюсь можно будет запросить данные по теме через некоторое время

Это магистерская работа. Если в комерческом проекте формировалась большая база, буду благодарен за небольшой кусочек со статистикой. Нужно дабы хоть как-то обьективно оценить качество и хоть как-то с чем-то сравнить

Всего: 187