sergey24

sergey24
Рейтинг
180
Регистрация
12.08.2005
Lenka:
Да, сдается, это весь рунет такой - "я его слепила из того, что было".
Сколько в рунете сайтов, не подпадающих под эту классфикацию? Раз-два и обчелся...

просто народ мне кажется дриградирует

ни чего уникального придумать не в состоянии

как только тупо копировать у других да еще воровать контекст

так тут еще одна проблема появляется:

из-за переизбытка однотипных сайтов и индитичного контекста качество и количество трафика снижается сильно.

Получается они сами себе копают яму:)

P.S.

Отрывки диплома:

АННОТАЦИЯ

В данной дипломной работе разработан оригинальный алгоритм поиска информации, основанный на методе поиска информации по ключевым словам в документе. В работе разработан алгоритм, который может четко отделять полезную часть документа от «шума».

Данный метод значительно может улучшить качество поиска и кластеризацию в неструктурированном хранилище информации огромного размера.

В качестве распределённой информационной среды рассмотрен Интернет, а признаков поиска документов – ключевые слова.

Содержание

Введение

1. КРАТКИЙ ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАСТИРИЗАЦИИ ТЕКСТОВ

1.1. Критерии оценки исследуемых методов

1.2. Основные понятия и определения

1.3. Метод Custom Search Folders

1.4. Метод LSA/LSI

1.5. Метод Suffix Tree Clustering

1.6 Методы Single Link, Complete Link, Group Average

1.7. Метод Scatter/Gather

1.8. Метод K-means

1.9. Метод SOM

ВЫВОДЫ

2 АНАЛИЗ КОНТЕКСТА ДОКУМЕНТОВ

2.1. Теория Джоржа Зипфа

2.1.1. Первый закон Зипфа "ранг -- частота"

2.1.2. Второй закон Зипфа "количество -- частота"

2.2. Проверка метода на практике

2.3. Выделение контекстной части документа

2.4. Техническое задание

ВЫВОДЫ

3. РАЗРАБОТКА СИСТЕМЫ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ

3.1. Назначение, состав, входные и выходные данные

3.1.1. Основные глобальные переменные

3.1.2. Основные функции системы

3.2. Краткое описание алгоритмов

3.3. Инструкция к применению

ВЫВОДЫ

4. ИСПОЛЬЗОВАНИЕ УНИВЕРСАЛЬНОЙ МОДЕЛИ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ

4.1. Методика настройки, обучения и применения системы.

4.2. Описание контрольного примера

ВЫВОДЫ

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ

Цель данной дипломной работы: повышение эффективности (снижение времени, повышение релевантности документов) поиска информации в больших массивах неструктурированной текстовой информации на базе разработки формализованных средств анализа статистических характеристик текстов.

Для достижения указанной цели необходимо решить следующие задачи:

Анализ известных методов и средств анализа статистических

характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. Выбор и обоснование наиболее эффективных подходов, анализ их достоинств и недостатков.

Разработка технического задания на проектирование программных средств, предназначенных для обработки не структурированной базы документов, выявления идентичных частей документов.

Разработка общей структуры программных средств анализа иерархических документов и принципов взаимодействия с другими системами.

Разработка основных структур данных и алгоритмов.

Разработка программных средств.

Отладка разработанного программного комплекса

Анализ эффективности разработанных программных средств и опытная эксплуатация.

Содержание работы:

Во введении показана актуальность работы, сформулирована цель и основные задачи исследования, изложены основные положения разделов дипломной работы.

В первой главе введены определения основных понятий из области анализа и статических характеристик текстов. Проведен обзор и анализ известных методов выявления ключевых терминов текста.

Во второй главе изложен метод анализа статистических характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. На базе которого будет выполнен данный дипломный проект.

Третья глава посвящена разработке и исследованию модели определения ключевых терминов текста, описаны ее назначение, состав и взаимосвязь элементов. Предлагаемая модель предназначена для выявления контекста документа, разделения документа на полезную и навигационную («шум») часть. Определения ключевых слов из полезной части документа.

В четвертой главе описана реализация предложенной модели в рамках базы неструктурированных документов. В плане реализации теоретических положений, изложенной в третьей главе, была разработана модель для сред UNIX / Windows на платформе Apache 2.xx. Модель анализирует и выявляет контекст документов, а также определяет ключевые термины документов. В качестве источника был взять – бизнес справочник предприятий и коммерческих предложений – IPAG.ru.

В работе рассмотрены вопросы экономики и охраны труда.

Завершается работа заключением, в котором сделаны основные теоретические и практические выводы, указана перспектива дальнейших исследований, а также приведен список использованной литературы и Интернет источников.

цена дипломной работы 150 wmz

описана вся теория, алгоритм, тестовый пример, и прилагается листинг программы на РНР4 база MySql 4

Могу помочь настроить

Примеры работы программы:

Страница http://www.ipag.ru/cat/kompaniy1159.html

Ключевые слова:

компания электрооборудование назначение scame итальянский производитель систем европейский продукции вилка розетки промышленного кабельный продукция изделие

Страница http://www.ipag.ru/cat/kompaniy1553.html

Ключевые слова:

финансовый компания анализ фабо научный программного комплекса анализа отчетность исследований область бизнеса разработка дипломный бухгалтерский

Страница http://www.ipag.ru/cat/kompaniy1565.html

жалюзи окно двери ролеты любой другой металлопластика алюминиевый профиля окон фирма-производитель

страница http://www.delonet.ru/id846614.htm

Ключевые слова: honda объявление японский продается 2003 civic добавить заказ

страница http://www.delonet.ru/id845951.htm

Ключевые слова: mitsubishi запчасти объявление автомобилей автоцентр galant добавить ремонт окраска

Есть вопросы : icq 144034501

admad:
Может быть кто-нибудь встречал в сети материалы по технологии определения контекста страницы. Поделитесь ссылочками пожалуйста...

Я в этом году писал дипломную работу по анализу контекста веб документов и выявления ключевых слов.

Если кому надо могу продать разработку

Broadcaster:
Уже сто раз поднимали вопрос - забейте и продолжайте работать. Если у вас хороший тематический ресурс, вряд ли кто-то из злопыхателей сможет его переплюнуть, даже если всё под ноль слижет... А заниматься вопросом защиты - это ИМХО неэффективная трата времени, и соответственно денег.

переплюнуть, может и нет.

а вот у меня трафик с поисковых систем снижется сильно. Вот в чем проблема.

Мне не жалко того материала.

Просто теряется трафик - а это деньги.

Deni:
Они Вам и не скажут такое.
Тем более фильтр если и наложен то не на конкретный сайт а автоматом просто понижается виц для сайтов определенной структуры

откуда информация? или опять догадки

это может быть, но они сказали, что фильтры не накладывали

Так, что ни кто ни скажет как определить с кем склеел яшка низкоисточники

maximumx:
правильно посоветовали.. может популярность какого - то запроса упала, вот и траф уменьшился.

вряд ли один запрос больше 10 хостов ни дает в сутки

а упало на 3000 хостов

то есть 75% запросов обвалится должно было

Всего: 885