просто народ мне кажется дриградирует
ни чего уникального придумать не в состоянии
как только тупо копировать у других да еще воровать контекст
так тут еще одна проблема появляется:
из-за переизбытка однотипных сайтов и индитичного контекста качество и количество трафика снижается сильно.
Получается они сами себе копают яму:)
P.S.
Отрывки диплома:
АННОТАЦИЯ
В данной дипломной работе разработан оригинальный алгоритм поиска информации, основанный на методе поиска информации по ключевым словам в документе. В работе разработан алгоритм, который может четко отделять полезную часть документа от «шума».
Данный метод значительно может улучшить качество поиска и кластеризацию в неструктурированном хранилище информации огромного размера.
В качестве распределённой информационной среды рассмотрен Интернет, а признаков поиска документов – ключевые слова.
Содержание
Введение
1. КРАТКИЙ ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАСТИРИЗАЦИИ ТЕКСТОВ
1.1. Критерии оценки исследуемых методов
1.2. Основные понятия и определения
1.3. Метод Custom Search Folders
1.4. Метод LSA/LSI
1.5. Метод Suffix Tree Clustering
1.6 Методы Single Link, Complete Link, Group Average
1.7. Метод Scatter/Gather
1.8. Метод K-means
1.9. Метод SOM
ВЫВОДЫ
2 АНАЛИЗ КОНТЕКСТА ДОКУМЕНТОВ
2.1. Теория Джоржа Зипфа
2.1.1. Первый закон Зипфа "ранг -- частота"
2.1.2. Второй закон Зипфа "количество -- частота"
2.2. Проверка метода на практике
2.3. Выделение контекстной части документа
2.4. Техническое задание
3. РАЗРАБОТКА СИСТЕМЫ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ
3.1. Назначение, состав, входные и выходные данные
3.1.1. Основные глобальные переменные
3.1.2. Основные функции системы
3.2. Краткое описание алгоритмов
3.3. Инструкция к применению
4. ИСПОЛЬЗОВАНИЕ УНИВЕРСАЛЬНОЙ МОДЕЛИ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ
4.1. Методика настройки, обучения и применения системы.
4.2. Описание контрольного примера
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
Цель данной дипломной работы: повышение эффективности (снижение времени, повышение релевантности документов) поиска информации в больших массивах неструктурированной текстовой информации на базе разработки формализованных средств анализа статистических характеристик текстов.
Для достижения указанной цели необходимо решить следующие задачи:
Анализ известных методов и средств анализа статистических
характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. Выбор и обоснование наиболее эффективных подходов, анализ их достоинств и недостатков.
Разработка технического задания на проектирование программных средств, предназначенных для обработки не структурированной базы документов, выявления идентичных частей документов.
Разработка общей структуры программных средств анализа иерархических документов и принципов взаимодействия с другими системами.
Разработка основных структур данных и алгоритмов.
Разработка программных средств.
Отладка разработанного программного комплекса
Анализ эффективности разработанных программных средств и опытная эксплуатация.
Содержание работы:
Во введении показана актуальность работы, сформулирована цель и основные задачи исследования, изложены основные положения разделов дипломной работы.
В первой главе введены определения основных понятий из области анализа и статических характеристик текстов. Проведен обзор и анализ известных методов выявления ключевых терминов текста.
Во второй главе изложен метод анализа статистических характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. На базе которого будет выполнен данный дипломный проект.
Третья глава посвящена разработке и исследованию модели определения ключевых терминов текста, описаны ее назначение, состав и взаимосвязь элементов. Предлагаемая модель предназначена для выявления контекста документа, разделения документа на полезную и навигационную («шум») часть. Определения ключевых слов из полезной части документа.
В четвертой главе описана реализация предложенной модели в рамках базы неструктурированных документов. В плане реализации теоретических положений, изложенной в третьей главе, была разработана модель для сред UNIX / Windows на платформе Apache 2.xx. Модель анализирует и выявляет контекст документов, а также определяет ключевые термины документов. В качестве источника был взять – бизнес справочник предприятий и коммерческих предложений – IPAG.ru.
В работе рассмотрены вопросы экономики и охраны труда.
Завершается работа заключением, в котором сделаны основные теоретические и практические выводы, указана перспектива дальнейших исследований, а также приведен список использованной литературы и Интернет источников.
цена дипломной работы 150 wmz
описана вся теория, алгоритм, тестовый пример, и прилагается листинг программы на РНР4 база MySql 4
Могу помочь настроить
Примеры работы программы:
Страница http://www.ipag.ru/cat/kompaniy1159.html
Ключевые слова:
компания электрооборудование назначение scame итальянский производитель систем европейский продукции вилка розетки промышленного кабельный продукция изделие
Страница http://www.ipag.ru/cat/kompaniy1553.html
финансовый компания анализ фабо научный программного комплекса анализа отчетность исследований область бизнеса разработка дипломный бухгалтерский
Страница http://www.ipag.ru/cat/kompaniy1565.html
жалюзи окно двери ролеты любой другой металлопластика алюминиевый профиля окон фирма-производитель
страница http://www.delonet.ru/id846614.htm
Ключевые слова: honda объявление японский продается 2003 civic добавить заказ
страница http://www.delonet.ru/id845951.htm
Ключевые слова: mitsubishi запчасти объявление автомобилей автоцентр galant добавить ремонт окраска
Есть вопросы : icq 144034501
Я в этом году писал дипломную работу по анализу контекста веб документов и выявления ключевых слов.
Если кому надо могу продать разработку
переплюнуть, может и нет.
а вот у меня трафик с поисковых систем снижется сильно. Вот в чем проблема.
Мне не жалко того материала.
Просто теряется трафик - а это деньги.
откуда информация? или опять догадки
это может быть, но они сказали, что фильтры не накладывали
Так, что ни кто ни скажет как определить с кем склеел яшка низкоисточники
вряд ли один запрос больше 10 хостов ни дает в сутки
а упало на 3000 хостов
то есть 75% запросов обвалится должно было