Алгоритмы контекста

126

admad

22 мая 2006, 20:28

2152

Может быть кто-нибудь встречал в сети материалы по технологии определения контекста страницы. Поделитесь ссылочками пожалуйста...

D

7

Drobel

29 мая 2006, 08:29

#1

admad:
Может быть кто-нибудь встречал в сети материалы по технологии определения контекста страницы. Поделитесь ссылочками пожалуйста...

Я уже здесь задавал подобный вопрос. Молчат господа теоретики почему-то...

M

26

mirf

15 июня 2006, 12:24

#2

Поднимаем тему, так как очень интересно. Вообще планирую написать что-то вроде маленького контекста для парочки сайтов. Если кто что найдет, скинте плз сюда или в личку. Заранее сенкс.

180

sergey24

18 июня 2006, 14:33

#3

admad:
Может быть кто-нибудь встречал в сети материалы по технологии определения контекста страницы. Поделитесь ссылочками пожалуйста...

Я в этом году писал дипломную работу по анализу контекста веб документов и выявления ключевых слов.

Если кому надо могу продать разработку

126

admad

18 июня 2006, 18:43

#4

Напиши сколько хочешь. В личку

180

sergey24

18 июня 2006, 20:16

#5

цена дипломной работы 150 wmz

описана вся теория, алгоритм, тестовый пример, и прилагается листинг программы на РНР4 база MySql 4

Могу помочь настроить

Примеры работы программы:

Страница http://www.ipag.ru/cat/kompaniy1159.html

Ключевые слова:

компания электрооборудование назначение scame итальянский производитель систем европейский продукции вилка розетки промышленного кабельный продукция изделие

Страница http://www.ipag.ru/cat/kompaniy1553.html

Ключевые слова:

финансовый компания анализ фабо научный программного комплекса анализа отчетность исследований область бизнеса разработка дипломный бухгалтерский

Страница http://www.ipag.ru/cat/kompaniy1565.html

жалюзи окно двери ролеты любой другой металлопластика алюминиевый профиля окон фирма-производитель

страница http://www.delonet.ru/id846614.htm

Ключевые слова: honda объявление японский продается 2003 civic добавить заказ

страница http://www.delonet.ru/id845951.htm

Ключевые слова: mitsubishi запчасти объявление автомобилей автоцентр galant добавить ремонт окраска

Есть вопросы : icq 144034501

eTarget 2011:Панельная дискуссия «Стратегия Отчет о конференции User Обзор семинара Леонида Гроховского

180

sergey24

18 июня 2006, 22:26

#6

P.S.

Отрывки диплома:

АННОТАЦИЯ

В данной дипломной работе разработан оригинальный алгоритм поиска информации, основанный на методе поиска информации по ключевым словам в документе. В работе разработан алгоритм, который может четко отделять полезную часть документа от «шума».

Данный метод значительно может улучшить качество поиска и кластеризацию в неструктурированном хранилище информации огромного размера.

В качестве распределённой информационной среды рассмотрен Интернет, а признаков поиска документов – ключевые слова.

Содержание

Введение

1. КРАТКИЙ ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАСТИРИЗАЦИИ ТЕКСТОВ

1.1. Критерии оценки исследуемых методов

1.2. Основные понятия и определения

1.3. Метод Custom Search Folders

1.4. Метод LSA/LSI

1.5. Метод Suffix Tree Clustering

1.6 Методы Single Link, Complete Link, Group Average

1.7. Метод Scatter/Gather

1.8. Метод K-means

1.9. Метод SOM

ВЫВОДЫ

2 АНАЛИЗ КОНТЕКСТА ДОКУМЕНТОВ

2.1. Теория Джоржа Зипфа

2.1.1. Первый закон Зипфа "ранг -- частота"

2.1.2. Второй закон Зипфа "количество -- частота"

2.2. Проверка метода на практике

2.3. Выделение контекстной части документа

2.4. Техническое задание

ВЫВОДЫ

3. РАЗРАБОТКА СИСТЕМЫ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ

3.1. Назначение, состав, входные и выходные данные

3.1.1. Основные глобальные переменные

3.1.2. Основные функции системы

3.2. Краткое описание алгоритмов

3.3. Инструкция к применению

ВЫВОДЫ

4. ИСПОЛЬЗОВАНИЕ УНИВЕРСАЛЬНОЙ МОДЕЛИ АНАЛИЗА КОНТЕКСТА ДОКУМЕНТОВ

4.1. Методика настройки, обучения и применения системы.

4.2. Описание контрольного примера

ВЫВОДЫ

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ

Цель данной дипломной работы: повышение эффективности (снижение времени, повышение релевантности документов) поиска информации в больших массивах неструктурированной текстовой информации на базе разработки формализованных средств анализа статистических характеристик текстов.

Для достижения указанной цели необходимо решить следующие задачи:

Анализ известных методов и средств анализа статистических

характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. Выбор и обоснование наиболее эффективных подходов, анализ их достоинств и недостатков.

Разработка технического задания на проектирование программных средств, предназначенных для обработки не структурированной базы документов, выявления идентичных частей документов.

Разработка общей структуры программных средств анализа иерархических документов и принципов взаимодействия с другими системами.

Разработка основных структур данных и алгоритмов.

Разработка программных средств.

Отладка разработанного программного комплекса

Анализ эффективности разработанных программных средств и опытная эксплуатация.

Содержание работы:

Во введении показана актуальность работы, сформулирована цель и основные задачи исследования, изложены основные положения разделов дипломной работы.

В первой главе введены определения основных понятий из области анализа и статических характеристик текстов. Проведен обзор и анализ известных методов выявления ключевых терминов текста.

Во второй главе изложен метод анализа статистических характеристик текстов, ориентированных на выявление ключевых слов и других смысловых характеристик. На базе которого будет выполнен данный дипломный проект.

Третья глава посвящена разработке и исследованию модели определения ключевых терминов текста, описаны ее назначение, состав и взаимосвязь элементов. Предлагаемая модель предназначена для выявления контекста документа, разделения документа на полезную и навигационную («шум») часть. Определения ключевых слов из полезной части документа.

В четвертой главе описана реализация предложенной модели в рамках базы неструктурированных документов. В плане реализации теоретических положений, изложенной в третьей главе, была разработана модель для сред UNIX / Windows на платформе Apache 2.xx. Модель анализирует и выявляет контекст документов, а также определяет ключевые термины документов. В качестве источника был взять – бизнес справочник предприятий и коммерческих предложений – IPAG.ru.

В работе рассмотрены вопросы экономики и охраны труда.

Завершается работа заключением, в котором сделаны основные теоретические и практические выводы, указана перспектива дальнейших исследований, а также приведен список использованной литературы и Интернет источников.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Дзен реализовал для авторов возможность вывода денег через СПБ