Анализатор документов

A
На сайте с 23.11.2000
Offline
166
#41

<font face="Verdana" size="2">Originally posted by Gray:
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.
...Буду страшно признателен, если кто-нибудь поможет найти программу (не сервис), которая:
1) создаёт список слов, встречающихся в документе с указанием их частоты;
2) понимает кириллицу (пофиг, что не различает словоформы);
3) понимает в качестве входящего параметра не только место размещения документа на диске, но и его веб-адрес...
</font>

Сергей, Артем, тут проблема, на мой взгляд, опять "моральная". Прежде всего, для чего программа предназначена? Если посмотреть на пп. 1,3 вполне можно предположить, что собирались анализировать частоты не только своих, но и чужих текстов. Свои обычно, это doc, txt, а веб-адрес - htm, не так много народу творит сразу в хтмл'e. Тогда и будем исходить из того, что программа нужна для расчета параметров, которые могут иметь значение при расчетном позиционировании. Самый простой способ, обеспечивающий наглядность - сравнение.

В этом случае прога должна иметь не одно, а два окна и два входных адреса - в одном выводятся данные по тексту, который пользователь собирается, например, подать на индексацию. В другом данные какого-то "эталона". Очевидно, что в качестве эталонов будут использоваться страницы, стоящие на верхних позициях в листах ответов по интересующей пользователя тематике.

Второй момент, который нуждается в прояснении, - это вопрос о ключевых словах. То, что находится в тэге keywords - не ключевые слова в понимании к нашим поисковикам, это уже давным-давно устарело. Ключевыми словами, мы все же привыкли пользоваться этим термином, являются слова запроса, причем важен не только их состав, но и порядок (тот же пример про "работа вакансии" и наоборот). Лист ответа сам по себе никогда не появляется, он выдается по какому-то конкретному запросу. Список наиболее частотных запросов по любой тематике при помощи той же "Штучки" можно сделать элементарно. Поэтому расчет и сравнение параметров надо делать не по наличию тэга keywords, а по произвольно введенным пользователем словам. Это уж его дело, что он туда введет, у каждого свой сайт.

Далее простейшая процедура - ввод в анализируемую поисковую систему известной формулировки запроса, получение листа ответов переход на сайт, занимающий привлекательную позицию и анализ его текста именно по словам запроса. Т.е. наличие слов запроса в тексте, титуле, тэгах выделения, если очень хочется, то в keywords&description, заголовках, альтах, отношение к общему объему текста (вес), близость к началу текста. То же самое для каждого слова запроса за минусом стоп-слов.

Проделав такую процедуру с верхними 10 страницами и по разным запросам, волей-неволей начнешь "интуитивно" представлять, какие параметры имеют влияние и примерные границы допусков. А потом можно просто сравнивать данные собственных страниц со страницами примерно равного объема "эталонного" сайта.

А зачем, мол, анализировать, если можно просто стащить? Простое воровоство контента не проходит, потому что, если я правильно помню инструкции Яндекса, дубликаты не индексируются. Да и правильным пацанам влом этим заниматься. :0) Так что "напрягаться" мыслью авторам, которые хотят сделать оптимизированный текст, придется. С одной стороны - выдержать параметры, с другой - любая система сегодня имеет модераторов, которые, если увидят высокорелевантный бред, просто могут исключить из индексов. Но как Грин и сказал, "нужное слово в титуле, немножечко в альте, чуть-чуть выделим, и кой-чего передвинем ближе к началу", глядишь, и результат хороший получился. :0)

То есть, нужна машинка, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователем поисковому запросу. Как у нас будет воспринята идея создания такого сервиса? Его, кстати, и в онлайне можно довольно быстро организовать.

Вопрос открытый. Артем, Сергей, будете делать такой софт? :0)

С уважением,

Андрей Иванов.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#42

Вопрос, все-таки, к Артему. Я последний раз программировал в 1992 году. И то на ТурбоПаскале.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#43

<font face="Verdana" size="2">Originally posted by Gray:
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.</font>

Ну мало ли, реклама всё-таки, да и напрямую к поисковикам не относится.

Разрешил, так разрешил.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#44

<font face="Verdana" size="2">Сергей, Артем, тут проблема, на мой взгляд, опять "моральная". Прежде всего, для чего программа предназначена? Если посмотреть на пп. 1,3 вполне можно предположить, что собирались анализировать частоты не только своих, но и чужих текстов. Свои обычно, это doc, txt, а веб-адрес - htm, не так много народу творит сразу в хтмл'e. Тогда и будем исходить из того, что программа нужна для расчета параметров, которые могут иметь значение при расчетном позиционировании.</font>

Технологии двойного применения

Я вопрос собственно задавал потому что, обсуждение функциональности программы к поисковикам не относится, а не потому что кто-то будет использовать программу для спама. Опять-таки прямого определения спама не даёт ни один из рунетовских поисковиков.

<font face="Verdana" size="2">
Самый простой способ, обеспечивающий наглядность - сравнение.

В этом случае прога должна иметь не одно, а два окна и два входных адреса - в одном выводятся данные по тексту, который пользователь собирается, например, подать на индексацию. В другом данные какого-то "эталона". Очевидно, что в качестве эталонов будут использоваться страницы, стоящие на верхних позициях в листах ответов по интересующей пользователя тематике.
</font>

Так и быть, для тех кто не в состоянии запустить два варианта программы, или страдает склерозом, добавлю кнопку save

<font face="Verdana" size="2">
Второй момент, который нуждается в прояснении, - это вопрос о ключевых словах. То, что находится в тэге keywords - не ключевые слова в понимании к нашим поисковикам, это уже давным-давно устарело.
</font>

Извини за тавтологию, но ключевым словом здесь является META. Чёткого определения термина под рукой нет, но метаданные(metadata) в моём понимании - это "управляющие данные, построенные на основе исходных данных". Т.е. поисковик сам строит ключевые слова для страницы. НО, если построенные мета, совпадают с теми, что были найдены в тэге, вес такого ключевого слова повышается некоторыми поисковиками.

<font face="Verdana" size="2">
Далее простейшая процедура - ввод в анализируемую поисковую систему известной формулировки запроса, получение листа ответов переход на сайт, занимающий привлекательную позицию и анализ его текста именно по словам запроса. Т.е. наличие слов запроса в тексте, титуле, тэгах выделения, если очень хочется, то в keywords&description, заголовках, альтах, отношение к общему объему текста (вес), близость к началу текста. То же самое для каждого слова запроса за минусом стоп-слов.
</font>

Согласен, добавлю, но насколько я понял изначально задача была несколько другая - найти при помощи программы те слова, по которым потенциально будет релевантен документ. Очень часто "выстреливает" какое-нибудь весьма неожиданное слово. (Я уже писал, что одна из моих страниц впереди всего рунета по тушёнке )

<font face="Verdana" size="2">
То есть, нужна машинка, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователем поисковому запросу.
</font>

всё же право на сравнение я оставлю за пользователем. Т.е. это будет "машина по определению параметров документов"

<font face="Verdana" size="2">
Его, кстати, и в онлайне можно довольно быстро организовать.
</font>

Не понял. CGI что ли рисовать?

<font face="Verdana" size="2">
Вопрос открытый. Артем, Сергей, будете делать такой софт? :0)
С уважением,
Андрей Иванов.
</font>

Дык уже и делаю

С уважением,

Артём.

A
На сайте с 23.11.2000
Offline
166
#45

С идеей запуска двух окон программы все верно - это у меня в башке что-то заклинило, с умным видом сказал большую глупость. :0) Ждем!

AiK
На сайте с 27.10.2000
Offline
257
AiK
#46

Ну что ж, можно произвести примерку.

Из-за BDE размер закачки увеличился почти в 10 раз, но в дальнейшем я выложу прогу для закачки без БДЕ. Кстати, Андрей, что-то мне не удалось подружить мой БДЕ с тем, что ипользуется Вашей программой, так что юзверю придётся выбирать чем пользоваться .

A
На сайте с 23.11.2000
Offline
166
#47

Увы, AiK, так и есть. Попытка запустить выдает, что не найдет какой-то путь... :0(

Может, удастся сделать бесконфликтный вариант. Мне Штучку удалять нельзя, часто пользуюсь.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#48

Возможно.

Для этого хотелось бы узнать версию BDE, которую использует Ваша программа,

и заодно, не плохо бы увидеть сообщение об ошибке.

A
На сайте с 23.11.2000
Offline
166
#49

Артем, я же не программер, даже не знаю, что такое BDE. Если не сложно, напишите, какой файл надо найти, и какие данные из него получить. :0)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#50

BDE = Borland Database Engine - куча dll для работы с БД в Delphi. Я боюсь что совместить разные версии не удастся, т.к. у Вас BDE 4.0, а у меня 5.0 - можно посмотреть в меню about программы bdeadmin.exe. К сожалению эти наборы весьма сильно различаются и Ваша и моя программы могут работать только со своими наборами. ИМХО тут единственный выход - пересобрать чью-то программу с другим набором DLL.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий