Используйте программу BDE, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователю поисковому запросу - Сервисы и программы для работы с SE

166

Андрей Иванов

19 февраля 2001, 03:58

#41

Originally posted by Gray:
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.
...Буду страшно признателен, если кто-нибудь поможет найти программу (не сервис), которая:
1) создаёт список слов, встречающихся в документе с указанием их частоты;
2) понимает кириллицу (пофиг, что не различает словоформы);
3) понимает в качестве входящего параметра не только место размещения документа на диске, но и его веб-адрес...

Сергей, Артем, тут проблема, на мой взгляд, опять "моральная". Прежде всего, для чего программа предназначена? Если посмотреть на пп. 1,3 вполне можно предположить, что собирались анализировать частоты не только своих, но и чужих текстов. Свои обычно, это doc, txt, а веб-адрес - htm, не так много народу творит сразу в хтмл'e. Тогда и будем исходить из того, что программа нужна для расчета параметров, которые могут иметь значение при расчетном позиционировании. Самый простой способ, обеспечивающий наглядность - сравнение.

В этом случае прога должна иметь не одно, а два окна и два входных адреса - в одном выводятся данные по тексту, который пользователь собирается, например, подать на индексацию. В другом данные какого-то "эталона". Очевидно, что в качестве эталонов будут использоваться страницы, стоящие на верхних позициях в листах ответов по интересующей пользователя тематике.

Второй момент, который нуждается в прояснении, - это вопрос о ключевых словах. То, что находится в тэге keywords - не ключевые слова в понимании к нашим поисковикам, это уже давным-давно устарело. Ключевыми словами, мы все же привыкли пользоваться этим термином, являются слова запроса, причем важен не только их состав, но и порядок (тот же пример про "работа вакансии" и наоборот). Лист ответа сам по себе никогда не появляется, он выдается по какому-то конкретному запросу. Список наиболее частотных запросов по любой тематике при помощи той же "Штучки" можно сделать элементарно. Поэтому расчет и сравнение параметров надо делать не по наличию тэга keywords, а по произвольно введенным пользователем словам. Это уж его дело, что он туда введет, у каждого свой сайт.

Далее простейшая процедура - ввод в анализируемую поисковую систему известной формулировки запроса, получение листа ответов переход на сайт, занимающий привлекательную позицию и анализ его текста именно по словам запроса. Т.е. наличие слов запроса в тексте, титуле, тэгах выделения, если очень хочется, то в keywords&description, заголовках, альтах, отношение к общему объему текста (вес), близость к началу текста. То же самое для каждого слова запроса за минусом стоп-слов.

Проделав такую процедуру с верхними 10 страницами и по разным запросам, волей-неволей начнешь "интуитивно" представлять, какие параметры имеют влияние и примерные границы допусков. А потом можно просто сравнивать данные собственных страниц со страницами примерно равного объема "эталонного" сайта.

А зачем, мол, анализировать, если можно просто стащить? Простое воровоство контента не проходит, потому что, если я правильно помню инструкции Яндекса, дубликаты не индексируются. Да и правильным пацанам влом этим заниматься. :0) Так что "напрягаться" мыслью авторам, которые хотят сделать оптимизированный текст, придется. С одной стороны - выдержать параметры, с другой - любая система сегодня имеет модераторов, которые, если увидят высокорелевантный бред, просто могут исключить из индексов. Но как Грин и сказал, "нужное слово в титуле, немножечко в альте, чуть-чуть выделим, и кой-чего передвинем ближе к началу", глядишь, и результат хороший получился. :0)

То есть, нужна машинка, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователем поисковому запросу. Как у нас будет воспринята идея создания такого сервиса? Его, кстати, и в онлайне можно довольно быстро организовать.

Вопрос открытый. Артем, Сергей, будете делать такой софт? :0)

С уважением,

Андрей Иванов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

19 февраля 2001, 04:30

#42

Вопрос, все-таки, к Артему. Я последний раз программировал в 1992 году. И то на ТурбоПаскале.

257

AiK

19 февраля 2001, 07:07

#43

Originally posted by Gray:
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.

Ну мало ли, реклама всё-таки, да и напрямую к поисковикам не относится.

Разрешил, так разрешил.

257

AiK

19 февраля 2001, 07:33

#44

Сергей, Артем, тут проблема, на мой взгляд, опять "моральная". Прежде всего, для чего программа предназначена? Если посмотреть на пп. 1,3 вполне можно предположить, что собирались анализировать частоты не только своих, но и чужих текстов. Свои обычно, это doc, txt, а веб-адрес - htm, не так много народу творит сразу в хтмл'e. Тогда и будем исходить из того, что программа нужна для расчета параметров, которые могут иметь значение при расчетном позиционировании.

Технологии двойного применения

Я вопрос собственно задавал потому что, обсуждение функциональности программы к поисковикам не относится, а не потому что кто-то будет использовать программу для спама. Опять-таки прямого определения спама не даёт ни один из рунетовских поисковиков.

Самый простой способ, обеспечивающий наглядность - сравнение.

В этом случае прога должна иметь не одно, а два окна и два входных адреса - в одном выводятся данные по тексту, который пользователь собирается, например, подать на индексацию. В другом данные какого-то "эталона". Очевидно, что в качестве эталонов будут использоваться страницы, стоящие на верхних позициях в листах ответов по интересующей пользователя тематике.

Так и быть, для тех кто не в состоянии запустить два варианта программы, или страдает склерозом, добавлю кнопку save

Второй момент, который нуждается в прояснении, - это вопрос о ключевых словах. То, что находится в тэге keywords - не ключевые слова в понимании к нашим поисковикам, это уже давным-давно устарело.

Извини за тавтологию, но ключевым словом здесь является META. Чёткого определения термина под рукой нет, но метаданные(metadata) в моём понимании - это "управляющие данные, построенные на основе исходных данных". Т.е. поисковик сам строит ключевые слова для страницы. НО, если построенные мета, совпадают с теми, что были найдены в тэге, вес такого ключевого слова повышается некоторыми поисковиками.

Далее простейшая процедура - ввод в анализируемую поисковую систему известной формулировки запроса, получение листа ответов переход на сайт, занимающий привлекательную позицию и анализ его текста именно по словам запроса. Т.е. наличие слов запроса в тексте, титуле, тэгах выделения, если очень хочется, то в keywords&description, заголовках, альтах, отношение к общему объему текста (вес), близость к началу текста. То же самое для каждого слова запроса за минусом стоп-слов.

Согласен, добавлю, но насколько я понял изначально задача была несколько другая - найти при помощи программы те слова, по которым потенциально будет релевантен документ. Очень часто "выстреливает" какое-нибудь весьма неожиданное слово. (Я уже писал, что одна из моих страниц впереди всего рунета по тушёнке )

То есть, нужна машинка, которая будет сравнивать параметры двух произвольно выбранных страниц по любому выбранному пользователем поисковому запросу.

всё же право на сравнение я оставлю за пользователем. Т.е. это будет "машина по определению параметров документов"

Его, кстати, и в онлайне можно довольно быстро организовать.

Не понял. CGI что ли рисовать?

Вопрос открытый. Артем, Сергей, будете делать такой софт? :0)
С уважением,
Андрей Иванов.

Дык уже и делаю

С уважением,

Артём.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

166

Андрей Иванов

19 февраля 2001, 17:01

#45

С идеей запуска двух окон программы все верно - это у меня в башке что-то заклинило, с умным видом сказал большую глупость. :0) Ждем!

257

AiK

28 февраля 2001, 01:07

#46

Ну что ж, можно произвести примерку.

Из-за BDE размер закачки увеличился почти в 10 раз, но в дальнейшем я выложу прогу для закачки без БДЕ. Кстати, Андрей, что-то мне не удалось подружить мой БДЕ с тем, что ипользуется Вашей программой, так что юзверю придётся выбирать чем пользоваться .

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

166

Андрей Иванов

1 марта 2001, 01:22

#47

Увы, AiK, так и есть. Попытка запустить выдает, что не найдет какой-то путь... :0(

Может, удастся сделать бесконфликтный вариант. Мне Штучку удалять нельзя, часто пользуюсь.

257

AiK

1 марта 2001, 02:39

#48

Возможно.

Для этого хотелось бы узнать версию BDE, которую использует Ваша программа,

и заодно, не плохо бы увидеть сообщение об ошибке.

A

166

Андрей Иванов

2 марта 2001, 05:47

#49

Артем, я же не программер, даже не знаю, что такое BDE. Если не сложно, напишите, какой файл надо найти, и какие данные из него получить. :0)

257

AiK

2 марта 2001, 06:18

#50

BDE = Borland Database Engine - куча dll для работы с БД в Delphi. Я боюсь что совместить разные версии не удастся, т.к. у Вас BDE 4.0, а у меня 5.0 - можно посмотреть в меню about программы bdeadmin.exe. К сожалению эти наборы весьма сильно различаются и Ваша и моя программы могут работать только со своими наборами. ИМХО тут единственный выход - пересобрать чью-то программу с другим набором DLL.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Зачем быть уникальным в мире, где все можно скопировать

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Анализатор документов