О выделении (семантических) тегов в тексте.

119

!Иван FXS

12 июня 2007, 06:41

3312

Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)

Конвенция - такая, чтобы ее "признавали" поисковые машины, т.е. - чтобы отличали, что это именно "тэги" (семантические, не путать с тегами разметки), а не просто слова в "потоке" текста. Т.е. чтобы можно было заставить SE искать по этим тэгам, не смешивая их с "обычными" словами?

Хочется - в рамках некого веб-проекта - ввести (застолбить) формализовано-однозначный способ выделения тэгов в текстах ...

Если такой конвенции не существует, - можете ли "на лету" предложить решение, хотя и не универсальное (не конвенциальное), но де факто наиболее эффективное - с точки зрения использования (внешних) SE в качестве средства (внутреннего) поиска в рамках веб-проекта?

Спасибо.

ADD Например, видится что-то типа "[слово]", чтобы можно было бы так и искать - вместе со скобками. Да только - SE скобки игнорируют!

152

OZE

12 июня 2007, 06:53

#1

такого не будет, это уже пройденный этап

вспомните, как на заре развития ПС они формировали выдачу, основываясь на ключах в meta keywords, и связанные с этим проблемы

вы предлагаете тоже самое, этого не будет

119

!Иван FXS

12 июня 2007, 07:01

#2

meta keywords как раз смешивались - в выдаче - с обычными словами, хотя и имели некоторый приоритет.

Кроме того, я ведь, в конце концов, обсуждаю не универсальное решение - для всей сферы интернет-поиска, а локальное - для конкретного проекта.

И я ведь пишу "заставить SE искать по этим тэгам", а не то, что он всегда будет искать по ним или давать им приоритет ...

Sape и форум Покритикуйте плиз. Будте Внимательны - обман

119

!Иван FXS

12 июня 2007, 10:13

#3

Кстати: Про символ "&" ...

M

65

Maxime

12 июня 2007, 15:07

#4

Ну и используйте длиные 16-ричные числа, например, CEFACDEE78FE, нормальные люди такими словами не разговаривают, а поисковики индексить будут.

Только проспамят эти слова легко, как только узнают для чего они :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)

119

!Иван FXS

12 июня 2007, 16:21

#5

Maxime, ну Вы вообще не о том говорите: теги должны быть читаемые для человека!

S

32

sokoloff

13 июня 2007, 08:51

#6

Не совсем, навернео, точно то, что Вы хотите, что подобные семантические разметки существуют -- микроформаты (http://microformats.org/about/, http://en.wikipedia.org/wiki/Microformats).

110

_wind_

16 июля 2007, 09:38

#7

!Иван FXS:
Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)

Конвенция - такая, чтобы ее "признавали" поисковые машины, т.е. - чтобы отличали, что это именно "тэги" (семантические, не путать с тегами разметки), а не просто слова в "потоке" текста. Т.е. чтобы можно было заставить SE искать по этим тэгам, не смешивая их с "обычными" словами?

Хочется - в рамках некого веб-проекта - ввести (застолбить) формализовано-однозначный способ выделения тэгов в текстах ...

Если такой конвенции не существует, - можете ли "на лету" предложить решение, хотя и не универсальное (не конвенциальное), но де факто наиболее эффективное - с точки зрения использования (внешних) SE в качестве средства (внутреннего) поиска в рамках веб-проекта?

Спасибо.

ADD Например, видится что-то типа "[слово]", чтобы можно было бы так и искать - вместе со скобками. Да только - SE скобки игнорируют!

Не осилил :)

Касаемо выделения похожих блоков из HTML'я можешь глянуть наш проект:

mygoods.ru

Сдать/снять квартиру без посредников (http://to-rent.ru), Доход для вебмастера (http://www.sape.ru/r.1cc08e9f90.php), Продам WMZ/WMR за телебанк с доплатой 1%

119

!Иван FXS

16 июля 2007, 09:44

#8

Да, _wind_, не осилили: вопрос был - не о "выделении из" (чужого, готового), а о "выделения в" (своем, в процесс создания).

49

Andrey Ogarok

17 июля 2007, 10:25

#9

!Иван FXS:
Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)
QUOTE]

Конвенции выделения семантических тэгов существуют для HTML (metatag) и для XML - уже упомянутые microformats, а также разметки онтологий (w3c - semanic web), а также специализированные (проект UIMA - IBM). Для plain text такой разметки (универсальной) насколько я знаю не существует. Однако некоторые поисковые системы и т.п. сами могут автоматически проводить данную разметку. Например, система AskNet умеет автоматически при индексации текста выделять семантические категории (заранее предопределенные), а также соотносить слова с этими категориями. Соотнесенным словам эта система автоматически приписывает семантические индексы. Более детально см. здесь - http://www.asknet.ru/Technology/Tsemantic.htm Новым (неизвестным системе словам)прописываются наиболее вероятные семантические индексы (используется эвристик).
Других способов похоже нет. Можно также работать и со статистикой терминов (TextAnalyst), но это уже не семантика и результаты получаются плохие.

www.asknet.ru (www.asknet.ru) - вопросно-ответная поисковая система. Автоматические ответы на вопросы пользователей.

119

!Иван FXS

17 июля 2007, 10:37

#10

Andrey Ogarok,

Где находится компания "Интелл Сервис"?

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Зачем быть уникальным в мире, где все можно скопировать