О выделении (семантических) тегов в тексте.

12
!Иван FXS
На сайте с 16.11.2001
Offline
119
3288

Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)

Конвенция - такая, чтобы ее "признавали" поисковые машины, т.е. - чтобы отличали, что это именно "тэги" (семантические, не путать с тегами разметки), а не просто слова в "потоке" текста. Т.е. чтобы можно было заставить SE искать по этим тэгам, не смешивая их с "обычными" словами?

Хочется - в рамках некого веб-проекта - ввести (застолбить) формализовано-однозначный способ выделения тэгов в текстах ...

Если такой конвенции не существует, - можете ли "на лету" предложить решение, хотя и не универсальное (не конвенциальное), но де факто наиболее эффективное - с точки зрения использования (внешних) SE в качестве средства (внутреннего) поиска в рамках веб-проекта?

Спасибо.

ADD Например, видится что-то типа "[слово]", чтобы можно было бы так и искать - вместе со скобками. Да только - SE скобки игнорируют!

OZE
На сайте с 21.05.2006
Offline
152
OZE
#1

такого не будет, это уже пройденный этап

вспомните, как на заре развития ПС они формировали выдачу, основываясь на ключах в meta keywords, и связанные с этим проблемы

вы предлагаете тоже самое, этого не будет

!Иван FXS
На сайте с 16.11.2001
Offline
119
#2

meta keywords как раз смешивались - в выдаче - с обычными словами, хотя и имели некоторый приоритет.

Кроме того, я ведь, в конце концов, обсуждаю не универсальное решение - для всей сферы интернет-поиска, а локальное - для конкретного проекта.

И я ведь пишу "заставить SE искать по этим тэгам", а не то, что он всегда будет искать по ним или давать им приоритет ...

!Иван FXS
На сайте с 16.11.2001
Offline
119
#3

Кстати: Про символ "&" ...

M
На сайте с 29.03.2003
Offline
65
#4

Ну и используйте длиные 16-ричные числа, например, CEFACDEE78FE, нормальные люди такими словами не разговаривают, а поисковики индексить будут.

Только проспамят эти слова легко, как только узнают для чего они :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
!Иван FXS
На сайте с 16.11.2001
Offline
119
#5

Maxime, ну Вы вообще не о том говорите: теги должны быть читаемые для человека!

S
На сайте с 18.11.2005
Offline
32
#6

Не совсем, навернео, точно то, что Вы хотите, что подобные семантические разметки существуют -- микроформаты (http://microformats.org/about/, http://en.wikipedia.org/wiki/Microformats).

_wind_
На сайте с 24.07.2006
Offline
110
#7
!Иван FXS:
Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)

Конвенция - такая, чтобы ее "признавали" поисковые машины, т.е. - чтобы отличали, что это именно "тэги" (семантические, не путать с тегами разметки), а не просто слова в "потоке" текста. Т.е. чтобы можно было заставить SE искать по этим тэгам, не смешивая их с "обычными" словами?

Хочется - в рамках некого веб-проекта - ввести (застолбить) формализовано-однозначный способ выделения тэгов в текстах ...

Если такой конвенции не существует, - можете ли "на лету" предложить решение, хотя и не универсальное (не конвенциальное), но де факто наиболее эффективное - с точки зрения использования (внешних) SE в качестве средства (внутреннего) поиска в рамках веб-проекта?

Спасибо.

ADD Например, видится что-то типа "[слово]", чтобы можно было бы так и искать - вместе со скобками. Да только - SE скобки игнорируют!

Не осилил :)

Касаемо выделения похожих блоков из HTML'я можешь глянуть наш проект:

mygoods.ru

Сдать/снять квартиру без посредников (http://to-rent.ru), Доход для вебмастера (http://www.sape.ru/r.1cc08e9f90.php), Продам WMZ/WMR за телебанк с доплатой 1%
!Иван FXS
На сайте с 16.11.2001
Offline
119
#8

Да, _wind_, не осилили: вопрос был - не о "выделении из" (чужого, готового), а о "выделения в" (своем, в процесс создания).

Andrey Ogarok
На сайте с 10.07.2007
Offline
49
#9
!Иван FXS:
Существует ли какая-либо конвенция о способе выделения (семантических) тегов в тексте? (Речь не о HTML или XML, а об обычном plain text!)
QUOTE]

Конвенции выделения семантических тэгов существуют для HTML (metatag) и для XML - уже упомянутые microformats, а также разметки онтологий (w3c - semanic web), а также специализированные (проект UIMA - IBM). Для plain text такой разметки (универсальной) насколько я знаю не существует. Однако некоторые поисковые системы и т.п. сами могут автоматически проводить данную разметку. Например, система AskNet умеет автоматически при индексации текста выделять семантические категории (заранее предопределенные), а также соотносить слова с этими категориями. Соотнесенным словам эта система автоматически приписывает семантические индексы. Более детально см. здесь - http://www.asknet.ru/Technology/Tsemantic.htm Новым (неизвестным системе словам)прописываются наиболее вероятные семантические индексы (используется эвристик).
Других способов похоже нет. Можно также работать и со статистикой терминов (TextAnalyst), но это уже не семантика и результаты получаются плохие.
www.asknet.ru (www.asknet.ru) - вопросно-ответная поисковая система. Автоматические ответы на вопросы пользователей.
!Иван FXS
На сайте с 16.11.2001
Offline
119
#10
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий