Программа замены по "корню" слова.

12
Zexh
На сайте с 04.09.2002
Offline
398
2382

На любом сайте практически есть страницы, которые соответствуют названием какому-то слову или выражению. К примеру "компьютер", "магазин", "ссылки", "солнце" и т.п.

Особенно, если сайт как бы формата энциклопедии простой.

Задача такая. Проставить по всему сайту перекрестные внутренние ссылки по определенным словам (уже имеющимся в текстах) на страницы, которые этим словам соответствуют.

Не возясь с морфологией, но видя и имею множество програмок замены текста в файлах, я все-таки так и не наткнулся на программу...

А надо то всего: 1 - столбец корень (или любая определяющая часть слова), 2 - само слово, чтобы самому не запутаться. 3 - ссылка <a>

Программа считывается столбец 1, ищет такое сочетание по сайту. Заменяет (ВСЕ СЛОВО), а не только "корень" на тоже самое со ссылкой на страницу.

И ... выводит статистику для проверки потом...

То есть программа для проставления внутренних ссылок на сайте по определенным словам с тупой иммитацией морфологии.

Встречали ли кто такое ...

И будет ли погрешность большая ... с учетом, что все "корни слов" прописываются в ручную?

Garant.PRO (/ru/forum/835207): аттестат, аккаунт 2002г, BL->1250+ гарант сделок в интернете (http://Garant.PRO/).
[Удален]
#1

Я как-то аналогичную программу написал для сайта сексопатолога http://www.doktor.ru/sexolog, только не учел, что слово анал и анализ пересекаются, в результате ссылки на слово "анализ" вели на FAQ об анального секса.

Впрочем это ничего, хуже было что модификация этой программы так формировала список ключевых слов, что "анал" стал вылезать и на страницах гомеопатов и у педиатра с окулистом.

Zexh
На сайте с 04.09.2002
Offline
398
#2
... только не учел, что слово анал и анализ пересекаются, в результате ссылки на слово "анализ" вели на FAQ об анального секса.
Впрочем это ничего, хуже было что модификация этой программы так формировала список ключевых слов, что "анал" стал вылезать и на страницах гомеопатов и у педиатра с окулистом.

Ну тут если аккуратно вести базу и сортировать как минимум по алфавиту, то этого можно избежать :) Я так думаю.

А чего, в итоге отказался от такой идеи, с увеличением базы проблем все больше становилось?

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

а список корней не проще откорректировать ?

Zexh
На сайте с 04.09.2002
Offline
398
#4
Как писал Professor
а список корней не проще откорректировать ?

И я про тоже. Думаю, в принципе не для очень большой базы должно быстро и безобидно получиться.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#5

я думаю, что имея исходные тексты и набор корней все делается в течении получаса/часа ...

[Удален]
#6
Как писал Professor
а список корней не проще откорректировать ?

Ну и какой корень у слова "анал"? Здесь нужен список словоформ, иначе все равно в "анализатор" попадешь.

А вообще-то в этом разделе была ссылка на генератор словоформ. Не гонял, но на заметку взял.

[Удален]
#7
Как писал Zexh


Ну тут если аккуратно вести базу и сортировать как минимум по алфавиту, то этого можно избежать :)

Конечно. Только слово "анализ" я не предусматривал. Но на фразах из 2-3 слов это естественно отсекало двойное вхождение ссылок.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#8
Как писал savel Ну и какой корень у слова "анал"?

Есть простая реализация с минимум потерь времени и денег, а есть реализация морфологии, которая яндексу стоила несколько милионов зеленых ... если вопрос практический, то перевый вариант реален, если теория - ищите того, кто это оплатит ;-))

Ashmanov
На сайте с 21.11.2000
Offline
66
#9

Реализация морфологии не стоила Яндексу миллионов зелёных. Миллионов зелёных стоил Яндекс инвесторам из Рунет Холдингз.

И правильно. Не всё же нефть и алюминий на Запад гнать.

А простая работающая морфология обходится в 5-10 килобаков.

Отлаженная под задачу Яндекса - в 15-20К.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#10
Как писал Ashmanov А простая работающая морфология обходится в 5-10 килобаков.
Отлаженная под задачу Яндекса - в 15-20К.

Игорь, приветствую! у любой задачи есть стоимость решения и поддержки/внедрения ... второе может быть дороже ... покуда задача решалась около 5 лет как минимум, то это не $20K ... хотя кому как не Вам лучше об этом знать?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий