Скрипт для замены слов в тексте на синонимы

Poster · 2007-01-01T11:47:57.0000000Z

Может кто-то встречал... А если нет - надо написать... Жду предложений

222

Hkey

1 января 2007, 19:34

#11

Зачем береться качаеться 50 гигов текстов. И благодаря им производиться анализ окружения. Даже не анализ а бракование синонимов не вписывающихся в данный контекст.

+ еще штук 40-50 эвристик.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

222

Hkey

1 января 2007, 19:57

#12

В задаче генерирования < 5 вариантов текстов.

каждому синониму приписываеться какое то число (вероятность правильности). Потом учитывая длину шингла программа с помощью Alfa-Beta перебора выбирает оптимальный вариант учитывая, что как можно большее к-во шинглов должно быть разными в текстах и вероятность не правильного употребления синонима должна быть минимальной.

Alfa-Beta нельзя обаботать весь текст и текст обрабатываеться кусками. При увеличении длины куска увеличиваеться время обработки в геометрической прогрессии, а при уменьшении хуже становиться выбранный вариант. Я работаю над этой проблемой, пытаясь считать взахлест и выбирать метрики, но это вызывает огромный ряд сложностей.

kevindark, смею поинтересоваться, что представляет ваш синомайзер, о котором столько слухов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

1 января 2007, 20:56

#13

Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

104

PHPExpert

1 января 2007, 21:04

#14

Hkey:
Скрипт дело 5-6 минут главное таблица синонимов. Но ничего хорошего он выдавать не будет. Ему нужно много гигов текстов для анализа правильности употребления слова. А для поиска в нескольких гигах нужен проостой кеширующий поисковик и много оперативной памяти.

Для поиска в нескольких гигах давно придумали MySQL и индексы. :)

222

Hkey

1 января 2007, 22:40

#15

MySQL и индексы

скоко будет искать все предложения в которых есть слово "задание" и все его словоформы из полумилиарда предложений? И скоко это памяти жрать будет?

222

Hkey

1 января 2007, 22:50

#16

greenwood:
Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

К сожалению для буржунета у мну нету людей со знанием правил построения предложений и таблиц словоформ да и базы синонимов.

Синомайзер меняющий только синонимы Гугл раскусит, как мне кажеться. Нужно менять структуру предложений либо даже сливать/разделять предложения.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

1 января 2007, 23:06

#17

Hkey:
Синомайзер меняющий только синонимы Гугл раскусит

а зачем ему такие сложности, как раскусывать ?

ему достаточно знать что текст уникальный

Базейку синонимов надо искать - наверняка где-то есть

120

СКОРПИОН

1 января 2007, 23:57

#18

greenwood:
Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

SEO-предсказание на 2007г. :D

greenwood:
Базейку синонимов надо искать - наверняка где-то есть

WordWeb, например...

• Контекстные ссылки с внутренних страниц навсегда (/ru/forum/370882) • Качественные сайты для заработка на контекстной рекламе и ссылках

79

Pike

2 января 2007, 00:38

#19

Сделали в октябре 2001- феврале 2002. Выглядит как английский текст написанный каким-нибудь голландцем - в каждом третьем-рятом предложении необычное, хотя и допустимое использование слов. Читатель обычно не успевает врубиться, кликает на что нибудь ценно. Google выделяет как нечеткие дубли. После внедрения было уволено два десятка дизайнеров, вебмастеров и копирайтеров, который до того лепили все в ручную. Контора делала девятьсот тысяч баксов в месяц, но съехала на поллимона, потому как диминишин ретерн начал проявляться где-то в районе 200K, плюс куммулятивный эффект с подтянувшимися конкурентами и заметные ошибки главного идеолога в кросслинкинге и регенерации целых цепей сайтов за раз.

Пробовали также другие приколы, типа машинный перевод с английского на немецкий и назад. Сайты сделанные по этой технологии до сих пор валяются по всему нету, хотя по моей оценке их сейчас не более двухсот тысяч осталось, и большинство теперь из одной-пяти страниц, а не из 25 как раньше. Но маскировка до сих пор работает. К стати, каждый сайт имеет уникальный дизайн. Нормальный, с уникальными картинками. Мой скрипт тратил по двадцать секунд на страницу, так что это вам не хухры-мухры. Правда работали по двадцать, а то и сто потоков.

free hosting (http://rahost.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot