Скрипт для замены слов в тексте на синонимы

12
Hkey
На сайте с 30.09.2006
Offline
222
#11

Зачем береться качаеться 50 гигов текстов. И благодаря им производиться анализ окружения. Даже не анализ а бракование синонимов не вписывающихся в данный контекст.

+ еще штук 40-50 эвристик.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Hkey
На сайте с 30.09.2006
Offline
222
#12

В задаче генерирования < 5 вариантов текстов.

каждому синониму приписываеться какое то число (вероятность правильности). Потом учитывая длину шингла программа с помощью Alfa-Beta перебора выбирает оптимальный вариант учитывая, что как можно большее к-во шинглов должно быть разными в текстах и вероятность не правильного употребления синонима должна быть минимальной.

Alfa-Beta нельзя обаботать весь текст и текст обрабатываеться кусками. При увеличении длины куска увеличиваеться время обработки в геометрической прогрессии, а при уменьшении хуже становиться выбранный вариант. Я работаю над этой проблемой, пытаясь считать взахлест и выбирать метрики, но это вызывает огромный ряд сложностей.

kevindark, смею поинтересоваться, что представляет ваш синомайзер, о котором столько слухов.

greenwood
На сайте с 08.09.2003
Offline
519
#13

Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

PHPExpert
На сайте с 04.02.2006
Offline
104
#14
Hkey:
Скрипт дело 5-6 минут главное таблица синонимов. Но ничего хорошего он выдавать не будет. Ему нужно много гигов текстов для анализа правильности употребления слова. А для поиска в нескольких гигах нужен проостой кеширующий поисковик и много оперативной памяти.

Для поиска в нескольких гигах давно придумали MySQL и индексы. :)

Hkey
На сайте с 30.09.2006
Offline
222
#15

MySQL и индексы

скоко будет искать все предложения в которых есть слово "задание" и все его словоформы из полумилиарда предложений? И скоко это памяти жрать будет?

Hkey
На сайте с 30.09.2006
Offline
222
#16
greenwood:
Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

К сожалению для буржунета у мну нету людей со знанием правил построения предложений и таблиц словоформ да и базы синонимов.

Синомайзер меняющий только синонимы Гугл раскусит, как мне кажеться. Нужно менять структуру предложений либо даже сливать/разделять предложения.

greenwood
На сайте с 08.09.2003
Offline
519
#17
Hkey:
Синомайзер меняющий только синонимы Гугл раскусит

а зачем ему такие сложности, как раскусывать ?

ему достаточно знать что текст уникальный

Базейку синонимов надо искать - наверняка где-то есть

СКОРПИОН
На сайте с 05.01.2006
Offline
120
#18
greenwood:
Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

SEO-предсказание на 2007г. :D

greenwood:
Базейку синонимов надо искать - наверняка где-то есть

WordWeb, например...

• Контекстные ссылки с внутренних страниц навсегда (/ru/forum/370882) • Качественные сайты для заработка на контекстной рекламе и ссылках
Pike
На сайте с 13.07.2004
Offline
79
#19

Сделали в октябре 2001- феврале 2002. Выглядит как английский текст написанный каким-нибудь голландцем - в каждом третьем-рятом предложении необычное, хотя и допустимое использование слов. Читатель обычно не успевает врубиться, кликает на что нибудь ценно. Google выделяет как нечеткие дубли. После внедрения было уволено два десятка дизайнеров, вебмастеров и копирайтеров, который до того лепили все в ручную. Контора делала девятьсот тысяч баксов в месяц, но съехала на поллимона, потому как диминишин ретерн начал проявляться где-то в районе 200K, плюс куммулятивный эффект с подтянувшимися конкурентами и заметные ошибки главного идеолога в кросслинкинге и регенерации целых цепей сайтов за раз.

Пробовали также другие приколы, типа машинный перевод с английского на немецкий и назад. Сайты сделанные по этой технологии до сих пор валяются по всему нету, хотя по моей оценке их сейчас не более двухсот тысяч осталось, и большинство теперь из одной-пяти страниц, а не из 25 как раньше. Но маскировка до сих пор работает. К стати, каждый сайт имеет уникальный дизайн. Нормальный, с уникальными картинками. Мой скрипт тратил по двадцать секунд на страницу, так что это вам не хухры-мухры. Правда работали по двадцать, а то и сто потоков.

free hosting (http://rahost.com)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий