Удивительно

Удивительно
Рейтинг
215
Регистрация
07.07.2009

хекать ничего не надо :)

вроде всё закрыто везде

куда смотреть?

Pentium Prescott:
скули на шопе закрой :)

не понял - что сделать? :)

Файл с ключевиками, которые вы отправляете на автоматический парсинг, должен быть в кодировке UTF-8. Возможно, проблема в этом.

Если проблема не решится - стучите в асю, будем решать конкретно по месту.

unemployed:
Ну ты же говорил насчет приватного своего, ну мог бы и в паблик. а себе новое забахал бы😂

Всё может быть 🚬

unemployed:
Когда ждать дорген от Вашей студии? Не хватает только доргена.

Есть такие мысли, но еще нескоро. На рынке и так доргенов полно, выпускать очередной клон не хочется.

satih:
1. Сейчас очень любят смешивать базу СинМастера с базой СмартРерайтера, и подмешивать для отвода глаз 1-2 паблик базы. Если сравню вашу базу с базой СинМастера или СмартРерайтера, не получу что ваша база включает их на 95-100%?
2. Как именно (по каким параметрам) ваш скрипт "удаляет мусор из текста перед синонимизацией"?
3. "синонимизация в обе стороны" - т.е. если у вас в базе есть 'слово|синоним' то вы добавили в базу строку 'синоним|слово'?

ps: Без защиты, база и скрипт будут рапространены, смотрите как барыжат СинМастером.

1. Часть слов, несомненно, будет совпадать с СинМастером, СмартРерайтером и другими базами, доступ к которым нам удалось получить. Мы и не отрицаем обратного. Но я лично добавил больше 30000 словоформ (около 5000 слов) в базу и к существующим словам добавил недостающие словоформы (с помощью морфологического модуля PHPMorphy). В базе нет ни одного дубля - ни слов, ни синонимов. Также больше 20000 словоформ было удалено (всякий бред типа "тысяч" на "тыщ" и т.д.). Работа над базой идет постоянно, т.к. скрипт уже довольно давно используется для своих нужд.

2. Для этого используются регулярные выражения - перед синонимизацией текст корректно разбивается на слова, происходит их синонимизация и замена в исходном тексте при помощи регулярок. Также перед обработкой удаляются "мягкие переносы" - признаки скана.

3. По сути да, но это делается программно. В файле словаря на сегодняшний день 100601 строка, которые программно превращаются в 201202.

ps. Защита скрипта и базы не планируется - были попытки зашифровать базу, но на её расшифровку уходит непозволительно долгое время. Дабы уменьшить влияние барыжничества цена скрипта составляет почти 50$ - человеку, купившему скрипт за относительно немалые деньги, будет просто жалко выложить его в паблик.

vestal:
спасибо! значит буду с хостером воевать, потому что в php.ini safe mode отключен и open basedir закомментирован, видать на их стороне нужно что то отключать

честно говоря - не сталкивался с такой ошибкой

кажется, это где-то в конфигах апача настраивается, но утверждать точно не могу

если критично - спросите в топике "Веб-строительство" - там точно помогут разобраться :)

vestal:
создала пустой файл с проксями, ошибки исчезли, теперь вот что:

Запрос сиськи письки - парсим страницу 1

Warning: curl_setopt() [function.curl-setopt]: CURLOPT_FOLLOWLOCATION cannot be activated when in safe_mode or an open_basedir is set in /var/www/vhosts/mysite.ru/httpdocs/wordstat/parser.php on line 224
На странице 1 нет информации для парсинга
Парсить основные запросы закончили. Теперь распарсиваем...

и все, скрипт больше ничего не делает, хелп ми:)

у вас на VDS включен safe mode и/или open_basedir

варианта 2:

1. отключите их или попросите хостера отключить

2. закомментируйте строку 224 в файле parser.php (поставьте перед ней //)

во втором случае вы, скорее всего, не сможете пользоваться прокси

o_nix:
Обратные замены поддерживаются ?? те заменяет ли скрипт синонимы находящиеся не в начале строки в словаре а в середине или конце

не совсем понял вопрос...

скрипт заменит абсолютен на безоговорочен и безоговорочен на абсолютен везде, где найдет эти слова

и так для каждой строки в словаре

все строки в словаре - однословные

o_nix:
Синтаксис словаря синонимов (опубликуйте десяток строк из словаря)
абсолютен|безоговорочен
абсолютна|безоговорочна
абсолютная|безоговорочная
абсолютнее|безоговорочнее
абсолютней|безоговорочней
абсолютно|безоговорочно
абсолютного|безоговорочного
абсолютное|безоговорочное
абсолютной|безоговорочной
абсолютном|безоговорочном
абсолютному|безоговорочному
абсолютною|безоговорочною
абсолютную|безоговорочную
абсолютны|безоговорочны
абсолютные|безоговорочные
абсолютный|безоговорочный
абсолютным|безоговорочным
абсолютными|безоговорочными
абсолютных|безоговорочных
абстрагировав|отвлекав
абстрагировавши|отвлекавши
абстрагировал|отвлекал
абстрагировала|отвлекала
абстрагировали|отвлекали
абстрагировало|отвлекало
абстрагировать|отвлекать
абстрагируя|отвлекая
абстрактен|отвлечен
абстрактна|отвлеченна
абстрактная|метафизическая
абстрактнее|отвлеченнее
абстрактней|отвлеченней
абстрактно|отвлеченно
абстрактного|метафизического
абстрактное|метафизическое
абстрактной|метафизической
абстрактном|метафизическом
абстрактному|метафизическому
абстрактною|метафизическою
абстрактную|метафизическую
абстрактны|отвлеченны
абстрактные|метафизические
абстрактный|метафизический
абстрактным|метафизическим
абстрактными|метафизическими
абстрактных|метафизических
o_nix:
Поддерживаются ли многословные синонимы ... выражения и словоформы ??

пока не поддерживаются - только однословные

многословные выражения замедляют работу скрипта в разы, но мы работаем над их реализацией

нескольких вариантов синонимов одного слова тоже нет - каждому слову сооствествует наиболее подходящий ему синоним (во всех возможных словоформах)

vestal:
то есть для глубоко парсинга урл будет выглядеть например так

http://mysite.com/wordstat/parser.php?sleep=20&deep=on&from=30&to=10000000

постаивила на обычный парсинг полчасика назад (на крон каждые пять минут) пока по нулям, выдаются предупреждения

Warning: fgets(): supplied argument is not a valid stream resource in /var/www/vhosts/site.com/httpdocs/wordstat/parser.php on line 388

Warning: feof(): supplied argument is not a valid stream resource in /var/www/vhosts/site.com/httpdocs/wordstat/parser.php on line 387

На крон каждые 5 минут ставить не нужно - вы каждые пять минут запускаете один и тот же процесс

Лучше запустить его в кроне единоразово и дождаться окончания работы

Насчет ошибок - создайте пустой файл proxies.txt в каталоге со скриптом и ошибки исчезнут.

Удивительно добавил 15.08.2009 в 13:22

Smile8979:
Стоимость уже определена?

Да, стоимость определена - 29$.

Сейчас дописывается документация и проводятся последние тесты.

Всего: 2564