Собирателям и владельцам баз синонимов – скрипт SynAuditor - Сервисы и программы для работы с SE - Практические вопросы оптимизации

215

Удивительно

14 сентября 2009, 15:13

5483

Что делает скрипт SynAuditor?

1. Удаляет пустые строки в базе синонимов. Также удаляет строки, в которых есть пустое слово или пустой синоним.

2. Удаляет дубли строк, слов и синонимов. Если в вашей базе есть несколько синонимов к одному слову в разных строках (или несколько слов приходится на один синоним в разных строках) – останется только одна строка, в которой слово или синоним встретились впервые.

3. Вычисляется и сравнивается морфологическая информация о слове и о синониме. Если морфологическая информация не совпадает – строка удаляется из базы. Это нужно, например, для того чтобы избежать некорректных сравнений вида мир|вселенная, где слово мир мужского рода, а синоним вселенная женского.

4. К каждому слову и синониму автоматически добавляются недостающие морфологические словоформы, что увеличивает количество строк в базе примерно до 10-300% (в зависимости от первоначального качества базы) и значительно улучшает качество базы синонимов. Например, в базе встретилась строка непрерывен|нескончаем. Скрипт автоматически добавит к базе недостающие словоформы:

После добавления словоформ рекомендуется снова проверить базу на дубли.

5. Есть возможность сортировки базы в любом направлении, а также перемешивания в случайном порядке.

Как пользоваться скриптом?

Во-первых, скрипт работает только с базами в формате слово|синоним, то есть такими, в которых одно слово или словосочетание соответствует одному слову или словосочетанию. Если одному слову соответствует несколько синонимов – скрипт отработает неверно, так как он не предназначен для работы с такими базами. Даже не пытайтесь.

Во вторых, основная работа происходит над однословными позициями (теми, которые представлены одним словом и однословным синонимом). Двухсловные и более словосочетания, имеющиеся в базе, пропускаются и не обрабатываются, оставаясь в базе синонимов в неизменном виде.

Скрипт работает с базами синонимов в кодировке windows-1251. Используйте Notepad++ или другие утилиты для преобразования кодировок.

Для работы скрипта требуется Apache2 + PHP5 (Denwer и Vertrigo полностью удовлетворяют требованиям). Также скрипт можно использовать на Linux-серверах (для этого на папку со скриптом нужно установить права для записи).

Интерфейс скрипта выполнен по ajax-технологии, пользование им не составит труда. На первом шаге вы загружаете базу синонимов на сервер и устанавливаете разделитель между словами и синонимами (по умолчанию вертикальная черта |). После загрузки базы становятся доступны возможности по её обработке, описанные выше.

Как купить SynAuditor?

Стоимость скрипта 24$. Купить его можно автоматически по этой ссылке.

Что еще?

При желании могу обработать скриптом одну базу одного любого форумчанина за конструктивный отзыв.

Качественная семантика недорого ( https://moab.tools/ )

102

vtomas

14 сентября 2009, 15:37

#1

Печалит, что нет поддержки:

слово|синоним1,синоним2 :(

Прикрутите конвертер:

слово|синоним1,синоним2 в

слово|синоним1

слово|синоним2

Поскольку подходящих баз не имею, могу раскошелиться на пол цены :)

Хорошее стоит дорого, на плохое не стоит и тратиться. В поисках VPS захостился здесь (http://ipserver.su), а бэкапы храню здесь (http://billing.markovservers.com/backup/pl.php?65).

215

Удивительно

14 сентября 2009, 15:41

#2

vtomas:

Прикрутите конвертер:
слово|синоним1,синоним2 в
слово|синоним1
слово|синоним2

Хорошая идея, прикрутим со временем.

Апдейты всем записавшимся покупателям бесплатно.

vtomas:
Поскольку подходящих баз не имею, могу раскошелиться на пол цены :)

Да вроде и так не дорого совсем ;)

102

vtomas

14 сентября 2009, 15:46

#3

Удивительно:
Хорошая идея, прикрутим со временем.

Ну раз так полез в кошелек :)

P.S. Оплатил + Записался на обновление :)

vtomas добавил 14.09.2009 в 22:52

Что хотелось бы видеть в обновлении -

предварительная чистка базы:

- удаление 2-х и более -словных слов/синонимов;

- удаление слов без синонимов;

- удаление пробелов до и после разделителей;

- ну и что уже озвучивал выше.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

215

Удивительно

15 сентября 2009, 11:16

#4

Ваши пожелания приняты :)

Сделаем в ближайшее время.

[Удален]

15 сентября 2009, 12:13

#5

А можете уточнить насчёт

Во-первых, скрипт работает только с базами в формате слово|синоним, то есть такими, в которых одно слово или словосочетание соответствует одному слову или словосочетанию. Если одному слову соответствует несколько синонимов – скрипт отработает неверно, так как он не предназначен для работы с такими базами. Даже не пытайтесь.

Если к примеру в базе 90% строк: слово|синоним,

но есть 10% : слово|синоним|синоним2|синоним3

То скрипт отработает, пропустив эти 10% или вообще дров наломает?

Кстати можем попробовать, как вы и сказали, обработать одну базу за отзыв.

215

Удивительно

15 сентября 2009, 12:20

#6

Fitless:
Если к примеру в базе 90% строк: слово|синоним,
но есть 10% : слово|синоним|синоним2|синоним3
То скрипт отработает, пропустив эти 10% или вообще дров наломает?

Fitless:
Кстати можем попробовать, как вы и сказали, обработать одну базу за отзыв.

Готов. Выложите базу куда-нибудь и ссылку в личку ;)

102

vtomas

15 сентября 2009, 12:36

#7

Все таки наш МОГУЧИЙ язык не победить программными средствами, просклонял:

должен::обязан
должный::обязанный
должного::обязанного
должному::обязанному
должным::обязанным
должном::обязанном
должная::обязанная
должной::обязанной
должную::обязанную
должною::обязанною
должное::обязанное
должные::обязанные
должных::обязанных
должными::обязанными
должна::обязана
должно::обязано
должны::обязаны
должнее::обязаннее
должней::обязанней
подолжнее::пообязаннее
подолжней::пообязанней

напильник все таки необходим :)

215

Удивительно

15 сентября 2009, 12:45

#8

vtomas:
напильник все таки необходим :)

В любом случае, это в 100 раз лучше, чем подбирать словоформы самостоятельно ;)

102

vtomas

15 сентября 2009, 12:51

#9

Удивительно:
В любом случае, это в 100 раз лучше, чем подбирать словоформы самостоятельно

Согласен :)

С "трепетом" жду обновления :)

215

Удивительно

15 сентября 2009, 17:31

#10

Итак, обработал скриптом присланную Fitless базу.

Результаты работы впечатлили даже меня самого :) Все цифры приведены без учета словосочетаний (они остались на своих местах, а значит база по факту стала еще больше). Конечно, небольшая доработка напильником базе наверняка понадобится, но качество базы должно вырасти довольно серьезно. Базу Fitless отправил, жду отзыв.

jpg Untitled-1.jpg

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Google: E-E-A-T не является фактором ранжирования

Собирателям и владельцам баз синонимов – скрипт SynAuditor