Как ускорить синонимайзер?

DimoninG · 2009-09-02T21:54:09.0000000Z

Добрый вечер. Я пишу синонимайзер, все вроде бы хорошо, но одно "но": он работает слишком долго. У меня есть база из 18 тысяч слов (плюс синонимы к ним). Я разбиваю всю базу в массивы (один для слова-оригинала, другой для синонимов под тем же номером ячейки). Ну, грубо говоря: $i = 100; $words[$i] - слово с ID 100 $syn[$i] - синонимы для слова с ID 100 Почему массив? Потому, что он (теоретически) должен работать наиболее быстро. Но при этом обработка вида ($word - слово, для которого мы ищем синоним): for ($i = 0; $i < count ($words); $i++){ if ($words[$i] == $word) { /* какие-то действия */ break;} } происходит крайне долго. Где-то секунд 40 на одно слово. Я пробовал загонять синонимы в базу (вдруг MySQL как-то круто оптимизирует запросы), скорость примерно та же (нет выигрыша в 500%, в общем). Можно ли как-нибудь ускорить поиск по массиву, если только не сменить язык (на C++ например)? P.S. Пока писал пришла в голову идея, как обычно. Загонять все в массив вида $words['слово-оригинал'] = 'синонимы для этого слова';. Но мне почему-то кажется, что этот способ не ускорит обработку, потому, что таким образом мы просто возложим поиск на интерпретатор, а по длительности он будет таким же. Хотелось бы выслушать идеи. Спасибо. Синонимайзер будет публичный и бесплатный, если кого-то интересует.

64

harpeos

4 сентября 2009, 02:00

#11

for ($i = 0; $i < count ($words); $i++){
Код
}

Вот так никогда не делайте. Таким методом - функция count после каждой итерации, будет подсчитывать кол-во элементов массива и в результате скорость выполнения упадет в разы.

Лучше сделайте вот так:

$words_sz = count ($words);
for ($i = 0; $i < $words_sz; $i++){
Код
}

Удачи!

SJ

78

sokol_jack

4 сентября 2009, 06:28

#12

harpeos:

for ($i = 0; $i < count ($words); $i++){

Код

}

Вот так никогда не делайте.

Почему "никогда"? А вдруг мы в цикле меняем количество элементов в $words? ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

K

61

kud

4 сентября 2009, 09:10

#13

Вставлю и свои пять копеек :)

Правильно тут подметили, что нужно использовать ассоциативный массив.

Попробуйте еще вначале, текст который хотите синонимизировать, разбить на слова,

и потом с помощью array_key_exists() проверить есть ли синоним для этого слова в Вашей базе, если есть, то добавить шаблон поиска в массив patterns[], ну а после этого уже использовать preg_replace_callback()

[Удален]

4 сентября 2009, 09:23

#14

kud, огорчу вас, array_key_exists работает медленее чем $data[$key] и это факт, можете проверить ;)

225

ewg777

4 сентября 2009, 10:44

#15

sokol_jack:
Почему "никогда"? А вдруг мы в цикле меняем количество элементов в $words? ;)

Извращенцы...

foreach

64

harpeos

4 сентября 2009, 13:17

#16

sokol_jack:
Почему "никогда"? А вдруг мы в цикле меняем количество элементов в $words? ;)

Да, все правильно, спасибо, что подметили. Забыл дописать. Метод, который я описал выше - важно делать, если массив огромный (например какая-нибудь база и т.п.) и соответственно кол-во элементов массива неизменно.

70

Unabashed

4 сентября 2009, 13:58

#17

Разбирался с относительно аналогичной задачей (массивы строк), БД также не давала прироста производительности и работала даже медленнее. Но! Изменение настроек СУБД привело к желаемому результату. Может быть, попробовать сюда копнуть?

[Удален]

4 сентября 2009, 15:14

#18

субд в данном случае - бред, тут надо использовать хеш массивы. как вариант - файл ключей и файл данных. могу в принципе организовать такую файловую бд, которая даст непохо прирост производительности и примерно ~n время выборки ключа по данному "массиву". если интересно, то и мне может быть интересно чтото в этом проекте, можем обсудить :)

Open AI тестирует память для ChatGPT

Что такое Power BI и зачем это нужно бизнесу