орфография - нужен инструмент

B
На сайте с 11.05.2009
Offline
85
1083

Нужна прога(win), скрипт(php), функция(php), класс(php), хоть что нибудь. Проблема в следующем: есть 3000 текстовых файлов структурой:

слово1

слово2

слово3

...

слово100500

нужно удалить все слова с ошибками. Или в случае скрипта для каждой строки вернуть false or true.

API Google банит даже при sleep(2), а с большим sleep эт неделю скрипт пахать будет. Как установить на денвере ispell так и не разобрался.

Вооот
firacet
На сайте с 23.07.2008
Offline
68
#1
begunok:
Нужна прога(win), скрипт(php), функция(php), класс(php), хоть что нибудь. Проблема в следующем: есть 3000 текстовых файлов структурой:
слово1
слово2
слово3
...
слово100500
нужно удалить все слова с ошибками. Или в случае скрипта для каждой строки вернуть false or true.
API Google банит даже при sleep(2), а с большим sleep эт неделю скрипт пахать будет. Как установить на денвере ispell так и не разобрался.

есть извращенский способ. подключаете либу phpmorph и берете словоформы текущего слова. если не найдены то вероятно слово с ошибкой.

Сбылись мечты народный: Мир-Труд-Май
B
На сайте с 11.05.2009
Offline
85
#2

Вот как раз после работы phpmorph и нужно почистить базу. 😂 Он порой не верно склоняет.

B
На сайте с 27.12.2008
Offline
47
#3

Скармливать яндексу\гуглу, который исправит ошибку - то есть обратиться с нужным запросом и смотреть выдаст ли "возможно вы имели ввиду слово без ошибки". А там уже думать. Ну а потом просто подрубить 100500 прокси.

firacet
На сайте с 23.07.2008
Offline
68
#4
begunok:
Вот как раз после работы phpmorph и нужно почистить базу. 😂 Он порой не верно склоняет.

ОМГ )

Ну тогда такой вариант. у меня где-то валялась бооооольшая база русских слов, почти все в правильном написании.

Можно по ней сверяться - если надо поищу ее и поделюсь.

B
На сайте с 11.05.2009
Offline
85
#5

firacet, Поищите пожалуйста.

bloxa, 100500 прокси 😂 Пока первую сотню проксей пролистает, остальные отвалятся. Тем более с моим инструментом поиска прокси, я больше 150 анонимных прокси просто не соберу.

orphelin
На сайте с 02.07.2006
Offline
261
#6
firacet
На сайте с 23.07.2008
Offline
68
#7
begunok:
firacet, Поищите пожалуйста.

Ту базу не нашел, нашел другую.

База слов отсортирована по популярности ( 69к слов ), со значением популярности.

Вот ссылка

firacet добавил 28.12.2009 в 23:19

orphelin:
а это не подойдет http://api.yandex.ru/speller/doc/dg/concepts/api-overview.xml ?

Очень интересная ссылка! Спасибо!!!

Интересно как оно отнесется к многопоточному юзанию, не будит ли капчю подсовывать...

B
На сайте с 11.05.2009
Offline
85
#8
orphelin:
а это не подойдет http://api.yandex.ru/speller/doc/dg/concepts/api-overview.xml ?

Буду пробовать. При большом объеме 413 Request Entity Too Large выдает. Попробую мелкими партиями отправлять.

firacet:
Ту базу не нашел, нашел другую.
База слов отсортирована по популярности ( 69к слов ), со значением популярности.

Спасибо, может пригодится.

akaplenko
На сайте с 09.09.2009
Offline
48
#9

А если попробовать через API MS Office ?

B
На сайте с 11.05.2009
Offline
85
#10

Всем спасибо.

orphelin:
а это не подойдет http://api.yandex.ru/speller/doc/dg/concepts/api-overview.xml ?

Отличный инструмент, его и буду юзать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий