boss_lexa

Рейтинг
2
Регистрация
09.07.2012

а что насчет обратного dns lookup по ip ?

После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на 'yandex.ru', 'yandex.net' или 'yandex.com'. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.

http://help.yandex.ru/webmaster/?id=1076102

Collapse:
Никогда не понимал, как некоторым кодерам удается писать многопоточные стабильные php парсеры.

мультикурл + либы для парсинга html по css селекторам

TopReseller:
А возможно дополнить функционал программы?
Нужно наоборот, из одной фразы (слова) получить все словоформы, в разных падежах, числах и родах. (По падежам есть программы склонений а вот по числам и родам не нашел)

http://phpmorphy.sourceforge.net/dokuwiki/demo?word=%D0%BF%D1%80%D0%BE%D1%81%D0%BA%D0%BB%D0%BE%D0%BD%D1%8F%D1%82%D1%8C&dict_type=aot&enable_predict_by_suffix=1&enable_predict_by_db=1

NBSerG

насчет того какую именно словоформу оставить - я думаю что надо по частотности через "!" пробивать в вордстате, и отбирать то что чаще вводят. Возможна такая доработка?

Как технически устроена ваша программа?

У вас там стеммер или словарь слов?

Если словарь, то насколько он качественный и полный, как его можно пополнять?

Как обстоят дела с буквой "ё"?

меня интересует использование программы для работы с запросами по кредитной тематике.

примеры слов:

заём

заем

займ

и прочие словоформы от них мн . числа и падежи

По сути одно и тоже слово. А как ваша программа с этим справится?

burunduk:
тогда интересен немного другой вариант работы:
обработка массива фраз с составлением словаря массива с указанием частоты повтора слов :)

если можно будет юзать как консольное приложение вообще классно :)

это можно сделать через поисковый движок spninx + это консоль

http://sphinxsearch.com/docs/current.html#ref-indexer см --buildfreqs works with --buildstops