а что насчет обратного dns lookup по ip ?
После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на 'yandex.ru', 'yandex.net' или 'yandex.com'. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
http://help.yandex.ru/webmaster/?id=1076102
мультикурл + либы для парсинга html по css селекторам
http://phpmorphy.sourceforge.net/dokuwiki/demo?word=%D0%BF%D1%80%D0%BE%D1%81%D0%BA%D0%BB%D0%BE%D0%BD%D1%8F%D1%82%D1%8C&dict_type=aot&enable_predict_by_suffix=1&enable_predict_by_db=1
NBSerG
насчет того какую именно словоформу оставить - я думаю что надо по частотности через "!" пробивать в вордстате, и отбирать то что чаще вводят. Возможна такая доработка?
Как технически устроена ваша программа?
У вас там стеммер или словарь слов?
Если словарь, то насколько он качественный и полный, как его можно пополнять?
Как обстоят дела с буквой "ё"?
меня интересует использование программы для работы с запросами по кредитной тематике.
примеры слов:
заём
заем
займ
и прочие словоформы от них мн . числа и падежи
По сути одно и тоже слово. А как ваша программа с этим справится?
это можно сделать через поисковый движок spninx + это консоль
http://sphinxsearch.com/docs/current.html#ref-indexer см --buildfreqs works with --buildstops