Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Могу порекомендовать обратиться к руководителю моей магистрской работы "Исследование и разработка информационно-поисковых систем", компьютерная лингвистика - это его конек.

Зовут его Теленик Сергей Федорович, д.т.н., профессор, заведующий кафедры АУТС Факультета информатики и вычислительной техники НТУУ "КПИ".

Дисциплины: Дискретный анализ; компьютерная лингвистика; программирование в абстрактных средах объектов; проектирование систем искусственного интеллекта; математическая логика; теория алгоритмов.

Научное направление: Проектирование систем управления. Автоматизация проектирования и программирования. Математическая логика. Компьютерная лингвистика. Искусственный интеллект.

Контакты:

e-mail: telenik(ухо)auts.ntu-kpi.kiev.ua

Украина, г.Киев, пр. Победы 37, НТУУ "КПИ" корп. 18, комн. 528

тел: (044) 274-52-61, 241-70-39, 441-16-57

Единственное - насколько я знаю, сейчас он в отпуске и появится только в конце августа.

С днем рождения!

Желаю всегда быть самым Первым во Всем! :)

Хотелось бы услышать комментарии

Похоже, что ранк страниц с ключевыми словами, найденными в заголовках документов, не слишком влияет на выдачу. Например, по запросу Собачье сердце в первой десятке нет ничего релевантного, хотя первой и идет электронная библиотека. Наиболее релевантной здесь, скорее всего, будет страница, содержащая ключевые слова в заголовке - сравните тот же запрос в Яндексе и Гугле.

Кстати, а чья украинская морфология - Рута?

а диахронный срез этой цитаты не укажете? Всегда ли она была такой? Я задал конкретный вопрос: было так, стало так. цитаты не менялись, менялись алгоритмы. нечего меня носом в цитаты тыкать.

Да ладно тебе, Антон, не нужна Яндексу Украина - и бог с ним. Может они решили национального производителя поддержать :)

Кстати говоря, подобная проблема на форуме уже

обуждалась.

По решению этой задачи - по моему опыту, техническое задание занимает ни много, ни мало, но около 50 листов. Правда, с учетом того, что полученную информацию нужно еще структурировать, то есть определять тематику, извлекать тексты и атрибуты собранных документов.

За месяц такую программу не напишешь.

За "news clipping" - спасибо, для меня это - совершенно новый термин ...
Я посмотрю , куда с ним "посылает" Google, но можете Вы - в двух словах, по-русски и на пальцах - рассказать, что это такое?

news clipping или news monitoring - специализированные сервисы, предназначенные для сбора и хранения новой информации - новостей, пресс-релизов, статей и т.д. На Западе используются, как правило, для того, чтобы всегда быть в курсе того, что о компании пишет пресса, мониторинга деятельности конкурентов, отслеживания событий и тенденций на различных рынках и т.д.

Суть сервиса - вы подписываетесь на новостные потоки, идущие с интересующих новостных сайтов, определяете нужные ключевые слова и темы, и получаете только отсортированную информацию, представляющую какой-то интерес. В России это в какой-то мере реализовано в подписке Яндекс-Новостей.

Вопрос - про существующие в ы-нете, работающие и свободно доступные "News Search Engines": какие из них - самые лучи-чи-чие? Например, - самые "глубокие" ...

Посмотрите этот обзор новостных поисковиков и сделайте выводы.

Может быть кто-нибудь посоветует хорошую статью со сравнительным анализом "News Search Engines", или хотя бы ... куда пойти, где поспрашивать?

Не совсем понятно, в чем конкретно заключается вопрос. Если автоматизированный сбор неструктурированной информации, такой, как новости и статьи, то это -

news clipping.

Помоему выделить новую информацию не так уж и сложно.
необходимо только ввести функцию "искать в найденном"
где можно будет задавать параметры даты индексации документа.

К сожалению, это не совсем так. Дата индексации документа совершенно ничего не говорит о том, когда этот документ был создан, а показывает лишь дату обнаружения этого документа поисковиком. Это хорошо заметно, например, если подписаться на новые документы в Яндексе - часто он индексирует устаревшие документы, появившиеся несколько лет назад, но до которых только дошел его робот. Поэтому типичные поисковые системы здесь мало чем помогут.

Крепкой и счастливой вам любви!

Всего: 847