Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Это магистерская работа.

С этого места подробнее. :) Какая тема и кто ведет, если не секрет?

Нужно дабы хоть как-то обьективно оценить качество и хоть как-то с чем-то сравнить

Могу организовать подборку тематически связанных документов на русском или английском языке. Тема - по желанию.

Подойдет?

Нужно для проверки/тестов алгоритмов поиска схожих документов, может кто-где встречал или ключевые слова для поиска

Это коммерческий проект или исследовательский?

лично мне все понятно что написано

Лично у меня не возникает никакого желания отвечать на безграмотные посты, и не думаю, что оно возникает у других участников форума, владеющих информацией по теме.

В дальнейшем все треды, которые невозможно читать, будут удалены из раздела "Поисковые технологии".

Вообще какой CTR более-менее норма для английского инета?

Нужно подождать как минимум несколько дней (а может и недель), пока adSense определит контекст каждой страницы. А пока он крутит либо социалку, либо нерелевантные объявления. Короче, ждите.

Чем это может быть обусловлено???
Траф, в основном, русский.

adSense довольно плохо определяет контекст увесистых русскоязычных страниц. Можно попробовать вручную расставить акценты на страницах так, чтобы заголовок или краткое описание имело больший рейтинг в контексте гугла, например, так:

<!-- google_ad_section_start -->

<title>$title</title>

<!-- google_ad_section_end -->

Если заголовок прооптимизирован правильно и связан лексически с текстом страницы, то есть вероятность, что adSense будет попадать в тему. Если же это не поможет, можно попробовать расставить акценты на рубрики в меню:

<!-- google_ad_section_start -->

<a href=#>Вся русская фантастика</a>

<!-- google_ad_section_end -->

Хотя русский язык тяжелее поддается дрессировке, конечно. :)

полезен, с таким качеством выдачи?

Алексей, подобные реплики не делают вам честь. Тем более, что ваш поисковик тоже нельзя назвать образцово релевантным.

Вообще такая подборка (если она существует) очень странное явление. какой в ней практический смысл?
Сырой материал для лингвистических исследований ...

Все это можно вытащить из текстов и самому, просто взвешивая термы и находя устойчивые фразы, как это сделали гугловцы.

А вот если еще и отрубрицировать каждую тему, то можно и каждому запросу подбирать до N рубрик, плюс "похожие" запросы. И продать обратно гуглу. ;)

Ну а шинглы здесь вообще не причем, они из другой области.

на мой взгляд "+"
хорошая борьба со спамом (на время);
пользователь сразу видит категорию ответа или даже сам ответ (наподобии кластеризация)...

Это больше из теории чатботов, чем поисковых машин. Для правильного ответа на подобные вопросы нужно автоматически определить и смысл, и контекст, в котором каждый вопрос задан, что в большинстве случаев все-же довольно проблематично. На Западе это пытается делать Ask Jeeves (фишка у него такая), но широкого распространения подобные методы поиска не получили - уж слишком сложная реализация.

Я видел года 2 назад у Ашмановых чатбот, построенный на поисковой технологии, который отвечал на вопросы в службе поддержки какого-то провайдера, но там возможные варианты вопросов были отобраны лингвистами. Инструмент был заточен только под одну тему, хотя работал хорошо. Если что-то не знал, обещал спросить у создателей. :)

Как насчет разработки и создания поисковой системы с обратной связью. Т.е. поисковик показывает ссылки которые пользователь оценивает выставляя "+" или "-". Затем результат поиска сортируется с учетом выставленных оценок и похожести содержания оцененных и всех страниц.

Подобные поисковики развивались еще на заре порталостроения. Оценки ничего не дают, так слишком силен субъективный фактор и накликивание.

Однако в том или ином виде обратную связь сейчас учитывает большинство поисковых систем, делая это автоматически при анализе переходов пользователей.

может и интересно, но текст длинный и не очень читабельный - абзацы и выделение ключевых мыслей помогли бы очень!

termit2006, устное предупреждение. Проверяйте свои сообщения спеллчекером - ошибка на ошибке, текст нечитабельный. Как вы собираетесь заниматься поисковыми технологиями?

Всего: 847