Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Знаешь, почему-то в запросе по умолчанию google при поиске по авторитетности сплошной Яндекс Ну, еще link popularity и Самое разное. Первая ссылка на раздел Google только на 14 позиции.

Может разделы при совпадении запроса с названием раздела учитывать?

Все верно, сортировка по авторитетности дала топики, где отметилось большинство модераторов.


Еще предлагаю вручную коэффициенты авторитетности расставить некоторому количеству участников (Понизить тем кто флудить и писать чушь любит, повысить тем кто говорит мало, но по делу).

А я так и сделал, только автоматом :) Для каждого участника рангом не ниже кандидата рассчитано среднее количество слов в одном сообщении. Наиболее авторитетными следует считать мнения людей, которые стараются давать подробные ответы, даже если на форуме они пишут не часто.

Кстати, хит-парад участников по красноречию довольно любопытен :) Если кому-то интересно, я опубликую.

А по полю "автор" ищет? Похоже нет.

Без проблем, могу включить, если нужно. Как лучше сделать - добавить над строкой поиска поле "Автор" или же учитывать его прямо в запросе, например, author:spark?

А как он сам определяет, по какому параметру сортировать по умолчанию? Кстати, запрос "яндекс" - не работает сортировка по релевантности. Отказывается просто.

А что считать релевантным при запросе из одного слова? Я думаю, тот документ, где это слово встречалось в последний раз, поэтому сортировка в этом случае автоматом и идет по дате. Да и вообще, чего вы по стоп-словам ищете :)

Период поиска по умолчанию лучше установить с даты открытия сайта по сегодняшний день, а не за последний месяц.

Так устаревает ведь информация. Хотя, возможно, можно поставить за последний год, а не за месяц. Как думаете?

Несколько слов о самом поисковом движке.

Разрабатывал я его как более дешевую и доступную альтернативу Яндекс-Сайту и Sitemeta, поэтому этот локальный поиск абсолютно спокойно работает на всех платформах и не требует при установке прав администратора.

Движок абсолютно новый, нигде доселе не использовался, поэтому ранжирование документов толком пока не настроено - буду подкручивать постепенно.

Кроме того, в ближайшем будущем будет включен язык запросов и индекс цитируемости.

Очень многие остепененные люди (доктора наук) говорили мне, что по инету вообще защищаться не реально - нет там науки. По крайней мере, у нас.

Ну почему. Я, например, получил магистрскую степень за дипломный проект "Исследование и разработка информационно-поисковых систем в сети Интернет". Внедрение, правда, у меня хорошим получилось, было, чего ГЭКу показать :)

Вот тот самый поисковик, о котором недавно писали. В Webman'е проскочило предложение его потестить.
http://search.bigmir.net

На самом деле это просто мода такая :)

Раньше все делали себе хоумпаги, а сейчас вот поисковики пишут. :)

Пройдет со временем.

С днем рожденья, Волк!

Успехов во всем и побольше хороших заказчиков :)

Впрочем, по моему не это главное. Главное тут в том что при таком подходе шанс разработать систему нового поколения гораздо выше, чем при коммерческом. Когда разработка будет завершена - это даст мощнейший толчок всей индустрии, а потом уже, когда все увидят как, каждый сможет сделать что-то свое вполне закрытое "чтобы никто не догадался".

Да ради бога, если убеждены в том, что говорите - присоединяйтесь к открытым проектам, хотя бы к тем же mnogosearch и aspseek, они open source. Хотя, смею заметить, я просматривал их исходный код и, честно говоря, новых идей там не видно. Ребята что-то взяли за основу, что-то переделали, что-то доделали, теперь поддерживают. И что?

Не сказал бы, что их пример впечатляет.

По поводу Linux и KDE - Вы, похоже, как-то слабо представляете себе ситуацию здесь. Разработка этих проектов ведь ведется не хаотично, как можно было подумать, а полностью централизованно - есть идеологи, которые определяют, какими функциями должна обладать последующая версия программы, какой код и куда включать, зачем и т.д.

То есть, прежде всего, для начала проекта необходим Архитектор (Торвальдс у Linux), который спроектирует систему на бумаге, поставит первостепенные задачи и даст общие рекомендации по их решению. Вот этот человек (и, как правило, он один) и закладывает остов системы, которую затем и запрограммируют те 1000 человек, о которых Вы говорили.

Или речь идет о том, что все они обладают знаниями Архитектора и всю жизнь только тем и занимались, что проектировали компьютерные системы? А если даже если это будет так, то что получится в результате - полный хаос, не так ли?

Именно по этой причине идея одной новационной системы принадлежит одному-двум умам (например, как у Google), все остальные просто воплощают ее в жизнь. По-иному быть не может, потому как иначе неизбежно нарушается целостность системы и уже никто не будет представлять, как функционируют ее отдельные компоненты.

При этом, естественно, исполнители предлагают свои собственные пути решения задач и предлагают инновации, но в пределах какой-то небольшой части системы, информацией о которой они владеют. Ну не могут они просто предложить что-то кардинально новое, не представляя, как все должно работать вместе!

Так что вероятность создания чего-то реально новационного в проектах open-source нисколько не выше, а та же, что и в коммерческих проектах. Новое в систему все равно обязан заложить один Архитектор, а не тысяча программистов.

Поисковые машины нового поколения могут быть созданы с использованием новых подходов к созданию поисковиков,
например с использованием подхода open source. Сам-то подход не нов (Linux тому пример), однако к поисковикам он ранее не применялся.
Первый подобный опыт, информация о котором появилась в рунете где-то числа 20го - это поисковик с открытым исходным кодом под названием Nutch.

Ничего не понял. Вопрос же не в том, какой подход использовать - open source или коммерческий. По сути ведь это ничего не меняет, а только создает проблемы. Если от проекта не будет отдачи, то кто будет оплачивать хостинг и трафик?

Но дело даже не этом. Если существующие технологии по каким-то причинам не устраивают, то нужно выявить эти причины и устранить, а не уповать на какие-то утопические open-source проекты, которые по большей части отстают в развитии от своих коммерческих аналогов.

А что вы будете делать, если 90% тем останется вовсе без оценки

Оценить каждую тему можно и автоматически. Например, самыми важными темами будут те, где "отметилось" наибольшее количество модераторов.

При этом можно считать важными и темы, помещенные в разделах, где активность участников невысока - Поисковые технологии, Сервисы и программы для работы с SE. Как правило, откровенного мусора там мало.

Кроме того, что мне лично не нравится, так это односложные предложения в стиле - "да это просто супер фишка!" и прочее, предназначенное для накручивания количества постов.

Если тема интересная, то обычно на форуме дают содержательные ответы и если подсчитать для каждого треда среднее количество слов на участника с учетом его ранга, то опять же можно автоматом определить рейтинг темы.

Нет, насколько я понимаю, все реальные методики требуют участия человека.

Автоматически определяется только формальная релевантность, когда все слова запроса присутствуют в документе, а вот отнести документ к релевантным или нерелевантным может только человек.

Всего: 847