если не секрет, что это за внутренняя сеть с таким количеством сайтов? это не один сервер по объемам
в точку, светодиодные светофоры в Киеве тоже себя не оправдали, а разрабатывал их один из мох бывших учителей, кака была как есть, хотя и продолжают их внедрять, ну это уже особенности национального дебилизма, а вот вашу формочку было бы интересно поюзать.
а вы готовы будете оплатить новый алгоритм ради 10-15 % пользователей? (возможно ошибся в цифрах) вопрос лишь в целесообразности затрат, если они окупятся то думаю что их реализуют, но для просчета вам придется обратиться к разработчикам поисковых систем
давайте по порядку, как я уже говорил я новичок в этой области и лишь учусь. частотность во всей коллекции документов может быть, если не учитывать вес документа илиресурса в целом это и пройдет в данном случае, частотность в других запросах…? не знаю, нет исходных данных, с этим вопросом пожалуй лучше непосредственно к вам обратиться, мой критерий один, есть ряд запросов результата по которым нет результатов , я могу конечно привести полный список тем запросов но не думаю что это что-то изменит, три своих последних запроса я привел, результат по ним в итоге был найден, но времени на них было затрачено немало.
именно в позицию, но вот незадача в узкоспециализированных запросах эта самая позиция оказывается очень и очень далеко от начальных документов, а в первых рядах идет один сплошной мусор который попал на авторитетный ресурсы даже представления не имеющие что они в данном случае публикуют. вот и оцените после этого влияние таких факторов как PR и ИЦ на выдачу результатов. не знаю что было у истоков поисковых систем, гдето читал пару статей о том что гугля со своим PR совершила чутьле не революцию в этой области, но вот кажется мне что с ростом объемов и скажем так «горизонтального» роста информационного наполнения ресурсов эти параметры утратили свою актуальность и уже не в состоянии обеспечить результативный поиск. конечно это лишь мое мнение.
критерий здесь с моей точки зрения, это соответствие найденных данных поисковому запросу, для примера можете сами поискать, например архитектуру VLIW, алгоритмы вейвлет, не путать пожалуста с вейвлет анализом, селективные ультрадисперсные пленки и их применение в области информационной безопасности, это лиш ряд примеров, оцените выдаваемые результаты
p.s. в одной из тем вставал вопрос об алгоритмах сжатия, если не изменяет память это был мой вопрос об сжатии яндексом словаря с русской морфологией в 300Кб, как отступление от темы, вейвлет ветвления позволят сжать эти данные и в меньший объем, конечно это покачьто лишь предварительная оценка, поскольку область пока еще только развивается, и упаковка кстати в этом случае будет обратима
с удовольствием, в вашей теме я все ровно понимаю через слово, вы предложили вам и карты в руки, создавайте тему :)
Ну это вроде бы общеизвестные факты, но всеже как быть тем процентам которые ищут узкоспециализированную информацию? Как я уже писал выше PR и ИЦ в этом случае лишь помеха, таких пользователей изначально сбрасывают со счетов делая ставку на серую массу? Тогда я в свою очередь открою Вам страшную тайну, такие пользователи готовы оплачивать эту информацию, она есть в сети, практически каждая научно-исследовательская структура имеет свой сайт и общедоступную информацию на них выкладывает, а делать письменные запросы для получения этой информации занимает непозволительно много времени. Так что выбирают поисковые монстры? Массовость, или оплату труда? Пока что вижу лишь массовость. Конечно есть специализированные компании занимающиеся поиском требуемой информации но, их услуги очень дороги и это при условии что они предоставят лишь ту информацию которая является общедоступной, и опять же временные рамки, затратив два три дня я теже самые данные найду в Интернет и заплочу при этом лишь за трафик, Ваш выбор?
извините что вновь влажу со своими комментариями, я лишь учусь и поэтому Вам мои высказывания могут показаться и абсурдными, но, по своему основному роду деятельности мне зачастую приходится пользоваться поисковыми системами, но как правила по запросу я получаю ссылки на страницы которые не представляют никакой ценности, в основном это мусор, получение необходимого результат для меня это запрос более чем к одной поисковой системе сведение полученных результатов и последовательный просмотр результируещих ссылок, но даже это лишь в 40% случаев позволяет найти материала приближенные к искомым. Соответственно у меня возникает большой вопрос в целособразности PR или ИЦ как таковых. Возможно они актуальны при поиске информации по наиболее массовым направлениям, здесь я не берусь судить, но вот при поиске специализированных данных которые редко бывают интересны массовому пользователю Интернет они оказываются абсолютно лишними а в большинстве случаев даже и вредными. Соответственно возникает вопрос, альтернативные схемы учета релевантности найденных документов которые позволят сузить список найденных документов не зависимо от востребованности информации в них содержащейся.
не, ну так не честно, это ж чистая провокация :(, хотя… ученики иногда могут подсказать учителю верное решение :)