Масло я тоже меняю у профессионалов, т.к. даже самое дешевое авто в моем парке достаточно сложно устроено.
В морфологическом анализе я также доверился профессионалам - Яндексу, с его мистемом.
У Вас не верная информация. РОМИП интересен всем и все читают труды, просто участие в семинаре - дело не 2-х дней на написание статьи, все гораздо сложнее, нужно выделять людей, технику и бабло, не всем это дают. Кому-то, возможно, и сцыкотно показать свои чюда-алгоритмы, ведь можно и не попасть в топ оценок. То же самое происходит например с участием отечественных коллективов в TREC - читают все, не участвует никто. Потому что и затратно и сцыкотно. К тому же, в отличие от РОМИПа, там нельзя выступить анонимно. :)
Ну так и получите, данные бесплатны, таблицы релевантности вообще в свободном доступе лежат. Нужно только соглашение подписать.
Вы можете посмотреть, нужно только подписать соглашение. Т.к. коллекции документов не написаны участниками семинара, там чужие дукументы, на многих копирайт стоит. Пока Вы не подпишетесь - никто Вам колекций не даст, и это правильно. Подписать соглашение можно в Москве или в Питере, хотя возможно и по почте, в виде исключения. После этого будут простые ссылки на zip. :)
Так может быть расскажете, где я заблуждаюсь? Буду очень благодарен.
Ида - Вы как-то проигнорировали мой вопрос:
Ну да, не имеет, так же, как и считать их количество.
Но если объединить всех вебмастеров в глобальный флешмоб и проставить на всех страницах в сети по кучке абракадабр хитрым образом, то все поисковики будут пищать, многое придется менять в идеологии и в архитектуре. :D
Размер словаря русского языка не большой, и с точки зрения словаря, как и с точки зрения морфологического анализатора, слова "ъъъъъъ" не существует. Но в тоже время оно реально существует в сети - ты же сам его туда занес. И поисковикам приходится это учитывать и искать по таким словам. Они есть в словаре поисковика, для них и частотные метрики всякие посчитаны, типа IDF или ICF.
Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)
Теоретически оно может и имеет теоретический базис. :D
Только в большинстве случаев на это нужно забивать, иначе не получится ничего. Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала. :)
Ну мы же не научную статью пишем. В житейской терминологии порядок - количество цифр в числе, об этом наверное даже в вики написано (лень смотреть).
Понятно. Приходите к нам на РОМИП. ;)
О чем? Что словарь может перерасти размеры выделенной на него памяти? Ну в теории может, на практике - пока никто не парится.
Вывод из этого простой - все абракадабры индексируются, т.к. по ним нужно искать и не факт, что это бессмысленные наборы букв. И они входят в словарь, который получается большим (100М - реальное число). Некоторые большие поисковики такой словарь держат тупо в памяти сервера, так у них там устроено. Хотя мне такое решение не нравится, ввиду того, что в таком случае мои метрики уже не применить. :)
Ну так какова муромская статья и "выводы" из нее - таковы и комментарии. :)
Это статья успешного практика, имеющего свой, достаточно известный в Украине поисковик. Заметьте - он так же, как и я, не делал строгих выкладок, а написал свой морфологический анализатор. И Яндекс свой написал. Может быть мы все и не правы, а правы Вы, ну так поделитесь знаниями о чудесном стеммере, интересно же. :)
Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься. :)
В десятичной системе счисления они такие, как у меня. ;)
Не писал, у меня ни одного профессионального программиста сейчас в штате нет. Но я серьезно занимаюсь поиском, поэтому какие-то данные мне известны, это не предположение, а факт.
А Вы что-то поисковое писали? Или просто теоретик?
И к чему эти цифры?
Однако и гугл, и Яндекс ее уже находит. Не лопнули пока. :)
Я не спец в морфологическом анализе, потому просто использую чужие разработки. Понимание необходимости пришло из практики, оно окончательно сложилось, после чего аргументы были забыты. :)
Поиск в Яндексе сразу вывел на статью Андрея Коваленко, руководителя поисковика МЕТА: Морфологический анализ для небольших поисковых систем. Вроде там подробрно описано.
Они основаны на некоторой практике.
Если я не уверен на 100% в своих знаниях, я так же пишу "я думаю".
Ни то, ни другое. :)
Три порядка - это умножить на 10**3.
А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов. :)
Красивая отмазка. Оспорить не реально. :)
Каким запросом можно отсечь искусственно добавленные бонусы и минусы - более-менее понятно. wolf назвал это "отсечением поведенческих факторов". Ну назвал и назвал, имеет право. :)
Я придерживаюсь мнения, что это не только поведенческие факторы, а все в сумме. Если бы учитывались только поведенческие, выдача по "хитрому" запросу менялась бы только в кликабельной ее части, т.е. примерно до 30-й позиции. Она же наверняка отличается и после 500-й.
Вполне возможно, только сложный параметр, в плане ресурсоемкости.
С чего Вы взяли?