Яндекс научился. Возможно, что с разной точностью в разных факторах.
Однако, я могу заметить, что поиск по файлам может любой старшеклассник сделать, если немного научился программировать. ;)
Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.
Вот когда докажете, что Ваш поисковик чего-то стоит - тогда Ваше мнение будет иметь шансы на жизнь, даже если оно и бредовое. Не нравится РОМИП - в мире существует достаточно других независимых конференций, на которых можно оценить свою работу. :)
Не хотите, кто бы сомневался. Боюсь, что банально не хватит знаний для оценки. При этом Вы заявили о том, что 75% работ - мусорные. Не читал, но осуждаю. :D
Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов. :)
Одна из целей Яндекса - развитие поисковых (и не только) технологий. Они ведь кроме Яндекс.сервера еще много чего выкладывают в общий доступ и на халяву. Спонсируют РОМИП, обучают кучу студентов в своих школах и т.д. Позиция вполне грамотная - если поисковое сообщество в стране будет развиваться, Яндекс в долгосрочном плане только выиграет, причем все затраты многократно окупятся. :)
Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла. :)
Это Вы вирусописателям расскажите, для них будет шутка года. :D
Ну да. И покупают их лохи. Стопудов. :)
Да понятно, что все попячились перед vitali_y на белом коне. Покупатели антивирусов и гороскопов - это же одни и те же дурачки, 100% совпадение множеств, ага.
Вы не поняли, Ашманов - достаточно серьезный бизнесмен, и хвастаться лоховской поделкой на коленке никогда бы не стал.
РОМИП выдает под подпись только коллекции чужих авторских документов, чтобы не иметь потом проблем с законом. Я Вам это уже объяснял.
Вы сначала покажите свои знания, а потом будете чмарить разработчиков антиспама. :)
А за свои слова сможете ответить? ;)
Так как мы на форуме SEO, то можем взять Top authors in Information Retrieval от микрософта. Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных. :D
Ну, я думал, что есть какое-то другое, более элегантное решение. :)
Биграммы чекать нужно, как и триграммы и шинглы. Это уже свершившийся факт. И писать большой тезаурус.
По поводу естественности - я бы копал в сторону синтаксического анализатора, типа того, о котором весной говорили Яндекс с Когнитивом. В то время на сайте Когнитива был выложен работающий скрипт - замечательная штука. Этот анализатор мелькал где-то в МГУ, студентам давали поюзать нахаляву - там нужно концы искать, потому что самому сделать аналогичный сложновато. :)
На обучающей выборке можно посчитать влияние каждого фактора на документ по запросу. Потом все подсчеты сложить и усреднить. Так получается топ факторов, которые в среднем влияют больше других.
Но это не означает, что именно эти факторы будут наиболее важны для вашего документа по конкретному запросу. Для отдельно взятого топ-10 по запросу топ-20 факторов будет другим, для отдельно взятого документа - третьим.
Естественно Садовский конкретных факторов не называл. :)
Коллеги, по-моему наблюдается какое-то массовое непонимание процессов в Яндексе. Попробую объяснить свою точку зрения.
Окончательная релевантность документа запросу определяется суммой релевантности по матрикснету, бонусами и минусами по фильтрам. Причем в этом году, начиная еще с портяночных ситуаций, фильтры Яндекса постоянно подкручиваются, в последнее месяцы особенно активно.
Далеко не факт, что сейчас ввели новый фильтр. Нет, скорее всего экспериментируют с уже имеющимися, то ли меняя параметры методом тыка, то ли обучая чем-то типа матрикснета. Почти все фильтры накладываются за попытки манипулирования выдачей, и таких фильтров может быть много. Например в матрикснете около пяти десятков спам-факторов (по слухам) - все они могут применяться и в фильтрах. Поэтому влет определить причину фильтра как правило затруднительно, это может быть фильтр "за все, по мелочи". :)
Что происходит, если страница попала под фильтр? Ее релевантность уменьшилась - из матрикснетной релевантности вычли некоторое число. Но на сайте обычно есть больше одного документа, релевантного запросу (почти у всех позиций в топах есть ссылка "еще"). На эти документы фильтр может быть не наложен и их матрикснетная релевантность оказывается выше, чем у целевой страницы. В таком случае с данного сайта выдается именно эта, другая страница, в соответствии со своей релевантностью. Скорее всего она будет выдаваться существенно ниже целевой, но бывает и не так, в случае, когда на сайте больше одной страницы, высокорелевантной запросу. В некоторых случаях заминусованная релевантность целевой страницы все равно остается максимальной по сайту, и тогда в выдачу попадает она, просто на более низкой позиции.
Нужно заметить, что "сайт выпал из топа" не аналогично "на страницу/сайт наложен фильтр". Какие-то фильтры и до этого могли присутствовать и минусовать релевантность, просто сейчас их минусы усилились для конкретной страницы/сайта.
Так же бывают случаи смены страницы с небольшим плюс-минусом, или показ разных страниц по тому же запросу в разных регионах. Так происходит тогда, когда релевантность запросу у разных страниц численно слабо отличается (по мнению Яндекса) и малейшие изменения формулы ранжирования могут выводить в топ по сайту то одну, то другую страницу. Опять же, формул по геозависимым запросам в России три штуки, они считают релевантность слегка по разному.
Так как параметры фильтров походу крутят туды-сюды, страница может вылететь на время и быстренько вернуться обратно. Баланс яндексоиды найти не могут. :)
Ну пусть перефраз, не вопрос. А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(
Я выше уже написал - не понял, как Вы триграммы будете использовать. Может объясните старику? :)
Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту? :D
Эти возможности описаны в инструкции. В качестве отраслевого поисковика использовать можно, нужно только разобраться с апдейтами. :)
Разработчики утверждают буквально следующее:
Базовые алгоритмы идентичны. А не все алгоритмы. :)
Так он уже вырос - можно юзать.
Курьезный топик - залог стабильно хорошего настроения. :D
Запросы распределяются на страницы (урлы, документы). Линки - это ссылки. Вы бы для начала с терминологией разобрались. ;)
Русский гугл пока терпит спамеров. Не думаю, что это навсегда - вспомните Флориду. :)
Так Вы и виноваты. Ваша "оптимизированная" страница попала под какие-то фильтры и стала менее релавантной запросу, чем та, которую выдает Яндекс.
Все "варианты" - полный бред. :)
Ага, Вы разве не знали, что все заказчики сливают в Яндекс даты сдачи отчетности? Они все против Вас! :D
Правильно - пора к станку. Или в ряды офисного планктона.
Лечение простое - нанять думающего оптимизатора. :)
Тогда откуда взялись проблемы? :D
"Слабенькость" таких страниц субъективна. Если с точки зрения текущего алгоритма страницы стали "сильненькими" - повод найти, почему и пользоваться найденным знанием.
Могут, если кривые руки не притащили за собой фильтра. :)
В этом случае не будет, но виноват в этом не Яндекс.
Если улетает всего на 60-70, значит конкуренция по запросу никакая скорее всего.