G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
богоносец:
А ПС тематику уже научились понимать? С какой же точностью?

Яндекс научился. Возможно, что с разной точностью в разных факторах.

vitali_y:
почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.
В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.

Однако, я могу заметить, что поиск по файлам может любой старшеклассник сделать, если немного научился программировать. ;)

Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.

Вот когда докажете, что Ваш поисковик чего-то стоит - тогда Ваше мнение будет иметь шансы на жизнь, даже если оно и бредовое. Не нравится РОМИП - в мире существует достаточно других независимых конференций, на которых можно оценить свою работу. :)

vitali_y:
да не хочу я анализировать их работы

Не хотите, кто бы сомневался. Боюсь, что банально не хватит знаний для оценки. При этом Вы заявили о том, что 75% работ - мусорные. Не читал, но осуждаю. :D

vitali_y:
профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...

Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов. :)

Prediger:
Вопрос в целом ясен и из студии уходит на поля практики. Остаётся ещё один, лукавый. А зачем всё это нужно яше? Явне не из-за обязательной ссылки на страницу проекту. Зачем тиц тому, кто его сам рисует :).

Одна из целей Яндекса - развитие поисковых (и не только) технологий. Они ведь кроме Яндекс.сервера еще много чего выкладывают в общий доступ и на халяву. Спонсируют РОМИП, обучают кучу студентов в своих школах и т.д. Позиция вполне грамотная - если поисковое сообщество в стране будет развиваться, Яндекс в долгосрочном плане только выиграет, причем все затраты многократно окупятся. :)

vitali_y:
кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.

Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла. :)

vitali_y:
что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.

Это Вы вирусописателям расскажите, для них будет шутка года. :D

vitali_y:
что антивирусы нафиг не нужны - при правильном подходе - то же известно.

Ну да. И покупают их лохи. Стопудов. :)

vitali_y:
что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.

Да понятно, что все попячились перед vitali_y на белом коне. Покупатели антивирусов и гороскопов - это же одни и те же дурачки, 100% совпадение множеств, ага.

vitali_y:
что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.

Вы не поняли, Ашманов - достаточно серьезный бизнесмен, и хвастаться лоховской поделкой на коленке никогда бы не стал.

vitali_y:
вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅

РОМИП выдает под подпись только коллекции чужих авторских документов, чтобы не иметь потом проблем с законом. Я Вам это уже объяснял.

vitali_y:
что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

Вы сначала покажите свои знания, а потом будете чмарить разработчиков антиспама. :)

vitali_y:
про научные статьи... незря Перельман отказывается от премии...
процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

А за свои слова сможете ответить? ;)

Так как мы на форуме SEO, то можем взять Top authors in Information Retrieval от микрософта. Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных. :D

webpavilion:
алгоритм глуп и не универсален, жестко привязан к имеющейся базе.

Ну, я думал, что есть какое-то другое, более элегантное решение. :)

Биграммы чекать нужно, как и триграммы и шинглы. Это уже свершившийся факт. И писать большой тезаурус.

По поводу естественности - я бы копал в сторону синтаксического анализатора, типа того, о котором весной говорили Яндекс с Когнитивом. В то время на сайте Когнитива был выложен работающий скрипт - замечательная штука. Этот анализатор мелькал где-то в МГУ, студентам давали поюзать нахаляву - там нужно концы искать, потому что самому сделать аналогичный сложновато. :)

На обучающей выборке можно посчитать влияние каждого фактора на документ по запросу. Потом все подсчеты сложить и усреднить. Так получается топ факторов, которые в среднем влияют больше других.

Но это не означает, что именно эти факторы будут наиболее важны для вашего документа по конкретному запросу. Для отдельно взятого топ-10 по запросу топ-20 факторов будет другим, для отдельно взятого документа - третьим.

Естественно Садовский конкретных факторов не называл. :)

Коллеги, по-моему наблюдается какое-то массовое непонимание процессов в Яндексе. Попробую объяснить свою точку зрения.

Окончательная релевантность документа запросу определяется суммой релевантности по матрикснету, бонусами и минусами по фильтрам. Причем в этом году, начиная еще с портяночных ситуаций, фильтры Яндекса постоянно подкручиваются, в последнее месяцы особенно активно.

Далеко не факт, что сейчас ввели новый фильтр. Нет, скорее всего экспериментируют с уже имеющимися, то ли меняя параметры методом тыка, то ли обучая чем-то типа матрикснета. Почти все фильтры накладываются за попытки манипулирования выдачей, и таких фильтров может быть много. Например в матрикснете около пяти десятков спам-факторов (по слухам) - все они могут применяться и в фильтрах. Поэтому влет определить причину фильтра как правило затруднительно, это может быть фильтр "за все, по мелочи". :)

Что происходит, если страница попала под фильтр? Ее релевантность уменьшилась - из матрикснетной релевантности вычли некоторое число. Но на сайте обычно есть больше одного документа, релевантного запросу (почти у всех позиций в топах есть ссылка "еще"). На эти документы фильтр может быть не наложен и их матрикснетная релевантность оказывается выше, чем у целевой страницы. В таком случае с данного сайта выдается именно эта, другая страница, в соответствии со своей релевантностью. Скорее всего она будет выдаваться существенно ниже целевой, но бывает и не так, в случае, когда на сайте больше одной страницы, высокорелевантной запросу. В некоторых случаях заминусованная релевантность целевой страницы все равно остается максимальной по сайту, и тогда в выдачу попадает она, просто на более низкой позиции.

Нужно заметить, что "сайт выпал из топа" не аналогично "на страницу/сайт наложен фильтр". Какие-то фильтры и до этого могли присутствовать и минусовать релевантность, просто сейчас их минусы усилились для конкретной страницы/сайта.

Так же бывают случаи смены страницы с небольшим плюс-минусом, или показ разных страниц по тому же запросу в разных регионах. Так происходит тогда, когда релевантность запросу у разных страниц численно слабо отличается (по мнению Яндекса) и малейшие изменения формулы ранжирования могут выводить в топ по сайту то одну, то другую страницу. Опять же, формул по геозависимым запросам в России три штуки, они считают релевантность слегка по разному.

Так как параметры фильтров походу крутят туды-сюды, страница может вылететь на время и быстренько вернуться обратно. Баланс яндексоиды найти не могут. :)

kapow_expert:
G00DMAN, по поводу приведенного Вами примера синонимайза. Давайте обзовем его "перефраз" все таки.
Ида, такой перефраз есть. Дело в том что он мало замен делает, ибо русский язык - могучий язык:) Но в сочетании с классическим синонимайзом дает неплохую уникальность. Правда если N-граммы подключаю к синонимайзу, то и он не много замен делает. Особенно если это 3-граммы.

Ну пусть перефраз, не вопрос. А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(

kapow_expert:
Отсюда к Вам, Илья, вопросец:
Дано:
1. Словарь (знает 90% слов из библиотеки Мошкова)
2. Связи в словаре(тезаурус). Рассмотрим только синонимические связи.
3. База нграмм (возьмем биграммы), накопленная по например 50 Гб текста (книги - не узкотематический текст)

Вопрос:
Как думаете, что повлияет на кол-во замен больше:
а. Увеличение полноты словаря
б. Увеличение кол-ва биграмм
в. Увеличение кол-ва синонимических связей

Будет ли ситуация с 3-граммами такая же?

Я выше уже написал - не понял, как Вы триграммы будете использовать. Может объясните старику? :)

Scaryer:
G00DMAN,
Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.

Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту? :D

Prediger:
Тут больше интересны возможности яндекс.сервера в качестве отраслевого поисковика. Не в глобальном, конечно, смысле. А для группы проектов. Для сайтов такого-то города, такой-то локальной сети и т.д.

Эти возможности описаны в инструкции. В качестве отраслевого поисковика использовать можно, нужно только разобраться с апдейтами. :)

Prediger:
В предыдущем посте высказано мнение относительной слабости релевантности выдачи данного продука. При этом разработчики убеждают, что это чуть ли не уменьшенная копия большого яндекса. Понятно, что это сильно уменьшенная и не копия, а осколок скорее :).

Разработчики утверждают буквально следующее:

Базовые алгоритмы индексирования и поиска идентичны используемым на www.yandex.ru.

Базовые алгоритмы идентичны. А не все алгоритмы. :)

Prediger:
Но всё же, сможет ли данный продукт вырасти для задачи поиска по тем же локальным сетям?

Так он уже вырос - можно юзать.

saleseo:
Капризный Яндекс - угроза стабильного продвижения

Курьезный топик - залог стабильно хорошего настроения. :D

saleseo:
Наверно многие сталкивались с проблемой следующего плана.
Все начинается довольно перспективно:)
Есть запросы
Есть сайт
Делается оптимизация по классическим канонам.
Запросы распределяются на линки, оптимизируются тексты и заголовки.

Запросы распределяются на страницы (урлы, документы). Линки - это ссылки. Вы бы для начала с терминологией разобрались. ;)

saleseo:
Что характерно, Гугл поражает своей логикой и прямотой выбора. Он выбирает именно то что по логике и хочет преподнести сео специалист - линк с конкретным запросом.
Рама тоже и другие ПС. Так и должно быть.

Русский гугл пока терпит спамеров. Не думаю, что это навсегда - вспомните Флориду. :)

saleseo:
А оказалось Яндекс решил что под запрос то подходит совсем не оптимизированная страница а совсем порой "левая". Ключ может там вообще не быть прописан а привязаться по 1 слову, если он 2-3 словный.

Так Вы и виноваты. Ваша "оптимизированная" страница попала под какие-то фильтры и стала менее релавантной запросу, чем та, которую выдает Яндекс.

saleseo:
Как с этим бороться.
Есть вариант - "не дай Я найти повод"
Второй вариант - "похоронить линк"
Третий вариант - "повторение мать учения, если без ругани"

Все "варианты" - полный бред. :)

saleseo:
И это происходит обычно в самый не подходящий момент, перед сдачей статистики и получением месячной маржи.

Ага, Вы разве не знали, что все заказчики сливают в Яндекс даты сдачи отчетности? Они все против Вас! :D

saleseo:
Фактически, риск продвижение при таких глюках Я стал довольно высоким и порой уже перспектива и радужное понятие сео становиться абузой.....:o

Правильно - пора к станку. Или в ряды офисного планктона.

saleseo:
Если кто знает методы лечения данной проблемы, будем рады за советы.

Лечение простое - нанять думающего оптимизатора. :)

saleseo:
Сео не является заоблачным свитком мудрости, все довольно просто и просматриваемо получается.

Тогда откуда взялись проблемы? :D

nikola32:
Имеет место проблема перепрыгивания слабеньких (нутряк -> главная) в случае если на него почти(вообще) не тратится денег, тогда яшка сомневается что лучше: то ли контент нутряка, то ли все же ссылки на главную(хотя бы каталоги те же). Но такие перепрыгивания не сопровождаются падением, как вы описали: все остается на своих местах и уж точно в 10 или (20-30-40 на экспериментальных полупустых сайтах).

"Слабенькость" таких страниц субъективна. Если с точки зрения текущего алгоритма страницы стали "сильненькими" - повод найти, почему и пользоваться найденным знанием.

saleseo:
Падения не могут не происходить.

Могут, если кривые руки не притащили за собой фильтра. :)

saleseo:
Есть оптимизированный линк под к примеру запрос: вяленая рыба
Оптимизация, ссылочное дает вес и увеличивает релевантность этого линка в глазах Яндекса.
И вот он берет и переориентирует запрос этот на другую, цепляется по слову рыба просто...
А вяленая рыба там и не фигурирует.
И Вы скажете что позиция будет на месте?

В этом случае не будет, но виноват в этом не Яндекс.

saleseo:
Она улетает обычно с 10ки на 60-70 мест назад)

Если улетает всего на 60-70, значит конкуренция по запросу никакая скорее всего.

Всего: 1960