- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Прежде всего, спасибо за замечания. Многие из них действительно очень точные. Я думаю, что с двух процентов до большего количества всегда можно поднять. Яндекс же не отказывается от своего спелл-чекера, а какая у него полезность? Тоже, надо думать, исчисляется процентами.
Тут же надо еще и оценивать еще и сложность реализации, а она составляет те же несколько процентов от общей сложности проекта. Так что все не так уже страшно, а AterScan здесь, кстати, совсем не причем. Никто его никуда не приспосабливал.
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?
Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается.
А что за случай - напомните, пожалуйста?
Насчёт тумаков - слишком сильное выражение. Вроде у нас нет такого рефлекса, мы же не родственники слонёнка.
Да и здесь мы обсуждаем поиск опечаток в довольно академическом тоне, не так ли, коллеги?
Стоит ли играть на таких малых величинах?
А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...
Ну, положим, юзерами нас можно называть, это не обидно. Мы же юзаем всякие там программы.
С другой стороны, мы с товарищами за свою жизнь сделали десяток разных нечётких искалок, в том числе для Word.
Как оно появляется, имеем некоторое представление.
Мы эту штуку проходили в 1991-1995 годах.
У нас когда-то тоже были иллюзии относительно "заводных фич" в поиске, двуязычном словаре, спеллинг-чекере и т.п. Так оно не работает, увы. За заводную фичу продукт не купят лишний раз. Он должен решать хорошо основную проблему.
В частности, в 1998 мы вкручивали Русский Семантический Сервер в известную искалку Excalibur. Там тоже с гордостью продавцы говорили, что вот нечёткий поиск, что по заказу ФБР и т.п. А морфологию и тезаурус тем не менее купили и продают. Потому что нечёткий поиск СЛОВ - marketing bullshit. Не работает Экскалибур. На "свободолюб" находит что бы Вы думали? "долбо#б".
А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.
Вопрос ведь не в том, "заводная" ли очередная фича или нет, а в том, насколько он нужна и стоит ли тратить деньги и время.
Это как профилирование программы - если опция нужна в 2% случаев (внимание, проценты условны!!!), или даёт улучшение в 2% случаев, то выигрыш при стопроцентном, даже пятисотпроцентном улучшении качества именно этой функции всё равно будет не более тех самых 2%.
Совершенно очевидно, что Пунто имеет среднюю релевантность и малый объём. Интерфейс, прошу прощения за категоричность, эксплуатирует идеи пятилетней давности - плоский список результатов с невнятными заголовками и мусорными аннотациями. Пользователю внушается мысль, что Интернет - это помойка. А замечу в сторону, что во всём мире идут к рубрикации результатов поиска - на лету или по предопределённым рубрикам.
Небольшое улучшение любой из данных характеристик даст видимый глазом эффект. Потому что вес у них большой.
Раз так, зачем тратить силы на подобные "плюшки"? Только из молодого задора или за ради маркетинга. И в самом деле - вон мы тут сколько электронных чернил извели, а Яндекс это всё заиндексировал.
С другой стороны, мы с товарищами за свою жизнь сделали десяток разных нечётких искалок, в том числе для Word.
Как оно появляется, имеем некоторое представление.
В смысле стандартный русский вордовый спеллер вы делали? (Это так, любопытство)
В частности, в 1998 мы вкручивали Русский Семантический Сервер в известную искалку Excalibur. Там тоже с гордостью продавцы говорили, что вот нечёткий поиск, что по заказу ФБР и т.п. А морфологию и тезаурус тем не менее купили и продают. Потому что нечёткий поиск СЛОВ - marketing bullshit. Не работает Экскалибур. На "свободолюб" находит что бы Вы думали? "долбо#б".
Ну я общался с людьми, которые экскалибур делали: они применили методику, которая для
русского языка (да и для английского тоже) не сильно применима (я имею в виду биграммы), совершенно согласен, что она дает порой удивительные результаты.
А потом эскалибур не там продавали. Нужно было задвигать его медикам и химикам. Там-то, как раз все хорошо. Среди десяткjd миллионов (и это не преувиличение) десятиэтажных терминов нужный без нечеткого поиска не найти.
Там, кстати, это не двухпроцентная фича, а насущная необходимостью
А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.
Скорее, мета-лингвистика, с ударами в бубен :-)). Кто впереди планеты всей: гугл, а в основу движка, если верить авторским статьям, заложены далеко не супер-идеи, а, скорее, идеи, основанные на здравом смысле.
Что ж, здравый смысл победил, да здравствует здравый смысл. Матлингвистика же, пока, увы отдыхает.
А что за случай - напомните, пожалуйста?
Насчёт тумаков - слишком сильное выражение. Вроде у нас нет такого рефлекса, мы же не родственники слонёнка.
Приношу извинения за неакадемическое выражение. С Вами мы общались на одной из выставок, а весной были у Вас в Рамблере. Детали, я думаю, к данной теме не относятся.
А потом эскалибур не там продавали. Нужно было задвигать его медикам и химикам.
--------
ASHMANOV: А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.
--------
Скорее, мета-лингвистика, с ударами в бубен :-)).
Ну вот, и матлингвистике досталось.
А насчет определения рыночной ниши - Вы правы, есть применения для данной идеи. Сходу могу назвать ведение спецБД, с большим стандартным вводом. Нужно точнее это определить, и найти соответствующих заказчиков.
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.
Я уже писал выше, что анализ расстояния на клавиатуре между клавишами (в данном случае "д" и "й") может помочь исключить многие варианты.
Анализ контекстов, в которых это слово встречается.
Расчет вероятности ошибки такого рода и, после сопоставления частот слов, вывод о том, опечатка это или другое слово. Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев. Довольно редкий случай, правда? Даже ошибки вида "Ельцин/Ельцын" имеют соотношение не больше 100-150.
Если выяснены контексты, где встречается данное слово (то есть это заведомо опечатка), "правильную" форму можно попробовать определить, вычисляя вес PageRank страниц с тем и другим словом. Предположительно, более весомые страницы чаще бывают грамотными.
И т.д.
С уважением,
Александр Садовский.
Да, про вероятные опечатки - это все понятно. Другое дело, что хотелось бы как-то еще дополнительно использовать частоту встречаемости слова в БД, а с этим намного хуже, потому, что как Вы правильно заметили, если часто, еще не значит, что правильно :-((
даже PageRank здесь не поможет, потому что есть совершенно разные слова, очень близкие по написанию, но разные по частоте появления.
В основном, это касается коротких слов. То есть тут надо как-то учитывать еще и длину слова.
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.
Я уже писал выше, что анализ расстояния на клавиатуре между клавишами (в данном случае "д" и "й") может помочь исключить многие варианты.
Анализ контекстов, в которых это слово встречается.
Расчет вероятности ошибки такого рода и, после сопоставления частот слов, вывод о том, опечатка это или другое слово. Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев. Довольно редкий случай, правда? Даже ошибки вида "Ельцин/Ельцын" имеют соотношение не больше 100-150.
Если выяснены контексты, где встречается данное слово (то есть это заведомо опечатка), "правильную" форму можно попробовать определить, вычисляя вес PageRank страниц с тем и другим словом. Предположительно, более весомые страницы чаще бывают грамотными.
И т.д.
С уважением,
Александр Садовский.
Уважаемый Александр,
полностью с Вами согласен, единственно, в ваших рассчетах есть незначительная ошибка.
"Дети" естественно нормализованы, а "йети" нет. так что вероятность 1 к 200, скорее чем к 600.
А можно простому юзеру вставить свои пять копеек в эту битву железных канцлеров?
Классический пример из мери шелли "Поэма спеллчекера"
Не найдено в словаре пидоров
Заменить на сидоров
Не найдено в словаре минетчиков
Заменить на минометчиков.
Наконец-то я узнал, кто выступал основным соавтором этой поэммы в 1991-95 годах Большое спасибо.
Список рекомендованной литературы: http://www.net.cl.spb.ru/cetera/manifest.htm