- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
АС: Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова.
Спсибо поправим.
АС: Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.![]()
Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.
Просто сначала я сделал вариант "грубого" поиска, а теперь еще собираюсь сделать более тонкое ранжирование, которой таки варианты, как фуджицу и фуджитсу будет учитывать.
n-граммы здесь не причем поиск идет по количеству очепяток в чистом виде.
А всё-таки - зачем нужен этот поиск опечаток?
Тем, кто раскручивает сайты (или свой сайт), нужен анализ запросов, то есть того, что ищут посетители, а не того мусора, что есть в сети. Для такого анализа есть Яндекс-Директ и Рамблер-Ассоциации.
Поисковая же машина не должна искать опечатки, потому что этот поиск сильно ухудшает качество. Объяснение простое:
а) полнота не растёт, потому что в подавляющем большинстве случаев на той же странице есть также и правильно написанное то же самое слово.
Опечаток, даже в Интернет-текстах, в среднем 2-5 на странице, то есть не более двух процентов.
Случай, когда слово сильно релевантно, при этом - одно на странице, да ещё при этом содержит ошибку - просто очень маловероятный.
б) поиск опечаток сильно ухудшает точность. Для проверки возьмите короткое слово в русском Ворде, удалите букву и нажмите F7. Получите список из десятков правильных вариантов. Ну и что - все их искать?
Это я к чему говорю: построение сколько-нибудь нормального подбора вариантов - дело очень трудное и долгое, много прикладной лингвистики придётся изучить. Замена "ц" на "тс" - ещё цветочки.
Потом придётся побороться с ранжированием вариантов по наибольшей распространённости (а как узнать частотность?), комбинаторным взрывом и так далее. Капитализация, буква -ё-, вставка пробела, замена похожей латиницы, прочие ужасы.
Для того же подбора для Ворда мы в своё время потратили-таки полгодика. И то - были люди в наше время, богатыри...
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.
Есть еще и случай, когда "мусор" в голове, а правильное слово в инете. К тому же, опять-таки, вспомним про хеширование/хэширование. Еще пример на эту тему: названия городов (редкие). А это уже не совсем мусор.
Так что мы ищем не совсем с учетом опечаток. К тому же поисковая машина ДОЛЖНА искать с учетом опечаток, как миниуму, она должна предлагать варианты правильного написания, если запрос вернул мало документов.
Еще раз не поленюсь сказать про "большой" спелл-чекер, редкие термины (я, например, искал название лекарства и нашел его именно так).
Про частотность различных опечаток - это нужно, конечно, исследовать, есть достаточно стандартные наборы: опечатки при наборе, распространенные ошибки.
Хочу заметить, что комбинаторный взрыв нам не страшен, потому что эти правила мы будем использовать на этапе ранжирования, когда получен список близких ключевых слов с помощью "грубого" алгоритма.
К тому же мы не генерируем "в лоб" все варианты: некое увеличение времени ранжирования произойдёт, но взрыва явно не будет.
А люди были, есть и будут... работать на благо Штатов, ЕС, Канады и Австралии.
А всё-таки - зачем нужен этот поиск опечаток?
Тем, кто раскручивает сайты (или свой сайт), нужен анализ запросов, то есть того, что ищут посетители, а не того мусора, что есть в сети. Для такого анализа есть Яндекс-Директ и Рамблер-Ассоциации.
Поисковая же машина не должна искать опечатки, потому что этот поиск сильно ухудшает качество. Объяснение простое:
а) полнота не растёт, потому что в подавляющем большинстве случаев на той же странице есть также и правильно написанное то же самое слово.
Опечаток, даже в Интернет-текстах, в среднем 2-5 на странице, то есть не более двух процентов.
Случай, когда слово сильно релевантно, при этом - одно на странице, да ещё при этом содержит ошибку - просто очень маловероятный.
б) поиск опечаток сильно ухудшает точность. Для проверки возьмите короткое слово в русском Ворде, удалите букву и нажмите F7. Получите список из десятков правильных вариантов. Ну и что - все их искать?
Это я к чему говорю: построение сколько-нибудь нормального подбора вариантов - дело очень трудное и долгое, много прикладной лингвистики придётся изучить. Замена "ц" на "тс" - ещё цветочки.
Потом придётся побороться с ранжированием вариантов по наибольшей распространённости (а как узнать частотность?), комбинаторным взрывом и так далее. Капитализация, буква -ё-, вставка пробела, замена похожей латиницы, прочие ужасы.
Для того же подбора для Ворда мы в своё время потратили-таки полгодика. И то - были люди в наше время, богатыри...
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.
Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.
О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство? Я указал, что система еще очень далека от совершенства. Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное, контексты, в которых эти слова встречаются, тоже не похожи. Поэтому вероятность ошибки такого рода ничтожна. Но если fuzzy-Punto этого еще не знает, значит, ему предстоит расти и расти. Логично?
Так что давайте не искать друг в друге "комплименты". Лучше потратить это время на совершенствование потенциально полезного инструмента.
С уважением,
Александр Садовский.
АС: О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство?
Извините, мне показалось, что письмоВаше было эмоционално в ущерб конструктивности.
АС: Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное.
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.
Мы с удовольствием примем конструктивную критику, тем более, что Вы Александр, как раз этим и сильны.
Как правильно написал Игорь Ашманов, чем короче слово, тем больше мусора в вариантах. Мы с этим уже весьма успешно боремся в AfterScan'e - чем короче слово, тем жестче отбор вариантов.
С уважением Сергей Москалев.
itman: Есть еще и случай, когда "мусор" в голове, а правильное слово в инете. К тому же, опять-таки, вспомним про хеширование/хэширование. Еще пример на эту тему: названия городов (редкие). А это уже не совсем мусор.
Так что мы ищем не совсем с учетом опечаток. К тому же поисковая машина ДОЛЖНА искать с учетом опечаток, как миниуму, она должна предлагать варианты правильного написания, если запрос вернул мало документов.
______
Все-таки, непонятно, зачем реализовывать поиск опечаток в инете, а не в словаре. Конечно, СЕ должна искать с учетом опечаток, но после расширения запроса вариантами из словаря получим то же самое (А если словарь с тезаурусом, то можно и правильность варианта улучшить, учитывая остальные слова запроса). Словарь почти не растет, а Инет растет быстро => когда база Punto подрастет, такой поиск может быть уже неэффективен с т.зр. затрат времени.
Да никто и не пытается! :-) Речь идет исключительно о поиске похожих слов, пока
по крайней мере. Я совершенно согласен с тем, что в чистом виде, когда база большая
поиск с учетом похожих слов слишком сильно
шумит и может потребовать больших затрат.
______
Все-таки, непонятно, зачем реализовывать поиск опечаток в инете, а не в словаре. Конечно, СЕ должна искать с учетом опечаток, но после расширения запроса вариантами из словаря получим то же самое (А если словарь с тезаурусом, то можно и правильность варианта улучшить, учитывая остальные слова запроса). Словарь почти не растет, а Инет растет быстро => когда база Punto подрастет, такой поиск может быть уже неэффективен с т.зр. затрат времени.
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?
А Вы правы!!! Лучше вообще ничего не далать!
)) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал.
) Умиляет расчет процентов в вышеприведенной цитате...
А Вы правы!!! Лучше вообще ничего не далать!
Не кипятитьтесь, коллега. Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается. Я думаю, что и Вы продолжите заниматься, несмотря на нашу критику (поверьте, весьма мягкую). А что касается цифр... так я вижу, на основании своего небольшого опыта (база текстов у нас - 7 млн. документов).