- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...
немного не понял. XSS? вроде неоткуда... весь ввод парсится..
да это просто проверка скрипта была. Вот и не стал менять.
Помню.
Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...
Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)
Progr@mmer\. добавил 27.05.2008 в 01:39
one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.
mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:
"словосочетание 1" OR "словосочетание 2 и текст рядом" OR "текст рядом и словосочетание 3"
?
Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.
Используются ли в запросе к поисковику текст в кавычках? Т.е.:
"текст или словосочетание"
Если да, то сколько слов максимум и минимум подставляется в запрос?
Вырезаются ли из запроса слова <= 4 символов?
По-моему, стоит поразмышлять на заданные мной вопросы. :)
Progr@mmer., понятно...Но меня это напугало и огорчило если честно... :)
С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...
Если неправильно ругается первый алгоритм то это плохо... а если второй то нормально, второй сильно придирчивый, его результаты надо руками проверять... всетаки это пока тестирование а не релиз, в релизе выдача второго будет называться чтото вроде "ВОЗМОЖНЫЕ копии".
да это просто проверка скрипта была. Вот и не стал менять.
Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))
Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)
Если я буду отделять отдельно случай что ничего не введено, то я буду выражаться не мягко :)
я думаю может сделать if(count(список слов за вычетом стопслов и другой воды) < 3) скажем("Слишком мало информации для анализа");
просто лень писать еще одни шаблон (код как и положено отделен от html).. всетаки у ругательства немного другая структура...хотя чтото действительно прийдется сделать из вышеназванного.
one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.
угу.. и во втором алогритме условия довольно мягкие... но фразы не всякие выдираются, так что первый алгоритм довольно правдив.
mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:
Могу только в аську :) и без этого будут гулять по форумам и блогам алгортмы обхода :)
Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.
запрос простенький, а алгоритм его формирования около 7кб занимает (не считая модуля морфологии который он тоже использует) :)
Используются ли в запросе к поисковику текст в кавычках?
Только кавычки и есть. Без кавычек вообще белиберда выходит.
Если да, то сколько слов максимум и минимум подставляется в запрос?
Минимум два слова в одной конструкции из кавычек... максимума нет... ограничивается только длиной запроса (есть механизм замены слишком длинных последовательностей более короткими)
Вырезаются ли из запроса слова <= 4 символов?
меньше трех и стопслова.
По-моему, стоит поразмышлять на заданные мной вопросы. :)
по моему тоже :)
К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...
Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.
Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.
ИИ это жестоко. Размер обучающей последовательности должен быть слишком большой. Если КАЖДЫЙ выставит категорию, если она будет правильная и если людей будет в 20 раз больше чем сейчас то это займет несколько месяцев... :)
у меня правда сейчас мысль появилась прогнать базу в автомате по большой выборке текстов и сделать в ней отрицательные веса (используя в качестве обучающей последовательности выдачу самого рубрикатора) это может несколько улучшить качество, но все равно объем большой и лень :)
А на счет того чтобы попарсить - так откуда вы думаете взялась база в 50 тысяч слов с весами категорий? :) Правда парсили рамблер а не яндекс но какая разница...
Используется OR или AND
Исправлюсь: для яндекса OR = ||, AND = &&.
Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))
:-D
запрос простенький, а алгоритм его формирования около 7кб занимает
не плохо. :)
распарсите какие-нибудь яндекс-новости по рубрикам
а вот это - отличная идея! По-моему, стоит задуматься о её реализации и тестировании отдельно на этой же системе анализа текстов.
прогнать базу в автомате по большой выборке текстов
надеюсь, не referats.yandex.ru? :D
надеюсь, не referats.yandex.ru? :D
))))))))))))))))
mendel добавил 28.05.2008 в 18:27
Нарисовал дизайн, если так можно сказать :)
Ссылки пока не сделал... как оно вам? Пойдет?
Симпатишно.... ;)
Слушай, я проверяю свой текст, который с головы написал, а он - неуникальный.... Это как???