- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
подскажите плз за сабж.
задача, отсеивать частичный дуп.
10 слов, больше, меньше? почему?
принципиальная разница между 10 и 7-8 словными будет в точности?
Почти везде используется длина шингла 10. Почему? Во многих описаниях шинглов эта величина принята за стадартную, только поэтому. Уменьшение до некоторого предела может повысить точность, но чрезмерное уменьшение будет излишним. Понятно, наверное, почему.
ИМХО, длина 10 достаточна, если сочетать с ээ.. другим методом, забыл название, учитывающим расстояния (позволяет от перестановок местами защититься).
//ad
Собственно, в моей программе Article Copy Master для фильтра генерируемых текстов по уникальности используются шинглы (д.10) с предварительной обработкой текста псевдолемматизатором.
Чем короче шингл, тем точнее можно отловить дуп, но разница будет и не очень велика. Но это влечет за собой увеличение как используемой памяти, так и используемого времени.
Насколько я знаю, все известные в паблике программы для сравнения текстов используют шинглы длиной в 10 слов.
тобишь, что 8, что 10 - принципиальной разницы не будет?
услышал что хотел, пасиб)