Комментарии - Boneshock - Профиль вебмастера - Форум об интернет-маркетинге

22 апреля 2012, 13:42

Решил апнуть темку, чтобы не плодить еще одну.

Для сравнения двух текстов использую алгоритм этой статьи. Интересует абзац о канонизации текста(напр. приведение к единств. числу, муж. роду и т.д.) и подключении морфологического словаря. Есть у кого идеи где взять такой словарь в нормальном(txt,xml,sql) формате?

Проверка уникальности текста

5 апреля 2012, 20:47

LEOnidUKG:
Скорее всего вы без куков обращаетесь, а надо с куками.
Тут такие варианты:
1. Сервис распознавания каптч
2. Прокси сервера
3. Совмещать эти два варианта

мм, спасибо, попробую. НУ пока до капчи далеко, нужно хотя бы научиться имитировать работу через браузер, а то яндекс палит во мне робота:) думаете дело в куках? ок

Проверка уникальности текста

5 апреля 2012, 15:17

eStatic:
Больше заморочек будет с обходом ограничений поисковый систем (каптчи, куки и прочее)

хм, что-то у меня любой программный запрос к яндексу показывает страничку с капчей...есть какаято особенность, не подскажите(в headers вроде все стандартное добавляю)?

Проверка уникальности текста

5 апреля 2012, 12:42

babnicks:
Попробуйте руками и проверьте, только не забудьте про кавычки :) имхо эффективность достаточная практически для любых задач. Идти по сайтам имхо это ЖЕСТЬ.

Да, верно, надо попробовать сначала. А про то что брать текст с сайтов из выдачи - ну так ведь встретилась какая-нибудь фраза в каком нибудь сайте ну и что? а вдруг остальной текст совсем про другое? это если брать фразами(шинглами т.е.). Опять же если брать как вы предлагаете предложения, то это если явный копипаст, а если слова просто местами поменяли?

Вообщем, надо думать...

Проверка уникальности текста

5 апреля 2012, 10:43

eStatic, да, насчет бана поисковиков надо будет думать. Но все таки сама суть верна? я про то, что берем шингл исходного текста, отправляем в поисковик, получаем выдачу, пробегаемся по ссылкам на сайты где этот шингл встречается и сравниваем исходный текст с контентом с этих ссылок.

Дальше конечно нужно оптимизировать, хеш таблицы например делать, но это дело уже второе.

babnicks, сниппетами? всмысле сравнивать с тем что выдает поисковик по запрошенному шинглу? думаете эффективность будет высока?

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Boneshock