Boneshock

Рейтинг
8
Регистрация
18.03.2011

Решил апнуть темку, чтобы не плодить еще одну.

Для сравнения двух текстов использую алгоритм этой статьи. Интересует абзац о канонизации текста(напр. приведение к единств. числу, муж. роду и т.д.) и подключении морфологического словаря. Есть у кого идеи где взять такой словарь в нормальном(txt,xml,sql) формате?

LEOnidUKG:
Скорее всего вы без куков обращаетесь, а надо с куками.
Тут такие варианты:
1. Сервис распознавания каптч
2. Прокси сервера
3. Совмещать эти два варианта

мм, спасибо, попробую. НУ пока до капчи далеко, нужно хотя бы научиться имитировать работу через браузер, а то яндекс палит во мне робота:) думаете дело в куках? ок

eStatic:
Больше заморочек будет с обходом ограничений поисковый систем (каптчи, куки и прочее)

хм, что-то у меня любой программный запрос к яндексу показывает страничку с капчей...есть какаято особенность, не подскажите(в headers вроде все стандартное добавляю)?

babnicks:
Попробуйте руками и проверьте, только не забудьте про кавычки :) имхо эффективность достаточная практически для любых задач. Идти по сайтам имхо это ЖЕСТЬ.

Да, верно, надо попробовать сначала. А про то что брать текст с сайтов из выдачи - ну так ведь встретилась какая-нибудь фраза в каком нибудь сайте ну и что? а вдруг остальной текст совсем про другое? это если брать фразами(шинглами т.е.). Опять же если брать как вы предлагаете предложения, то это если явный копипаст, а если слова просто местами поменяли?

Вообщем, надо думать...

eStatic, да, насчет бана поисковиков надо будет думать. Но все таки сама суть верна? я про то, что берем шингл исходного текста, отправляем в поисковик, получаем выдачу, пробегаемся по ссылкам на сайты где этот шингл встречается и сравниваем исходный текст с контентом с этих ссылок.

Дальше конечно нужно оптимизировать, хеш таблицы например делать, но это дело уже второе.

babnicks, сниппетами? всмысле сравнивать с тем что выдает поисковик по запрошенному шинглу? думаете эффективность будет высока?