seodev

Рейтинг
3
Регистрация
21.05.2006

В три часа плохо мысли формулируются. Я сам сейчас много работаю с австралийцами, и ездил туда месяца назад. Слишком они там расслабленные, не спешат никуда, в частности решать твои проблемы. Для них такое нехреновое погонялово нужно.

А еще у них таймшифт неудачный, поэтому все проблемы решаются с заметно бОльшей задержкой.

Pike:
По-моему в этом постинге логическая цепочка пару раз обрывается. Обоснвать можно?

Да, кстати, забавно. Но я внимательно все прослушал. Многие моменты, в частности противоречия, мне показались интересными. Описания того, чего он вещает: две последние записи в блоге. Comments are welcome.

Скажите, пожалуйста, что такое парсер кеев? Вообще морфологических штук всяких много. Несколько ссылочек о морфологии и стеммерах можно посмотреть вот здесь. От себя хочу еще добавить, что есть ispell, на базе которого достаточно легко сваять еще и вероятностный анализатор, который будет генерить варианты для слов, которые не нашлись в словаре.

Похоже, что это некоторый аналог http://www.googlism.com. Правда мне показалось, что это несколько качественнее. Возможно из-за ручной корректировки.

поиск будет реализован, когда будет найден смысл жизнь :-)

PS: для автора сайта, если не дай бог читает, глупая шутка, просьба не обижаться

Видимо, кое-что из детекта почтового спама подойдет, тот же байесовский фильтр например. "Прозвоны" главных страниц на наличие джава-скрипт и вб-скрипт редиректов. Только надо понимать, что без полного парсинга скрипта всегда будут ситуации неотлавливаемые. Впрочем, можно придумать набор правил для отлова подозрительных и давить их в ручном режиме. Потом какие-нибудь алгоритмы для отлова сайтов, в массов порядке продающих ссылки, колец и прочая.... Только это все достаточно ресурсоемко. По-крайней мере, анализ ссылок уж точно требует больших затрат.

alexf2000:
Есть ли какие-то методы автоматизации бана сайтов для поисковика? Судя по тем действиям, которые вручную приходится делать чтобы найти скажем дорвей и забанить его - всё это должно хорошо поддаваться автоматизации...

Ооо, здорово!!!

1) А aspseek научились gcc 3+ компилировать? :-)

2) Есть небольшие патчи к datapark'у, интересует?

snoopckuu:
Впринципе собрал все open source поисковые системы вместе.
Есть файловый архив с модификациями и нутча и аспсика,а так же обзоры о производительности движков.
http://searchengines.o0o.ru/

Левенштейна пословного я предложил в качестве уточняющего алгоритма. Да, если, конечно, будет большинство слов искажено, то его бесполезно использовать. В качестве уточняющего можно и побуквенный, но нужно будет покумекать над подходящей модификацией, чтобы не слишком тормозила.

Еще очень полезно такое наблюдение: если пользователь ищет, то он считает дублями те странички, по которым выдаются одинаковые сниппеты (включая заголовок). Конечно, заранее невозможно предсказать, по каким словам будет искать, но можно заменить все цифры на 0, все последовательности небуквенных и нецифровых символов одним пробелом. И откусить от начала некоторый небольшой кусочек, байт тысячу. Присоединить таким же образом отшлифованный тайтл. Посчитать crc. С очень высокой полнотой можно будет отлавливать дубликаты. Ну а точность зависит от конкретики. Для интернета в целом, ИМХО, будет не самая плохая, но если в базе много страниц имеют общее начало, то будет не слишком хорошо.

Eugen:
Все же не соглашусь, во 1ых, алгоритм сслылочной кластеризации, Locality Sensitive Hash, то это все-равно будет анализ на уровне слов, а во 2ых, вы сами же предложили пословного левенштейна ;)

В моем случае надо отлвливать прежде всего неумышленные нечеткие дубли. Например, одна и та же страница, но поменялось время в футере, добавилась форма ввода сообщения (проанализируйте, к примеру, этот форум на предмет таких непреднамеренных дублей - будет понятно, о чем я). Кроме того, было бы здорово ограничится только одной контрольной суммой на документ ;) Или же найти другие быстрые алгоритмы.

Вообще, еще в начале 80х годов существовали ИИ системы, которые вполне прилично могли общаться (то есть понимали, что им говорят, распознавали вопросы) на разговорном уровне. И довольно-таки неплохой задел по семантике, семантическим сетям, распознаванию неоднозначности и прочая был сделан за последние 30 лет. То есть для некоторого ненулевого QA (не того, что сейчас предлагает Гугль в виде обработки запросов, а кто такой Джордж Буш), вполне себе хватит.

Но стоимость разработки такой финтифлюшки, ИМХО, такая нефиговая, специалистов тоже мало, а деньги поисковики и так зарабатывают, причем с каждым годом все больше и больше. Зачем им это надо?

Это он для компьютера перестанет быть дубликатом, а для пользователя он будет выглядеть абсолютно аутентично.

Насчет накладности непосредственного сравнения: если текст потенциального дубликата нужно вытаскивать из базы, то дополнительное сравнение - это не слишком накладно. По поводу алгоритма: левенштейн может подойдет только лучше не побуквенный, а пословный. Он на порядок быстрее отработает.

Всего: 56