Поисковые алгоритмы и методы краулинга с логической точки зрения

1

theunknown

9 февраля 2009, 19:59

3358

Подскажите, пожалуйста, видели ли Вы где-нибудь какие-либо статьи на тему поисковых алгоритмов, методов краулинга, способов хранения накопленной информации с логической точки зрения.

То есть конкретно интересует логическая составляющая поиска

- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)

- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)

- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи (то есть понятное дело, что при вводе запроса не стоит проводить поиск по терабайтным бд)

Прежде всего интересует сама методика ссылочного ранжирования, не в смысле определения авторитетности ресурса, а в смысле логического и физического представления модели связей между интернет-ресусами(то есть что на что ссылается). Самое простое логическое представление, которое приходит в голову это обычная матрица. Но хотелось бы какой то конкретики и информации по физической реализации этого.

Быть может встречал кто-либо подобную информацию на русском ? (с техническим английским туговато)

55

Nick84

9 февраля 2009, 23:24

#1

Изучи готовые скрипты "поисковых систем", много интересного с них можно подчерпнуть

33

vitali_y

11 февраля 2009, 10:27

#2

"Самое простое логическое представление, которое приходит в голову это обычная матрица."

вероятно очень большая матрица получится с лишними ничего незначащими элементами :)

нужно ужимать

117

ETNO

11 февраля 2009, 20:46

#3

я недавно изучал hits http://fleek.org/hits-algoritm-ranzhirovaniya/

там в конце есть ссылка на скачивание одной презентации - перевода с английского источника. Возможно это то, что вам нужно

Wordpress тема для заработка на партнерках (http://themeforest.net/item/rehub-directory-shop-coupon-affiliate-theme/7646339). Создание каталогов с фильтрацией, расширенный функционал обзоров, layout builder, еженедельное обновление.

94

Aladdin

12 февраля 2009, 22:32

#4

theunknown, по этому вопросу немного есть у Ашманова, но общее совсем, а вообще я натыкался в буржунете на несколько интересных источников, но сломалась Mozilla и все закладки потерлись. Гуглите.

VT

130

Vyacheslav Tikhonov

12 февраля 2009, 23:35

#5

- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)

Бот должен сканировать страницы, хранящиеся в базе, и анализировать частоту их обновления. Новые ссылки должны попадать в это хранилище и сканироваться по определенному алгоритму, чтобы частота обновления была оптимальной. Подробнее можно посмотреть в классической работе Брина и Пейджа.

- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)

Сложный вопрос - зависит от решаемой задачи. Зачастую нужен не просто поиск по ключевым словам, а поиск с параметрами по базе данных. Нужно выбирать какое-то решение, которое позволит комбинировать индексы базы данных и поискового движка.

- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи (то есть понятное дело, что при вводе запроса не стоит проводить поиск по терабайтным бд)

Строить промежуточные индексы, которые периодически сливаются в один большой и периодически обновляются. Лучше всего собирать сервера в кластера, каждый из которых отвечают за свою часть индекса.

Вообще вопрос задан слишком абстрактно, чтобы можно было сказать что-то конкретное.

VT

130

Vyacheslav Tikhonov

15 февраля 2009, 17:03

#6

Vyacheslav Tikhonov, можно ли с Вами как то связаться? по аське или ещё как то? (личка к сожалению не работает)

Да, Вы можете мне написать по адресу 4tikhonov*собачка*gmail.com .

3

RAZORr

29 апреля 2009, 02:46

#7

uuuuppppppppp

DM

3

DmitryM

5 мая 2009, 11:11

#8

а ещё у кого-нибудь источники есть?

forum.searchengines.ru (forum.searchengines.ru)

370

Слава Шевцов

5 мая 2009, 11:49

#9

theunknown:
То есть конкретно интересует логическая составляющая поиска
- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)

Всё, что может делаться в пакетном режиме, должно делаться в пакетном режиме. Сначала сервером-краулером запрашиваются страницы. Они складываются на спец. сервер для их разбора - сервер-парсер. На сервере-парсере эти страницы разбираются на части, включая список URL и тексты. Список URL отдаётся на сервер, управляющий краулером. Дальше ссылки могут просто складываться в базу для сервера-краулера, а могут складываться лишь те, которых в базе ещё нет. Зависит от реализации. Далее сервер-парсер берёт ещё не обойдённые URL и скачивает страницы с них, складывая на сервер-парсер. И так далее.

theunknown:
- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)

Для поиска - своя база данных. Для URL - можно MySQL или обычные текстовые файлы.

theunknown:
- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи

Для этого есть отдельный сервер, который строит индекс по всем словам в текстах (сервер-индексатор). По этому-то индексу и происходит поиск на сервере-поисковике.

theunknown:
Прежде всего интересует сама методика ссылочного ранжирования, не в смысле определения авторитетности ресурса, а в смысле логического и физического представления модели связей между интернет-ресусами(то есть что на что ссылается). Самое простое логическое представление, которое приходит в голову это обычная матрица.

Второй вариант это хранение в базе пар отрезков с идентификаторами страниц "кто ссылается" - "на кого ссылается". По этим парам уже можно считать и число ссылок со страницы и число ссылок на страницу. Все пары можно держать в памяти. Иногда в памяти десятков серверов - по 250 млн. пар на сервер. Для 4 млрд. страниц это всего около тысячи серверов. Либо держать данные на быстрых жёстких дисках, но скорость будет значительно более медленной.

Неизменность точки зрения неизменно порождает иллюзию понимания.

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах