- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите, пожалуйста, видели ли Вы где-нибудь какие-либо статьи на тему поисковых алгоритмов, методов краулинга, способов хранения накопленной информации с логической точки зрения.
То есть конкретно интересует логическая составляющая поиска
- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)
- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)
- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи (то есть понятное дело, что при вводе запроса не стоит проводить поиск по терабайтным бд)
Прежде всего интересует сама методика ссылочного ранжирования, не в смысле определения авторитетности ресурса, а в смысле логического и физического представления модели связей между интернет-ресусами(то есть что на что ссылается). Самое простое логическое представление, которое приходит в голову это обычная матрица. Но хотелось бы какой то конкретики и информации по физической реализации этого.
Быть может встречал кто-либо подобную информацию на русском ? (с техническим английским туговато)
Изучи готовые скрипты "поисковых систем", много интересного с них можно подчерпнуть
"Самое простое логическое представление, которое приходит в голову это обычная матрица."
вероятно очень большая матрица получится с лишними ничего незначащими элементами :)
нужно ужимать
я недавно изучал hits http://fleek.org/hits-algoritm-ranzhirovaniya/
там в конце есть ссылка на скачивание одной презентации - перевода с английского источника. Возможно это то, что вам нужно
theunknown, по этому вопросу немного есть у Ашманова, но общее совсем, а вообще я натыкался в буржунете на несколько интересных источников, но сломалась Mozilla и все закладки потерлись. Гуглите.
Бот должен сканировать страницы, хранящиеся в базе, и анализировать частоту их обновления. Новые ссылки должны попадать в это хранилище и сканироваться по определенному алгоритму, чтобы частота обновления была оптимальной. Подробнее можно посмотреть в классической работе Брина и Пейджа.
Сложный вопрос - зависит от решаемой задачи. Зачастую нужен не просто поиск по ключевым словам, а поиск с параметрами по базе данных. Нужно выбирать какое-то решение, которое позволит комбинировать индексы базы данных и поискового движка.
Строить промежуточные индексы, которые периодически сливаются в один большой и периодически обновляются. Лучше всего собирать сервера в кластера, каждый из которых отвечают за свою часть индекса.
Вообще вопрос задан слишком абстрактно, чтобы можно было сказать что-то конкретное.
Да, Вы можете мне написать по адресу 4tikhonov*собачка*gmail.com .
uuuuppppppppp
а ещё у кого-нибудь источники есть?
То есть конкретно интересует логическая составляющая поиска
- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)
Всё, что может делаться в пакетном режиме, должно делаться в пакетном режиме. Сначала сервером-краулером запрашиваются страницы. Они складываются на спец. сервер для их разбора - сервер-парсер. На сервере-парсере эти страницы разбираются на части, включая список URL и тексты. Список URL отдаётся на сервер, управляющий краулером. Дальше ссылки могут просто складываться в базу для сервера-краулера, а могут складываться лишь те, которых в базе ещё нет. Зависит от реализации. Далее сервер-парсер берёт ещё не обойдённые URL и скачивает страницы с них, складывая на сервер-парсер. И так далее.
- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)
Для поиска - своя база данных. Для URL - можно MySQL или обычные текстовые файлы.
- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи
Для этого есть отдельный сервер, который строит индекс по всем словам в текстах (сервер-индексатор). По этому-то индексу и происходит поиск на сервере-поисковике.
Прежде всего интересует сама методика ссылочного ранжирования, не в смысле определения авторитетности ресурса, а в смысле логического и физического представления модели связей между интернет-ресусами(то есть что на что ссылается). Самое простое логическое представление, которое приходит в голову это обычная матрица.
Второй вариант это хранение в базе пар отрезков с идентификаторами страниц "кто ссылается" - "на кого ссылается". По этим парам уже можно считать и число ссылок со страницы и число ссылок на страницу. Все пары можно держать в памяти. Иногда в памяти десятков серверов - по 250 млн. пар на сервер. Для 4 млрд. страниц это всего около тысячи серверов. Либо держать данные на быстрых жёстких дисках, но скорость будет значительно более медленной.