Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 25.06.2019, 20:29   #41
foriton
Студент
 
Регистрация: 07.06.2019
Сообщений: 18
Репутация: 10

ТопикСтартер Re: Поисковая система на своем сервере. Кому интересно?

Цитата:
Сообщение от _SP_ Посмотреть сообщение
Вызывает удивление, что удается запустить так мало спайдеров. Сама загрузка документов на php возможна в любое количество потоков (уж 100-то точно работает без проблем), странно что столько времени на разборку требуется, что сервер за 500$ справляется только с 4*3 потоками.
Запустить можно и 1000 пауков. Проблемы нет, открыть сколь угодно большое ко-во сокетов и одновременно загрузить 1000 интернет страниц. Необходимы вычислительные ресурсы и оперативная память для очистки страницы от html-тегов и последующей обработке чистого текста:

1. получить урлы других страниц и проверить парсились они ранние или нет
2. получить анкоры (они будут потом влиять на ранжирование страниц)
3. определить язык страницы
4. определить, уникален ли текст на этой странице


можно долго перечислять, что нужно сделать, прежде чем приступить к обработке следующей интернет страницы. Поэтому ко-во пауков ограничено ядрами и оперативной памятью.


Цитата:
Сообщение от _SP_ Посмотреть сообщение
В целом: не дай бог такие проекты получат популярность...
Почему Вы боитесь популярности подобного рода проектов?
Если это произойдет, то снизится популярность поисковых систем.

Если современные гиганты поиска в интернете утратят свою актуальность то:

не нужно будет генерировать тонны ненужного текста для того, что бы оставить там ссылку на свой сайт.

не нужно будет плодить 1000 псевдо сайтов ради одного крупного проекта.

взлом сайтов станет бессмысленным занятием.

Освободившиеся ресурсы, в виде человеко-часов вебмастеров и машино-часов серверов, пойдут на создание маленьких тематических поисковиков с ручной модерацией сайтов.

Цитата:
Сообщение от _SP_ Посмотреть сообщение
Впрочем большинство моих проектов таким "паукам" очень быстро начнут 503 отдавать.
Для этого есть юзерагенты и прокси. Невозможно определить, кто подключился, паук или firefox.
foriton вне форума   Ответить с цитированием

Реклама
Старый 25.06.2019, 20:45   #42
Solmyr
Академик
 
Аватар для Solmyr
 
Регистрация: 10.09.2007
Сообщений: 5,585
Репутация: 644093

По умолчанию Re: Поисковая система на своем сервере. Кому интересно?

И все-таки не понятно зачем нужна искалка по сайтам. А для искалки по своей базе данных есть например сфинкс.
Solmyr вне форума   Ответить с цитированием
Старый 25.06.2019, 21:14   #43
Sitealert
Слесарь-сайтосборщик
 
Регистрация: 30.09.2016
Адрес: Замкадье
Сообщений: 4,750
Репутация: 332592

По умолчанию Re: Поисковая система на своем сервере. Кому интересно?

Цитата:
Сообщение от foriton Посмотреть сообщение
Если это произойдет, то снизится популярность поисковых систем.
Если современные гиганты поиска в интернете утратят свою актуальность то:
Довольно странное заявление, с учётом того, что если назначение обычных поисковых систем вполне понятно, то ценность данного "поисковика" для обычного интернет-пользователя вообще нулевая. Лично я пока вообще не понял, кому это надо, каким-то узким специалистам, по-видимому. Тема точно "милторговская".
__________________
Отпилю лишнее, прикручу нужное, выправлю кривое.
Вытравлю вредителей.
Sitealert вне форума   Ответить с цитированием
Старый 25.06.2019, 21:57   #44
muskuls
Дипломник
 
Регистрация: 03.11.2017
Сообщений: 55
Репутация: -25107

По умолчанию Re: Поисковая система на своем сервере. Кому интересно?

Смысл тоже не вижу, можно гугл и Яндекс поиск использовать как и этот для поиска только по определённым сайтам, хоть 3 хоть 100 сайтов выбирай и там ищи.
muskuls вне форума   Ответить с цитированием
Ответ



Опции темы

Быстрый переход


Регистрация Справка Календарь Поддержка Все разделы прочитаны