Пишу свой поисковик. Куча вопросов.

123 4
D
На сайте с 18.12.2015
Offline
147
#11
miltorg:
Всё правильно. именно про это я и спрашиваю.

про список доменов:
Я думал, что натравлю на скрипт пару сайтов - они дадут внешние ссылки и их будет становиться всё больше и больше. Но так не произошло. На уровне 400 ссылок - ссылки практически перестали рости.

Но сейчас я просто беру домены из словаря. - От сюда появился скрипт на проверку домена.
Нашёл кучу свободных доменов-слов.

Необходимый минимум:

1) одна хэш-таблица

2) одна очередь

Сканируете сайт, и ищите все ссылки, для этого парсите DOM. Все ссылки (относительные и абсолютные) приводите к одному виду

[protocol][host][path][query][fragment]

вот так:

https://

searchengines.guru

/showthread.php

?p=15258626

#post15258626

После этого все ссылки нужно добавить в очередь. Очередь, кстати, желательно ограничить по длине (на 1024 элемента к примеру) так как смысла от слишком большой очереди нет. Каждый раз при обнаружении ссылки топаем в хэш-таблицу и смотрим, есть ли такой ключ, и каково его значение (может быть false или error если вдруг сайт не ответил). Если ключа нету или значение false, значит добавляем в очередь на посещение. Если ключ есть, и его значение true, тогда выбрасываем данную ссылку так как мы уже ходили по ней.

Как-то так. Это без индексирования текста и базы входящих исходящих ссылок.

Разработка и поддержка высоконагруженных проектов.
[Удален]
#12

danforth, а на Друпал есть готовое решение?

M
На сайте с 04.03.2017
Offline
34
#13
miltorg:
1. Где взять список доменов в свободном доступе?

парсим базу сайтов с яндекс каталога, там больше 30 тысяч сайтов

+ сайты по идеи должны быть адекватными, без тысяч гс

+ этого объема хватит на понимание, что ничего не выйдет и успешно забить на эту глупую затею ☝

100 USD на счет в DigitalOcean (http://clc.to/do100usd) при регистрации по этой ссылке
Had
На сайте с 01.04.2014
Offline
504
Had
#14
miltorg:
Парсить Хуи

Да вы батенька шалун. :))))

---------- Добавлено 21.09.2017 в 20:35 ----------

Кто нибудь покажите Милторгу сегодняшнюю дату, а то он походу думает, что сейчас весна 98 года.

█ ННП █ Самый надёжный и недорогой хостинг в России - https://clck.ru/MDrmD
Olisher
На сайте с 22.11.2006
Offline
333
#15

Предлагаю начать с каталога сайтов

[Удален]
#16
Olisher:
Предлагаю начать с каталога сайтов

Я сейчас это и делаю. Каталог доменов. Беру слова из словаря. Прогоняю через проверку.

Нашёл кучу привлекательных однословных доменов. Что с ними делать - пока не понятно.

---------- Добавлено 22.09.2017 в 14:21 ----------

Ну и попутно формеруется список существующих доменов - и что с ним делать - тоже пока не ясно.

---------- Добавлено 22.09.2017 в 14:25 ----------

Тут мне дали список сайтов и предложили парсить его - добывать емейл. А публикование списка емэйл - это законно?

Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1175
#17

В преддверии алковыходных хочу довести до "мастеров художественного глума", что здесь не Курилка, и, если они этого еще не поняли в упоении стадного инстинкта преследования изгоя, то теперь за флуд они начнут получать реальные штрафы.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Arsh
На сайте с 21.03.2007
Offline
199
#18

wolf, а софт, проверяющий словарь по "who is"-сервисам - точно "поисковик"?

zexis
На сайте с 09.08.2005
Offline
358
#19

Miltorg, ты молодец, что поисковик делаешь.

Удобный поисковик нужен всем.

Раблер не смог конкуренцию яндексу сделать.

У тебя же получится!!!!

Расскажи подробнее как он будет работать.

В какой базе данных будет хранить информацию?

Структуру базы данных уже разработал?

Покажи схему базы данных.

porh
На сайте с 14.06.2006
Offline
143
#20

miltorg, Обычный поисковик всякий может сделать. Сделай поисковик по исходному коду, типа Publicwww.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий