Создание поисковика, теория

12
HS
На сайте с 27.02.2004
Offline
29
1395

В рамках кандидатской диссертации занимаюсь созданием поисковика. Теорию изучил. Сейчас главная задача - это понять, какие существуют пути развития современных систем и теорий. Что есть смысл совершенствовать.

Судя по беглому ознакомлению с форумом, тут собираются преимущественно оптимизаторы. Но все же тематики близкие хотя бы. Не подскажете, есть ли в Рунете места, где преобладает тематика именно работы над механизмами поиска? Интересует академический уклон в посике.

Хочется поообщаться с живыми людьми, занимающимися данной проблемой, информации из библиотек явно недостаточно для выбора направления исследования.

euhenio
На сайте с 21.09.2001
Offline
357
#1

Как что совершенствовать? ... Релевантность выдачи, конечно же!

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
G
На сайте с 26.11.2003
Offline
93
#2

у нас тут раздел есть Поисковые технологии. Посмотрите там.

Много интересного, и там часто бывают люди из русских поисковиков(Yandex ,Rambler)

Кузьменков Андрей
BUFO
На сайте с 15.06.2003
Offline
224
#3

euhenio, что-то тебя не видно на форуме у Кости, может тебе это не интересно:)

dimok
На сайте с 08.11.2002
Offline
291
#4

HeavenSeven,

- релевантность

- эффективность вычисления того PR, обработки и хранения данных и т.п.

- методы автоматической идентификации 1) дублей, 2) спама

- способы подачи найденной информации (почему обязательно списком ссылок? - есть кластерные поисковики, наверняка, есть и другие способы донесения результатов), исследование потребность пользователя в данной области

и т.д.

По-моему, за что не возьмись, везде есть над чем работать.

CLICKBAZA: есть траф - будут и деньги (https://clickbaza.com/)
А
На сайте с 17.02.2004
Offline
2
#5
Как писал HeavenSeven
В рамках кандидатской диссертации занимаюсь созданием поисковика.

У меня единственный вопрос: о чём диссертация?

((И как насчёт наоборот ("в рамках создания поисковика написать несколько сот кандидатских диссертаций")?))

Как писал HeavenSeven
Теорию изучил.

Напишите книгу - зачем диссертацию?

Как писал HeavenSeven
Сейчас главная задача - это понять, какие существуют пути развития современных систем и теорий. Что есть смысл совершенствовать.

Это могло бы послужить темой блестящей кандидатской, да и на докторскую вполне бы потянуло. Всё только начинается.

Как писал HeavenSeven
Интересует академический уклон в посике.

"академический уклон" -- это когда Вы пишете не коммерческую, а университетскую SE. При этом надо отдавать себе отчёт, что разница в поисковике, постороенном на 10 миллионах страниц, и в таком же точно -- на нескольких миллиардах, - принципиальна).

Самому писать поисковик... гм. Что ж, одному чуваку это в каком-то смысле удалось (http://www.gigablast.com), да и Брин с Пейджем начинали в гараже. Но если Вы сегодня хотите написать что-то хоть отдалённо сравнимое с современными SE, Вам надобно будет одного железа накупить на десятки миллионов $$. А иного способа "узнать" "пути развития современных систем и теорий", наверное, увы, нет. Разве что догадаться.

Но возможно, под "академический уклон" подошло бы решение какой-нибудь чуть более частной задачи?

Как писал dimok
- релевантность, PR, дубли, спам,

SEOs:-)... -- всё это оч. интересно, хотя этим занимаются уже тысячи людей во всём мире, и у них больше информации / инструментов и т.д. К тому же, каждая из этих тем тоже тянет на десятки диссертаций. К этому можно добавить (или разбавить), ну, например:

--- правильно и дёшево собрать не 5, а 100 миллиардов страниц (или ну хоть 10 миллиардов - как обещает dipsie)

--- индексировать любые типы документов (начиная с почты, и посмеяться заодно над микрософтом)

--- понять, что такое "релевантность", и научиться её измерять

--- по-умному агрегировать результаты (и этим забить alltheweb, vivisimo, mooter, google-labs/sets...)

--- (кстати): научиться умело отвечать на двусмысленные запросы

--- одновременно и делать бабки, и удовлетворять ищущих пользователей (и натянуть нос сами-знаете-кому)

--- искать не только текст (напр: найти название мелодии, которая звучит "примерно так"...)

--- сделать персональный поиск (windows для домохозяйки и для программиста)

--- уметь классифицировать запросы

--- (и разбивать их на связные группы/фразы)

--- учитывать специфику пользователя и контекста (язык, географию, возраст, пол, день недели, близость футбольного турнира...)

--- отвечать на вопросы (на "сколько гигабайт в киловатте?" давать не список страниц, а ответ: "столько".)

--- давать ответы не по ключевым словам, а по смыслу. Научиться понимать смысл запроса.........

--- ... (Продолжать?).

А приятнее всего было бы найти что-то эдакое, чем пока ещё никто не занимается.....:-о!).

И чтобы всем сразу стало хорошо.

Что ж вы ботик потопили...
[Удален]
#6
Как писал Антиоптимизатор
Вам надобно будет одного железа накупить на десятки миллионов $$.

150 штук енотов будет вполне достаточно для технической площадки не хуже Яндексовой... Скажем, десяток-полтора двухпроцессорных "компаков" + 72-ую "сиську" на входе...

Основные затраты - трафик, который на первоначальном этапе будет еще и с бешенным перекосом в сторону входящего.

VT
На сайте с 27.01.2001
Offline
130
#7
150 штук енотов будет вполне достаточно для технической площадки не хуже Яндексовой... Скажем, десяток-полтора двухпроцессорных "компаков" + 72-ую "сиську" на входе...

Был бы в этом смысл. Как-то не очень впечатляют примеры Punto и Черепахи.

Теорию изучил. Сейчас главная задача - это понять, какие существуют пути развития современных систем и теорий. Что есть смысл совершенствовать.

Теорию изучил. Идея новизны есть? :D

[Удален]
#8
Как писал Vyacheslav Tikhonov

Был бы в этом смысл. Как-то не очень впечатляют примеры Punto и Черепахи.

Вот это как раз примеры отсутствия нормальных тех. площадок и денег на трафик.

VT
На сайте с 27.01.2001
Offline
130
#9
Вот это как раз примеры отсутствия нормальных тех. площадок и денег на трафик.

Не думаю. Скорее дело в отсутствии какой-либо маркетинговой политики с их стороны - с одними технологиями, даже революционными, ничего не добъешься.

Яндекс же себя позиционирует как зеркало Рунета, о Google вообще молчу :)

BUFO
На сайте с 15.06.2003
Offline
224
#10

Может кому будет интересно - человек написал Punto.ru, первый опыт, имхо, был наверно не самым удачным, но сейчас готовится к выходу другой эксперимент и вы можете обсудить его здесь

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий