Создание поисковика, теория

12
А
На сайте с 17.02.2004
Offline
2
#11
Как писал Scaramush

....будет вполне достаточно ... Скажем, десяток-полтора двухпроцессорных "компаков" + 72-ую "сиську" на входе...

Интересные, обнадёживающие цифры... Хочется уточнить: этого будет достаточно... -- для чего, собственно? На ответы? или на индексирование? или на ботик, обходящий www раз в месяц? или на линки? или на ежечасное обновление самого-самого? или на поиск дубли, spamer'ов и иже с ними же? или -- неужто? --на всё сразу?

(разработку / отладку / улучшение, разумеется, делают чуваки из OpenSoure, долгими бессонными одинокими ночами таращась в свои только что купленные пол-дюймовые мониторы).

Вопрос ещё -- сколько ответов в секунду "это" будет давать, и сколько времени будет уходить на каждый ответ.

Как писал Vyacheslav Tikhonov

Не думаю. Скорее дело в отсутствии какой-либо маркетинговой политики с их стороны - с одними технологиями, даже революционными, ничего не добъешься.

Т.е. им нехватило только бабок и "маркетинговой политики", а идей гениальных было пруд пруди? Интересно, каких. Хоть одна, не самая ценная?.. Были ли какие-ниб. статьи, пресс-релизы? (Я просто, извините, до сегодняшнего дня не слышал про такие системы, попробовал - ужаснулся).

Как писал Vyacheslav Tikhonov
Теорию изучил. Идея новизны есть? :D

Да... Тема "идея новизны":D хороша🤣D🤣, и уже длится пол-года (интересно, много ли здесь таких тем?). Хотя заметно флуктуирует:о). Начали за здравие (т.е. как всё фигово и как всё резко улучшить - "взять всё, да и поделить", а кончили за матрицу всего ко всему).

Мне кажется, проблема надуманная, задачу отношения всего ко всему не надо ставить даже в принципе: жизнь-то идёт, www увеличивается в год на 20%. А вот найти сотню семантически (пардон за выражение) связных документов, -- например, ну хоть сто первых (по современным алгоритмам) результатов по такому-то запросу, -- и среди них уже строить любые матрицы и сжимать их всеми придуманными способами - вроде как имеет смысл. (Вот здесь есть некоторые подробности того, что кто-то потихоньку делает).

_____

А насчёт собственно "Идеи! Новизны!": как вам такое:

Улучшить ЛЮБОЙ отдельный конкретный запрос -- так, что никаким Googl'ам не снилось, -- может практически каждый. Поэтому нужно нанять 100,000,000 граждан, измученных нарзаном и находящихся на грани изнеможения от протёртого места в жизни, и поручить каждому по одному запросу в день. Чем вам не OpenSource?

Как писал BUFO
Может кому будет интересно - человек написал Punto.ru, первый опыт, имхо, был наверно не самым удачным, но сейчас готовится к выходу другой эксперимент и вы можете обсудить его здесь

Обсудить хотелось бы, но:

1) Почему-то через https...:::-о))? причём сертификат негодный ... 🙄 Вы именно **это** предлагаете обсудить?

(Закройте глаза и представьте себе ну хоть Google, работающий через ssl);

2) НОВАЯ ПОИСКОВАЯ СИСТЕМА на любой запрос выдаёт правильный ответ: "An error occured! Can not connect to search daemon",

3) и при этом она powered by ASPseek.

😆

Что ж вы ботик потопили...
BUFO
На сайте с 15.06.2003
Offline
224
#12
1) Почему-то через https...:::-о))? причём сертификат негодный ... Вы именно **это** предлагаете обсудить?

Форум несовершенен, это правда :) Я уже сказал это разработчику...

Я не программист и врядли смогу разговаривать с вами на одном языке, но то, что этот форум ведет человек который пишет поисковик - эт правда. Я только это имел ввиду ;)

[Удален]
#13
Как писал BUFO

Форум несовершенен, это правда :)

Угу. Кроме того, я уже третий день дожидаюсь активации, как юзверь форума... Там, наверное, пользователи не нужны?

[Удален]
#14
Как писал Антиоптимизатор

Интересные, обнадёживающие цифры... Хочется уточнить: этого будет достаточно... -- для чего, собственно?

Для всего.

VT
На сайте с 27.01.2001
Offline
130
#15
Т.е. им нехватило только бабок и "маркетинговой политики", а идей гениальных было пруд пруди? Интересно, каких. Хоть одна, не самая ценная?.. Были ли какие-ниб. статьи, пресс-релизы? (Я просто, извините, до сегодняшнего дня не слышал про такие системы, попробовал - ужаснулся).

Статьи и идеи были, причем даже достаточно не плохие. Дело не в этом. Как я уже говорил, побеждает не технологии, а бизнес-процессы, которые их продвигают. Большинство революционных технологий умирают, не получив никакой поддержки.

Мне кажется, проблема надуманная, задачу отношения всего ко всему не надо ставить даже в принципе

Это простые слова. Где аргументы?

Я что-то не видел, чтобы идею о отношениях объектов кто-то опроверг или раскритиковал. Единственное замечание было - а вы пробовали? :)

А вот найти сотню семантически (пардон за выражение) связных документов, -- например, ну хоть сто первых (по современным алгоритмам) результатов по такому-то запросу, -- и среди них уже строить любые матрицы и сжимать их всеми придуманными способами - вроде как имеет смысл.

И что? Речь там вроде как идет о LSI, методе, который используется с начала 80-х годов. Или это и есть "новизна"?

А
На сайте с 17.02.2004
Offline
2
#16
Как писал Vyacheslav Tikhonov
Статьи и идеи были, причем даже достаточно не плохие.

К сожалению, похоже, что именно "были" неплохие. Выдаётся 404 (как и с корневой).

Как писал Vyacheslav Tikhonov

Как я уже говорил, побеждает не технологии, а бизнес-процессы, которые их продвигают. Большинство революционных технологий умирают, не получив никакой поддержки.

На тему "что побеждает" и "что умирает" не хочу даже начинать говорить.........

Не понятно только, почему все здесь так увлечены Googl'ом (с идеей PR, которую, кстати, придумали тоже многие, просто названия разные были), и почему создают свои SE, если верят в эту догму "умирания б/поддержки".

Как писал Vyacheslav Tikhonov
Это простые слова. Где аргументы?
Я что-то не видел, чтобы идею о отношениях объектов кто-то опроверг или раскритиковал.

Хотел бы уточнить: я делал упор на отношение "всего ко всему". Кажется, даже подчеркнул в двух словах, почему это непрактично (и ==> бесперспективно):

1) "всё" непрерывно растёт;

2) никаких машинных ресурсов не хватит;

3) сигнал слабый, много шума, всё равно надо сжимать и сжимать;

4) это никакой практической проблемы не решает и никому (==>) не нужно.

Попробуйте пронспонсировать нечто, что, возможно, даст эффект лет через 100 (а может, и не даст).

Как писал Vyacheslav Tikhonov
И что? Речь там вроде как идет о LSI, методе, который используется с начала 80-х годов. Или это и есть "новизна"?

Да нет, просто хотел узнать, знакомы ли Вы. Один из примеров того, что конкретно люди пытаются делать. Что там 80-е: кто-то писал здесь и про Аристотеля. Но речь не о том, в каком году изобрели велосипед, а в том, как используют сейчас особые шины, эксперементируют с маслом, затачивают форму руля... Пока колучается, что анализ ссылок (если их достьаточно много) даёт гораздо лучшие результаты, чем семантические разборы, nlp и иже с ними.

____

(А про новизну я пытался чуть написать в другом месте. Хотя и новизна: пусть уж начилась бы с текущих проблем, которых --немеряно: собрать все документы, выбросить зеркала и дубликаты -- уже как-то легче).

VT
На сайте с 27.01.2001
Offline
130
#17
Не понятно только, почему все здесь так увлечены Googl'ом (с идеей PR, которую, кстати, придумали тоже многие, просто названия разные были), и почему создают свои SE, если верят в эту догму "умирания б/поддержки".

Обычно создают новые информационные системы чисто из научного интереса. Лично мне, например, это просто, если можно так сказать, по приколу :) Если потом в них кто-то захочет вложить деньги - так это вообще здорово.

Думаю, что с Google получилось примерно так же.

Да нет, просто хотел узнать, знакомы ли Вы. Один из примеров того, что конкретно люди пытаются делать.

Ага, а в Ксероксе на днях вообще изобрели исскуственный интеллект! :D

А про новизну я пытался чуть написать в другом месте. Хотя и новизна: пусть уж начилась бы с текущих проблем, которых --немеряно: собрать все документы, выбросить зеркала и дубликаты -- уже как-то легче

Не самый лучший вариант, особенно, если учесть, что у конкурентов все дубли находиться будут :) Пользователи будут думать, что поисковая база такого поисковика меньше, и уходить к ним. Они же первым делом смотрят, сколько страниц найдено, а не оценивают качество поиска. При этом вторую страницу результатов поиска никто тоже не смотрит.

А
На сайте с 17.02.2004
Offline
2
#18
Как писал Vyacheslav Tikhonov
Не самый лучший вариант, особенно, если учесть, что у конкурентов все дубли находиться будут :) Пользователи будут думать, что поисковая база такого поисковика меньше, и уходить к ним.

Количество (т.е. некая цифра, ни о чём не говорящая - ведь больше 1000 всё равно результатов никто не получит) сейчас ещё пока играет огромную роль для многих людей при выборе. Тем не менее -- это одна из базовых проблем, я просто неточно выразился, каюсь. Вместо "выбросить" зеркала и дубликаты надо было сказать "уметь находить", достаточно точно и с наименьшими затратами (т.е. желательно без захода робота и постраничного сравнения). А что потом с этим делать -- собирать или выкидывать... дело двадцатое, от маркета зависит, и от того, резиновый ли у вас индекс, чтобы хранить и пропесочивать всякий ненужный хлам.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий