Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

26 апреля 2005, 11:36

Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...
Какие есть мысли?

Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.

стоимость разработки пойсковой системы

26 апреля 2005, 08:21

Это будет стоить от 300 до 1000 тыс уе и затянется года на два
(опять же энтузиазм/знания) .

Как всегда можно все суммы помножить на два.

Это при наличии наработок и знаний. Вообще-то я знал команды, которым удавалось сделать более-менее приличный поисковик, но дальше этого дело обычно не заходило и все быстро валилось. :(

Борьба с сессиями

22 апреля 2005, 09:01

Какое отношение тема имеет к поисковым технологиям? Переношу топик.

Тематическая кластеризация документов

30 марта 2005, 11:21

Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

Запустили новую версию Новотеки.

Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.

Надо же, Рамблер купил Бегун!

25 марта 2005, 09:49

Вот предположите, что есть у нас аналог AdSense и мы его вешаем на сайт. И на этом сайте публикуется обзор нового модного крутого телефона. Так вот, в Рунете, как видно, нет и четырех релевантных объявлений под такую тему. Что будем показывать?

Определенно, для коммерческих сайтов вроде интернет-магазинов имеет смысл ставить аналог adSense и на свои страницы, и на страницы сайта, где они хотят рекламироваться. Тогда на странице новости о модном крутом телефоне контекст будет подбирать что-нибудь релевантное.

Порекомендуйте поисковый движок

23 марта 2005, 11:38

Т.е. подозреваю, что производительность и функциональность у нах одинаковая или почти одинвковая.

Вы все правильно поняли. Это же исходники одного и того же проекта, распространяемого под лицензией GNU.

Поиск по форуму

22 марта 2005, 21:47

Пока нет времени, чтобы все наладить и обновить. Позже.

Search engines with key/value db

3 марта 2005, 20:46

Я не хочу вступать с вами в никакие разборки, если вас действительно интересует именно этот вопрос - воспользуйтесь поиском по форуму, - в тех местах, где я счёл нужным сделать, а вас поправил.

Я прекрасно помню (и без моего поиска, который установлен на этом сайте) все, о чем я здесь говорил, и что-то не припомню, чтобы кто-то аргументированно доказал обратное.

вы сами признались, что последний раз смотрели на mnogosearch пару-тройку лет назад, - это уже значительно устаревшая информация, именно не соответсвующая действительности...

В исходный код - да, однако неоднократно имел возможность оценивать результаты и качество их работы.

И если вы полагаете, что СУБД в этих поисковиках за это время стали работать быстрее, или же разработчики изобрели какие-то невероятные алгоритмы, то вы глубоко заблуждаетесь.

Или же докажите обратное.

Google, MSN, Yandex news cluster

3 марта 2005, 20:13

Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.

Search engines with key/value db

3 марта 2005, 20:07

Вячеслав, Вы, наверное, хотели сказать "поисковиков на СУБД общего назначения, в частности SQL БД"?

Я имел в виду поисковик на SQL базе, конечно.

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Google: E-E-A-T не является фактором ранжирования

Vyacheslav Tikhonov