Cоздание городского поисковика

12
S
На сайте с 11.01.2012
Offline
0
4554

Есть идея сделать городской поисковик ,

индексирующий только живые городские сайты и товары.

Поиск работает по всем объявлениям на сайтах и в печатных изданиях (купля, продажа, аренда, обмен и т.п.) в реальном времени

Наработки и линию уже можно посмотреть на http://danvit.net/index.html http://sevpoisk.com/ (постоянно дотачиваем)

Покритикуйте и может посоветуйте что полезное

A1
На сайте с 11.01.2012
Offline
16
#1

Идея интересная только действительно ли так много севастопольских сайтов чтоб по ним поисковик делать ?

Я бы кстати отдельно добавил поиск по новостям.

S
На сайте с 29.01.2006
Offline
404
#2

Выглядит (надеюсь, пока) как поделка развлекающихся программистов. Обычным людям там делать нечего.

Sterh
На сайте с 15.06.2006
Offline
226
#3

http://sevpoisk.com/search?q=%D1%80%D0%B5%D0%BD%D0%BE&szMarket=1&pgCnt=25

24 позиция как затесалась?

ЗЫ: логотип интересный :)

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.
malquem
На сайте с 14.06.2011
Offline
133
#4

Что скажете насчет этого?

Причем тут "кондиционер HYUNDAI HSI/HUI 09H99X инвертор"?

Все люди - братья, но не все братья - люди.
S
На сайте с 29.01.2006
Offline
404
#5

malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.

malquem
На сайте с 14.06.2011
Offline
133
#6
Scaryer:
malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.

Но по запросу это не то что я ищу верно?

[Удален]
#7

Придать больший вес словам в title и в h1 и h2.

Ну и это TF-IDF юзайте. Проверенно. :)

На чем пишите?

S
На сайте с 13.01.2012
Offline
0
#8

Здравствуйте. Я - один из разработчиков этого безобразия. С Вашего позволения, прокомментирую:

Agent12:
Идея интересная только действительно ли так много севастопольских сайтов чтоб по ним поисковик делать ?
Я бы кстати отдельно добавил поиск по новостям.

В Севастополе (имеют отношение к Севастополю) не менее 4000 сайтов Мы в ходе тестов индексируем порядка 2000. Это - около 2 млн. страниц, за полтора года насобиралось порядка 500 тыс. частных объявлений. Скачанные странички храним в сжатом виде в базе. База с индексами и проч. "весит" около 200 GB. Над тематическим поиском работаем. Вероятнее всего, будет поиск по каким-то таким разделам, как новости, городская администрация, политика, образование, здоровье, развлечения... ну и т.п.

Scaryer:
Выглядит (надеюсь, пока) как поделка развлекающихся программистов. Обычным людям там делать нечего.

Мы - системные программисты, не умеем делать сайты, увы. В ближайшем будущем рассчитываем исправиться. А что, на Ваш взгляд, могло бы быть полезно для обычных людей? Ну, понятно, чтобы релевантно искало, быстро искало... Это - сделаем. А ещё? Спасибо.

Sterh:
http://sevpoisk.com/search?q=%D1%80%D0%B5%D0%BD%D0%BE&szMarket=1&pgCnt=25

24 позиция как затесалась?
ЗЫ: логотип интересный :)

А там в 24 позиции Жан Рено представлен ;-) А вот почему сниппет некорректно отработался - это баг, спасибо, отработаем.

malquem:
Что скажете насчет этого?
Причем тут "кондиционер HYUNDAI HSI/HUI 09H99X инвертор"?
Scaryer:
malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.
malquem:
Но по запросу это не то что я ищу верно?

Да, транслитерация используется при поиске (и индексировании). Это сильно плохо? Гугл и Яша, например, на запрос "Nokia" находят и Нокиа...

Что же качается именно Вашего запроса - ну, как-то не попадалось нам, значит, сайтов в индексе с ТАКИМИ словами... Хотя, может, где-то и фильтр на подобную лексику - вроде, делали, посмотрим.

SeoProff:
Придать больший вес словам в title и в h1 и h2.

Ну и это TF-IDF юзайте. Проверенно. :)

На чем пишите?

У нас пока как-то всё иначе... Мы ищем самый релевантный сайт, а с него - выдаём ссылку на самый релевантный документ. Релевантность считаем - по-простому ;-) : отношение кол-ва вхождений к общему количеству слов... Криво, что-то будем думать...

База - Oracle, пишем исключительно в его средствах: PL/SQL, Java. Под Oracle нам писать было удобнее, когда начинали. При необходимости в перспективе переедем на PostgreSQL или там на MySQL - это вполне реально.

S
На сайте с 13.01.2012
Offline
0
#9

Здравствуйте. Я - один из разработчиков этого "поисковика" ;-). Прокомментирую, если позволите:

Agent12:
Идея интересная только действительно ли так много севастопольских сайтов чтоб по ним поисковик делать ?
Я бы кстати отдельно добавил поиск по новостям.

В Севастополе не менее 4000 сайтов, примерно 2000 мы индексируем в тестово-отладочном режиме. Это около 2 млн. страниц. Ещё насобиралось за полтора года около 500 тыс. частных объявлений. Весь скачаный контент мы сохраняем. Полный размер базы - около 200 GB.

Тематический поиск - в разработке.

Scaryer:
Выглядит (надеюсь, пока) как поделка развлекающихся программистов. Обычным людям там делать нечего.

Порекомендуйте, пожалуйста, что нужно, на Ваш взгляд, сделать, чтобы там было, что делать обычным людям? Мы понимаем, что нужно работать над качеством и скоростью поиска, а ещё?

Sterh:
http://sevpoisk.com/search?q=%D1%80%D0%B5%D0%BD%D0%BE&szMarket=1&pgCnt=25

24 позиция как затесалась?
ЗЫ: логотип интересный :)

А там потому что был Жан Рено ;-) Но сниппет сформировался некорректно, это - баг, исправим.

Scaryer:
malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.

Да, транслитерация. И в запросах, и в индексе. Это - плохо?

SeoProff:
Придать больший вес словам в title и в h1 и h2.

Ну и это TF-IDF юзайте. Проверенно. :)

На чем пишите?

База - Oracle. Всё написано в Oracle на PL/SQL и Java. В перспективе, если возникнет необходимость, перепишем на Postgree или MySQL.

С релевантностью - у нас пока всё по-простому: находим наиболее релевантные сайты и возвращаем с них наиболее релевантные документы. Надо что-то думать с этим, но пока - так. Много времени ушло на повышение качества краулинга и индексирования - очень мешало всякое SEO. Как-то победили эту проблему - сейчас занимаемся качеством поиска.

Sterh
На сайте с 15.06.2006
Offline
226
#10
Scheglov:

А там в 24 позиции Жан Рено представлен ;-) А вот почему сниппет некорректно отработался - это баг, спасибо, отработаем.

Странно .. специально перешел на страничку и поискал поиском в браузере - не нашлось ничего, посему и отписал.

И вот рекомендую: Введение в информационный поиск - оч много полезного можете для себя найти.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий