goover

Рейтинг
10
Регистрация
26.09.2005

на самом деле распознавание адресов, телефонов и zip кодов - очень сложная и нетривиальная задача.... но это не означает что она не решаемая.

а кому то просто очень хочется со всем поспорить....

а между тем. еще в 2003 году гугл запустил местный поиск на основе разработки Эгнора Даниэля, который как раз заиндексировал адреса и zip коды на страницах в дополнение к базе TIGER... создал географический индекс, который позволяет делать множество операций

точность и возможности??? вы ее можете оценить на local.google.com....

кстати 2 последних сообщения написаны одновременно..... и по смыслу идентичны....

давайте оставим вопросы поискового спама применительно к географическому поиску в стороне..... равно как это делалось при развитии традиционных систем.

поэтому я согласен с Silentом ....

ну вот какой смысл организации писать себе левый адрес на веб-странице, я не понимаю......

и вообще мне кажется - в случае с географическим поиском - любой клоакинг, дорвеи и прочая шняга приведут только к потере ЦЕЛЕВОГО трафика....

> в том и дело, что территориально сайт болельщиков киевского динамо принадлежит не к киеву вовсе, а к болельщикам - и не территориально.

как раз таки наоборот, сайт принадлежит именно к киеву, поскольку тематика его - киевский футбольный клуб. А болельщики - это всего лишь основные посетители сайта, которые большей частью как правило (научно обосновано) географически располагаются вблизи (в некой мере) киева или украины. Просто из исследований большинство пользователей ходят на сайты близкой (в географическом смысле) тематики намного чаще... Статистика вещь упрямая.

2lagif

.s. аспирант - к сожалению (а может, к счастью...) статус на форуме. зависит от количества постов...

да, я уже догадался об этом, спасибо за подтверждение! :)

2Artisan

да, насчет TIGER вы абсолютно правы... но а как насчет Whois database. Я не знаком точно с ее данными, но разве когда регирятся наши сайты они не указывают хотя бы примерное местоположение?

кстати насчет отдаленной регистрации хоста - действительно один из методов ранжирования в GIR - пессемизация хоста, зарегистрированного на более отдаленный регион, от того, который был указан в запросе...

поэтому владельцам сайта просто невыгодно регириться вдали скажем так.

А насчет нескольких адресов на страницах - то тоже есть методы..

Например система GIPSY строит некую трехмерную модель сайта, где каждой странице ставится в соответствие башенка определенной высоты, которая "растет" из определенного участка местности. В итоге, строя такие башенки для всех страниц сайта, получаем некую гористую местность, и там, где выше всего уровень рельефа - там наиболее релевантные для запроса материалы...

2лагиф:

> Взять, к примеру, тот же "сайт болельщиков киевского динамо". Болельщик может жить в Караганде, а "динамо" было и останется киевским. Название "Киев" присутствует, но значения никакого совершенно не имеет. И болельщиков у него толпы по всей Украине.

причем тут болельщики я не пойму, если территориально сайт принадлежит тематике, связанной с киевом.... Сайт не о болельщиках, а о киевском футбольном клубе. В традиционнном поиске чтобы в ответ на твой запрос вернулся релевантный сайт, необходимо чтобы слова запроса встречались в тексте (или в ссылках на данную страницу при ссылочном ранжировании). Но сайт тематически может относиться к территории, но не упоминать на своих страницах географические топомимы, ее идентифицирующие.

> Да и скептицизм я испытываю больше не к самой идее в целом - а к нынешним методам, которые, думается мне, часто таки промахиваются.

методы постоянно развиваются, на то и есть наука....

> А вообще - послушай здешних умельцев-оптимизаторов. Они тебе расскажут, как продвигаются сайты. Ты на поисковики еще и не так скептически смотреть будешь...

задачи оптимизации и поискового спама (применительно к GIR) я пока здесь опускаю.... это второй вопрос.... А вообще я сам занимаюсь оптимизацией и прекрасно представляю все нюансы... это к слову.

2AlexA

ты не подскажешь подробнее про эти организации/группы?

PS

приятно что отвечают аспиранты, я думаю эта тема интересна. Сам аспирант 2го года.... ужасно хочу найти коллегу в этой теме. Тема просто супердиссертабельна, отечественных публикаций на тему по крайней мере можно пересчитать по пальцам...

хм... интересная позиция.

Допустим ты продвигаешь страницу про кондиционеры (излюбленный пример) ... ты что там кондиционеры просто так пишешь, случайно?

по твоей теории все поисковики вызывают у тебя здоровый или не очень скептицизм, поскольку непосредственно анализируют контент, заголовки и пр....

не комментирую...

географическая поисковая система естественно оперирует с тем что есть - извлекает из веб-страниц географические названия, адреcа, почтовые коды, телефоны и пр.... и на основании этих данных производит геокодирование страницы (привязку к конкретным координатам). То есть она помимо основного индекса содержит еще и индекс на основании координатной сетки (широта, долгота). Впоследствии можно искать вхождения веб-страниц в заданную область, скажем в радиусе 10 км от указанного местоположения.

Тем самым можно находить любые информационные объекты, соответствующие которым веб страницы содержатся внутри указанного региона.

PS

я вынужден почему то объяснять актуальность того, что вобщем то не подлежит сомнению, и примеры внедрения местного поиска крупнейшими поисковиками это подтвержает....

меня больше интересует отечественные разработки, исследования, статьи в этой области..... кто нибудь чтото делает, или исследует?

клуб болельщиков киевского "динамо"

в этой фразе явно указан географический признак - "киевского".... Следовательно если человек ищет футбольные фанклубы на территории Украины.... то данный сайт должен быть релевантен запросу, согласно релевантности негеографической и географической части запроса.

В том и дело, что для GIR расположение сервера несет мало информации (хотя может использоваться как дополнительный индикатор), анализируется прежде всего контент.

Например local.google.com индексирует на веб-страницах географические названия, почтовые адреса, а затем формирует на их основании привязку страницы к некоторым географическим координатам.

Пользователь в дополнение к обычному запросу, может оперировать как указанием некого топонима для ограничения поиска (например, Украина), или на карте мира обозначить мышкой нужный регион (например, некую географическую область на украине). Далее поиск информации будет произведен согласно

1) обычному текстовому запросу

2) совпадении географического контекста запроса и географического контекста веб-страницы.

это не географический поиск... это просто фильтрация по региону. Например в яндексе ты когда сайт в каталог добавляешь, ты указываешь регион. Я так подозреваю что он просто фильтрует по этому полю.

Для тех сайтов, которые не описаны в каталоге - скорее всего они используют локализацию сервака по IP, но в целом это не GIR. То есть грубо говоря сервак может стоять в штатах, но вся информация о нем может относиться например к городу Владимиру в Росии.

ну вот например описание local.google.com (замечу еще 3х летней давности!)

http://www.webplanet.ru/news/lenta/2002/6/4/1006.html

Всего: 50