iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

1. Литература по поиску.

Совет - идти на Amazon и покупать книжки.

Какие мои любимые не скажу, а то прочитаете

А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.

2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.

3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.

Илья

P.S.

А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись.

<font face="Verdana" size="2">Originally posted by wolf:
Платить минимум полторы штуки баксов за возможность быстрой переиндексации страниц - это, по-моему, жирновато...</font>

Все известные мне западные искалки берут за

услугу ускоренной/повторной/регулярной (пере)индексации от 1200 до 2000 за 100 URL-ей в год.

Яндекс-Сайт - это не просто "услуга по переиндексации 400 урлов", а достаточно эффективный локальный поисковик, с поддержкой русского апача, кодировок, морфологии, SQL баз (MS и My), полностью перенастраиваемой выдачей, полностью конфигурируемым запросным интерфейсом и т.д. т.п. (себя не похвалишь, ... )

Илья

<font face="Verdana" size="2">Originally posted by Stag:
Никто не прокомментирует?</font>

Комментирую.

Я лично о таких проблемах не слышал. Особенно меня удивляет утверждение о небезопасности Я-сайта. Я-сайт стоит (только в проданном виде) на сотнях серверов (6 или 7 разных компьютерных платформ). В бесплатном - на тысячах. Ни одной жалобы на безопасность ни в одной веб-конференции или в письмах, ни в устном общении я не встречал.

Заметьте, что модуль для коннекта с яндекс.ру (webupdate) в бесплатную версию _не_ входит. Продан я-сайт с модулем webupdate был считанное число раз. Протокол обмена подробно документирован и представляет собой зазипованный gzip-ом список имен изменившихся файлов по алфавиту. Это все.

В общем, по меньшей мере, странные представления у вашего вебмастера о безопасности.

Для справки: по смыслу наш webupdate чем-то похож на патент infoseek-а и файлы robots1.txt, robots7.txt, robots30.txt.

Илья

<font face="Verdana" size="2">Originally posted by paul:
Сегодня поставил себе Google Toolbar и смог насладиться об их Page Rank.
</font>

Не забудьте насладиться также счетчиком переходов с поисковых результов, которые возникают от поиска в тулбаре, а также тем, что все ваши перемещения по интернету мониторятся Гуглем.

Если мониторинг отключить, пейджранк перестанет показываться, естественно.

Илья

<font face="Verdana" size="2">
а зачем.
</font>

Затем, чтобы туда не постить. Старые топики не должны оживать как зомби. Участники дискуссии все что хотели (или могли) сказать - сказали. Так сделано и на webmasterworld и вообще на всех приличных UBB форумах

<font face="Verdana" size="2">
иначе будут позже появляться похожие топики.
</font>

Похожие топики неизбежны. Список топиков короток, и никто по страницам не лазит все равно.

Эта проблема решается созданием хорошего ФАКа. Тематического, а не по UBB.

В противном случае, приходится читать свои же утверждения от марта или февраля, давно уже неверные и т.д. и т.п.

Но впрочем, дело ваше. Но скажу честно, форум пришел просто в негодное сосотяние. Все дискуссии, которые на нем велись похоронены шквалом мусорных постингов во все топики.

Илья

Я как раз про это ураган.

А нет идеи закрывать топик, на который нет постингов больше недели?

В UBB есть такие штучки, по-моему.

Илья

<font face="Verdana" size="2">Originally posted by Professor:
Они блокировали этот сервис ... </font>

Блокированы только спаммерские IP

(шутка)

Илья

Лично к Андрею отношусь положительно, с ним знаком, очень милый человек.

К идеям Андрея не отношусь никак, потому что не смог прочитать до конца, к сожалению, ни одного его текста. Так что даже не знаю, о чем тут идет разговор. Извините, обидеть никого не хочу.

К стаскиванию роботом нашего last20 отношусь резко отричательно - именно эти безобразные, долбящие нас роботы лишили миллионов пользователей удовольствия видеть настоящий поток запросов. Видит бог, мы очень не хотели закрывать его - но под давлением Андрей Иванова (и таких, как он) были вынуждены это сделать - скажите им спасибо за это.

К спаму длинными "запросными предложениями" отношусь не менее отрицательно. Сейчас вынуждены тратить рабочую силу (самую интеллектуальную) на выявление и подавление этой гадости.

Идея Яндекс-директа - заказ рекламы по ключевым словам работает на Яндексе с начала 1998 года. Точнее все-таки можно узнать у Леши Амилющенко.

Интерфейс Яндекс-директа возник очень давно, когда Андрея Иванова в нашей ноосфере не существовало, зато примерно 6 лет существовал и существует www.goto.com - и его изящный и практически безальтернативный интерфейс -

http://inventory.goto.com/d/searchinventory/suggestion/ - очень извиняюсь перед ними, конечно, но по другому просто не сделаешь.

Интерфейс заказа слов делали, глядя на google, goto и пытаясь сделать еще лучше и удобнее. Получилось ли - судить Вам.

Андрея мы пытались привлечь к этому проекту, но как-то не сложилось. Может быть, еще получится.

С уважением,

Илья

<font face="Verdana" size="2">Originally posted by funsad:
Скажем, у меня возникла необходимость написать и запустить скрипт для исследования работы Яндекса как поисковой системы (например, для оценки релевантности). Где можно прочитать о том, как должен общаться скрипт с Яндексом, чтобы оба были удовлетворены?
</font>

Спасибо всем за дискуссию, мы действительно,

во-многом благодаря ей, обновили текст лицензионного соглашения.

Полность смотреть здесь: http://www.yandex.ru/info/termsofuse.html

По поводу скриптов: они по умолчанию все запрещены.

Вариантов действий с Вашей стороны - два: использовать скрипт без нашего согласия/уведомления и ждать когда мы его заметим и запретим. Критерии "заметности" понятны - необычная активность или необычное поведение.

Более цивилизованный и комфортный для обоих сторон вариант - заранее попросить разрешения на данный скрипт.

Если собираетесь проверять словарь русского языка (были такие товарищи ) или выкачивать кучу страниц на каждый запрос - лучше этого все-таки не делать. Не рассчитан яндкес на то, что его будут долбить автоматы. И у нас, естественно, есть меры защиты - например полный запрет на поиск с данного IP и прочие неприятности.

С уважением, Илья

P.S.

Насколько я понимаю, переговоры Вячеслава с Яндексом уже идут.

Добрый день всем.

1. Отношения метапоисков с поисками должны быть урегулированы. Как это сделано во всем мире.

2. 2Вячеслав. Вы, не спрашивая нас, в течении долгого времени, нарушали явно выраженную нами (см файл robots.txt) просьбу не скачивать данные с нашего сервера. В ответ на Ваши молчаливые действия, мы стали совершенно стандартным образом возвращать вашему агенту код 403. Это по стандарту HTTP означает, что данные на сервере имеются, но для данного пользователя доступ к ним запрещен. Не совсем понятно, почему вы не предприняли попытки связаться с нами. Зачем эти двойные (тройные) кросспостинги своей жалобы? (на этом форуме, на форуме Яндекса и у себя). Поверьте _мы внимательно читаем всю почту_, приходящую на webadmin. И отвечаем на нее.

3. Безусловно цивилизованные отношения между поисками и метапоисками возможны. Надо лишь соблюдать мирный, доброжелательный настрой и не раздувать из обычного конфликта интересов какой-то чуть ли не межнациональный конфликт

Материалы по теме:

Яндекс закрывает доступ украинцам. Где объяснения?

http://media.topping.com.ua/scandals/2001/09/15/0023930.html

Лицензия Яндекса, явным образом противоречащая способу использования Яндекса на сайте topping.com.ua.

http://www.yandex.ru/info/termsofuse.html

"Яндекс не разрешает менять дизайн страницы выдачи, т.е. страницы результата поиска."

Постинг Вячеслава на форуме Яндекса и ответы на него.

http://forum.yandex.ru/index.xhtml?id_note_forum=57197

Здесь утверждается, что не существует метапоисковых систем, использующих NorthernLight или Google:

http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.html

"None of them [meta-search engines] searches Google (unless they pay) or Northern Light (ever)."

А здесь утверждается, что между метапоисками и поисками проводятся переговоры, результатом которых становится "включение" или "невключение" тех или иных поисковых машин в метапоисковые результаты:

http://www.indiana.edu/~librcsd/search/meta.html

"Negotiations between the meta-search engine companies and the individual search engine companies may also result in a major search engine being excluded from a meta-search engine"

С уважением,

Илья Сегалович

Всего: 442