1. Литература по поиску.
Совет - идти на Amazon и покупать книжки.
Какие мои любимые не скажу, а то прочитаете
А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.
2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.
3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.
Илья
P.S.
А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись.
Все известные мне западные искалки берут за
услугу ускоренной/повторной/регулярной (пере)индексации от 1200 до 2000 за 100 URL-ей в год.
Яндекс-Сайт - это не просто "услуга по переиндексации 400 урлов", а достаточно эффективный локальный поисковик, с поддержкой русского апача, кодировок, морфологии, SQL баз (MS и My), полностью перенастраиваемой выдачей, полностью конфигурируемым запросным интерфейсом и т.д. т.п. (себя не похвалишь, ... )
Комментирую.
Я лично о таких проблемах не слышал. Особенно меня удивляет утверждение о небезопасности Я-сайта. Я-сайт стоит (только в проданном виде) на сотнях серверов (6 или 7 разных компьютерных платформ). В бесплатном - на тысячах. Ни одной жалобы на безопасность ни в одной веб-конференции или в письмах, ни в устном общении я не встречал.
Заметьте, что модуль для коннекта с яндекс.ру (webupdate) в бесплатную версию _не_ входит. Продан я-сайт с модулем webupdate был считанное число раз. Протокол обмена подробно документирован и представляет собой зазипованный gzip-ом список имен изменившихся файлов по алфавиту. Это все.
В общем, по меньшей мере, странные представления у вашего вебмастера о безопасности.
Для справки: по смыслу наш webupdate чем-то похож на патент infoseek-а и файлы robots1.txt, robots7.txt, robots30.txt.
Не забудьте насладиться также счетчиком переходов с поисковых результов, которые возникают от поиска в тулбаре, а также тем, что все ваши перемещения по интернету мониторятся Гуглем.
Если мониторинг отключить, пейджранк перестанет показываться, естественно.
<font face="Verdana" size="2">а зачем.</font>
Затем, чтобы туда не постить. Старые топики не должны оживать как зомби. Участники дискуссии все что хотели (или могли) сказать - сказали. Так сделано и на webmasterworld и вообще на всех приличных UBB форумах
<font face="Verdana" size="2">иначе будут позже появляться похожие топики.</font>
Похожие топики неизбежны. Список топиков короток, и никто по страницам не лазит все равно.
Эта проблема решается созданием хорошего ФАКа. Тематического, а не по UBB.
В противном случае, приходится читать свои же утверждения от марта или февраля, давно уже неверные и т.д. и т.п.
Но впрочем, дело ваше. Но скажу честно, форум пришел просто в негодное сосотяние. Все дискуссии, которые на нем велись похоронены шквалом мусорных постингов во все топики.
Я как раз про это ураган.
А нет идеи закрывать топик, на который нет постингов больше недели?
В UBB есть такие штучки, по-моему.
Блокированы только спаммерские IP
(шутка)
Лично к Андрею отношусь положительно, с ним знаком, очень милый человек.
К идеям Андрея не отношусь никак, потому что не смог прочитать до конца, к сожалению, ни одного его текста. Так что даже не знаю, о чем тут идет разговор. Извините, обидеть никого не хочу.
К стаскиванию роботом нашего last20 отношусь резко отричательно - именно эти безобразные, долбящие нас роботы лишили миллионов пользователей удовольствия видеть настоящий поток запросов. Видит бог, мы очень не хотели закрывать его - но под давлением Андрей Иванова (и таких, как он) были вынуждены это сделать - скажите им спасибо за это.
К спаму длинными "запросными предложениями" отношусь не менее отрицательно. Сейчас вынуждены тратить рабочую силу (самую интеллектуальную) на выявление и подавление этой гадости.
Идея Яндекс-директа - заказ рекламы по ключевым словам работает на Яндексе с начала 1998 года. Точнее все-таки можно узнать у Леши Амилющенко.
Интерфейс Яндекс-директа возник очень давно, когда Андрея Иванова в нашей ноосфере не существовало, зато примерно 6 лет существовал и существует www.goto.com - и его изящный и практически безальтернативный интерфейс -
http://inventory.goto.com/d/searchinventory/suggestion/ - очень извиняюсь перед ними, конечно, но по другому просто не сделаешь.
Интерфейс заказа слов делали, глядя на google, goto и пытаясь сделать еще лучше и удобнее. Получилось ли - судить Вам.
Андрея мы пытались привлечь к этому проекту, но как-то не сложилось. Может быть, еще получится.
С уважением,
Спасибо всем за дискуссию, мы действительно,
во-многом благодаря ей, обновили текст лицензионного соглашения.
Полность смотреть здесь: http://www.yandex.ru/info/termsofuse.html
По поводу скриптов: они по умолчанию все запрещены.
Вариантов действий с Вашей стороны - два: использовать скрипт без нашего согласия/уведомления и ждать когда мы его заметим и запретим. Критерии "заметности" понятны - необычная активность или необычное поведение.
Более цивилизованный и комфортный для обоих сторон вариант - заранее попросить разрешения на данный скрипт.
Если собираетесь проверять словарь русского языка (были такие товарищи ) или выкачивать кучу страниц на каждый запрос - лучше этого все-таки не делать. Не рассчитан яндкес на то, что его будут долбить автоматы. И у нас, естественно, есть меры защиты - например полный запрет на поиск с данного IP и прочие неприятности.
С уважением, Илья
Насколько я понимаю, переговоры Вячеслава с Яндексом уже идут.
Добрый день всем.
1. Отношения метапоисков с поисками должны быть урегулированы. Как это сделано во всем мире.
2. 2Вячеслав. Вы, не спрашивая нас, в течении долгого времени, нарушали явно выраженную нами (см файл robots.txt) просьбу не скачивать данные с нашего сервера. В ответ на Ваши молчаливые действия, мы стали совершенно стандартным образом возвращать вашему агенту код 403. Это по стандарту HTTP означает, что данные на сервере имеются, но для данного пользователя доступ к ним запрещен. Не совсем понятно, почему вы не предприняли попытки связаться с нами. Зачем эти двойные (тройные) кросспостинги своей жалобы? (на этом форуме, на форуме Яндекса и у себя). Поверьте _мы внимательно читаем всю почту_, приходящую на webadmin. И отвечаем на нее.
3. Безусловно цивилизованные отношения между поисками и метапоисками возможны. Надо лишь соблюдать мирный, доброжелательный настрой и не раздувать из обычного конфликта интересов какой-то чуть ли не межнациональный конфликт
Материалы по теме:
Яндекс закрывает доступ украинцам. Где объяснения?
http://media.topping.com.ua/scandals/2001/09/15/0023930.html
Лицензия Яндекса, явным образом противоречащая способу использования Яндекса на сайте topping.com.ua.
http://www.yandex.ru/info/termsofuse.html
"Яндекс не разрешает менять дизайн страницы выдачи, т.е. страницы результата поиска."
Постинг Вячеслава на форуме Яндекса и ответы на него.
http://forum.yandex.ru/index.xhtml?id_note_forum=57197
Здесь утверждается, что не существует метапоисковых систем, использующих NorthernLight или Google:
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.html
"None of them [meta-search engines] searches Google (unless they pay) or Northern Light (ever)."
А здесь утверждается, что между метапоисками и поисками проводятся переговоры, результатом которых становится "включение" или "невключение" тех или иных поисковых машин в метапоисковые результаты:
http://www.indiana.edu/~librcsd/search/meta.html
"Negotiations between the meta-search engine companies and the individual search engine companies may also result in a major search engine being excluded from a meta-search engine"
Илья Сегалович