Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Очень хорошо, только не понял, как это существенно сократит затраты на CRC32? Ведь объем словаря документа немногим меньше самого документа, даже с учетом сведения лексем.

А я вообще, честно говоря, не понял смысла оцифровки лексикона, тем более не разрешая коллизий. Но этот способ уже где-то видел, по-моему, у mnogosearch.

Словарь хранится в виде CRC32 основной формы, и CRC32 слова. По CRC32 слова я нахожу CRC32 основной формы и сраниваю с CRC32 основной формы слов из поисковго заросва - совпадает - выделяю.

Можеть есть можно выделить как-то без обращения к словарю ?

Неплохое решение уже предложил Игорь Ашманов. Берете вашу фразу:

"... в этом случае при тестовом поиске(6) не было найдено требуемых документов, но при изменении поискового(15) запроса(16) ..."

разбиваете по словам и сортируете с учетом позиций в документе:

...

запроса 16

поиске 6

поискового 15

...

Потом берете список всех возможных окончаний, убираете их, после чего бинарным поиском здесь уже можно найти основы слов из запроса и подсветить.

Mikek:

Но проверить надо и остальные слова. Ведь еще надо выделить слово "поиске" и "поискового".

Keva:

Понятно, что для этого нужен качественный полнофункциональный морфологический анализатор.

Ваш полнофункциональный морфологический анализатор позволяет рассматривать слова "поиск" и "поиско'вый" как формы одного и того же слова? Или анализатор содержит связи между разными частями речи, чего я в поиске Рамблера не замечал?

То что Илья Сегалович подобно Мальчишу-Кибальчишу, не выдаст проклятым буржуинам Тайну, и не пойдет с ними ни на какой компромисс было достаточно очевидно.

То есть правила "игры" остались те же? Или же все-таки удалось о чем-то договориться?

- в принципе, тогда проще вам свою статистику запросов сделать, со своим же анализатором. Не знаю, как в платном Хотлоге, но в бесплатном 50 запросов - это мало. И, допустим, по заходу по словам из одного поисковика определять, где ты находишься по этому запросу в других SE, если эта страница вообще в них проиндексирована...

Да, я уже думал об этом, тем более что большая часть системы статистикиTopPing сделана мной. Можно было бы при случае тряхнуть стариной :)

неужели все так категорично? Может, наоборот?

Может, и наоборот. Но делиться идеями почему-то ни у кого особого желания нет :)

Мне вот понравилость бы, если бы это с логами как-то можно было совместить. Например, есть отметка о заходе по словам, а анализатор проверяет позицию по этому запросу и делает отчет (чтоб видно было, какие позиции нуждаются в улучшении и на какое увеличение посещаемости можно рассчитывать). Особенно хорошо бы это было делать по множеству мелких запросов. Но такой сервис надо себе на сайт ставить.

Это мысль! В принципе, можно совместить даже со статистиками вроде Рамблера и Хотлога и автоматом забирать у них из отчетов поисковые фразы для конкретного сайта и подключить по ним анализатор. Реализовать технически подобную вещь не так уж сложно и вовсе не обязательно для этого ставить сервис себе на сайт.

Натуральное хозяйство здесь не очень в тему. Однако, мне для одного нашего сайта пришлось писать свою систему статистики от нуля... А все от того, что ни одна из существующих не способна была адекватно показывать популярность ресурса - визиты, хиты и посетители неудовлетворяли. Пришлось изобретать посещения (не одно и то же, что визиты)...

Ну так здесь ведь речь и идет о том, чтобы для анализатора выработать такие спецификации, которые бы удовлетворяли всех. Вот только отсутствие предложений показывает, что никто пока особо не представляет, что ему нужно и зачем.

Что это - вирус у Яндекса, бага в файерволе или Яндекс занимается банальным сниффингом?

Скорее всего, версия насчет прокси самая правдоподобная. Я сам до недавнего времени спокойно обходил лицензии Яндекса с помощью ROL'овского прокси и полагал, что ничего поделать они не могут, иначе имелась хорошая возможность оставить без Яндекса пол-Москвы :)

Видимо, с помощью этой своей новой "штучки" как-то выкрутились. Придется изобретать что-нибудь новенькое :)

Если бы ты знал, как нужны подобные программы профессиональному SEO специалисту при составлении месячного отчета для заказчика.

В принципе, если есть интерес, можно на основе анализатора снова открыть сервис, но для этого все же придется договариваться с тем же Яндексом и оплачивать запросы. То есть, как говорит Professor, работать законно :)

Но я думаю, что если сделать плату не слишком большой, скажем, $10-15 в месяц, при хорошем качестве сервиса его использование может быть оправданно.

Это как один из вариантов.

народ! но это же серьезное нарушение лицензии яндекса! можно делать такие вещи для себя и молчать ...

Да, серьезное нарушение лицензии Яндекса, которую он же сам себе и придумал. Яндекс был и остается компанией, которая в любой ситуации предпочитает лишь грубую силу, другие аргументы им, судя по всему, неизвестны и попытки с ними договориться (не только мои) обычно ни к чему не приводят. Сами они, как вы все неоднократно убеждались, используют тройные стандарты и делают, что хотят, поэтому бороться с ними можно только их же методами.

но продавать их законнно не удаться ...

А где здесь определяется грань между законным и незаконным?

Даже если это будет коробочная версия программного продукта, работающего под окошками, еще нужно доказать, что он нарушает лицензию Яндекса. Анализатор эмулирует работу броузера так, что для Яндекса это будет выглядеть как заход обычного пользователя, то есть если условия лицензии нарушает анализатор, то нарушает ее и любой другой броузер. И попробуйте доказать, что это не так.

P.S. Professor, с чего бы это ты защищаешь Яндекс? :) Боишься конкуренции?

Всего: 847