- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Vyacheslav Tikhonov,
-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?
euhenio, структуры данных для хранения координат и блоки для цитирования определяют сами разработчики, и естественно, что у каждого поисковика они свои собственные.
Подробнее поспрашивайте их сами.
Vyacheslav Tikhonov, я вот про что. У всех поисковиков (Я, Р, например) есть разбиение по блокам текста для хранения координат слов только внутри блока? Или это только у разработанных тобой поисковиков?
Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.
Вот я и хочу выяснить, у всех такие блоки есть или только у тебя. :)
Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!
!Иван FXS, все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.
Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!
В некоторых можно указать расстояние между словами внутри блока. А блоками могут считаться фразы разделеные точками или HTML тегами или чем то еще по усмотрению разработчика. Для того чтобы дать возможность искать несколько слов "в одном предложении" или "точную фразу целиком", прийдется сохранять контент блоками.
Отсюда вывод: если поисковик позволяет искать внутри предложения - он использует блочное хранение контента.
Сказал за себя и за Коваленко. Насколько я помню, у него цитатник тоже строится поблочно. Впрочем, лучше спросить у него самого, как там сделано в новой версии поиска.
все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.
- вряд ли это подтверждает "гипотезу блочности" ...
Кстати, хранить координаты слова в формате:
(№ документа, № блока в документе, позиция слова в блоке)
- разве это более эффективно, чем хранить их в формате:
(№ документа, позиция слова в документе)
???
Vyacheslav Tikhonov,
-я запутался. Цитатник - это у тебя обратный индекс или прямой? :) Вроде, изначально речь шла про обратный.
!Иван FXS,
(№ документа, № блока в документе, позиция слова в блоке)
-ну, можно хранить их в виде (№ документа, № блока в документе) и "в облегченном виде" вычислять близость слов - по совпадению № блоков, а (позицию слова в блоке) испрользовать при более хитрых запросах с участием расстояний... Вопрос в длине блока...
Прямой, конечно.
Ну так ранжировать нужно по каким-то данным, прежде чем поднимать цитаты по прямому индексу.