Учет форматирования страниц в работе поисковых машин.

S6
На сайте с 18.09.2012
Offline
22
3043

Как улучшить выдачу Яндекса и Гугла. Добавка к контекстному поиску.

Основа работы любой поисковой машины – контекстный поиск, когда поисковик соотносит слова в запросе пользователя и слова в текстах статей. Но развитие именно контекстного поиска замедлилось, и основные изменения алгоритмов поисковых машин происходят сейчас в иных направлениях (цитирование, поведение и т.д.)

Перерабатывая слова, подобно ценной породе, поисковики отбрасывают как шлак всю прочую информацию, которую им выдает сайт, а в этом «мусоре» тоже есть полезные элементы.

Я говорю про форматирование страниц, проанализировав которое, можно улучшить конечный результат поиска. Особенно полезны эти методы будут при поиске некоторых видов страниц.

Что же лучше искать с учетом форматирования страниц.

Поиск в прайс-листах.

Прайс-листы легко вычленяются среди прочей страничной массы по следующим признакам:

• Стоп-слова (прайс, цена, кол-во, руб, и т.д.)

• Табличное представление информации

• Определенный формат цифр и слов в столбцах

И если выдачу этого поиска сделать не как обычный список страниц, а как один большой прайс-лист, да еще с возможностью экспорта в электронные таблицы, то множество менеджеров и прочих покупателей будут не просто благодарны, но и готовы заплатить за такой сервис. Сейчас для того, что бы обобщить информацию по ценам по той или иной позиции уходит масса времени и сил.

Иная табличная информация. (Научные и технические данные, всевозможные отчеты и статистика, базы данных).

• Табличное представление информации

• Структура связанных страниц

Здесь также важен не только поиск, но еще и выдача. Если она будет не как набор сайтов, а как набор строк в единой таблице, то это может помочь пользователю в быстрой обработке больших массивов данных.

Поиск в блогах, форумах, соцсетях, комментариях (ищем сообщения от обычных пользователей )

• Стоп слова

• Разговорная лексика

• Длинна фраз, много коротких фраз на странице

• Архитектура сайта

• Специфическое форматирование

Очень часто пользователи ищут информацию в «человеческих сообщениях», а не в статьях или рекламных текстах. На Яндексе, например, есть сервис «Поиск в блогах», но он ограничен небольшим количеством сайтов и только блогами, а искать надо по всей сети. Также для этого поиска можно сделать свою форму выдачи, более удобную для таких задач.

Нормативные акты (Законы, постановления, ГОСТы и ТУ, инструкции, сетрификаты)

• Стоп-слова и лексика

• Структура документа

Здесь будут интересны дополнительные окошки для ввода запроса (номер, дата, орган, … ) И если из выдачи будут убраны повторы (когда один и тот же документ выдается пять раз), то многие пользователи прекратят покупать специализированные базы данных и перейдут на поиск в поисковиках.

Большие тексты (Литературные, научные)

• Стоп-слова и лексика

• Структура документа

• Особенности верстки

Найдутся еще типы документов, которые можно выделить для специального поиска.

Итог: Важна не только информация, которая заключена в словах, но и то, как эти слова организованы на листе. Обработка форматирования, взаиморасположения слов, общей лексики документа позволит пользователю искать только в тех видах документов, которые ему важны.

Не менее полезно будет изменение формата выдачи, в зависимости от запрашиваемой информации.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий