- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Точное высказывание, встречал в этом треде нечто похожее: "Все сложнее, чем представляется сначала", "Все зависит от цели", "Все должно быть изложено с оптимальной простотой".
Точное высказывание,
Сразу ясно что человек понимает задачу, ...
а если все организовать на одном сервере (не смейтесь), то как организовать индекс?
я просто делаю на BerkeleyDB (b+tree) key это id_слова value пост-лист (пока только массив id_страниц). Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).
Этот массив нужно как-то сохранить в value (делаю на perl'e использую функцию pack и unpack; итог pack ~1сек unpack ~1сек + 1сек на считывание value), прокомментируйте/посоветуйте пожалуйста
1. Желательно использовать ДВА индекса, как минимум. 1-ый - рабочий, большой. 2-ой - маленький, быстрый, для выдачи результатов по поисковым запросам. Методы построения таблиц 1-го и 2-го индекса оптимизировать под задачи.
2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.
3. В маленький индекс записывать только часть списка ID текстов. Т.к. пользователи не будут смотреть все 1'000'000 текстов. Например, Яндекс не даст посмотреть далее 1000. Разумно ограничить список домустимым размером 65535 байт. На каждый ID - 3 байта(16581375 максимальне число документов), получается 21845 текстов для каждого слова.
4. Операция объёдинения займёт о-очень мало времени, т.к. список по каждому слову в быстром индексе - ограничен.
В маленький индекс записывать только часть списка ID текстов.
а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?
а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?
Смотрите пункт 2, моего предыдущего сообщения. Наиболее значимые тексты и вставлять в маленький индекс.
2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.
рейтинг текстов = какие именно критерии учитывать при подсчете рейтинга (примеры или том где можно почитать про это)
Главное упущение , а кто сказал что он ищет "И" ? Я заметил что яндекс часто знает сколько раз повторяется слово , но на самом деле не ищет результаты . Т.е. например выдает найдено 5000 сайтов , но после первой сотни говорит - все .
alyak,
Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...
Я думаю что сосзадется макро-база, которая ужимается ( обрезается) затем до меньших объемов , при этом счетчики сохраняются .
alyak,
Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...
Там есть очень интересный эффект - если получить выдачу (первые 10 результатов) и перелистнуть, то Яндекс покажет реальные цифры количества сайтов по запросу. Подозреваю, что разница связана с тем, что первые 10 результатов хранятся в постоянном кеше и сопутствующие цифры по количеству сайтов - тоже. А вот остальные страницы выдачи считаются реально и цифры показываются текущие, а не кешированные.