Понял, что вопрос ТС гипотетический😂
Обращении? Если я вас правильно понял, типа, закешируем документ и отдадим время кеша. Не надо;) Часто получается, что придется в основном кешировать обращения ботов. Только время модификации компонентов из которых собирается страница спасет Last-Modified. Потом, кстати можно понять, если сначала неясно, что надо кешировать для уменьшения нагрузки , а что нет.
По мне, у документа должна быть одна дата модификации, она и должна фигурировать везде где ее попросят. И она должна быть выбрана из реальной даты модификации документа
{ $t = max( self::$content['last_mod'] ); $l = gmdate( 'D, d M Y H:i:s', $t ) . ' GMT'; _hdr( 'Last-Modified', $l ); $e =!empty(self::$conf['Expires']) ? _hdr( 'Expires', gmdate( 'D, d M Y H:i:s', $t + self::$conf['Expires'] ) . ' GMT' ) : null; $etag=!empty( self::$canUri ) ? _hdr( "Etag", md5( self::$canUri ) . $t ) : null; }
В вашем случае, контент в файлах, обратите на время модификации файлов где контент. Если таковых несколько выбирайте max(дата модификации отдельных компонентов).
И правильно делают, с такими то xml, где данные чаще всего от балды, типа сгенерил сторонними сервисами, иногда пару лет назад, а ПС учитывай 😂 Там же тоже входящие данные проверяют☝
А может учитывали бы, или будут учитывать / уже учитывают, если данным можно верить 🍿---------- Добавлено 14.06.2018 в 21:06 ----------Зы: кнопки попутал---------- Добавлено 14.06.2018 в 21:08 ----------Еще Зы: ТЗ на сайт 99% успеха если в 1% не ошибетесь
Хорошо, когда полярные мнения бывают :)
На мой взгляд,
которые могут стать большими и любых других, лучше, что бы все необходимые заголовки были. Причем, актуальные, а не time()-86400. Другой вопрос, что для корректной отдачи "Last-Modified" и "If-Modified-Since", на большинстве популярных CMS нужно попотеть. Возможно, иногда, ничего не поможет, только "пристрелить" неразумную систему 😂
А если делать правильно, то не забыть добиться того, чтобы в sitemap.xml в <lastmod> стояла дата, которая отдается в Last-Modified соответствующего урла 🍿
Что то типа амазона? Только магазины не в папках, а на поддоменах? 😂
А не, движок амазона не пойдет, там СЕО слабовато 🤣
Кроме того, что
добавить нечего:(
возможно CURLOPT_FOLLOWLOCATION вместе с CURLOPT_MAXREDIRS поможет
И дальше пользуйтесь, тем что никому тут не надо😂 Тут не про то как вставить статью в форму и узнать тематику (криво кстати) и выдернуть и нее ключи (тоже криво). А про то, как на нужный ключ подобрать "термины, которые наиболее полно раскроют тему". Причем, сделать это быстро, массово и дешево.
Сложности есть. Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата. Врукопашную добавлять для каждого запроса муторно. Все остальное более менее автоматизированно, а тут затык.
Не всегда выборка ид биграмм из моей базы ключей, например по запросу "утеплить дом", дойдет до тепловизора или ппу:(
Вначале, приведение к начальным словоформам делал посредством словарей http://opencorpora.org/?page=downloads или апи , но по результатам экспериментов (не все слова есть или апи через пень колоду) остановился на простом стеммере. MyStem есть в планах. Но, пока группировка словоформ меня в общем и целом устраивает. Тут, главное, одинаковым алгоритмом нормализовать "ключи", н-граммы ТОПа и сниппеты яХМЛ (пока не используются, но есть идея вес терминов, если они в сниппете увеличивать).
Осознаю, что при
[sobr_lsi] => Array ( [stem] => собр lsi [cnt] => 12 [var] => Array ( [0] => собрать lsi ..... ) )
возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi, одновременно с высокой частотностью (cnt) в документе, урл которого получен из топа по запросу "Как массово собрать LSI ключи". Но, все равно спасибо.
Для "ключевиков" это у меня есть, "без учёта порядка лем" достигается простой сортировкой "камаз 65206" => parent = 65206_kamaz (видно в примере бд). Грубо, из базы ключевиков будут вынуты (если, там 2 записи как в вышестоящем сообщении) ид биграмм:
65206_kamaz, kamaz_65206, kamaz_sedeln, sedeln_tyagach, kamaz_tyagach, tyagach_kamaz. По факту, обычно (сильно больше 2-х записей в базе), идешек биграмм может быть тысячи. Кстати, видно, что данные "просто по запросу 6422" не нашумят.
Для н-грамм документов, вероятно, стоит делать также ☝ Только в массивчик "65206_kamaz" добавить частоты "65206_kamaz" и "kamaz_65206". И в этом случае не надо в таблице ключей хранить "каждый к каждому". Тем, не менее скептично настроен, к тому, что это позволит решить проблему левых, но высокочастотных в документе н-грамм:(
Так или иначе, пока, приоритет - копать сюда:
Ибо, просто Х-первых по частотности не дает приемлемых для меня результатов.
Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи. Работает ведь как, взяли топ-20 и следующим шагом - контент всех 20 урлов домой на обработку. + 100% уверенности, что нужен только контент статьи нет. Да и многие документы не имеют статьи как таковой.
Тут могут быть разные взгляды, могу лишь сказать, собственноручно проведенный эксперимент убедил меня, что рациональное зерно есть. Когда-то, когда они были не только лишь город +, подсветки пособирал немного. Потом нашел эту базу, + разные акварели и т.п. сервисы. Скорректировал выкачанными из топ-20 и ручками, в соответствии с обычной житейской логикой, отфильтрованными терминами (1,2,3 - граммы). Результат порадовал. На домене была заглушка пару лет, потом вордпресс, пяток статей и ТОП-3 по ключу, стоимость которого чаще с 3 нулями, чем с 2-мя, 30-50 переходов в сутки. Понятно, что разные факторы ведут к топу, но, имхо, контент по-делу один из них. + Обилие а-ля фб в топах, не все из которых на доменах с супер ПФ и ссылочным. Да и выше в топике говорят, что
Посему, задача - научиться пользоваться в промышленных масштабах.
Тоже, имхо, двояко. Те, темы (не одежда), которые смотрел, там можно что то накопать. А так время покажет, есть ли в этой идее что то интересное:)
Спасибо!!! Кое что уже взял. + представляет интерес corpora-freq.html
Я много данных собираю. Но, еще до конца не осмыслил как их прикрутить для пользы дела😕
Кому как, по мне так, конструктивно получилось - несколько идей есть🍻
Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен. По результату анализа документа с этого форума "посмотреть профиль|найти сообщения|регистрация:([0-9\. ]+)" и т.д. добавлены в stopwords_pattern
Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно". Задача понять о чем документ, остро пока не стоит. Да и судя по ответам, всех интересует как, на запрос "слоны", получить внятный план:
Раскрой "ТТХ слонов", "отзывы о слонах", "фото слонов", "розовые, зеленые, красные слоны", "цены на слоны", "классификацию бивней", "цветовую гамму ушей", "размер яиц хобота", "мамонты волосатые". И будет тебе счастье:) Желательно с численными характеристиками для справки: "мамонты волосатые" частота (%/абс): мин/мах/средн по топ-х и т.д.
А, как, например, с такими запросами:
И, да, тогда миритесь с руб руб
Я почему сюда влез? Некоторые моменты еще непонятны😕
Пока, имею:
1. Ключи. Например:
id parent bigramm keyword word_cnt freq sfreq up kamaz_65206 65206_kamaz 65206_kamaz,kamaz_65206 камаз 65206 2 1781 357 2018-06-05 09:38:06 kamaz_65206_sedelnyj_tyagach 65206_kamaz_sedelnyj_tyagach 65206_kamaz,kamaz_65206,kamaz_sedeln,sedeln_tyagach,kamaz_tyagach камаз 65206 седельный тягач 4 139 17 2018-06-05 09:38:06 .....100500....
опять цифры в биграммах🙄 Алгоритм немного другой "все-со-всеми"
2. Топ по ключу (яХмл) с аналогично обработанными данными - ровно тот же алгоритм обрабатывающий документы кушает сниппеты. + подсветки, какие есть.
3. Данные по документам топ-х (пример куска данных в сообщении)
4. Корпус всех слов документов ТОП-х
По п.3 смотрим пересечение по запросу => список, который обрабатывается совместно с п.1 => результат
другой вариант:
По п.4 список, который обрабатывается совместно с п.1 => результат (чаще, чуть шире чем по предыдущему варианту)
Но, понятно, что по п.1 не все запросы есть. Поэтому, если ручками перебираешь, не фильтрованные данные, например корпуса слов документов ТОП-20, чаще всего хочется включить и "это", и это тоже вроде "катит" :( А надо максимум
Отсюда вопросы:)
1. пересечение в документах по запросу в топ или из корпуса всех слов топа?
2. был бы признателен за ссылки на разного рода списки стоп-слов/фраз/регулярок
3. вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)
Подниму тему:)
Ну да, а в этом топике на 1 странице: kuzmin kmy и miha kuzmin 😂
[Интро] Так чта, может быть, скоро без упоминания miha kuzmin вы в топ по "Как массово собрать LSI ключи" не войдете. (TOP1 Ya - /ru/forum/993454 ) Но нет, внутренний голос подозревает, что если искать "Как массово собрать LSI ключи miha kuzmin" никто не будет, не парьтесь😂 [/Интро]
Array ( => /ru/forum/993454 .... ) Array ( [wc] => 847 [bigram] => Array ( [kuzmin_kmy] => Array ( [stem] => kuzmin kmy [cnt] => 16 [var] => Array ( [0] => kuzmin kmy ..... ) ) [miha_kuzmin] => Array ( [stem] => miha kuzmin [cnt] => 16 [var] => Array ( [0] => miha kuzmin ..... ) ) [lsi_klyuch] => Array ( [stem] => lsi ключ [cnt] => 12 [var] => Array ( [0] => lsi ключи ..... ) ) [mass_sobr] => Array ( [stem] => масс собр [cnt] => 12 [var] => Array ( [0] => массово собрать ..... ) ) [sobr_lsi] => Array ( [stem] => собр lsi [cnt] => 12 [var] => Array ( [0] => собрать lsi ..... ) ) ...........
Или так:
Array ( => https://www.reg.ru/domain/new/ .... ) Array ( [wc] => 4860 [bigram] => Array ( [podrobn_zon] => Array ( [stem] => подробн зон [cnt] => 828 [var] => Array ( [0] => подробнее зоне ....еще 827... ) ) ....1005000... [domen_zaregistrir] => Array ( [stem] => домен зарегистрир [cnt] => 2 [var] => Array ( [0] => домены зарегистрировать [1] => доменов зарегистрировать ) ) ....еще 1005000...
Поэтому, сравнение с одним документом лишено смысла. Тут или 0-х граммы пресекающиеся по документам топа, или взятые из корпуса слов, например ТОП 10/20/30, обработанные как то вместе в вордстатом и еще чем то *. Но и тут, искусственного интеллекта ждать не приходится. "10 первых по частотности" не катит. Море мусора и на 121 месте и по логике, и вордстату вполне себе "термин, без которого тема раскрыта не полно"🍿
Таким образом задача - убрать мусор и не пропустить нужный термин.
Может, эта, просто цифры из текста не удалять☝
тогда получится "250 руб", "руб 350", "350 руб" и в частотные не попадут. Да и КАМАЗ 6520 не потеряется...
* А может и в комплексе со словами:
[c] => Array ( [зон] => 842 [подробн] => 828 [com] => 116 [756] => 102 [199] => 98 [net] => 82 [org] => 67 [домен] => 67 [912] => 63 [idn] => 57 [646] => 37 [097] => 29 [195] => 22 [сайт] => 21 [207] => 21 [reg] => 20 [487] => 19 [292] => 18 [хостинг] => 17 [услуг] => 17 [radio] => 16 [доменн] => 14 [ssl] => 13 [icon] => 12 [549] => 11 [biz] => 11 ..........
Это для https://www.reg.ru/domain/new/ Прям, сейчас. Завтра может быть по другому. Отсюда идея - 5 разных вариантов и тем, что есть везде, как то вес увеличить.