Marat_Kh

Рейтинг
126
Регистрация
18.08.2005

Понял, что вопрос ТС гипотетический😂

sanek1991:
при каждом обращении к сгенерированной странице, система будет "дергать" дополнительный файл

Обращении? Если я вас правильно понял, типа, закешируем документ и отдадим время кеша. Не надо;) Часто получается, что придется в основном кешировать обращения ботов. Только время модификации компонентов из которых собирается страница спасет Last-Modified. Потом, кстати можно понять, если сначала неясно, что надо кешировать для уменьшения нагрузки , а что нет.

То есть, вы имели ввиду, что дата в Last-Modified и дата в sitemap.xml в <lastmod> должны совпадать (быть одинаковыми)? Правильно?

По мне, у документа должна быть одна дата модификации, она и должна фигурировать везде где ее попросят. И она должна быть выбрана из реальной даты модификации документа

{

$t = max( self::$content['last_mod'] );
$l = gmdate( 'D, d M Y H:i:s', $t ) . ' GMT';
_hdr( 'Last-Modified', $l );
$e =!empty(self::$conf['Expires']) ? _hdr( 'Expires', gmdate( 'D, d M Y H:i:s', $t + self::$conf['Expires'] ) . ' GMT' ) : null;
$etag=!empty( self::$canUri ) ? _hdr( "Etag", md5( self::$canUri ) . $t ) : null;
}
Другое дело, что не все коробки/самописы делают это. А доработать в копеечку влетит :(

В вашем случае, контент в файлах, обратите на время модификации файлов где контент. Если таковых несколько выбирайте max(дата модификации отдельных компонентов).

lastmod в xml карте сайта ни яндекс, ни гугл не учитывают

И правильно делают, с такими то xml, где данные чаще всего от балды, типа сгенерил сторонними сервисами, иногда пару лет назад, а ПС учитывай 😂 Там же тоже входящие данные проверяют☝

А может учитывали бы, или будут учитывать / уже учитывают, если данным можно верить 🍿

---------- Добавлено 14.06.2018 в 21:06 ----------

Зы: кнопки попутал

---------- Добавлено 14.06.2018 в 21:08 ----------

Еще Зы: ТЗ на сайт 99% успеха если в 1% не ошибетесь

лучше пока ничего не прикручивать, т.к. скорее всего вы внесете этим много вреда, без Last-Modified все отлично работает.

Хорошо, когда полярные мнения бывают :)

На мой взгляд,

Для маленьких сайтов

которые могут стать большими и любых других, лучше, что бы все необходимые заголовки были. Причем, актуальные, а не time()-86400. Другой вопрос, что для корректной отдачи "Last-Modified" и "If-Modified-Since", на большинстве популярных CMS нужно попотеть. Возможно, иногда, ничего не поможет, только "пристрелить" неразумную систему 😂

А если делать правильно, то не забыть добиться того, чтобы в sitemap.xml в <lastmod> стояла дата, которая отдается в Last-Modified соответствующего урла 🍿

worki87:
Многопользовательский интернет магазин работающий на под-доменах.

Что то типа амазона? Только магазины не в папках, а на поддоменах? 😂

Хорошее SEO для каждого магазина (под-домена)

А не, движок амазона не пойдет, там СЕО слабовато 🤣

Кроме того, что

yet_warm:
Вначале посмотреть в сторону правильно составленного ТЗ ибо хрен поймешь, чего надо.
Потом посмотреть в сторону толкового разработчика.

добавить нечего:(

Но почему-то выходит ошибка 301 Moved Permanently

возможно CURLOPT_FOLLOWLOCATION вместе с CURLOPT_MAXREDIRS поможет

И благополучно пользуемся

И дальше пользуйтесь, тем что никому тут не надо😂 Тут не про то как вставить статью в форму и узнать тематику (криво кстати) и выдернуть и нее ключи (тоже криво). А про то, как на нужный ключ подобрать "термины, которые наиболее полно раскроют тему". Причем, сделать это быстро, массово и дешево.

burunduk:
плохо получается :(

Сложности есть. Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата. Врукопашную добавлять для каждого запроса муторно. Все остальное более менее автоматизированно, а тут затык.

Вместе с «утеплить дом» ищут:
услуги тепловизора
утепление пенополиуретаном
утепление
пенополиуретан
утеплить фасад
ппу
утепление ппу
утеплить пенополиуретаном

Не всегда выборка ид биграмм из моей базы ключей, например по запросу "утеплить дом", дойдет до тепловизора или ппу:(

burunduk:
я же говорю не разобрались в том что я написал :)
приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем)

Вначале, приведение к начальным словоформам делал посредством словарей http://opencorpora.org/?page=downloads или апи , но по результатам экспериментов (не все слова есть или апи через пень колоду) остановился на простом стеммере. MyStem есть в планах. Но, пока группировка словоформ меня в общем и целом устраивает. Тут, главное, одинаковым алгоритмом нормализовать "ключи", н-граммы ТОПа и сниппеты яХМЛ (пока не используются, но есть идея вес терминов, если они в сниппете увеличивать).

Осознаю, что при

[sobr_lsi] => Array          (

[stem] => собр lsi
[cnt] => 12
[var] => Array (
[0] => собрать lsi
.....
)
)

возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi, одновременно с высокой частотностью (cnt) в документе, урл которого получен из топа по запросу "Как массово собрать LSI ключи". Но, все равно спасибо.

burunduk:
без учёта порядка лем

Для "ключевиков" это у меня есть, "без учёта порядка лем" достигается простой сортировкой "камаз 65206" => parent = 65206_kamaz (видно в примере бд). Грубо, из базы ключевиков будут вынуты (если, там 2 записи как в вышестоящем сообщении) ид биграмм:

65206_kamaz, kamaz_65206, kamaz_sedeln, sedeln_tyagach, kamaz_tyagach, tyagach_kamaz. По факту, обычно (сильно больше 2-х записей в базе), идешек биграмм может быть тысячи. Кстати, видно, что данные "просто по запросу 6422" не нашумят.

Для н-грамм документов, вероятно, стоит делать также ☝ Только в массивчик "65206_kamaz" добавить частоты "65206_kamaz" и "kamaz_65206". И в этом случае не надо в таблице ключей хранить "каждый к каждому". Тем, не менее скептично настроен, к тому, что это позволит решить проблему левых, но высокочастотных в документе н-грамм:(

Так или иначе, пока, приоритет - копать сюда:

вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)

Ибо, просто Х-первых по частотности не дает приемлемых для меня результатов.

burunduk:

использовать лучше именно текст, а не служебные фрагменты

Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи. Работает ведь как, взяли топ-20 и следующим шагом - контент всех 20 урлов домой на обработку. + 100% уверенности, что нужен только контент статьи нет. Да и многие документы не имеют статьи как таковой.

burunduk:

"термины, без которых тема раскрыта не полно" - миф это ни как не повлияет на ранжирование документа, в существующих реалиях, подобное позволяет документу попасть в выборку для ранжирования и всё именно эту задачу можно решать с помощью LSI но не забывайте, что расширяя таким образом документ вы теряете в релевантности + у подобного документа будет больше конкурентов ;)

Тут могут быть разные взгляды, могу лишь сказать, собственноручно проведенный эксперимент убедил меня, что рациональное зерно есть. Когда-то, когда они были не только лишь город +, подсветки пособирал немного. Потом нашел эту базу, + разные акварели и т.п. сервисы. Скорректировал выкачанными из топ-20 и ручками, в соответствии с обычной житейской логикой, отфильтрованными терминами (1,2,3 - граммы). Результат порадовал. На домене была заглушка пару лет, потом вордпресс, пяток статей и ТОП-3 по ключу, стоимость которого чаще с 3 нулями, чем с 2-мя, 30-50 переходов в сутки. Понятно, что разные факторы ведут к топу, но, имхо, контент по-делу один из них. + Обилие а-ля фб в топах, не все из которых на доменах с супер ПФ и ссылочным. Да и выше в топике говорят, что

LSI работает - только нужно уметь пользоваться !!

Посему, задача - научиться пользоваться в промышленных масштабах.

burunduk:

бесполезное занятие, по большому спектру запросов, кроме слов самого запроса пересечений в документах практически не будет (тематика одежда)

Тоже, имхо, двояко. Те, темы (не одежда), которые смотрел, там можно что то накопать. А так время покажет, есть ли в этой идее что то интересное:)

burunduk:

неплохие словари есть http://www.ruscorpora.ru/

Спасибо!!! Кое что уже взял. + представляет интерес corpora-freq.html

burunduk:

учитывать стоит не только биграммы

Я много данных собираю. Но, еще до конца не осмыслил как их прикрутить для пользы дела😕

Кому как, по мне так, конструктивно получилось - несколько идей есть🍻

burunduk:
таких биграм м быть не должно - это так сразу на скидку ;)

Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен. По результату анализа документа с этого форума "посмотреть профиль|найти сообщения|регистрация:([0-9\. ]+)" и т.д. добавлены в stopwords_pattern

burunduk:

а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)

Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно". Задача понять о чем документ, остро пока не стоит. Да и судя по ответам, всех интересует как, на запрос "слоны", получить внятный план:

Раскрой "ТТХ слонов", "отзывы о слонах", "фото слонов", "розовые, зеленые, красные слоны", "цены на слоны", "классификацию бивней", "цветовую гамму ушей", "размер яиц хобота", "мамонты волосатые". И будет тебе счастье:) Желательно с численными характеристиками для справки: "мамонты волосатые" частота (%/абс): мин/мах/средн по топ-х и т.д.

burunduk:

>>Может, эта, просто цифры из текста не удалять
надо - выдача по цифрам строиться на других принципах
очень показательна выдача по номерам телефонов/гостам

А, как, например, с такими запросами:

Вместе с «маз 6422» ищут:
маз 6430, маз 5432, маз 6303, маз-5516, камаз 5410, маз 5440, маз-6440, камаз 54115, маз 5551, маз-500

И, да, тогда миритесь с руб руб

Я почему сюда влез? Некоторые моменты еще непонятны😕

Пока, имею:

1. Ключи. Например:


id parent bigramm keyword word_cnt freq sfreq up
kamaz_65206 65206_kamaz 65206_kamaz,kamaz_65206 камаз 65206 2 1781 357 2018-06-05 09:38:06
kamaz_65206_sedelnyj_tyagach 65206_kamaz_sedelnyj_tyagach 65206_kamaz,kamaz_65206,kamaz_sedeln,sedeln_tyagach,kamaz_tyagach камаз 65206 седельный тягач 4 139 17 2018-06-05 09:38:06
.....100500....

опять цифры в биграммах🙄 Алгоритм немного другой "все-со-всеми"

2. Топ по ключу (яХмл) с аналогично обработанными данными - ровно тот же алгоритм обрабатывающий документы кушает сниппеты. + подсветки, какие есть.

3. Данные по документам топ-х (пример куска данных в сообщении)

4. Корпус всех слов документов ТОП-х

По п.3 смотрим пересечение по запросу => список, который обрабатывается совместно с п.1 => результат

другой вариант:

По п.4 список, который обрабатывается совместно с п.1 => результат (чаще, чуть шире чем по предыдущему варианту)

Но, понятно, что по п.1 не все запросы есть. Поэтому, если ручками перебираешь, не фильтрованные данные, например корпуса слов документов ТОП-20, чаще всего хочется включить и "это", и это тоже вроде "катит" :( А надо максимум

Отсюда вопросы:)

1. пересечение в документах по запросу в топ или из корпуса всех слов топа?

2. был бы признателен за ссылки на разного рода списки стоп-слов/фраз/регулярок

3. вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)

Подниму тему:)

burunduk:
для им самым популярным будет руб - по любому запросу

Ну да, а в этом топике на 1 странице: kuzmin kmy и miha kuzmin 😂

[Интро]
Так чта, может быть, скоро без упоминания miha kuzmin вы в топ по "Как массово собрать LSI ключи" не войдете. (TOP1 Ya - /ru/forum/993454 )
Но нет, внутренний голос подозревает, что если искать "Как массово собрать LSI ключи miha kuzmin" никто не будет, не парьтесь😂
[/Интро]

Array (

=> /ru/forum/993454
....
)
Array (
[wc] => 847
[bigram] => Array
(
[kuzmin_kmy] => Array
(
[stem] => kuzmin kmy
[cnt] => 16
[var] => Array
(
[0] => kuzmin kmy
.....
)
)
[miha_kuzmin] => Array
(
[stem] => miha kuzmin
[cnt] => 16
[var] => Array
(
[0] => miha kuzmin
.....
)
)
[lsi_klyuch] => Array
(
[stem] => lsi ключ
[cnt] => 12
[var] => Array
(
[0] => lsi ключи
.....
)
)
[mass_sobr] => Array
(
[stem] => масс собр
[cnt] => 12
[var] => Array
(
[0] => массово собрать
.....
)
)
[sobr_lsi] => Array
(
[stem] => собр lsi
[cnt] => 12
[var] => Array
(
[0] => собрать lsi
.....
)

)
...........

Или так:


Array (
=> https://www.reg.ru/domain/new/
....
)
Array (
[wc] => 4860
[bigram] => Array
(
[podrobn_zon] => Array
(
[stem] => подробн зон
[cnt] => 828
[var] => Array
(
[0] => подробнее зоне
....еще 827...
)
)
....1005000...
[domen_zaregistrir] => Array
(
[stem] => домен зарегистрир
[cnt] => 2
[var] => Array
(
[0] => домены зарегистрировать
[1] => доменов зарегистрировать
)

)
....еще 1005000...

Поэтому, сравнение с одним документом лишено смысла. Тут или 0-х граммы пресекающиеся по документам топа, или взятые из корпуса слов, например ТОП 10/20/30, обработанные как то вместе в вордстатом и еще чем то *. Но и тут, искусственного интеллекта ждать не приходится. "10 первых по частотности" не катит. Море мусора и на 121 месте и по логике, и вордстату вполне себе "термин, без которого тема раскрыта не полно"🍿

Таким образом задача - убрать мусор и не пропустить нужный термин.

руб руб :)

Может, эта, просто цифры из текста не удалять☝

тогда получится "250 руб", "руб 350", "350 руб" и в частотные не попадут. Да и КАМАЗ 6520 не потеряется...

* А может и в комплексе со словами:

[c] => Array

(
[зон] => 842
[подробн] => 828
[com] => 116
[756] => 102
[199] => 98
[net] => 82
[org] => 67
[домен] => 67
[912] => 63
[idn] => 57
[646] => 37
[097] => 29
[195] => 22
[сайт] => 21
[207] => 21
[reg] => 20
[487] => 19
[292] => 18
[хостинг] => 17
[услуг] => 17
[radio] => 16
[доменн] => 14
[ssl] => 13
[icon] => 12
[549] => 11
[biz] => 11
..........

Это для https://www.reg.ru/domain/new/ Прям, сейчас. Завтра может быть по другому. Отсюда идея - 5 разных вариантов и тем, что есть везде, как то вес увеличить.

Всего: 298