coolandre

Рейтинг
32
Регистрация
05.09.2013

{SIMILARKEY}…{/SIMILARKEY} – случайный, похожий на текущий, ключ

TopperHarley:
Через стемминг + поиск максимального числа совпадений слов в ключах

Как то не очень хорошо работает выбор похожих ключей. Чаще всего выбирается 1 слово из ключа и по нему подбираются похожие запросы. Т.е. если на странице ключ "смотреть фильм тор онлайн" в {SIMILARKEY} будут 90% ключей со словом смотреть либо со словом онлайн. Логично что дикий переспам по отдельно взятому слову обеспечен.

Пытался использовать большие файлы ключей (2-3 ляма) результат тот же, т.к. сначала берутся строки, потом ищутся похожие. Тот же результат с большим кол-вом страниц 300-400к

Нужно как то поправить алгоритм подбора, либо брать начальное кол-во ключей например 1к и к ним подбирать из общего файла похожие, тогда в принципе больше шансов на адекватную перелинковку

Shonni:
coolandre, текст откуда берешь?

Из файла текст готовый уже около 100мгб файл. Алгоритм- текст как есть

TopperHarley, подскажи плз)

От чего зависит скорость генерации в pdf? Не могу понять в чем бок, генерит 10к страниц около 8-9 часов :( Шаб максимально упроситил, оставил только {post}, в плане без отдельный шаблонов главной и категорий, не знаю как ускорить еще

TopperHarley:
Это обычный клоакинг. Если приходит бот отдаем генеренный пдф, а если юзер то другой пдф специально заготовленный.
ПРоверка делается в пхп скрипте.
Обработка пыха подключается примерно так

RewriteEngine on
RewriteRule ^(.*\.pdf)$ /скрыпт.php?$1 [L,QSA]


В самом скрипте примерно так:


$attachment_location = $_SERVER['QUERY_STRING'];

if($is_user)$attachment_location = 'pdf для юзера.pdf';

header($_SERVER["SERVER_PROTOCOL"] . " 200 OK");
header("Cache-Control: public");
header("Content-Type: application/pdf");
header("Content-Transfer-Encoding: Binary");
header("Content-Length:".filesize($attachment_location));
readfile($attachment_location);

о0о спасибо, буду ковыряться ))

TopperHarley:
До конца там дочитал?

Хмм ну ок мой косяк.

Но с другой стороны доры типа этого http://crs.choszczno.pl/edu/doctoral-thesis-in-translation-studies.pdf (ссори если чей то спалил черкните потру ссыль)

При заходе под просты м юзером отдается картинка с сылкой

при просмотре под гуглоботом оригинальный файл

т.е. это как то что нужно. И это не единичный случай, выдача кишит подобным. Просто хз как подгрузить дополнительный код js или php

TopperHarley:
Не уверен что это возможно, пробовал много вариантов, пока не получилось.

Ну я вот тут нашел что то подобное. Вызов js в pdf тестят http://habrahabr.ru/post/132611/

Тестирую генерацию в формате pdf. Все пучком, страницы на выходе вполне устраивают.

Теперь пытаюсь в страницу .pdf добавить вызов js кода. Нашел информацию, что можно сделать через pdf.CreateJavaScriptAction но не могу допилить рабочий вариант.

Очень нужна помощь(

Подскажите,в пандоре есть макрос с помощью которого можно выводить строки (ключи), в которых есть слова из ключевика страницы?

Т.е. Если у нас страница по ключу "торты", то и в перелинковке ссылки на страницы со словом торты и т.д.

Зависит от того на сколько сателлиты будут схожи. В плане дизайн, структура, текстовка, перелинковка и т.д. При 90% сходстве даже разные Ip не спасут)

Сильная просадка по трафику именно ночью сегодня на десядках сайтов, индекс сохранился. Позиции особо не мониторили, подозрение на новый фильтр, либо тесты какие...

123 4
Всего: 36