Коля Дубр

Коля Дубр
Рейтинг
153
Регистрация
02.03.2005
Должность
NetCat
Интересы
cms, музыка, лингвистика

Я бы не стал начинать въезжать в кодинг с фронта, там слишком большой и быстро меняющийся зоопарк.

По деньгам: последний раз, когда искал джуна на фронт, давали типа 80к (дефолт сити), отсмотрел человек 30, никто не понравился, а которой был более-менее - слился сам в итоге =) Так что нижняя планка где-то тут.

jpg lilu.jpg

Бардо, спасибо, Рубенштейна сегодня пойду изучать, там много чего насоветовали. Ну а сам-то чо? Или ты покинул Северную столицу? ))

Так, Москва, ну кто идет-то? Я пока насчитал:

- Боярин +5

- Миха

- Бурундук

- Чесмастер

- Молду

Еще кто? pelvis, думаю, вы идете?

За 80 баксов чего пожрать-выпить дадут, примерно?

MOAB:
Вы пропускаете не нолик, а большое количество дополнительной информации, которая идет вместе с ключевыми фразами - визиты, просмотры, отказы и остальные поля из Метрики

Почему же? Я их посчитал, причем с запасом:

Коля Дубр:
- ну ок, по 3 байта на каждую доп. колонку

Хотя на глубину просмотра и процент отказов хватит 2 байт на самом деле, а на номер поисковика хватит и одного.

MOAB:
а также другую сервисную информацию, такую как дата парсинга, период и т.д.

Что такое "дата парсинга"? Первое попадание запроса в базу?

MOAB:
Надеюсь, исчерпывающе ответили на Ваш вопрос.

Вообще-то нет =) Меня пугает не то, что места на диске не хватит, а расхождение в цифрах, причем приличное.

более 3.2 млрд ключевых слов, 650 Гб информации

Меня как-то пугают эти цифры. Объясните пожалуйста, где я не прав. Вот смотрите:

1. 650 Гб = 697932185600 байт

2. 697932185600/3000000000 = 232,644061867

То есть на 1 запрос у вас получается ~233 байта. Даже если хранить в плейн-тексте, это как-то очень дофига. Например вот тут вы показывали выгрузку в CSV, там 66208 строк при весе файла 4351 Кб (то есть 67.2 байта на запрос). А придумать какой-то более жручий формат, чем CSV, как-то сходу и не получается (XML если только 🤣 ).

По моим прикидкам должно выходить примерно так:

- индекс по словам - ну пусть 10 млн. слов по 10 знаков в среднем ~ 100 Мб

- номер слова умещается в MEDIUMINT, 3 байта

- пусть в среднем запросе 10 слов, длинных хвост все-таки - 30 байт на сам запрос

- ну ок, по 3 байта на каждую доп. колонку - выходит 48 байт на строку

- перемножить на 3.2 млрд - будет 143,05 Гб

- ну пусть еще столько же на всевозможные индексы...

Короче, больше 300 Гб не выходит, и то я все по-максимуму брал.

Что же там набито? Или я где-то нолик пропускаю? )

С днем рожденья! От котанов привет =)

burunduk:
это кто ещё на спектруме сидит?

До недавнего времени у меня была такая штука - Philips Xenium x325, и там даже был браузер, и я им даже пользовался :)

burunduk:
там и нормальная навигация доступна для бота, но только та, которая мне нужна

"Нормальная навигация" - это в смысле ссылки из текста? Ок, но только это совсем не то, что можно использовать массово. Здесь же речь о CMS идет.

Miha Kuzmin (KMY):
Не знаешь, ага.

Поковырял чуть-чуть логи. На 30К хитов нашлась только одна такая запись:

5.9.122.103 - - [01/Mar/2013:05:45:51 +0400] "HEAD / HTTP/1.0" 200 - "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Судя по всему, массово боты этим действительно не пользуются.

Pavel_:
Неужто у юзеров и ПС есть другие варианты для поглядеть сайт? ... ))

У поисковиков есть вариант отправить запрос методом HEAD, чтобы получить только заголовки документа. Делают они это сейчас, или нет - я, если честно, не знаю.

богоносец:
Да вон бурундуковских хватит.

Я уже видел этот пример довольно давно, и не вполне понял его ценность ни тогда, ни сейчас :) Мне кажется, это хитрое колдовство, которое может быть уместно в конкретной ситуации Леши, но делать из этого универсальное решение едва ли стоит.

Во-первых, не известно, как оно будет работать на дохлых девайсах. Во-вторых, не понимаю, зачем делать бото-читаемую навигацию только через карту сайта - внутренние страницы оказываются на в двух кликах от морды, какой от этого профит? Борьба со сквозняками? А все ли верят, что это еще актуально? :)

P.S. Написал обобщающую статью в бложек по мотивам топика + написал письмо Платону по поводу HEAD-запросов и допустимости клоакинга в случае, если контент достается только через GET.

богоносец, ага, спасибо!

богоносец:
Сначала ПС (имея ограничение на количество обращений к конкретному серваку) скачает эти дубли, потом поймёт, что это дубли. Скорость индексации/переиндексации снижается.

Я давно не изучал механику скачивания контента поисковиками. Они сперва делают HEAD-запрос, и если в заголовках не 200, это типа не влияет на счетчик обращений к серваку? В таком случае можно отдавать 301 редирект на HEAD-запросы (ориентируясь на $_SERVER['REQUEST_METHOD']) и 200 + rel=canonical на GET (слать не-200 при видимом контенте мне как-то совсем не хочется, может я и не прав).

В любом случае мне кажется, что страницы c rel=canonical должны фильтроваться еще до попадания в индекс. Надо поэкспериментировать.

богоносец:
2. Помогать разруливать проблемы, являющиеся как бы свойством сайта. Например футеры/шапки/менюшки можно рисовать на клиенте, не показывая ботам... ну вот если на страницах неповторимого контета мало, например.

То есть дать админу сайта (сеошнику, разработчику?) возможность управления индексацией отдельных блоков? Мысль интересная, но что-то мне подсказывает: те, кто знают, зачем это нужно, сообразят и как это сделать. А кто не знает - сами себе испортят жизнь (например, закроют от индексации не дублирующуюся навигацию). Можно чуть больше практических примеров по этому пункту?

богоносец:
3. Оставлять много свободы по изменению всего... включая урлы

Да, задание произвольных урлов - дело важное, я согласен. Сейчас даже скорее не из-за кластеров, а тупо из-за кивурдов и урловой релевантности :)

богоносец:
предоставляя выбор ласт-модифайда

Выбор ручной или автоматический? С автоматическим могут быть проблемы. Например, сделали мы, чтоб на странице "новости" отдавался last-modified по дате последней новости (и эта же дата учитывалась в if-modified-since). Вроде логично... но вот сайт забросили и поставили там сапу, и никогда продажные ссылки в индекс не попадут. А потом будут говорить, что это не-сео-френдли-цмс виновата :)

burunduk:
только 404

Леша, привет. А ты уверен, что все юзер-агенты при этом нормально отобразят страницу, позволят добавить в букмарки и т.д.? Их много, очень много, и некоторые гораздо умнее, чем им следовало быть :) А скажи, что ты думаешь про rel=canonical?

burunduk:
только в одном случае отдавать 200 - когда url полностью соответствует

Полностью соответствует чему?

burunduk:
просто не используйте этот мусор

Людей, использующих этот "мусор", гораздо больше, чем злых конкурентов, загоняющих в индекс несуществующие страницы. Если оно не будет работать, это гораздо больший минус продукту. Но я как бы не спорю, что в индекс такие страницы попадать не должны.

burunduk:
насколько знаю, ни одна не имеет внятной защиты от "дурака менеджера", либо безумно перегруженный интерфейс, в котором не всякий специалист разберётся, либо настолько урезанный функционал, что работать не возможно

Спасибо, но я скорее имел ввиду возможности в разрезе SEO.

Алексей Добролюбов:
Если страница найдена, но не принимает параметров, то логичнее отдавать 400.
Пример: http://softex.biz/?test

Спасибо, хороший пример. Но здесь 4xx заголовок отдается над соответствующим телом страницы, где написано "все плохо", и это правильно, имхо. Я как-то запомнил, что отдавать 4xx заголовок над нормальным контентом чревато неприятностями, увы сходу не вспомню, почему именно :)

Всего: 1529