Я бы не стал начинать въезжать в кодинг с фронта, там слишком большой и быстро меняющийся зоопарк.
По деньгам: последний раз, когда искал джуна на фронт, давали типа 80к (дефолт сити), отсмотрел человек 30, никто не понравился, а которой был более-менее - слился сам в итоге =) Так что нижняя планка где-то тут.
Бардо, спасибо, Рубенштейна сегодня пойду изучать, там много чего насоветовали. Ну а сам-то чо? Или ты покинул Северную столицу? ))
Так, Москва, ну кто идет-то? Я пока насчитал:
- Боярин +5
- Миха
- Бурундук
- Чесмастер
- Молду
Еще кто? pelvis, думаю, вы идете?
За 80 баксов чего пожрать-выпить дадут, примерно?
Почему же? Я их посчитал, причем с запасом:
Хотя на глубину просмотра и процент отказов хватит 2 байт на самом деле, а на номер поисковика хватит и одного.
Что такое "дата парсинга"? Первое попадание запроса в базу?
Вообще-то нет =) Меня пугает не то, что места на диске не хватит, а расхождение в цифрах, причем приличное.
Меня как-то пугают эти цифры. Объясните пожалуйста, где я не прав. Вот смотрите:
1. 650 Гб = 697932185600 байт
2. 697932185600/3000000000 = 232,644061867
То есть на 1 запрос у вас получается ~233 байта. Даже если хранить в плейн-тексте, это как-то очень дофига. Например вот тут вы показывали выгрузку в CSV, там 66208 строк при весе файла 4351 Кб (то есть 67.2 байта на запрос). А придумать какой-то более жручий формат, чем CSV, как-то сходу и не получается (XML если только 🤣 ).
По моим прикидкам должно выходить примерно так:
- индекс по словам - ну пусть 10 млн. слов по 10 знаков в среднем ~ 100 Мб
- номер слова умещается в MEDIUMINT, 3 байта
- пусть в среднем запросе 10 слов, длинных хвост все-таки - 30 байт на сам запрос
- ну ок, по 3 байта на каждую доп. колонку - выходит 48 байт на строку
- перемножить на 3.2 млрд - будет 143,05 Гб
- ну пусть еще столько же на всевозможные индексы...
Короче, больше 300 Гб не выходит, и то я все по-максимуму брал.
Что же там набито? Или я где-то нолик пропускаю? )
С днем рожденья! От котанов привет =)
До недавнего времени у меня была такая штука - Philips Xenium x325, и там даже был браузер, и я им даже пользовался :)
"Нормальная навигация" - это в смысле ссылки из текста? Ок, но только это совсем не то, что можно использовать массово. Здесь же речь о CMS идет.
Поковырял чуть-чуть логи. На 30К хитов нашлась только одна такая запись:
Судя по всему, массово боты этим действительно не пользуются.
У поисковиков есть вариант отправить запрос методом HEAD, чтобы получить только заголовки документа. Делают они это сейчас, или нет - я, если честно, не знаю.
Я уже видел этот пример довольно давно, и не вполне понял его ценность ни тогда, ни сейчас :) Мне кажется, это хитрое колдовство, которое может быть уместно в конкретной ситуации Леши, но делать из этого универсальное решение едва ли стоит.
Во-первых, не известно, как оно будет работать на дохлых девайсах. Во-вторых, не понимаю, зачем делать бото-читаемую навигацию только через карту сайта - внутренние страницы оказываются на в двух кликах от морды, какой от этого профит? Борьба со сквозняками? А все ли верят, что это еще актуально? :)
P.S. Написал обобщающую статью в бложек по мотивам топика + написал письмо Платону по поводу HEAD-запросов и допустимости клоакинга в случае, если контент достается только через GET.
богоносец, ага, спасибо!
Я давно не изучал механику скачивания контента поисковиками. Они сперва делают HEAD-запрос, и если в заголовках не 200, это типа не влияет на счетчик обращений к серваку? В таком случае можно отдавать 301 редирект на HEAD-запросы (ориентируясь на $_SERVER['REQUEST_METHOD']) и 200 + rel=canonical на GET (слать не-200 при видимом контенте мне как-то совсем не хочется, может я и не прав).
В любом случае мне кажется, что страницы c rel=canonical должны фильтроваться еще до попадания в индекс. Надо поэкспериментировать.
То есть дать админу сайта (сеошнику, разработчику?) возможность управления индексацией отдельных блоков? Мысль интересная, но что-то мне подсказывает: те, кто знают, зачем это нужно, сообразят и как это сделать. А кто не знает - сами себе испортят жизнь (например, закроют от индексации не дублирующуюся навигацию). Можно чуть больше практических примеров по этому пункту?
Да, задание произвольных урлов - дело важное, я согласен. Сейчас даже скорее не из-за кластеров, а тупо из-за кивурдов и урловой релевантности :)
Выбор ручной или автоматический? С автоматическим могут быть проблемы. Например, сделали мы, чтоб на странице "новости" отдавался last-modified по дате последней новости (и эта же дата учитывалась в if-modified-since). Вроде логично... но вот сайт забросили и поставили там сапу, и никогда продажные ссылки в индекс не попадут. А потом будут говорить, что это не-сео-френдли-цмс виновата :)
Леша, привет. А ты уверен, что все юзер-агенты при этом нормально отобразят страницу, позволят добавить в букмарки и т.д.? Их много, очень много, и некоторые гораздо умнее, чем им следовало быть :) А скажи, что ты думаешь про rel=canonical?
Полностью соответствует чему?
Людей, использующих этот "мусор", гораздо больше, чем злых конкурентов, загоняющих в индекс несуществующие страницы. Если оно не будет работать, это гораздо больший минус продукту. Но я как бы не спорю, что в индекс такие страницы попадать не должны.
Спасибо, но я скорее имел ввиду возможности в разрезе SEO.
Спасибо, хороший пример. Но здесь 4xx заголовок отдается над соответствующим телом страницы, где написано "все плохо", и это правильно, имхо. Я как-то запомнил, что отдавать 4xx заголовок над нормальным контентом чревато неприятностями, увы сходу не вспомню, почему именно :)