Yandex Scale 2024

Edit...
meetup
Illustrated by Igan Pol

Привет, %username%! Я побывал на конференции Yandex.Scale , которая прошла 2024-09-25. Посетил несколько докладов, послушал про запуск нового продукта, а так же довольно интересно и полезно провел время. Сейчас попробую рассказать о том, как это было.

Общее впечатление#

Общее впечатление однозначно положительное. Однако стоит заметить некоторые особенности:

  • Было душновато – я это списываю на особенности самой площадки, где это проходило (в этом случае был МХАТ);
  • Хромало питание – причем к качеству питания никаких претензий, а вот к организации прям есть, потому что неоднократно оказывался в ситуации, когда стоя в очереди, как и все, тебе ничего не достается;
  • Очереди – в самом начале мероприятия были длинные очереди, однако к моменту когда я прибыл на площадку все рассосалось, но фотки были прям страшные (шпион с места действия передавал);
  • (Не)удобство навигации – к самой локации было довольно просто добраться (мне), однако непосредственно внутри – было крайне сложно сориентироваться, а площадку на 4 этаже я вообще посетил один раз (просто из любопытства), т.к. ползать туда по лестнице (мне) крайне лень.

Доклады#

Докладов было достаточно много, а главное некоторые из них были любопытными именно для меня (даже не спрашивай почему). Я осознанно посетил три доклада и одну презентацию, поэтому начну с последнего.

Презентация Yandex BareMetal#

Ребята презентовали новый продукт, который позволит арендовать “железные сервера”. Немного тезисов из данной презентации:

  • Cloud Compute это классическая виртуализация, которая имеет ряд преимуществ вроде надежности, отказоустойчивости, эластичного масштабирования, быстрого и кастомизируемого выбора ресурсов;
  • Yandex BareMetal позволяет арендовать выделенные физические сервера со всем вытекающими плюсами и минусами, так что если тебе крайне необходимы “железные сервера”, то можно воспользоваться. Предоставляется полноценная L2-связность;
  • Новый сервис будет являться отличным выбором для приложений, которые не готовы к облакам, либо имеют достаточно высокие требования к производительности/железу;
  • Плюсы, по сравнению с использованием своего железа достаточно очевидны: большие капексные расходы, сроки и трудности поставки, сложности масштабирования, сложности в размещении в ЦОД/Co-Location, потребность в дополнительной экспертизе;
  • На этапе запуска сервис Yandex BareMetal будет предоставлять следующие условия: готовые типовые конфигурации, физическая сеть на 1 Гб/с или 10 Гб/с, приватные сети L2- и L3-связности, заказ N-серверов с поддержкой Terraform, интеграция в ресурсную модель Yandex IAM, ну и iKVM консоль для управления сервером;
  • Разделение зон ответственности выглядит так: Yandex.Cloud отвечает за весь физический мир, а все что устанавливается на сервере это полностью ответственность клиента;
  • Сервера заказанные через Yandex BareMetal будут доступны для подключения в Yandex Managed Kubernetes в качестве worker-нод, а так же их можно будет добавить в Yandex Cloud Backup;

Сломать, чтобы починить: Парадокс хаос-инжиниринга в действии#

Это доклад от ребят из компании Mindbox про их опыт построения такой интересной темы, как Chaos Engineering. Они выбирали инструмент, так же набили разные шишки, вот краткие тезисы из доклада:

  • Цель chaos engineering в том, чтобы выявить узкие места до того, как они проявят себя при промышленной эксплуатации на реальных пользователях;
  • Рассматривались несколько инструментов, но выбирали между двумя: Chaos Mesh и Litmus . Последний умеет смотреть в Prometheus и Kubernetes API помимо классического HTTP, а так же имеет полноценный GitOps. Однако Chaos Mesh умеет работать с виртуальными машинами, а так же визуальное отображение пайплайнов экспериментов;
  • Описания экспериментов для Chaos Mesh хранятся рядом с кодом сервисов, которые подвергаются этим экспериментам;
  • Эксперименты запускаются в неконкурентном режиме – пока эксперимент не завершится, он не будет запущен повторно;
  • Эксперименты пишутся с учетом проверки всех возможных точек отказа и одной из точек отказа может быть misconfiguration, которая так же проверяется;
  • Для каждого эксперимента должны быть готовы run books по восстановлению, т.к. всегда может что-то пойти не так;
  • Эксперимент пишется максимально близким к реальности – не допустимы кейсы вида “прилетели марсиане” или “прибежал Годзилла”;
  • Всегда есть шанс поломать не только свои сервисы, но и саму хаус-платформу, поэтому ран-буки по ее восстановлению необходимо держать при себе;
  • Кроме экспериментов на отказ стоит описывать эксперименты на деградацию, что позволит оценивать систему в целом и ее отдельные участки в частности. Так же важно выполнять эксперименты chaos engineering’а часто, что позволит быть ближе к реальности как результатам, так и самим тестам;
  • Оптимальное временное окно для запуска тестов это середина нагрузки, т.к. в пике может быть страшно, а в минимуме будет довольно скучно. И да, эксперименты проводятся на контуре промышленной эксплуатации, где всегда есть живые пользователи;
  • Полезно делать аннотации на дашбордах Grafana с началом/завершением экспериментов. Это позволит быстрее реагировать в случае, если что-то пошло не так, а так же более точно оценивать производительность системы и сервисов;
  • Алерты от системы мониторинга не стоит отключать до того, как убедились, что эксперименты работоспособны и корректны. Желательно 3-5 раз запустить с включенными алертами, а далее уже по ситуации;
  • Chaos Engineering позволяет повысить надежность и отказоустойчивость системы, приблизить к SLO, улучшить взаимодействие и навыки команды, а так же сократить MTTR.

Как подключаться к S3 из VPC без доступа к интернет#

Сам по себе S3 реализован изначально AWS для решения своих проблем и удовлетворения потребностей. Но ребята из Yandex.Cloud реализовали полностью совместимый сервис. Из интересного, что появилось:

  • Функционал Security Token Service (STS) полностью совместим с AWS STS API, поэтому можно смело использовать;
  • Изначально доступ к S3-бакету был равносилен походу в публичную сеть Интернет, однако сейчас можно организовать доступ к S3-бакету не выходя в публичную сеть Интернет;
  • Для тех, кто использует GeeseFS, может быть полезным тот факт, что реализована поддержка метода PATCH;

Стратегия продукта безопасности в Yandex Cloud#

Не возможно обойти стороной тему безопасности при разговоре про публичные облака. Немного о том, поэтому Yandex Cloud подсветили следующее:

  • Запуск в облаке снижает и Time To Market и трудозатраты, что однозначно является хорошим плюсом для бизнеса;
  • Решение внутренних задач по ИБ крайне проблематично отдавать на аутсорс, поэтому компания должна взращивать свои компетенции в сфере ИБ;
  • Помимо соблюдения кучи требований со стороны Yandex Cloud по теме ИБ от различных регуляторов, появилась сертификация по ИБ (экзамен), которая позволяет проверить своих специалистов на соответствие;
  • Активно практикуется “догфудинг” – все продукты/сервисы/стандарты активно используются самой компанией;

Итоги#

Очень много времени провел беседуя с архитектором Yandex Cloud – выпытывал устройство Yandex Cloud, т.к. активно живу и работаю в нем. Это самое полезное, что я вынес с данного мероприятия! И именно ради такого я рекомендую всем посещать конференции – ради возможности задать свои вопросы напрямую людям, продуктами которых ты пользуешься.


Если у тебя есть вопросы, комментарии и/или замечания – заходи в чат , а так же подписывайся на канал .

О способах отблагодарить автора можно почитать на странице “Донаты ”.