Бывший Compellent

Раньше серию СХД Compellent выпускала одноименная компания, которая была основана в 2002 году.

В 2010 году продалась DELL и теперь это уже схд от DELL.

Документация

На мой взгляд очень важная составляющая особенно когда у тебя что-то пошло ни так. Так вот, как по мне не очень хорошо у данной СХД с этим компонентом. Да инструкция то сама присутствует, и да там в принципе всё даже расписано что куда нужно тыкать. Но есть один жирный минус, в этой инструкции не расписано как именно работает то, что ты хочешь сделать, по крайней мере в открытом доступе.

Вот допустим про snapshot написано, что рекомендуется его использовать обязательно там раз в день. А кто скажет зачем оно мне?

Собственно об этом snapshot

У самого устройства существует 3 tier. В моих руках была СХД с 2 tier:

  • Tier1 - ssd диски для горячих данных
  • Tier3 - sas диски для холодных данных

Суть в том, что горячие данные или те что сейчас записываются хранятся на Tier1, а дальше уже по мере остывания скидываются на Tier3.

Так каким образом это происходит? Вроде если это умная СХД, то она должна делать это сама в режиме реального времени. Но у DELL SC5020 в этом также задействован механизм snapshot. Разбор по пунктам:

  1. Вы записали данные на Tier1
  2. Вы сделали snapshot
  3. Через час еще один snapshot
  4. Через 70 минут устарел ваш первый snapshot
  5. И с этого устаревшего snapshot холодные данные переехали на Tier3

Компрессия и дедупликация

В этой СХД присутствует данный функционал. На скриншоте видно, как оно сжимает данные, с учетом того что на ней лежат разносортные виртуальные сервера. В TIER1 это не работает.

enter image description here

Что если не делать snapshot

Если его не делать, то сперва полностью забьётся Tier1 и только потом данные будут писаться в Tier3.

Средства управления

Для управления схд придётся ставить утилиту DELL Storage Center, да еще и запускать эту утилиту от имени администратора.

Согласитесь, хочется это делать просто через web, имея весь функционал утилиты. В экстренный момент то может вылезти боком.

Что будет если закончится место?

Ох очень интересный вопрос. Перед тем как продолжить читать подумайте сами к чему это может привести и как бы вы с этим справились.

На самой СХД есть trashhold в процентах, который уведомит вас о том, что место кончается. Но бывают ситуации, когда кто-то либо не прочитает, либо посмотрит в виртуализации место, а там будет его еще полно (привет VMFS-5) и место в итоге таки закончится.

Так вот с таким мы и столкнулись в своё время. Из-за того, что esxi на хостах был древний (денег нет, денег нет) мы использовали VMFS-5. Если кто не знал при удалении данных с СХД нужно выполнять команду на ESXI чтобы она поняла, что нужно высвободить место.

У нас была срочная (как всегда) задача мигрировать много данных на этот DELL SC5020 и потом уже с него на другую СХД. В какой-то момент сработал alert, но в связи с тем, что сроки были сжатые и в целом еще много что нужно было сделать человек зашёл в vcenter и место посмотрел там, а там всё было ровно. Но благодаря VMFS-5 сама СХД не знала, что место нужно освободить или ей просто нужно больше времени чтобы это осознать. В итоге на утро получили несколько хостов с виртуалками у которых была ошибка I/O операций. Место реально закончилось, но не в виртуализации.

И тут первая мысль в голове надо что-то удалить с схд. Хотя учитывая, что используется VMFS-5 это скорее всего не помогло бы и нужно было еще запускать unmap. Но не суть в целом СХД может забиться и, если используется не для виртуализации.

Так вот удалить оттуда ничего не получится, так как СХД падает в emergency mode и доступна только для чтения. И сами вы это исправить не сможете, звоните в support.

Сам support

В зависимости от времени в которое вы звоните вы можете попасть либо на русскоязычную поддержку, либо на англоязычную. В нашем же случае 90% звонков попадали на англоязычных.

А теперь интересный момент. Точно также каждый инженер там дежурит по времени. Мы дозвонились и открыли ticket, инженер сказал что нужно прямое подключение через консольный кабель (совет хранить эти кабеля в той же стойке). В нашем случае туда пришлось ехать, на что ушло около 30 минут. По приезду и долгому дозвону выяснилось, что инженер принимавший нашу заявку ушёл, его время вышло. И нам пришлось заново всё объяснять уже другим людям.

Spare

При настройке СХД вы не сможете настроить отдельный spare на определённый диск. Это же умная СХД, она сама забирает под spare место на всех дисках, общий объём которых равно одному диску в TIER.

И тут очень странный момент, о котором я не сразу подумал. Инженер начал искать spare диск. Именно физический диск, на СХД которая не использует физический spare.

В итоге его вердикт был spare нет, место забито, volume удалять нельзя (первое что они предложили) значит надо дополнить СХД парочкою дисков. Потом добавить их в забитый TIER и всё заработает.

Поиск дисков

У нас был support, включающий замену компонентов в течении 4 часов. Но самый прикол что дисков в Казахстане нигде не было. Да и в целом физически никаких неисправностей не было. А значит диски еще нужно покупать самому, за свой счёт (привет госзакупки). В итоге эти диски шли бы где-то неделю.

Произошло чудо

На самом деле не уверен, что произошло именно то, что я распишу, но очень похоже на это. По расписанию просочился snapshot, также выключал виртуалки в надежде что освободится место swap. Благодаря просроченному shapshot какие-то данные мигрировали на TIER3 или вовсе удалились. СХД вышла из emergency mode и ожила.

Времени разбираться особо не было, и мы просто начали мигрировать все виртуалки с данной СХД.

В итоге всё удачно смигрировали и отменили заказ дисков.

Выводы

  • Мониторьте место на СХД, а не на виртуализации (VMFS-5)
  • Лучше оставить хотя бы в одном TIER один вообще не используемый диск (так как тут используется софтовый RAID, это ни на что не повлияет)
  • При разбивке оставить хотя бы 1ТБ места не размеченным (чтобы в такой момент была возможность увеличения)
  • Даже топовая подписка на support не поможет вам в таких ситуациях если в вашей стране на складах нет нужного вам компонента СХД (придётся ждать дольше, чем написано в модели support). Наводит на мысль о том, что нужно иметь repair kit.
  • На таких умных СХД есть смысл включать сжатие (если позволяет железо)