Здоровье диска или основные S.M.A.R.T.-атрибуты

S.M.A.R.T. (Self Monitoring Analysis and Reporting Technology) представляет собой технологию самодиагностики жестких дисков и твердотельных накопителей (SSD). Она позволяет отслеживать состояние устройства хранения данных, предупреждая о возможных проблемах до возникновения серьезных сбоев.

Основные SMART-атрибуты HDD-дисков:

Raw Read Error Rate

Отображает количество ошибок, возникших при чтении из-за аппаратных неполадок, электрические или механические неисправности.
Spin Up Time

Время раскрутки дисков до рабочей скорости. Увеличение значения может указывать на износ подшипников двигателя.
Reallocated Sector Count

Количество переназначенных секторов. Когда жесткий диск обнаруживает неисправный сектор, он автоматически заменяет его резервным. Большое число замещённых секторов сигнализирует о износе диска.
Seek Error Rate

Частота ошибок позиционирования головки. Частые ошибки означают проблемы с механической частью диска, износ механики или повреждение поверхности.
Power On Hours (POH)

Общее время работы диска. Чем больше часов работы, тем больше утилизация ресурсного времени эксплуатации устройства.
Temperature

Температура самого диска. Перегрев уменьшает срок службы компонентов, особенно механических частей и микросхем контроллера. Рабочая температура не должны превышать 55–60 градусов.

Ключевые SMART-атрибуты SSD-накопителей:

Percentage Used Endurance Indicator (Percent Lifetime Used)

Показатель износа ресурса NAND-памяти на основе фактического использования устройства и прогнозов производителя определяет процент оставшегося срока эксплуатации SSD-накопителя. 100% означает завершение срока службы или отсутствие ресурса.
Host Writes in Gigabytes

Суммарный объём записанных данных на накопитель. Отражает количество данных, которые контроллер должен был записать, в то время как «NAND Writes» показывает объём данных, которые действительно записал контроллер (после сжатия).
NAND Writes Amplification Factor

Коэффициент увеличения операций записи. Показывает, насколько много реальных физических операций записи производится относительно виртуальных операций.
Erase Failures

Количество неудачных попыток стирания блоков NAND. Повышение числа указывает на отказ ячеек памяти накопителя.
Wear Leveling Count

Отслеживает равномерность износа ячеек памяти. Если этот показатель высокий, значит некоторые ячейки начали значительно быстрее изнашиваться.

Как интерпретировать показатели?

Большинство современных утилит диагностики отображают SMART-данные графически или предоставляют рекомендации.
Например, программы smartctl позволяют оценить общее состояние диска, провести диагностику и тестирование
Установка martmontools
apt install smartmontools
Основная информация о диске в S.M.A.R.T.
smartctl -i /dev/sda
Запускаем тест
smartctl -s on -a /dev/sda
Если SMART overall-health self-assessment test result: FAILED, то выносим всё с диска и готовимся к его уверенному сбою
Автоматическая проверка настраивается в /etc/smartd.conf
nano /etc/smartd.conf
Добавляем следующее
/dev/sda -m info@mydomain.ru -M daily
(Ctrl + o - сохранить, Ctrl + x - выйти)
daily - отправка ежедневного сообщения о проблеме
Однако важно помнить, что даже низкий уровень индикатора здоровья не гарантирует немедленного выхода диска из строя. Некоторые диски продолжают исправно функционировать долгое время несмотря на тревожные сигналы SMART.
Подпишись на Linux Spark поддержи канал