S.M.A.R.T. (Self Monitoring Analysis and Reporting Technology) представляет собой технологию самодиагностики жестких дисков и твердотельных накопителей (SSD). Она позволяет отслеживать состояние устройства хранения данных, предупреждая о возможных проблемах до возникновения серьезных сбоев.
Основные SMART-атрибуты HDD-дисков:
Raw Read Error Rate
Отображает количество ошибок, возникших при чтении из-за аппаратных неполадок, электрические или механические неисправности.
Spin Up Time
Время раскрутки дисков до рабочей скорости. Увеличение значения может указывать на износ подшипников двигателя.
Reallocated Sector Count
Количество переназначенных секторов. Когда жесткий диск обнаруживает неисправный сектор, он автоматически заменяет его резервным. Большое число замещённых секторов сигнализирует о износе диска.
Seek Error Rate
Частота ошибок позиционирования головки. Частые ошибки означают проблемы с механической частью диска, износ механики или повреждение поверхности.
Power On Hours (POH)
Общее время работы диска. Чем больше часов работы, тем больше утилизация ресурсного времени эксплуатации устройства.
Temperature
Температура самого диска. Перегрев уменьшает срок службы компонентов, особенно механических частей и микросхем контроллера. Рабочая температура не должны превышать 55–60 градусов.
Ключевые SMART-атрибуты SSD-накопителей:
Percentage Used Endurance Indicator (Percent Lifetime Used)
Показатель износа ресурса NAND-памяти на основе фактического использования устройства и прогнозов производителя определяет процент оставшегося срока эксплуатации SSD-накопителя. 100% означает завершение срока службы или отсутствие ресурса.
Host Writes in Gigabytes
Суммарный объём записанных данных на накопитель. Отражает количество данных, которые контроллер должен был записать, в то время как «NAND Writes» показывает объём данных, которые действительно записал контроллер (после сжатия).
NAND Writes Amplification Factor
Коэффициент увеличения операций записи. Показывает, насколько много реальных физических операций записи производится относительно виртуальных операций.
Erase Failures
Количество неудачных попыток стирания блоков NAND. Повышение числа указывает на отказ ячеек памяти накопителя.
Wear Leveling Count
Отслеживает равномерность износа ячеек памяти. Если этот показатель высокий, значит некоторые ячейки начали значительно быстрее изнашиваться.
Как интерпретировать показатели?
Большинство современных утилит диагностики отображают SMART-данные графически или предоставляют рекомендации.
Например, программы smartctl позволяют оценить общее состояние диска, провести диагностику и тестирование
Установка martmontools
apt install smartmontools
Основная информация о диске в S.M.A.R.T.
smartctl -i /dev/sda
Запускаем тест
smartctl -s on -a /dev/sda
Если SMART overall-health self-assessment test result: FAILED, то выносим всё с диска и готовимся к его уверенному сбою
Автоматическая проверка настраивается в /etc/smartd.conf
nano /etc/smartd.conf
Добавляем следующее
/dev/sda -m info@mydomain.ru -M daily
(Ctrl + o - сохранить, Ctrl + x - выйти)
daily - отправка ежедневного сообщения о проблеме
Однако важно помнить, что даже низкий уровень индикатора здоровья не гарантирует немедленного выхода диска из строя. Некоторые диски продолжают исправно функционировать долгое время несмотря на тревожные сигналы SMART.