Давным-давно, в незапамятные времена, компания Backblaze, с целью исследования надежности дисковых накопителей, начала собирать статистику отказов жестких дисков, используемых компанией для хранения клиентских данных. В первом квартале текущего года в Backblaze провели мониторинг 211732 жестких дисков и SSD, установленных в дата-центрах компании по всему миру. Из этих дисков 3860 использовались в качестве загрузочных, остальные 207872 – для размещения данных. Эти последние и послужили базой для настоящего отчета.
В данной статье мы рассмотрим интенсивность отказов в этой группе жестких дисков, на конец 1-го квартала 2022 года находившейся в эксплуатации, в статистической связи с возрастом дисков на момент отказа. Кроме того, мы рассмотрим динамику интенсивности отказов дисков на протяжении более длительного периода эксплуатации. Мы поделимся с вами своими наблюдениями и выводами и, как всегда, ожидаем от вас того же в разделе комментариев.
По итогам мониторинга 207872 жестких дисков, проведенного Backblaze в 1-м квартале 2022 года, была собрана статистика отказов жестких дисков, используемых для хранения данных. При этом из рассмотрения было исключено 394 диска, из которых часть использовалась для тестирования, а остальные относились к малочисленным модельным выборкам, в которых количество эксплуатируемых экземпляров насчитывало менее 60 представителей конкретной модели. Таким образом, для статистического анализа у нас осталось в общей сложности 207478 рабочих образцов жестких дисков. Результаты статистического анализа отчетных данных за 1-й квартал 2022 года приведены в таблице ниже.
В отчетной таблице за 1-й квартал 2022 года некоторые моменты заслуживают отдельного внимания.
Мы публикуем квартальные и годовые статистические отчеты, характеризующие надежность дисковых накопителей, начиная с 1-го квартала 2015 года. При этом мы предлагаем вашему вниманию различные варианты представления данных, поскольку такой многосторонний взгляд помогает более глубоко оценить нашу рабочую среду и используемые в ней жесткие диски. Сегодня мы визуально сопоставим годовую интенсивность отказов (AFR) конкретных моделей дисков и средний возраст дисков в соответствующих модельных выборках, используя так называемый «квадрат статистики отказов».
Каждая точка, отмеченная в рамках квадрата статистики отказов, представляет конкретную модель жесткого диска, находящуюся в эксплуатации в наших дата-центрах на момент 31 марта 2022 года, и имеет координаты, соответствующие среднему возрасту эксплуатируемых дисков данной модели (по вертикали) и годовой интенсивности отказов дисков этой модели (по горизонтали). Здесь представлены только модели дисков с общей наработкой не менее 1 млн диско-дней или с доверительным интервалом не более 0.6%.
В этом большом квадрате можно выделить четыре равных квадранта, соответствующих следующим категориям дисков.
Очевидно, что попадание в квадрант победителей – наиболее предпочтительный исход для всех моделей дисков. Но фактически любой диск стартует в квадранте III или IV, откуда со временем перемещается в более высокую категорию. Графики на рисунке ниже показывают, как модели, финишировавшие в квадранте II (победители), туда попали.
Путь каждой модели представляет змеевидный график, показывающий динамику AFR по мере увеличения среднего возраста модельной выборки. Интересно, что каждая из шести моделей, на текущий момент находящихся в квадранте II, имеет свою специфическую историю. Например, кто бы мог предположить, что 6-терабайтный диск Seagate (модель ST6000DX000) финиширует в квадранте победителей, учитывая его далеко не блестящий старт в 2015 году. И это не единственный такой диск; похожую историю имеют и 8-терабайтные диски Seagate (модели ST8000NM0055 и ST8000DM002).
Эти графики также наглядно показывают наиболее вероятное направление изменения годовой интенсивности отказов конкретных моделей дисков в ближайшее время. Например, с этой точки зрения интересно выглядит 10-терабайтная модель Seagate, которая через квартал-другой скорей всего окажется в квадранте отставников, то есть главных претендентов на замену.
Приведенные в начале этой статьи результаты квартального отчета включают в себя некоторый элемент случайности. Например, с практической точки зрения разница небольшая – зарегистрирован отказ диска 31 марта в 23:59 или 1 апреля в 00:01 – но на результаты квартального отчета это повлияет. Квартальные результаты в определенной мере раскрывают тенденции в части возможных отказов дисков, находящихся в эксплуатации, но наиболее полную и точную информацию о вероятном поведении дисков той или иной модели дают отчеты о годовой интенсивности отказов за весь период эксплуатации текущего парка дисков.
В таблице ниже приведены показатели годовой интенсивности отказов всех эксплуатируемых моделей дисков, выпускаемых производителями на момент 31 марта 2022 года, за весь период их эксплуатации в наших дата-центрах.
Средняя годовая интенсивность отказов для всего парка дисков из таблицы выше за указанный отчетный период (20 апреля 2013 – 31 марта 2022 гг.) составила 1.39%. Это меньше, чем было на конец 2021 года (1.40%). Ровно год назад (на момент 31 марта 2021 года), средний показатель AFR дисков за весь период эксплуатации составлял 1.49%.
В приведенной выше таблице интенсивностей отказов все модели с наработкой (Drive Days) менее 500000 диско-дней или с доверительным интервалом (Confidence Interval) более 1.0% не дают статистически точной картины в плане надежности этих дисков по причине недостаточного количества данных по этим моделям. Примеры таких дисков – 8-терабайтная модель HGST HUH728080ALE604 и 16-терабайтная модель Toshiba MG08ACA16TA. Мы включили их в таблицу просто для единообразия отчетности, поскольку они фигурируют в квартальной таблице, приведенной в начале статьи.
Итак, с учетом необходимых требований по наработке и доверительным интервалам, самыми надежными в нашем парке оказались следующие диски (от каждого из производителей):
Все исходные данные для этого отчета доступны на сайте Backblaze. Их можно бесплатно скачать и использовать в своих целях при соблюдении следующих трех условий: 1) при использовании этих данных в своих публикациях необходимо указать Backblaze в качестве источника; 2) используя эти данные, вы соглашаетесь с тем, что только вы несете ответственность за то, как и для чего вы их используете; 3) вы не можете продавать эти данные кому-либо – они бесплатные.
Источник: www.backblaze.com