Хочу продолжить обсуждение, начатое в статье Дэвида Моргенстерна “Наработка на отказ жесткого диска: заблуждение или фарс?” (PCWeek/UE №6, стр. 16). Непосредственно о жестких дисках (ЖД) я могу судить только как пользователь, однако являюсь специалистом с более чем тридцатилетним опытом в области надежности систем и сетей связи. Поэтому могу сказать, что статья изобилует высказываниями, демонстрирующими незнание основ теории надежности.

Надо уточнить, о чем идет речь: о времени или о наработке. Когда говорят о наработке, то имеют в виду только продолжительность работы объекта (в данном случае ЖД). Под временем может подразумеваться календарное время. Пересчет одного в другое может оказаться нетривиальной задачей, требующей учета режима работы объекта, а также влияния на его надежность включений и выключений питания.

На заре появления ПЭВМ подобная задача рассматривалась в статье Г. Р. Громова “Надежность персональных ЭВМ и производственная загрузка фирменной сети сервиса” (“Микропроцессорные средства и системы”, № 4/1985), а также в книге того же автора “Очерки информационной технологии” (М.: ИнфоАрт, 1992).

Надо обратить внимание на то, что в соответствии с установившейся традицией в англоязычных терминах пишется “время” (time), а подразумевается “наработка” (operating time). Это закреплено международными стандартами, но известно не всем, что может быть одной из причин расхождений.

Следует также уточнить, рас­смат­ривается ли ЖД как восстанавливаемый (в случае отказа производится ремонт устройства) или невосстанавливаемый (отказавшее устройство заменяется новым) объект. Показатели безотказности для этих ситуаций представлены в таблице.

В статье Д. Моргенстерна указано, что “среднее время наработки на отказ” (MTBF) определяется путем экстраполяции статистических данных, полученных за сравнительно короткий промежуток времени. Возможно, для ЖД это действительно так. Однако по своему опыту могу сказать, что зачастую производители рассчитывают надежность устройства на основании данных о надежности его компонентов, не производя вообще никаких испытаний. Выглядит подобный расчет в простейшем случае примерно так: “В устройстве 10 компонентов, каждый из которых имеет интенсивность отказов 10–7 ч–1, поэтому интенсивность отказов устройства 10·10–7 ч–1 = 10–6 ч–1, а наработка на отказ 106 ч = 1 млн. ч”. Такой расчет может учитывать далеко не всё, значения интенсивности отказов компонентов могут быть неточны, в силу чего результат окажется весьма далек от истинного значения.

Таким образом, следовало бы уточнить, какой же метод используется для определения MTBF. Известны три метода (см. ГОСТ 27.002—89):

расчетный, основанный на вычислении показателей надежности по справочным данным о надежности компонентов и комплектующих;
расчетно-экспериментальный, при котором показатели надежности составных частей объекта определяются по результатам испытаний и (или) эксплуатации, а показатели надежности объекта в целом рассчитываются по математической модели;
экспериментальный, основанный на статистической обработке данных, получаемых при испытаниях.

Результаты экстраполяции ста­тис­тических данных и расчетов будут существенно зависеть от принятой модели надежности. В статье Д. Моргенстерна говорится о так называемой кривой надежности. Она подразумевает, что график зависимости интенсивности отказов от времени представляет собой U-образную кривую. Это позволяет выделить три периода: 1) приработки (“выжигания дефектов”, “детской смертности”), когда интенсивность отказов убывает; 2) нормальной работы, когда интенсивность отказов примерно постоянна; 3) старения, когда интенсивность отказов возрастает.

Прежде всего надо заметить, что такое поведение вовсе не является обязательным для любых электронных устройств, а описывает только распространенную ситуацию. Поведение тех или иных объектов, в частности ЖД, может не укладываться в эту схему, о чем, собственно, и сказано в статье. Часто поведение объекта рас­смат­ривается только на периоде нор­­мальной работы. При этом предполагается, что период приработки охва­ты­вается испытаниями на пред­приятии-изго­товителе перед отгрузкой изделий потребителю или продавцу, а моральное старение наступает до начала физического, что позволяет исключить и период старения. Подобные рассуждения имеются, например, в уже упоминавшейся статье Г. Р. Громова.

Тогда интенсивность отказов можно считать постоянной, что приводит к экспоненциальному (показательному) закону распределения:

P(t) = exp(–lt) = exp(–t/T0),
где P(t) — вероятность безотказной работы за время t; l — интенсивность отказов; T0 — средняя наработка на отказ (MTBF).
Именно эта формула и дает указанную в статье вероятность отказа в течение года на уровне 1%. Действительно, если T0 = 1 млн. ч, t = 1 год = 8760 ч, то вероятность отказа за год составит:
1 — P(1 год) = 1 — exp(–8760/1 000 000) = =1 — exp(–0,00876) “ 1 — 0,99 = 0,01.

Но если интенсивность отказов, как это указано в статье, возрастает со временем и l(t) = const, то приведенные выше рассуждения и расчеты неприменимы. Вероятность отказа надо рассчитывать по другим, более сложным формулам, учитывающим непостоянство интенсивности отказов. При этом распределение наработки будет иметь как минимум два параметра, т. е. одного значения MTBF для расчета вероятности отказа недостаточно. Кроме того, в этом случае нет смысла говорить о вероятности отказа за год вообще, а следует различать вероятности отказов за первый год, второй и т. д. Поэтому нет ничего удивительного в указанных в статье больших значениях вероятности отказа за год (от 2 до 4% и даже до 13%).

С учетом сказанного выше можно сделать вывод, что MTBF — далеко не лучший показатель для ЖД, с точки зрения пользователей. В этой ситуации больше подошло бы задание такого показателя, как гамма-процентная наработка до отказа. Например, 95%-ная наработка до отказа не менее 5 лет. Это означает, что за 5 лет работы должно отказывать не более 5% ЖД. Думаю, что если бы производители задавали и реально обеспечивали выполнение подобного требования, пользователи были бы удовлетворены.

В том, что внешние факторы, например условия эксплуатации, оказывают на надежность устройств большее влияние, чем их внутренняя конфигурация, нет ничего удивительного для любого грамотного специалиста по надежности. Именно поэтому производители всегда специально оговаривают допустимые условия эксплуатации своих изделий. При этом требования по надежности должны выполняться во всем допустимом диапазоне внешних факторов. Другое дело, если пользователи не выполняют указанные в документации на приобретенное устройство эксплуатационные требо­вания (по температуре, влажности, запыленности окружающей среды и пр.). Но тут какие могут быть претензии к производителям?

Пренебрегая влиянием внешних факторов, отказы отдельных устройств часто считают статистически неза­висимыми событиями. Если на самом деле это влияние существенно, подобное пренебрежение ведет к ошибкам. В результате возникает ситуация, описанная в процитированном в статье письме Робина Харриса, когда “...вероятность одновременного отказа сразу двух жёстких дисков массива может оказаться больше предполагаемой”. Это говорит о необходимости применения более сложных методов расчета, позволяющих учесть данную зависимость.

Подводя итоги, можно сказать, что статья Д. Моргенстерна (как, к сожалению, и многие другие публикации) свидетельствует о том, что большинство инженеров не обладают необходимым минимумом знаний по надежности. Еще хуже, что они даже не догадываются о своем незнании, им не приходит в голову обратиться к соответствующим стандартам и справочникам. Последствия этого могут быть весьма печальны. Впрочем, это уже отдельная тема.

С автором, начальником отдела НТЦ “Комсет”, профессором МТУСИ, доктором технических наук, можно связаться по адресу: netes@komset.ru


Показатели надежности для объектов разного типа

ТИП ОБЪЕКТА
ПОКАЗАТЕЛИ
ОТЕЧЕСТВЕННЫЕ по ГОСТ 27.002-89
МЕЖДУНАРОДНЫЕ по МЭК 60050 (191)
Невосстанавливаемый
Средняя наработка до отказа
Mean (operating) Time To Failure (MTTF)
Восстанавливаемый
Средняя наработка на отказ (кратко - наработка на отказ)
Mean (operating) Time Between Failures (MTBF)