Относительное среднее квадратическое отклонение. Среднеквадратическое отклонение

Х i - случайные (текущие) величины;

среднее значение случайных величин по выборке, рассчитывается по формуле:

Итак, дисперсия - это средний квадрат отклонений . То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат , складывается и затем делится на количество значений в данной совокупности.

Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую.

Разгадка магического слова «дисперсия» заключается всего в этих трех словах: средний – квадрат – отклонений.

Среднее квадратичное отклонение (СКО)

Извлекая из дисперсии квадратный корень, получаем, так называемое «среднеквадратичное отклонение». Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквыσ .). Формула среднего квадратичного отклонения имеет вид:

Итак, дисперсия – это сигма в квадрате, или – среднее квадратичное отклонение в квадрате.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеивания данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Размах вариации – это разница между крайними значениями. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Поэтому в методах статистической обработки данных в оценках объектов недвижимости в зависимости от необходимой точности поставленной задачи используют правило двух или трех сигм.

Для сравнения правила двух сигм и правила трех сигм используем формулу Лапласа:

Ф - Ф ,

где Ф(x) – функция Лапласа;



Минимальное значение

β = максимальное значение

s = значение сигмы (среднее квадратичное отклонение)

a = среднее значение

В этом случае используется частный вид формулы Лапласа когда границы α и β значений случайной величины X равно отстоят от центра распределения a = M(X) на некоторую величину d: a = a-d, b = a+d. Или (1) Формула (1) определяет вероятность заданного отклонения d случайной величины X с нормальным законом распределения от ее математического ожидания М(X) = a. Если в формуле (1) принять последовательно d = 2s и d = 3s, то получим: (2), (3).

Правило двух сигм

Почти достоверно (с доверительной вероятностью 0,954) можно утверждать, что все значения случайной величины X с нормальным законом распределения отклоняются от ее математического ожидания M(X) = a на величину, не большую 2s (двух средних квадратических отклонений). Доверительной вероятностью (Pд) называют вероятность событий, которые условно принимаются за достоверные (их вероятность близка к 1).

Проиллюстрируем правило двух сигм геометрически. На рис. 6 изображена кривая Гаусса с центром распределения а. Площадь, ограниченная всей кривой и осью Оx, равна 1 (100%), а площадь криволинейной трапеции между абсциссами а–2s и а+2s, согласно правилу двух сигм, равна 0,954 (95,4% от всей площади). Площадь заштрихованных участков равна 1-0,954 = 0,046 (»5% от всей площади). Эти участки называют критической областью значений случайной величины. Значения случайной величины, попадающие в критическую область, маловероятны и на практике условно принимаются за невозможные.

Вероятность условно невозможных значений называют уровнем значимости случайной величины. Уровень значимости связан с доверительной вероятностью формулой:

где q – уровень значимости, выраженный в процентах.

Правило трех сигм

При решении вопросов, требующих большей надежности, когда доверительную вероятность (Pд) принимают равной 0,997 (точнее - 0,9973), вместо правила двух сигм, согласно формуле (3), используют правило трех сигм.



Согласно правилу трех сигм при доверительной вероятности 0,9973 критической областью будет область значений признака вне интервала (а-3s, а+3s). Уровень значимости составляет 0,27%.

Другими словами, вероятность того, что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна 0,0027=1-0,9973. Это означает, что лишь в 0,27% случаев так может произойти. Такие события, исходя из принципа невозможности маловероятных событий, можно считать практически невозможными. Т.е. выборка высокоточная.

В этом и состоит сущность правила трех сигм:

Если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения (СКО).

На практике правило трех сигм применяют так: если распределение изучаемой случайной величины неизвестно, но условие, указанное в приведенном правиле, выполняется, то есть основание предполагать, что изучаемая величина распределена нормально; в противном случае она не распределена нормально.

Уровень значимости принимают в зависимости от дозволенной степени риска и поставленной задачи. Для оценки недвижимости обычно принимается менее точная выборка, следуя правилу двух сигм.

Для расчетов средней геометрической простой используется формула:

Геометрическая взвешенная

Для определения средней геометрической взвешенной применяется формула:

редние диаметры колес, труб, средние стороны квадратов определяются при помощи средней квадратической.

Среднеквадратические величины используются для расчета некоторых показателей, например коэффициент вариации, характеризующего ритмичность выпуска продукции. Здесь определяют среднеквадратическое отклонение от планового выпуска продукции за определенный период по следующей формуле:

Эти величины точно характеризуют изменение экономических показателей по сравнению с их базисной величиной, взятое в его усредненной величине.

Квадратическая простая

Средняя квадратическая простая вычисляется по формуле:

Квадратическая взвешенная

Средняя квадратическая взвешенная равна:

22. Абсолютные показатели вариации включают:

размах вариации

среднее линейное отклонение

дисперсию

среднее квадратическое отклонение

Размах вариации (r)

Размах вариации - это разность между максимальным и минимальным значениями признака

Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.

Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет. Решение: размах вариации = 9 - 2 = 7 лет.

Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .

При этом во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат

Среднее линейное и квадратическое отклонение

Среднее линейное отклонение - этосредняя арифметическая из абсолютных отклонений отдельных значений признака от средней.

Среднее линейное отклонение простое:

Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.

В нашем примере: лет;

Ответ: 2,4 года.

Среднее линейное отклонение взвешенное применяется для сгруппированных данных:

Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).

Среднее квадратическое отклонение

Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака отсредней арифметической:

Среднее квадратическое отклонение простое:

Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:

Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1,25.

Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.

Проведение любого статистического анализа немыслимо без расчетов. В это статье рассмотрим, как рассчитать дисперсию, среднеквадратичное отклонение, коэффиент вариации и другие статистические показатели в Excel.

Максимальное и минимальное значение

Среднее линейное отклонение

Среднее линейное отклонение представляет собой среднее из абсолютных (по модулю) отклонений от в анализируемой совокупности данных. Математическая формула имеет вид:

a – среднее линейное отклонение,

X – анализируемый показатель,

– среднее значение показателя,

n

В Эксель эта функция называется СРОТКЛ .

После выбора функции СРОТКЛ указываем диапазон данных, по которому должен произойти расчет. Нажимаем «ОК».

Дисперсия

{module 111}

Возможно, не все знают, что такое , поэтому поясню, — это мера, характеризующая разброс данных вокруг математического ожидания. Однако в распоряжении обычно есть только выборка, поэтому используют следующую формулу дисперсии:

s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

– среднее арифметическое по выборке,

n – количество значений в анализируемой совокупности данных.

Соответствующая функция Excel — ДИСП.Г . При анализе относительно небольших выборок (примерно до 30-ти наблюдений) следует использовать , которая рассчитывается по следующей формуле.

Отличие, как видно, только в знаменателе. В Excel для расчета выборочной несмещенной дисперсии есть функция ДИСП.В .

Выбираем нужный вариант (генеральную или выборочную), указываем диапазон, жмем кнопку «ОК». Полученное значение может оказаться очень большим из-за предварительного возведения отклонений в квадрат. Дисперсия в статистике очень важный показатель, но ее обычно используют не в чистом виде, а для дальнейших расчетов.

Среднеквадратичное отклонение

Среднеквадратичное отклонение (СКО) – это корень из дисперсии. Этот показатель также называют стандартным отклонением и рассчитывают по формуле:

по генеральной совокупности

по выборке

Можно просто извлечь корень из дисперсии, но в Excel для среднеквадратичного отклонения есть готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Стандартное и среднеквадратичное отклонение, повторюсь, — синонимы.

Далее, как обычно, указываем нужный диапазон и нажимаем на «ОК». Среднеквадратическое отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными. Об этом ниже.

Коэффициент вариации

Все показатели, рассмотренные выше, имеют привязку к масштабу исходных данных и не позволяют получить образное представление о вариации анализируемой совокупности. Для получения относительной меры разброса данных используют коэффициент вариации , который рассчитывается путем деления среднеквадратичного отклонения на среднее арифметическое . Формула коэффициента вариации проста:

Для расчета коэффициента вариации в Excel нет готовой функции, что не есть большая проблема. Расчет можно произвести простым делением стандартного отклонения на среднее значение. Для этого в строке формул пишем:

СТАНДОТКЛОН.Г()/СРЗНАЧ()

В скобках указывается диапазон данных. При необходимости используют среднее квадратичное отклонение по выборке (СТАНДОТКЛОН.В).

Коэффициент вариации обычно выражается в процентах, поэтому ячейку с формулой можно обрамить процентным форматом. Нужная кнопка находится на ленте на вкладке «Главная»:

Изменить формат также можно, выбрав из контекстного меню после выделения нужной ячейки и нажатия правой кнопкой мышки.

Коэффициент вариации, в отличие от других показателей разброса значений, используется как самостоятельный и весьма информативный индикатор вариации данных. В статистике принято считать, что если коэффициент вариации менее 33%, то совокупность данных является однородной, если более 33%, то – неоднородной. Эта информация может быть полезна для предварительного описания данных и определения возможностей проведения дальнейшего анализа. Кроме того, коэффициент вариации, измеряемый в процентах, позволяет сравнивать степень разброса различных данных независимо от их масштаба и единиц измерений. Полезное свойство.

Коэффициент осцилляции

Еще один показатель разброса данных на сегодня — коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.

Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.

В целом, с помощью Excel многие статистические показатели рассчитываются очень просто. Если что-то непонятно, всегда можно воспользоваться окошком для поиска во вставке функций. Ну, и Гугл в помощь.

Среднеквадрати́ческое отклоне́ние (синонимы: среднее квадрати́ческое отклоне́ние , среднеквадрати́чное отклоне́ние , квадрати́чное отклоне́ние ; близкие термины: станда́ртное отклоне́ние , станда́ртный разбро́с ) - в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания . При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическое совокупности выборок.

Энциклопедичный YouTube

  • 1 / 5

    Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического , при построении доверительных интервалов , при статистической проверке гипотез , при измерении линейной взаимосвязи между случайными величинами. Определяется как квадратный корень из дисперсии случайной величины .

    Среднеквадратическое отклонение:

    s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s={\sqrt {{\frac {n}{n-1}}\sigma ^{2}}}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}};}
    • Примечание: Очень часто встречаются разночтения в названиях СКО (Среднеквадратического отклонения) и СТО (Стандартного отклонения) с их формулами. Например, в модуле numPy языка программирования Python функция std() описывается как "standart deviation", в то время как формула отражает СКО (деление на корень из выборки). В Excel же функция СТАНДОТКЛОН() другая (деление на корень из n-1).

    Стандартное отклонение (оценка среднеквадратического отклонения случайной величины x относительно её математического ожидания на основе несмещённой оценки её дисперсии) s {\displaystyle s} :

    σ = 1 n ∑ i = 1 n (x i − x ¯) 2 . {\displaystyle \sigma ={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}.}

    где σ 2 {\displaystyle \sigma ^{2}} - дисперсия ; x i {\displaystyle x_{i}} - i -й элемент выборки; n {\displaystyle n} - объём выборки; - среднее арифметическое выборки:

    x ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + … + x n) . {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\ldots +x_{n}).}

    Следует отметить, что обе оценки являются смещёнными. В общем случае несмещённую оценку построить невозможно. Однако оценка на основе оценки несмещённой дисперсии является состоятельной .

    В соответствии с ГОСТ Р 8.736-2011 среднеквадратическое отклонение считается по второй формуле данного раздела. Пожалуйста, сверьте результаты.

    Правило трёх сигм

    Правило трёх сигм ( 3 σ {\displaystyle 3\sigma } ) - практически все значения нормально распределённой случайной величины лежат в интервале (x ¯ − 3 σ ; x ¯ + 3 σ) {\displaystyle \left({\bar {x}}-3\sigma ;{\bar {x}}+3\sigma \right)} . Более строго - приблизительно с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в указанном интервале (при условии, что величина x ¯ {\displaystyle {\bar {x}}} истинная, а не полученная в результате обработки выборки).

    Если же истинная величина x ¯ {\displaystyle {\bar {x}}} неизвестна, то следует пользоваться не σ {\displaystyle \sigma } , а s . Таким образом, правило трёх сигм преобразуется в правило трёх s .

    Интерпретация величины среднеквадратического отклонения

    Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

    Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения - значения внутри множества сильно расходятся со средним значением.

    В общем смысле среднеквадратическое отклонение можно считать мерой неопределённости. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить. отождествляется с риском портфеля.

    Климат

    Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой на равнине. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.

    Спорт

    Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.

    Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.

    Приближенный метод оценки колеблемости вариационного ряда - определение лимита и амплитуды, однако не учитывают значений вариант внутри ряда. Основной общепринятой мерой колеблемости количественного приз­нака в пределах вариационного ряда является среднее квадратичес­кое отклонение (σ - сигма) . Чем больше среднее квадратическое отклонение, тем степень ко­леблемости данного ряда выше.

    Методика расчета среднего квадратического отклонения включает следующие этапы:

    1. Находят среднюю арифметическую величину (Μ).

    2. Определяют отклонения отдельных вариант от средней арифмети­ческой (d=V-M). В медицинской статистике отклонения от средней обозначаются как d (deviate). Сумма всех от­клонений равняется нулю.

    3. Возводят каждое отклонение в квадрат d 2 .

    4. Перемножают квадраты отклонений на соответствующие частоты d 2 *p.

    5. Находят сумму произведений å(d 2 *p)

    6. Вычисляют среднее квадратическое отклонение по формуле:

    При n больше 30,или при n меньше либо равно 30, где n - число всех вариант.

    Значение среднего квадратичного отклонения:

    1. Среднее квадратическое отклонение характеризует разброс вариант относительно средней величины (т.е. колеблемость вариационного ряда). Чем больше сигма, тем степень разнообразия данного ряда выше.

    2. Среднее квадратичное отклонение используется для сравнительной оценки степени соответствия средней арифметической величины тому вариационному ряду, для которого она вычислена.

    Вариации массовых явлений подчиняются закону нормального распределения. Кривая, отображающая это распределение, имеет вид плавной колоколообразной симметричной кривой (кривая Гаусса). Согласно теории вероятности в явлениях, подчиняющихся закону нормального распределения, между значениями средней арифметической и среднего квадратического отклонения существует строгая математическая зависимость. Теоретическое распределение вариант в однородном вариационном ряду подчиняется правилу трех сигм.

    Если в системе прямоугольных координат на оси абсцисс отложить значения количественного признака (варианты), а на оси ординат - частоты встречаемости вариант в вариационном ряду, то по сторонам от средней арифметической равномерно располагаются варианты с большими и меньшими значениями.



    Установлено, что при нормальном распределении признака:

    68,3% значений вариант находится в пределах М±1s

    95,5% значений вариант находится в пределах М±2s

    99,7% значений вариант находится в пределах М±3s

    3. Среднее квадратическое отлонение позволяет установить значения нормы для клинико-биологических показателей. В медицине интервал М±1s обычно принимается за пределы нормы для изучаемого явления. Отклонение оцениваемой величины от средней арифметической больше, чем на 1s указывает на отклонение изучаемого параметра от нормы.

    4. В медицине правило трех сигм применяется в педиатрии для индивидуальной оценки уровня физического развития детей (метод сигмальных отклонений), для разработки стандартов детской одежды

    5. Среднее квадратическое отклонение необходимо для характеристики степени разнообразия изучаемого признака и вычисления ошибки средней арифметической величины.

    Величина среднего квадра­тического отклонения обычно используется для сравнения колеблемости однотипных рядов. Если сравниваются два ряда с разными признаками (рост и масса тела, средняя длительность лечения в стационаре и больничная летальность и т.д.), то непосредственное сопоставление размеров сигм невозможно, т.к. среднеквадратичес­кое отклонение - именованная величина, выраженная в абсолютных числах. В этих случаях применяют коэффициент вариации (Cv) , представляющий собой относительную величину: процентное отноше­ние среднего квадратического отклонения к средней арифметической.

    Коэффициент вариации вычисляется по формуле:

    Чем выше коэффициент вариации, тем большая изменчивость данно­го ряда. Считают, что коэффициент вариации свыше 30 % свиде­тельствует о качественной неоднородности совокупности.