Стандартное отклонение

Содержание:

Современная статистика портфеля пытается показать, как волатильность и доходность инвестиций измеряются в соответствии с данным ориентиром, таким как казначейские обязательства США. Бета-версия и стандартное отклонение — это показатели, по которым рассчитывается уровень риска портфеля или фонда. Бета сравнивает волатильность инвестиций с соответствующим эталоном, а стандартное отклонение сравнивает волатильность инвестиций со средней доходностью за период времени. Стандартное отклонение рассказывает инвестору более общую историю о тенденции ценных бумаг к резким движениям вверх и вниз, в то время как бета-версия сообщает инвестору, насколько выше или ниже будет вероятность того, что ценная бумага будет торговаться по отношению к индексу.

Дисперсия выборки

Дисперсия выборки (выборочная дисперсия, sample variance) характеризует разброс значений в массиве относительно среднего.

Все 3 формулы математически эквивалентны.

Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего, деленная на размер выборки минус 1.

В MS EXCEL 2007 и более ранних версиях для вычисления дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности. Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .

Дисперсию выборки можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ) =КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) =(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула =СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) – формула массива

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению. Обычно, чем больше величина дисперсии, тем больше разброс значений в массиве.

Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка. О построении доверительных интервалов при оценке дисперсии можно прочитать в статье Доверительный интервал для оценки дисперсии в MS EXCEL.

коэффициент вариации

– это отношение стандартного отклонения к средней, выраженное в процентах:

И вот теперь совершенно без разницы, в д.е. мы считали:

или в тысячах д.е.:

Примечание: на практике часто считают именно через , но для оценки коэффициента вариации всей генеральной совокупности, конечно же, корректнее использовать исправленное стандартное отклонение .

В статистике существует следующий эмпирический ориентир:

– если показатель вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение  хорошо характеризует центральную тенденцию совокупности.

– если показатель вариации составляет существенно больше 30%, то совокупность неоднородна, то есть, значительное количество вариант находятся далеко от , и выборочная средняя плохо характеризует типичную варианту. В таких случаях целесообразно рассмотреть , а иногда и перцентили, которые делят вариационный ряд на части, и для каждого участка рассчитать свои показатели. Но это уже немного дебри статистики.

Другое преимущество относительных показателей – это возможность сравнивать разнородные статистические совокупности. Например, множество слонов и множество хомячков. Совершенно понятно, что дисперсия веса слонов по отношению к дисперсии веса хомяков будет просто конской, и их сопоставление не имеет смысла. Но вот анализ коэффициентов вариации веса вполне осмыслен, и может статься, что у слонов он составляет 10%, а у хомячков 40% (пример, конечно, условный). Это говорит о сбалансированном питании и размеренной жизни слонов. А вот хомяки там, то носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди них есть много худощавых и много упитанных особей :)

Кроме коэффициента вариации, существуют и другие относительные показатели, но в реальных студенческих работах они почти не встречаются, и поэтому я не буду их рассматривать в рамках данного курса.

И сейчас, конечно же, задачки для самостоятельного решения:

Пример 17, на отработку терминов и формул:

а) Стандартное отклонение выборочной совокупности равно 5, а средний квадрат её вариант – 250. Найти выборочную среднюю.

б) Определите среднее квадратическое отклонение, если известно, что средняя равна 260, а коэффициент вариации составляет 30%.

и Пример 18, творческий:

Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:

Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.

Сделать краткие содержательные выводы. – Да, это тоже типичный пункт статистической задачи!

Обратите внимание, что здесь не понятно, выборочной ли считать эту совокупность или генеральной. И в таких случаях лучше не заниматься домыслами, просто используем обозначения без подстрочных индексов

Вообще, задачи на экономическую и промышленную тематику – самые популярные в статистике, и в моей коллекции их сотни. Но все они до ужаса однотипны, и поэтому я предлагаю их в терапевтической дозировке :)

Задание 8

Выполнить расчёты в Экселе – числа уже там, ну а инструкцию я на этот раз не привёл, поскольку люди вы уже опытные.

Краткое решение и ответ в конце урока, который подошёл к концу.

Следующее занятие не за горами, а уже за кочкой:

Решения и ответы:

Пример 17. Решение:

а) Используем формулу . По условию, , . Таким образом:

б) Используем формулу . По условию, , . Таким образом:

Ответ: а) , б)

Пример 18. Решение: вычислим сумму вариант и сумму их квадратов:Найдём среднюю: тонны – среднемесячный объем производства за полугодие.Дисперсию вычислим по формуле:Среднее квадратическое отклонение: тонн.Коэффициент вариации:

Ответ:  тонны,  тонн,

Краткие выводы: за первое полугодие среднемесячный объём производства труб составил  тонны. Низкие показатели вариации говорят о стабильной ситуации на производстве.

(Переход на главную страницу)

Метрика качества синтетических тестов

Теперь когда мы с вами знаем что такое мощность, давайте определим ее как метрику качества для изучения несбалансированных экспериментов.

Представьте ситуацию: вы запустили эксперимент на 99/1, видите прирост на 1,2,3,4…X % в метрику и хотите катить в продакшен изменения (или видите падение метрики и остановить эксперимент). Внимательный читатель уже понял, что чтобы говорить об этих 1,2,3,4… % нужно быть уверенным в них. Хорошо бы иметь какое-нибудь мерило. Метрика качества подойдет для этой роли.

Для исследования будем использовать симуляции на базе синтетических тестов. Симуляции будут генерироваться на основе гиперпараметров (см. ниже Параметры симуляций). Далее в симуляциях будем считать метрику качества Power (TPR) по следующей формуле:

, где I — индикаторная функция, P — полученные p-value на каждой итерации симуляции, α — уровень альфа и N — все симуляции. В генераторе распределения мы явно указываем параметры среднего и дисперсии, где средние будут отличаться. Поэтому логично, что все отвергнутые нулевые гипотезы будут ознаменовать принятие истины о существовании разницы.

Другие меры разброса

Функция КВАДРОТКЛ() вычисляет с умму квадратов отклонений значений от их среднего. Эта функция вернет тот же результат, что и формула =ДИСП.Г( Выборка )*СЧЁТ( Выборка ) , где Выборка — ссылка на диапазон, содержащий массив значений выборки (именованный диапазон). Вычисления в функции КВАДРОТКЛ() производятся по формуле:

Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего. Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка — ссылка на диапазон, содержащий массив значений выборки.

Вычисления в функции СРОТКЛ () производятся по формуле:

Функции расчета стандартного отклонения в Excel

В Excel присутствует несколько разновидностей формул стандартного отклонения. Вам достаточно набрать =СТАНДОТКЛОН и вы сами в этом убедитесь.

Стоит отметить, что функции СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г (первая и вторая функция в списке) дублируют функции СТАНДОТКЛОН и СТАНДОТКЛОНП (пятая и шестая функция в списке), соответственно, которые были оставлены для совместимости с более ранними версиями Excel.

Вообще разница в окончаниях .В и .Г функций указывают на принцип расчета стандартного отклонения выборки или генеральной совокупности. Разницу между двумя этими массивами я уже объяснял в предыдущей статье расчета дисперсии.

Особенностью функций СТАНДОТКЛОНА и СТАНДОТКЛОНПА (третья и четвертая функция в списке), является то, что при расчете стандартного отклонения массива в расчет принимаются логические и текстовые значения. Текстовые и истинные логические значения равняются 1, а ложные логические значения равняются 0. Мне трудно представить ситуацию, когда бы мне могли понадобится эти две функции, поэтому, думаю, что их можно игнорировать.

Прикладное значение среднеквадратического отклонения

Среднеквадратическое отклонение от отклонений значений исследуемых данных находит широкое прикладное применение в метрологии, экспериментальной физике и статистике.
При обработке результатов измерений во многих случаях их окончательные значения определяются как среднее арифметическое от значений, полученных в результате эксперимента, при этом среднеквадратическое отклонение величин будет являться оценкой ошибки измерений.
В свою очередь на основе минимизации среднеквадратических отклонений в 19 веке был разработан метод наименьших квадратов, который нашел широкое применение в таких областях как статистический, регрессионный анализ, обработка экспериментальных данных и вычислительная математика.

P.S. На этой странице используется Бета версия программы расчета среднеквадратического отклонения, об обнаруженных недочетах, а так же возможных пожеланиях просьба сообщить на форум сайта (окно для входа на форум находится в нижней части страницы).

1. Среднее арифметическоезначение (чаще используется термин, просто, «среднее арифметическое» или «среднее») множества заданных чисел определяется как число равное сумме всех чисел множества, делённой на их количество:

aср.арифм =  
a1+ a2+ …+ an
n
 

2. Если вычислено арифметическое среднее заданного множества чисел, то во многих случаях, становится желательной оценка рассеяния значений этих чисел относительно среднего. Оценка расходимости квадратов значений этих чисел от среднего и является оценкой дисперсии.
Вообще термин дисперсия появился в рамках теорий вероятностей. Одной из ее основополагающих характеристик является дисперсия случайной величины как мера разброса значений случайной величины относительно её математического ожидания.
Не углубляясь в дебри Тер-Вера, здесь приводим только используемую для наших расчетов формулу дисперсии:

σ 2 =  
(a1 — acp)2 + (a2 — acp)2 + …+ (an — acp)2
n
 

3. Среднее линейное отклонение определяется как среднее от абсолютных значений отклонений каждого из ряда чисел от их среднего арифметического:

δ =  
|a1 — acp| + |a2 — acp| + …+ |an — acp|
n
 

4. Коэффициент вариации ряда чисел — мера относительного разброса их значений; показывает, какую долю от среднего значения этой величины составляет её средний разброс. Исчисляется в процентах:

V =  

σ

aср
 
  × 100%

5. Размахом ряда чисел называется разность между наибольшим и наименьшим из этих чисел. Таким образом, размах вариации может быть представлен следующей формулой:

R = amax — amin

Стандартное отклонение

Стандартное отклонение – это статистика, которая определяет, насколько далеко от среднего находится группа чисел, с помощью квадратного корня из дисперсии. При вычислении дисперсии используются квадраты, потому что они больше взвешивают выбросы, чем данные, близкие к среднему. Этот расчет также не позволяет разницам выше среднего уравнять те, что ниже, что приведет к нулевой дисперсии.

Стандартное отклонение рассчитывается как квадратный корень из дисперсии путем вычисления отклонения между каждой точкой данных относительно среднего значения. Если точки находятся дальше от среднего значения, в пределах даты имеется большее отклонение; если они ближе к среднему, то отклонение меньше. Таким образом, чем шире группа чисел, тем выше стандартное отклонение.

Дисперсия и стандартное отклонение

В области электротехники проблема со средним отклонением состоит в том, что мы усредняем разности напряжений (или токов), и, следовательно, работаем в области амплитуд. Природа шумовых явлений такова, что при анализе шума мы делаем упор на мощности, а не на амплитуды, и, следовательно, нам нужен статистический метод, который работает в области мощностей.

К счастью, это просто. Мощность пропорциональна квадрату напряжения или тока, и, следовательно, всё, что нам нужно сделать, это возвести разность в квадрат до суммирования и усреднения. Результатом этой процедуры является статистическая мера, называемая дисперсией, обозначаемая σ2 (сигма в квадрате):

\-\mu)^2\]

Мы можем описать дисперсию как усредненную мощность случайных отклонений сигнала, выраженную в виде мощности. Это означает, что единица измерения дисперсии будет отличаться единицы измерения значений, с которых мы начинали. Если мы анализируем колебания в сигнале напряжения, дисперсия имеет единицы измерения В2 вместо В.

Если мы хотим выразить склонность сигнала отклоняться случайным образом, используя исходную единицу измерения, мы должны компенсировать возведение в квадрат каждой разности, применив к конечному значению квадратный корень:

\-\mu)^2}\]

Эта процедура генерирует статистическую меру, известную как стандартное отклонение, то есть усредненную мощность случайных отклонений сигнала, выраженную в виде амплитуды. Таким образом, если мы анализируем сигнал напряжения, стандартное отклонение имеет единицы измерения В, несмотря на то, что мы вычислили стандартное отклонение, используя квадрат отклонений напряжения.

Рисунок 3 – На этом графике горизонтальные линии показывают уровни напряжения, которые на величину одного стандартного отклонения выше и ниже среднего значения.

Дисперсия и стандартное отклонение по-разному выражают одну и ту же информацию. Хотя дисперсия, насколько я понимаю, более удобна в определенных аналитических ситуациях, стандартное отклонение обычно предпочтительнее, поскольку это число, которое можно непосредственно интерпретировать, как меру склонности сигнала отклоняться от среднего значения.

RMS против среднего

Чтобы понять разницу между среднеквадратичным и средним значением, необходимо знать, что такое среднее (или среднее значение), а что такое среднеквадратичное значение (среднеквадратичное значение). Среднеквадратичное значение и Среднее значение — это два математических понятия, используемых для описания общей природы набора чисел. Использование распространяется на физические науки и связанные с ними технологии в том же контексте. Среднее значение — это довольно знакомая и интуитивно понятная концепция, в то время как RMS — это концепция, явно основанная на математическом определении. Давайте подробно рассмотрим их определения и методы расчета среднего и среднеквадратичного значений.

Что такое среднее (или среднее) значение?

В математике среднее — это суммирование ряда значений, чтобы дать общее представление о коллекции. Он также используется в качестве описательной статистики, следовательно, считается мерой центральной тенденции.

Среднее значение рассчитывается разными способами в зависимости от приложения. Поэтому точное математическое определение среднего значения варьируется: это среднее арифметическое, среднее геометрическое, гармоническое среднее и взвешенное среднее. Их определения следующие.

куда Икся представляют значения данных и шя — вес каждого значения. Стоит отметить, что AM, GM и HM удовлетворяют следующей неопределенности: AM≥GM≥HM.

Средневзвешенное значение можно рассматривать как расширение среднего арифметического. Усеченное среднее, межквартильное среднее и выигрышное среднее также используются в конкретных случаях, но наиболее часто используются первые три типа средних, известные как средние по Пифагору.

Что такое RMS — среднеквадратическое значение?

В некоторых приложениях простые пифагоровы средние не являются точным указанием выборки данных. Например, рассмотрим изменяющийся во времени синусоидальный электронный сигнал без сдвига напряжения. Среднее значение амплитуды в пределах цикла равно нулю, что означает, что напряжение в течение этого периода было нулевым, что физически неверно. В результате любые вычисления, включающие значения, неверны.

Например, рассчитанная энергия дает неверные значения. Если рассматривать максимальные или минимальные значения сигнала, ответы все равно являются отдаленным признаком разумного. Анализируя первопричину, становится очевидным, что колебания от отрицательного к положительному приводит к тому, что значения компенсируют друг друга, когда они суммируются. Следовательно, значения должны добавляться таким образом, чтобы они не отменяли друг друга.

В качестве альтернативы можно рассматривать квадратичное среднее или среднеквадратичные значения. Среднеквадратичное значение определяется как,

Поскольку каждое значение возведено в квадрат, все значения положительны, и отмены чередующихся значений предотвращается.

Напряжение и ток в электросети в наших домах указывают на действующие значения напряжений и тока переменного напряжения источника. Идею среднего квадрата можно распространить на более общий случай (все символы имеют обычное значение):

В чем разница между среднеквадратичным и средним (средним) значением?

Среднее — это обобщение набора чисел, которое является мерой центральной тенденции для выборки населения, и это важная описательная статистика.

Среднее значение определяется математически по-разному, и интерпретация наиболее верна в зависимости от приложения.

Среднее арифметическое — это сумма всех рассмотренных значений данных, деленная на количество значений данных, что дает одно число для представления всего набора данных. Когда есть как отрицательные, так и положительные числа, они отменяются, и в зависимости от сценария это значение может не представлять набор данных допустимым образом.

В качестве среднего арифметического берется сумма значений данных без каких-либо изменений.

В RMS значения данных возводятся в квадрат, и после вычисления среднего арифметического этих квадратов значений извлекается квадратный корень из этого числа.

Расширения

Поправка на конечную популяцию (FPC)

Приведенная выше формула для стандартной ошибки предполагает, что размер выборки намного меньше, чем размер генеральной совокупности, так что совокупность может считаться фактически бесконечной по размеру. Обычно это имеет место даже в случае конечных популяций, потому что большую часть времени люди в первую очередь заинтересованы в управлении процессами, которые создали существующую конечную популяцию; это называется аналитическим исследованием вслед за У. Эдвардсом Демингом . Если люди заинтересованы в управлении существующей конечной совокупностью, которая не будет меняться с течением времени, то необходимо сделать поправку на размер популяции; это называется перечислительным исследованием .

Когда доля выборки (часто называемая f ) велика (примерно 5% или более) в переписном исследовании , оценка стандартной ошибки должна быть скорректирована путем умножения на «поправку на конечную совокупность» (также известную как fpc ):

FPCзнак равноN-пN-1{\ displaystyle \ operatorname {FPC} = {\ sqrt {\ frac {Nn} {N-1}}}}

что для больших N :

FPC≈1-пNзнак равно1-ж{\ displaystyle \ operatorname {FPC} \ приблизительно {\ sqrt {1 — {\ frac {n} {N}}}} = {\ sqrt {1-f}}}

чтобы учесть дополнительную точность, полученную за счет выборки, близкой к большему проценту населения. Эффект FPC является то , что ошибка становится равной нулю , когда размер выборки п равен размеру популяции N .

Это происходит в методологии обследования при выборке . Если выборка с заменой, то FPC не играет роли.

Поправка на корреляцию в выборке


Ожидаемая ошибка среднего значения A для выборки из n точек данных с коэффициентом смещения выборки  ρ . Несмещенная стандартная ошибка строится как  диагональная линия ρ = 0 с логарифмическим наклоном −½.

Если значения измеренной величины A не являются статистически независимыми, но были получены из известных мест в пространстве параметров  x , несмещенная оценка истинной стандартной ошибки среднего (фактически поправка на часть стандартного отклонения) может быть получена путем умножения рассчитанная стандартная ошибка выборки по коэффициенту  f :

жзнак равно1+ρ1-ρ,{\ displaystyle f = {\ sqrt {\ frac {1+ \ rho} {1- \ rho}}},}

где коэффициент смещения выборки ρ представляет собой широко используемую оценку Прайса – Винстена коэффициента автокорреляции (величина от -1 до +1) для всех пар точек выборки. Эта приблизительная формула предназначена для выборки среднего и большого размера; Справочник дает точные формулы для любого размера выборки и может применяться к сильно автокоррелированным временным рядам, таким как котировки акций Уолл-стрит. Более того, эта формула работает как для положительного, так и для отрицательного значения ρ. См. Также объективную оценку стандартного отклонения для более подробного обсуждения.

Варианты

Существует несколько вариантов описанного выше процесса

Обратите внимание, что мы не указали точно, что такое m. Причина этого в том, что мы можем использовать различные статистические данные для m

Обычно это центр нашего набора данных, поэтому можно использовать любое из измерений центральной тенденции.

Наиболее распространенными статистическими измерениями центра набора данных являются среднее значение, медиана и мода. Таким образом, любой из них может использоваться как m при вычислении среднего абсолютного отклонения. Вот почему принято относиться к среднему абсолютному отклонению относительно среднего или среднему абсолютному отклонению от медианы. Мы увидим несколько примеров этого.

Как рассчитать стандартное отклонение в Excel

Независимо от того, почему вам может потребоваться рассчитать стандартное отклонение набора данных, Excel делает это чрезвычайно легко.

Существует две формы стандартного отклонения, которые вы можете рассчитать в Excel.

  • Стандартное отклонение выборки: используется один набор данных из выборки большей популяции.
  • Стандартное отклонение населения: использует все наборы данных от всего населения.

В большинстве случаев невозможно использовать данные по всей совокупности (например, измерение уровня метаболизма у женщин), поэтому гораздо более распространено использование выборочного стандартного отклонения, а затем выводить результаты по всей совокупности.

Шесть формул стандартного отклонения, доступных в Excel, включают:

  • STDEV.S: стандартное отклонение числового набора данных
  • STDEVA: стандартное отклонение набора данных, включая текстовые символы, такие как «False» или 0
  • STDEV: то же самое, что и STDEV.S, но используется в электронных таблицах, созданных в Excel 2007 или более ранних версиях.

Все функции STDEV.P, STDEVPA и STDEVP выполняют те же функции, что и функции выше, но используют наборы данных из всей совокупности, а не из выборки.

Как рассчитать стандартное отклонение?

Итак, теперь мы знаем, о чем говорит цифра стандартного отклонения. Давайте разберемся, как она считается.

Рассмотрим набор данных от 10 до 70 с шагом 10. Как видите, я уже рассчитал для них значение стандартного отклонения с помощью функции СТАНДОТКЛОН в ячейке H2 (оранжевым).

Ниже описаны шаги, которые предпринимает Excel, чтобы прийти к цифре 21,6.

Обратите внимание, что все расчеты визуализированы, для лучшего понимания. На самом деле в Excel расчет происходит мгновенно, оставляя все шаги за кулисами

Для начала Excel находит среднее значение выборки. В нашем случае, среднее получилось равным 40, которое на следующем шаге отнимают от каждого значения выборки. Каждую полученную разницу возводят в квадрат и суммируют. У нас получилась сумма равная 2800, которую необходимо разделить на количество элементов выборки минус 1. Так как у нас 7 элементов, получается необходимо 2800 разделить на 6. Из полученного результата находим квадратный корень, это цифра будет стандартным отклонением.

Для тех, кому не совсем ясен принцип расчета стандартного отклонения с помощью визуализации, привожу математическую интерпретацию нахождения данного значения.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все про сервера
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: