Разница между стандартным отклонением и средним отклонением

Расчёт действующего значения

В качестве примера рассчитаем среднеквадратичное значение синусоидального напряжения.

Запишем выражение U rms с применением интеграла функции U = U ampsin(t) для одного периода 2π :

Вынесем U amp из под знака радикала. Воспользуемся табличным интегралом , перепишем и решим последнее выражение с применением формулы Ньютона-Лейбница:

Так как sin(2π), sin(4π) и sin(0) равны нулю, вычисляем RMS синусоиды следующим образом:

В результате решения в итоге получим:

Расчёт RMS для напряжения или тока треугольной и пилообразной формы можно рассмотреть на примере одного периода T для функции , представленной на рисунке:

Выразим U rms искомой функции с помощью определённого интеграла:

Используя табличный интеграл и формулу Ньютона-Лейбница, получаем:

В итоге преобразований получим:

Ток или напряжение любой сложной формы можно рассмотреть, как набор функций в пределах периода. Тогда значением RMS будет квадратный корень из среднеарифметического значения интегралов для квадрата каждой функции, ограниченной её интервалом времени в периоде. Например, для множества функций F1(t) , F2(t) , . , F n(t) в соответствующих им интервалах времени (0 — T1), (T1T2), . (T nT), составляющих период T, действующее напряжение (RMS) определится выражением:

Для вариантов однополярного или двуполярного напряжения пилообразной и треугольной формы в периоде 2T или 4T, представленных на рисунке ниже, T и U amp имеют те же расчётные величины, что и в рассмотренном случае c функцией , а интегралы, определённые в интервалах, равных T, для квадратов используемых функций , будут иметь одно и то же значение

Следовательно, вышеуказанные варианты однополярного или двуполярного напряжения пилообразной и треугольной формы будут иметь среднеквадратичное значение .

В заключении рассмотрим пример вычисления действующего значения положительных прямоугольных импульсов длительностью T i .

Выразим U rms одного периода T, как квадратный корень из среднеарифметического значения интегралов, определённых в интервалах 0 — T i и T iT для квадратов всех значений периода.

В результате получаем значение RMS, равное произведению амплитуды импульсов U amp на квадратный корень из коэффициента заполнения (T i / T).

В качестве дополнительного материала предлагаем рассмотреть расчёт средеквадратичного значения напряжения накала кинескопа цветного телевизора, исходя из амплитуды и формы напряжения.

Замечания и предложения принимаются и приветствуются!

Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение ( ) равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:

Среднее квадратическое отклонение простое:

Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:

Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение:

Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.

Применение дисперсии и стандартного отклонения

Дисперсия объединяет все значения в наборе данных для количественной оценки меры распространения. Чем больше спред, тем больше вариация, которая приводит к большему разрыву между значениями в наборе данных. Разница в основном используется для статистического распределения вероятности для измерения волатильности по среднему значению, а волатильность — одна из мер анализа риска, которая может помочь инвесторам определить риск в инвестиционных портфелях. Это также один из ключевых аспектов распределения активов. С другой стороны, стандартное отклонение может использоваться в широком спектре приложений, таких как в финансовом секторе, как показатель рыночной волатильности и безопасности.

Среднее квадратическое отклонение, методика расчета, применение.

Приближенный метод оценки колеблемости вариационного ряда — определение лимита и амплитуды, однако не учитывают значений вариант внутри ряда. Основной общепринятой мерой колеблемости количественного приз­нака в пределах вариационного ряда является среднее квадратичес­кое отклонение (σ— сигма). Чем больше среднее квадратическое отклонение, тем степень ко­леблемости данного ряда выше.

Методика расчета среднего квадратического отклонения включает следующие этапы:

1. Находят среднюю арифметическую величину (Μ).

2. Определяют отклонения отдельных вариант от средней арифмети­ческой (d=V-M). В медицинской статистике отклонения от средней обозначаются как d (deviate). Сумма всех от­клонений равняется нулю.

3. Возводят каждое отклонение в квадрат d2.

4. Перемножают квадраты отклонений на соответствующие частоты d2*p.

5. Находят сумму произведений ( d2*p)

6. Вычисляют среднее квадратическое отклонение по формуле:

Значение среднего квадратичного отклонения:

1. Среднее квадратическое отклонение характеризует разброс вариант относительно средней величины (т.е. колеблемость вариационного ряда). Чем больше сигма, тем степень разнообразия данного ряда выше.

2. Среднее квадратичное отклонение используется для сравнительной оценки степени соответствия средней арифметической величины тому вариационному ряду, для которого она вычислена.

Вариации массовых явлений подчиняются закону нормального распределения. Кривая, отображающая это распределение, имеет вид плавной колоколообразной симметричной кривой (кривая Гаусса). Согласно теории вероятности в явлениях, подчиняющихся закону нормального распределения, между значениями средней арифметической и среднего квадратического отклонения существует строгая математическая зависимость. Теоретическое распределение вариант в однородном вариационном ряду подчиняется правилу трех сигм.

Если в системе прямоугольных координат на оси абсцисс отложить значения количественного признака (варианты), а на оси ординат — частоты встречаемости вариант в вариационном ряду, то по сторонам от средней арифметической равномерно располагаются варианты с большими и меньшими значениями.

Установлено, что при нормальном распределении признака:

— 68,3% значений вариант находится в пределах М1

— 95,5% значений вариант находится в пределах М2

— 99,7% значений вариант находится в пределах М3

3. Среднее квадратическое отлонение позволяет установить значения нормы для клинико-биологических показателей. В медицине интервал М1 обычно принимается за пределы нормы для изучаемого явления. Отклонение оцениваемой величины от средней арифметической больше, чем на 1 указывает на отклонение изучаемого параметра от нормы.

4. В медицине правило трех сигм применяется в педиатрии для индивидуальной оценки уровня физического развития детей (метод сигмальных отклонений), для разработки стандартов детской одежды

5. Среднее квадратическое отклонение необходимо для характеристики степени разнообразия изучаемого признака и вычисления ошибки средней арифметической величины.

Величина среднего квадра­тического отклонения обычно используется для сравнения колеблемости однотипных рядов. Если сравниваются два ряда с разными признаками (рост и масса тела, средняя длительность лечения в стационаре и больничная летальность и т.д.), то непосредственное сопоставление размеров сигм невозможно, т.к. среднеквадратичес­кое отклонение — именованная величина, выраженная в абсолютных числах. В этих случаях применяют коэффициент вариации (Cv), представляющий собой относительную величину: процентное отноше­ние среднего квадратического отклонения к средней арифметической.

Коэффициент вариации вычисляется по формуле:

Чем выше коэффициент вариации, тем большая изменчивость данно­го ряда. Считают, что коэффициент вариации свыше 30 % свиде­тельствует о качественной неоднородности совокупности.

StudFiles.ru

Как это работает (пример):

Предположим, что вы инвестируете в акции компании XYZ, которая вернула в среднем 10% в год за последние 10 года. Насколько рискован этот запас по сравнению, например, с акциями компании ABC? Чтобы ответить на этот вопрос, давайте сначала рассмотрим результаты года за годом, которые составляют это среднее значение:

. Вначале мы видим, что средняя доходность обоих акций за последние 10 лет составляла 10%. Но давайте посмотрим по-другому на то, как близкие доходы XYZ в любом конкретном году были в среднем на 10%:

Как вы можете видеть, только в течение года 9 XYZ вернул средние 10%. В другие годы доходность была выше или ниже — иногда намного выше (как в 7-м году) или намного ниже (как в 2-м году). Теперь посмотрим на годовую прибыль от акций компании ABC, которая также имела 10% -ный средний доход за последние 10 лет:

Как вы можете видеть, компания ABC также усреднила доход 10% за 10 лет, но сделала это с гораздо меньшей дисперсией чем компания XYZ. Его доходность более тесно сгруппирована примерно в среднем на 10%. Таким образом, можно сказать, что компания XYZ более волатильна, чем акции компании ABC. Стандартное отклонение стремится измерить эту волатильность, вычисляя, как «далеко» доходность, как правило, со среднего по времени.

Например, давайте рассчитаем стандартное отклонение для акций компании XYZ. Используя приведенную выше формулу, мы сначала вычтем фактический доход за год от среднего возврата, затем сравним эти различия (т. Е. Умножим каждую разницу отдельно):

Затем мы складываем столбец D (общая сумма составляет 3850)

Мы делим это число на количество периодов времени минус один (10-1 = 9, это называется «беспристрастным» подходом, и важно помнить, что некоторые рассчитывают стандартное отклонение с использованием всех периодов времени — 10 в этом случае, а не 9). Затем мы берем квадратный корень из результата

Это выглядит следующим образом:

Стандартное отклонение = √ (3,850 / 9) = √427.78 = 0.2068

Используя тот же процесс, мы можем вычислить, что стандартное отклонение для менее волатильного запаса компании ABC намного ниже 0,0129.

пример

Допустим, набор данных включает высоту шести одуванчиков: 3 дюйма, 4 дюйма, 5 дюймов, 4 дюйма, 11 дюймов и 6 дюймов.

Сначала найдите среднее значение точек данных: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Таким образом, средняя высота составляет 5,5 дюйма. Теперь нам нужны отклонения, поэтому мы находим разницу каждого растения от среднего: -2,5, -1,5, -,5, -1,5, 5,5, 1,5.

Теперь возведите каждое отклонение в квадрат и найдите их сумму: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5.

Теперь разделите сумму квадратов на количество точек данных, в данном случае растений: 43,5 / 6 = 7,25

Таким образом, дисперсия этого набора данных составляет 7,25, что является довольно произвольным числом. Чтобы преобразовать его в реальное измерение, возьмите квадратный корень из 7,25 и найдите стандартное отклонение в дюймах.

Стандартное отклонение составляет около 2,69 дюйма. Это означает, что для образца любой одуванчик в пределах 2,69 дюйма от среднего значения (5,5 дюйма) является «нормальным».

Зачем возводить в квадрат отклонения?

Отклонения возводятся в квадрат, чтобы отрицательные значения (отклонения ниже среднего) не аннулировали положительные значения. Это работает, потому что отрицательное число в квадрате становится положительным значением. Если у вас был простой набор данных с отклонениями от среднего значения +5, +2, -1 и -6, сумма отклонений будет равна нулю, если значения не возведены в квадрат (т.е. 5 + 2 — 1 — 6 = 0).

Вычисление стандартного отклонения

Формула для стандартного отклонения использует три переменные.Первой переменной должно быть значение каждой точки в наборе данных, традиционно обозначаемое как x , с подкадром, обозначающим каждую дополнительную переменную ( x, x1, x2, x3 , и т.д.). Среднее значение или среднее значение точек данных применяется к значению переменной M , а число задействованных точек данных присваивается переменной n .

Чтобы определить среднее значение, значения точек данных должны быть добавлены вместе, а затем общее количество делится на количество точек данных, которые были включены. Например, если точки данных составляли 5, 7, 3 и 7, общее число было бы равно 22. Тогда общая сумма 22 будет делиться на количество точек данных, в этом случае четыре, что приведет к среднему значению 5 5 Это приводит к следующим определениям: M = 5. 5 и n = 4.

Отклонение определяется путем вычитания значения среднего из каждой точки данных, в результате в -0. 5, 1. 5, -2. 5 и 1. 5. Каждое из этих значений затем квадратично, что приводит к 0. 25, 2. 25, 6. 25 и 2. 25. Затем квадратные значения складываются вместе, в результате получается всего 11, что затем деленное на значение n -1, что в этом случае равно 3, что приводит к дисперсии приблизительно 3. 67.

Затем вычисляется квадратный корень дисперсии, приводящий к стандартным отклонениям приблизительно 1. 915.

Понятие о сплошном и выборочном наблюдении

С точки зрения охвата объекта исследования, статистический анализ можно разделить на два вида: сплошной и выборочный. Сплошной статанализ предполагает изучение генеральной совокупности данных, то есть всего явления во всем его многообразии без распространения выводов на другие элементы, не входящие в анализируемую совокупность. Из названия данного типа явствует, что наблюдению подвергаются тотально все элементы. Результат анализа распространяется на всю генеральную совокупность без каких-либо допущений и поправок на ошибку. Данный тип статистического исследования является наиболее полным и точным, так как дополнительные знания почерпнуть уже неоткуда – информация собрана со всех элементов объекта исследования. Это бесспорный плюс.

Отличным примером сплошного наблюдения является перепись населения. «Всесоюзная перепись населения» — красиво звучало! Кстати, советская статистика, как и наука в целом, была одной из самых лучших в мире. Денег на проведение сплошных обследований не жалели, так как при СССР статистика выполняла свою прямую функцию – исследовала реальность, без чего невозможно было строить «светлое будущее». При этом советские ученые-статистики справедливо критиковали буржуазную статистику за то, что те скрывают от народа реальное положение дел и используют статистику для промывки мозгов. Об этом, кстати, писали и сами буржуи. Более практичный пример сплошного наблюдения – опрос жителей многоэтажного дома на предмет заваривания мусоропровода. Опрашиваются все, результат дает вполне однозначный ответ об отношении жителей к мусоропроводу. Ошибки в выводах маловероятны.

Как бы там ни было, у сплошного наблюдения есть отрицательное качество: на организацию и проведение исследования могут потребоваться значительные ресурсы. Одно дело взять пробу из партии товаров, другое – проверять всю партию. Одно дело опросить тысячу прохожих на улице, совсем другое – организовать перепись населения.

В противовес сплошному придумали выборочное наблюдение. Название метода точно отражает его суть: из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяют на всю генеральную совокупность. Отбор данных происходит таким образом, чтобы выборка была репрезентативной, то есть, сохранила внутреннюю структуру и закономерности генеральной совокупности. Если это условие не соблюдено, то дальнейший анализ во многом теряет смысл.

Сам анализ выборочных данных происходит так же, как и при сплошном наблюдении (рассчитываются различные показатели, делаются прогнозы и т.д.), только с поправкой на ошибку. Это значит, что рассчитывая тот или иной показатель, мы понимаем, что при повторной выборке его значение будет другим. К примеру, провели опрос общественного мнения. Опрос показал, что за кандидата N желают проголосовать 60% опрошенных. Если провести еще один такой же опрос, даже в том же месте, то результат будет отличаться. То есть, взяв первое значение 60%, следует понимать, что с той или иной вероятностью оно могло быть, скажем, и 58%, и 62%. Точность и разброс выборочных показателей зависят от характера данных и их количества.

У выборочного наблюдения есть один существенный плюс и один минус, однако по сравнению со сплошным наблюдением крайности меняются местами. Плюс заключается в том, что для проведения выборочного обследования требуется гораздо меньше ресурсов. Минус – в том, что выборочное наблюдение всегда ошибочно. Поэтому основная задача проведения выборочного наблюдения – добиться максимальной точности при приемлемых затратах на его проведение.

Нормализация

Нормализация RMSD облегчает сравнение наборов данных или моделей с разными масштабами. Хотя в литературе нет последовательных средств нормализации, обычно выбираются среднее значение или диапазон (определяемый как максимальное значение минус минимальное значение) измеренных данных:

NрMSDзнак равнорMSDуМаксимум-умин{\ displaystyle \ mathrm {NRMSD} = {\ frac {\ mathrm {RMSD}} {y _ {\ max} -y _ {\ min}}}}или .NрMSDзнак равнорMSDу¯{\ displaystyle \ mathrm {NRMSD} = {\ frac {\ mathrm {RMSD}} {\ bar {y}}}}

Это значение обычно называется нормализованным среднеквадратичным отклонением или ошибкой (NRMSD или NRMSE) и часто выражается в процентах, где более низкие значения указывают на меньшую остаточную дисперсию. Во многих случаях, особенно для небольших выборок, на диапазон выборки, вероятно, влияет размер выборки, что затрудняет сравнения.

Другой возможный метод сделать RMSD более полезной мерой сравнения — разделить RMSD на межквартильный размах . При делении RMSD на IQR нормализованное значение становится менее чувствительным к экстремальным значениям целевой переменной.

рMSDяQрзнак равнорMSDяQр{\ displaystyle \ mathrm {RMSDIQR} = {\ frac {\ mathrm {RMSD}} {IQR}}} куда яQрзнак равноQ3-Q1{\ displaystyle IQR = Q_ {3} -Q_ {1}}

с , и где ВПР -1 является функцией квантиля .
Q1знак равноCDF-1(0,25){\ displaystyle Q_ {1} = {\ text {CDF}} ^ {- 1} (0,25)}Q3знак равноCDF-1(0,75),{\ displaystyle Q_ {3} = {\ text {CDF}} ^ {- 1} (0,75),}

При нормализации на среднее значение измерений можно использовать термин « коэффициент вариации RMSD, CV (RMSD) , чтобы избежать неоднозначности. Это аналогично коэффициенту вариации со среднеквадратичным отклонением вместо стандартного отклонения .

CV(рMSD)знак равнорMSDу¯.{\ displaystyle \ mathrm {CV (RMSD)} = {\ frac {\ mathrm {RMSD}} {\ bar {y}}}.}

Резюме отклонения и стандартного отклонения

Как дисперсия, так и стандартное отклонение являются наиболее распространенными математическими понятиями, используемыми в статистике и теории вероятности, как меры распространения. Разница — это мера того, насколько значения распределены в заданном наборе данных из их среднего арифметического, тогда как стандартное отклонение является мерой дисперсии значений по отношению к среднему значению. Разница рассчитывается как среднее квадратическое отклонение каждого значения от среднего значения в наборе данных, тогда как стандартное отклонение является просто квадратным корнем дисперсии. Стандартное отклонение измеряется в той же единице, что и среднее, тогда как дисперсия измеряется в квадрате средней величины.Оба используются для разных целей. Отклонение больше похоже на математический термин, тогда как стандартное отклонение в основном используется для описания изменчивости данных.

Почему это имеет значение:

Стандартное отклонение — это мера риска того, что инвестиции не будут соответствовать ожидаемому возврату за определенный период. Чем меньше стандартное отклонение инвестиций, тем менее волатильным (и, следовательно, рискованным). Чем больше стандартное отклонение, тем более рассеянными эти доходы являются и, следовательно, более рискованные инвестиции.

Многие технические индикаторы, такие как полосы Боллинджера, включают понятие стандартного отклонения как способ определить, покупать или продавать акции , но важно помнить, что стандартное отклонение является лишь одним из многих факторов риска и не должно быть последним словом при определении того, является ли запас «слишком рискованным» или «недостаточно рискованным»

Формулы

Дисперсия набора п равновероятные значения могут быть записаны как:

Стандартное отклонение — это квадратный корень из дисперсии:

Формулы с греческими буквами выглядят устрашающе, но это не так сложно, как кажется. Чтобы выразить это простыми шагами:

  1. найти среднее значение всех точек данных
  2. узнать, насколько далеко каждая точка от среднего (это отклонение)
  3. возводите в квадрат каждое отклонение (то есть разницу каждого значения от среднего)
  4. поделите сумму квадратов на количество очков.

Это дает дисперсию. Извлеките квадратный корень из дисперсии, чтобы найти стандартное отклонение.

Это отличное видео от Khan Academy объясняет концепции дисперсии и стандартного отклонения:

Приложения

  • В метеорологии , чтобы увидеть, насколько эффективно математическая модель предсказывает поведение атмосферы .
  • В биоинформатики , то среднеквадратичное отклонение атомных положений является мерой среднего расстояния между атомами наложенных друг на друга белков .
  • В , то СКО является мерой разности между кристаллической конформации лиганда конформации и док прогнозирования.
  • В экономике RMSD используется для определения того, соответствует ли экономическая модель экономическим показателям . Некоторые эксперты утверждают, что RMSD менее надежен, чем относительная абсолютная ошибка.
  • В экспериментальной психологии RMSD используется для оценки того, насколько хорошо математические или вычислительные модели поведения объясняют эмпирически наблюдаемое поведение.
  • В ГИС RMSD является одним из показателей, используемых для оценки точности пространственного анализа и дистанционного зондирования.
  • В гидрогеологии RMSD и NRMSD используются для оценки калибровки модели подземных вод.
  • В визуализации RMSD — это часть пикового отношения сигнал / шум , мера, используемая для оценки того, насколько хорошо метод восстановления изображения работает по сравнению с исходным изображением.
  • В вычислительной нейробиологии RMSD используется для оценки того, насколько хорошо система изучает данную модель.
  • В спектроскопии ядерного магнитного резонанса белков RMSD используется как мера для оценки качества полученного пучка структур.
  • Заявки на приз Netflix оценивались с использованием RMSD из нераскрытых «истинных» значений тестового набора данных.
  • При моделировании энергопотребления зданий RMSE и CV (RMSE) используются для калибровки моделей в соответствии с измеренными характеристиками здания.
  • В рентгеновской кристаллографии RMSD (и RMSZ) используется для измерения отклонения внутренних координат молекул от значений библиотеки ограничений.
Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все про сервера
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: