Конвертер величин

Условия применения t-критерия Стьюдента

Несмотря на то, что открытие Стьюдента в свое время совершило переворот в статистике, t-критерий все же довольно сильно ограничен в возможностях применения, т.к. сам по себе происходит из предположения о нормальном распределении исходных данных. Если данные не являются нормальными (что обычно и бывает), то и t-критерий уже не будет иметь распределения Стьюдента. Однако в силу действия центральной предельной теоремы средняя даже у ненормальных данных быстро приобретает колоколообразную форму распределения.

Рассмотрим, для примера, данные, имеющие выраженный скос вправо, как у распределения хи-квадрат с 5-ю степенями свободы.

Теперь создадим 20 тысяч выборок и будет наблюдать, как меняется распределение средних в зависимости от их объема.

Отличие довольно заметно в малых выборках до 15-20-ти наблюдений. Но дальше оно стремительно исчезает. Таким образом, ненормальность распределения – это, конечно, нехорошо, но некритично.

Больше всего t-критерий «боится» выбросов, т.е. аномальных отклонений. Возьмем 20 тыс. нормальных выборок по 15 наблюдений и в часть из них добавим по одному случайном выбросу.

Картина получается нерадостная. Фактические частоты средних сильно отличаются от теоретических. Использование t-распределения в такой ситуации становится весьма рискованной затеей.

Итак, в не очень малых выборках (от 15-ти наблюдений) t-критерий относительно устойчив к ненормальному распределению исходных данных. А вот выбросы в данных сильно искажают распределение t-критерия, что, в свою очередь, может привести к ошибкам статистического вывода, поэтому от аномальных наблюдений следует избавиться. Часто из выборки удаляют все значения, выходящие за пределы ±2 стандартных отклонения от средней.

Квантили распределения Стьюдента

Аналогичным образом квантили вычисляются и для распределения Стьюдента . Например, вычислять верхний α/2- квантиль распределения Стьюдента с n -1 степенью свободы требуется, если проводится проверка двухсторонней гипотезы о среднем значении распределения при неизвестной дисперсии ( см. эту статью ).

Для верхних квантилей распределения Стьюдента часто используется запись t α/2,n-1 . Если такая запись встретилась в статье про проверку гипотез или про построение доверительного интервала , то это именно верхний квантиль .

Примечание : Функция плотности вероятности распределения Стьюдента , как и стандартного нормального распределения , является четной функцией.

Чтобы вычислить в MS EXCEL верхний 0,05/2 – квантиль для t-распределения с 10 степенями свободы (или тоже самое двусторонний 0,05-квантиль ), необходимо записать формулу =СТЬЮДЕНТ.ОБР.2Х(0,05; 10) или =СТЬЮДРАСПОБР(0,05; 10) или =СТЬЮДЕНТ.ОБР(1-0,05/2; 10) или =-СТЬЮДЕНТ.ОБР(0,05/2; 10)

.2X означает 2 хвоста, т.е. двусторонний квантиль .

Приложения

Когда Интернет-провайдеры счет «взрывная» пропускная способность интернета95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности каждый месяц, а затем выставляет счет по ближайшей ставке. Таким образом, нечастые пики игнорируются, и покупатель получает более справедливую оплату. Причина, по которой эта статистика так полезна при измерении пропускной способности данных, заключается в том, что она дает очень точное представление о стоимости полосы пропускания. 95-й процентиль говорит о том, что 95% времени использование ниже этого количества: поэтому в оставшихся 5% времени использование превышает это количество.

Врачи часто используют вес и рост младенцев и детей для оценки их роста в сравнении со средними национальными значениями и процентилями, которые находятся в графики роста.

85-й процентиль скорости движения на дороге часто используется в качестве ориентира при настройке ограничения скорости и оценка того, является ли такой предел слишком высоким или низким.

В финансах стоимость под риском — это стандартная мера для оценки (зависящей от модели) величины, при которой не ожидается снижения стоимости портфеля в течение заданного периода времени и с заданным значением достоверности.

Задачи

Задача1. Компания изготавливает нейлоновые нити со средней прочностью 41 МПа и стандартным отклонением 2 МПа. Потребитель хочет приобрести нити с прочностью не менее 36 МПа. Рассчитайте вероятность, что партии нити, изготовленные компанией для потребителя, будут соответствовать требованиям или превышать их. Решение1: = 1-НОРМ.РАСП(36;41;2;ИСТИНА)

Задача2. Предприятие изготавливает трубы, средний внешний диаметр которых равен 20,20 мм, а стандартное отклонение равно 0,25мм. Согласно техническим условиям, трубы признаются годными, если диаметр находится в пределах 20,00+/- 0,40 мм. Какая доля изготовленных труб соответствует ТУ? Решение2: = НОРМ.РАСП(20,00+0,40;20,20;0,25;ИСТИНА)- НОРМ.РАСП(20,00-0,40;20,20;0,25) На рисунке ниже, выделена область значений диаметров, которая удовлетворяет требованиям спецификации.

Решение приведено в файле примера лист Задачи .

Задача3. Предприятие изготавливает трубы, средний внешний диаметр которых равен 20,20 мм, а стандартное отклонение равно 0,25мм. Внешний диаметр не должен превышать определенное значение (предполагается, что нижняя граница не важна). Какую верхнюю границу в технических условиях необходимо установить, чтобы ей соответствовало 97,5% всех изготавливаемых изделий? Решение3: = НОРМ.ОБР(0,975; 20,20; 0,25) =20,6899 или = НОРМ.СТ.ОБР(0,975)*0,25+20,2 (произведена «дестандартизация», см. выше)

Задача 4. Нахождение параметров нормального распределения по значениям 2-х квантилей (или процентилей). Предположим, известно, что случайная величина имеет нормальное распределение, но не известны его параметры, а только 2-я процентиля (например, 0,5-процентиль, т.е. медиана и 0,95-я процентиль). Т.к. известна медиана, то мы знаем среднее, т.е. μ. Чтобы найти стандартное отклонение нужно использовать Поиск решения. Решение приведено в файле примера лист Задачи .

Примечание: До MS EXCEL 2010 в EXCEL были функции НОРМОБР() и НОРМСТОБР() , которые эквивалентны НОРМ.ОБР() и НОРМ.СТ.ОБР() . НОРМОБР() и НОРМСТОБР() оставлены в MS EXCEL 2010 и выше только для совместимости.

Пример вычисления формулы процентиля в Excel

Перцентили (они же процентили или персентили) часто применяются в анализе данных. Они являются инструментом для оценки результатов на фоне целой группы данных. С их помощью можно, например, определить персентильную классификацию работника по его годовому обороту.

В программе Excel персентильную классификацию можно легко определить при использовании функции ПЕРСЕНТИЛЬ. Данная функция имеет 2 аргументы:

  1. Массив – диапазон исходных данных.
  2. К – значение найденного процентиля (чаще всего число в десятичной дроби диапазоном от 0 и до 1).

В примере, изображенном ниже на рисунке ячейка D6 содержит значение, которое является результатом вычисления ниже указанной формулы – число 0,75 процентиля данных диапазоне ячеек $B$2:$B$19:

Результат выше приведенной формулы указывает на то, что каждый работник, для которого годовые обороты превышают 52651 работает лучше, чем 75% всех остальных сотрудников.

Ячейка D15 содержит результат вычисления формулы, которая возвращает число 25 процентиля данных в диапазоне ячеек $B$2:$B$19.

Результат выше приведенной формулы указывает на то, что каждый работник, для которого годовой оборот не превышает 24656 находится среди 25% самых слабых сотрудников.

В данном примере используется условное форматирование использующие выше приведенные значения перцентилей. Значения больше чем 75 перцентиля выделены зеленым цветом, а значения меньше чем 25 перцентиля выделены красным цветом.

Стандартное нормальное распределение

Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует. Называется стандартным нормальным распределением. На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).

Любое нормальное распределение легко превращается в стандартное путем нормирования:

где z – новая переменная, которая используется вместо x;m – математическое ожидание;σ – стандартное отклонение.

Для выборочных данных берутся оценки:

Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.

В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.

Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:

Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:

График плотности:

Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e=1 и остается рассчитать только соотношение 1 на корень из 2 пи.

Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.

Функция стандартного нормального распределения позволяет рассчитывать вероятности.

Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.

Медиана и квартили

Квантили нормального распределения

Основная статья: Медиана (статистика)

  • 0,25-квантиль называется первым (или нижним) квартилем (от лат. quarta — четверть);
  • 0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым квартилем>;
  • 0,75-квантиль называется третьим (или верхним) квартилем.

Интерквартильным размахом (англ. Interquartile range) называется разность между третьим и первым квартилями. Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.

Построить ряд распределения

Предположим, мы имеем 100 значений и все разные, например: масса тела Сомалийских пиратов.
Такой набор данных обрабатывать неудобно, мы даже не можем представить их на обычном графике.
Поэтому нам необходимо категоризировать имеющиеся данные и для этого мы делаем следующее:

Запишем наши данные в таблицу:

Таблица 3. Вес сомалийских пиратов
87 72 96 142 114 74 67 90 60 79
56 79 131 81 101 61 98 128 93 128
64 144 62 110 58 117 106 128 114 95
102 129 130 129 70 123 58 145 115 57
93 61 143 88 55 88 137 110 99 66
110 115 104 89 80 108 133 95 82 69
59 69 139 140 101 104 67 86 67 76
59 85 65 72 110 106 142 64 72 125
109 105 86 142 133 89 78 114 101 116
112 106 56 98 71 79 78 139 85 67

Данные разобьём на группы, для начала предлагаю разбить на шесть интервалов:

Теперь посчитаем количество пиратов (весов, я имею ввиду) в каждом интервале:

# Интервал Количество элементов
Таблица 4. Количество элементов в интервалах
1. 55 — 70 22
2. 70 — 85 15
3. 85 — 100 18
4. 100 — 115 20
5. 115 — 130 11
6. 130 — 145 13

Вуа-ля, наше распределение на графике:

График 11. Ряд распределения массы тела сомалийских пиратов

Бонус

Интервалы лучше брать целыми числами, поэтому, если с выбранным количеством интервалов
размер выходит нецелым, то можно раздвинуть диапазон значений, пример:

Диапазон можно двигать как вверх, так и вниз, но лучше в обе стороны.

Совет

Принято делить распределение на 7-8 интервалов, но в каждой конкретной ситуации
Вы можете выбрать отличное количество интервалов, впрочем, как и сделать их
различной длины.

Все, что вам нужно знать

Очень часто можно услышать, что философия учит нас мыслить. Но чему она не может нас научить, так это жизни. А на практике это две совершенно разные вещи с не менее разными целями.

Дэвид Юм практиковал скептицизм и не боялся помешать ему стать у него на пути.

Сомневаться – значит быть человеком.

Принимая неопределенность, мы учимся, а исправляя себя – развиваемся.

Очень просто смотреть на мир таким, каким вы хотите его видеть. Но нужно быть смелым, чтобы попытаться, а затем и увидеть его настоящим.

Перевод статьи — David Hume: Why You’re Probably Wrong About Everything You Know  via КлуберИллюстрация — dylanmurphy.net

Приложения

Когда интернет-провайдеры выставляют счет за «скачкообразную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности каждый месяц, а затем выставляет счет по ближайшей ставке. Таким образом, нечастые пики игнорируются, и покупатель получает более справедливую оплату. Причина, по которой эта статистика так полезна при измерении пропускной способности данных, заключается в том, что она дает очень точное представление о стоимости полосы пропускания. 95-й процентиль говорит о том, что 95% времени использование ниже этого количества: поэтому в оставшихся 5% времени использование превышает это количество.

Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними национальными показателями и процентилями, которые можно найти в диаграммах роста .

85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким.

В финансах стоимость, подверженная риску, является стандартной мерой для оценки (в зависимости от модели) величины, при которой не ожидается снижения стоимости портфеля в течение заданного периода времени и с учетом значения достоверности.

Графики функций

В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения.

Как известно, около 68% значений, выбранных из совокупности, имеющей нормальное распределение, находятся в пределах 1 стандартного отклонения (σ) от μ(среднего или математического ожидания); около 95% – в пределах 2-х σ, а в пределах 3-х σ находятся уже 99% значений. Убедиться в этом для стандартного нормального распределения можно записав формулу:

которая вернет значение 68,2689% – именно такой процент значений находятся в пределах +/-1 стандартного отклонения от среднего (см. лист График в файле примера ).

В силу четности функции плотности стандартного нормального распределения: f(x)=f(-х), функция стандартного нормального распределения обладает свойством F(-x)=1-F(x). Поэтому, вышеуказанную формулу можно упростить:

Для произвольной функции нормального распределения N(μ; σ) аналогичные вычисления нужно производить по формуле:

Вышеуказанные расчеты вероятности требуются для построения доверительных интервалов.

Примечание: Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм.

Примечание: Для удобства написания формул в файле примера созданы Имена для параметров распределения: μ и σ.

Квартили непрерывного распределения

Если функция распределения F (х) случайной величины х непрерывна, то 1-й квартиль является решением уравнения F(х) =0,25, второй – F(х) =0,5, а третий F(х) =0,75.

Примечание : Подробнее о Функции распределения см. статью Функция распределения и плотность вероятности в MS EXCEL .

Если известна функция плотности вероятности p (х) , то 1-й квартиль можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2 ), получим, что медиана (2-й квартиль ) вычисляется по формуле e μ или в MS EXCEL =EXP(μ). При μ=1, медиана равна 2,718.

Обратите внимание на точку Функции распределения , для которой F(х)=0,5 (см. картинку выше или файл примера , лист Квартиль-распределение)

Абсцисса этой точки равна 2,718. Это и есть значение 2-го квартиля ( медианы ), что естественно совпадает с ранее вычисленным значением по формуле e μ .

Примечание : Напомним, что интеграл от функции плотности вероятности по всей области задания случайной величины равен единице:

Поэтому, линии квартилей ( х=квартиль ) делят площадь под графиком функции плотности вероятности на 4 равные части.

Несколько методов для поиска среднего и стандартного отклонения в Python

Давайте напишем код Python для расчета среднего и стандартного отклонения. Вы получаете несколько вариантов для расчета среднего и стандартного отклонения в Python. Давайте посмотрим на встроенный статистический модуль, а затем попробуйте написать нашу собственную реализацию.

1. Использование модуля статистики

Этот модуль предоставляет вам возможность вычисления среднего и стандартного отклонения напрямую.

Давайте начнем, импортируя модуль.

import statistics 

Давайте объявим массив с фиктивными данными.

data =  

Теперь, чтобы рассчитать среднее значение образца данных, используйте:

statistics.mean(data)

Это утверждение вернет среднее значение данных. Мы можем напечатать среднее значение в выходе, используя:

print("Mean of the sample is % s " %(statistics.mean(data))) 

Мы получаем вывод как:

Mean of the sample is 13.666666666666666 

Если вы используете IDE для кодирования, вы сможете наведите следующее заявление и получить дополнительную информацию о статистике. МЕС ().

В качестве альтернативы вы можете прочитать документацию здесь Отказ

Для расчета стандартного отклонения использования образцов использования:

print("Standard Deviation of the sample is % s "%(statistics.stdev(data)))

Мы получаем вывод как:

Standard Deviation of the sample is 15.61623087261029

Вот краткая документация статистики .Stev ().

Полный код, чтобы найти стандартное отклонение и среднее значение

Полный код для фрагментов выше выглядит следующим образом:

import statistics 
import numpy as np

data = np.array()

print("Standard Deviation of the sample is % s "% (statistics.stdev(data)))
print("Mean of the sample is % s " % (statistics.mean(data))) 

2. Напишите свою собственную функцию

Давайте напишем нашу функцию для расчета среднего.

def mean(data):
  n = len(data)
  mean = sum(data) / n
  return mean

Эта функция рассчитает среднее значение.

Теперь давайте напишем функцию для расчета стандартного отклонения.

Это может быть немного сложно, поэтому давайте пойдем на это шаг за шагом.

Стандартное отклонение – Квадратный корень дисперсии Отказ Таким образом, мы можем написать две функции:

  • тот, который рассчитает отклонение
  • тот, который рассчитает квадратный корень дисперсии.

Функция для расчетной дисперсии заключается в следующем:

def variance(data):
  
  n = len(data)
  
  mean = sum(data) / n
  
  deviations = 
   
  variance = sum(deviations) / n
  return variance

Вы можете обратиться к шагам, указанным в начале учебника, чтобы понять код.

Теперь мы можем написать функцию, которая рассчитывает квадратный корень дисперсии.

def stdev(data):
  import math
  var = variance(data)
  std_dev = math.sqrt(var)
  return std_dev

Полный код

Полный код выглядит следующим образом:

import numpy as np #for declaring an array

def mean(data):
  n = len(data)
  mean = sum(data) / n
  return mean

def variance(data):
  n = len(data)
  mean = sum(data) / n
  deviations = 
  variance = sum(deviations) / n
  return variance

def stdev(data):
  import math
  var = variance(data)
  std_dev = math.sqrt(var)
  return std_dev

data = np.array()

print("Standard Deviation of the sample is % s "% (stdev(data)))
print("Mean of the sample is % s " % (mean(data))) 
Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все про сервера
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: