Что такое выбросы?
Выброс — это наблюдение, которое отличается от других наблюдений.
Это редко, или отчетливо, или не подходит в некотором роде.
Выбросы могут иметь много причин, таких как:
- Ошибка измерения или ввода.
- Повреждение данных.
- Истинное наблюдение за выбросами (например, Майкл Джордан в баскетболе).
Не существует точного способа определения и идентификации выбросов в целом из-за специфики каждого набора данных. Вместо этого вы или эксперт в области должны интерпретировать необработанные наблюдения и решить, является ли значение выбросом или нет.
Тем не менее, мы можем использовать статистические методы для выявления наблюдений, которые кажутся редкими или маловероятными с учетом имеющихся данных.
Это не означает, что указанные значения являются выбросами и должны быть удалены. Но инструменты, описанные в этом руководстве, могут помочь пролить свет на редкие события, которые могут потребовать второго взгляда.
Хороший совет — рассмотреть вопрос о построении выявленных значений выбросов, возможно, в контексте значений, не связанных с выбросами, чтобы увидеть, есть ли какие-либо систематические отношения или закономерности с выбросами. Если есть, возможно, они не являются выбросами и могут быть объяснены, или, возможно, сами выбросы могут быть определены более систематически.
Метод стандартных отклонений
Если мы знаем, что распределение значений в выборке является гауссовским или гауссовидным, мы можем использовать стандартное отклонение выборки в качестве предела для выявления выбросов.
Гауссово распределение обладает свойством того, что стандартное отклонение от среднего может использоваться для надежного суммирования процентного значения в выборке.
Например, в пределах одного стандартного отклонения среднее будет охватывать 68% данных.
Таким образом, если среднее значение равно 50, а стандартное отклонение равно 5, как в тестовом наборе данных выше, то все данные в выборке между 45 и 55 будут составлять около 68% выборки данных. Мы можем охватить большую часть выборки данных, если расширим диапазон следующим образом:
- 1 стандартное отклонение от среднего: 68%
- 2 стандартных отклонения от среднего: 95%
- 3 стандартных отклонения от среднего: 99,7%
Значение, которое выходит за пределы 3 стандартных отклонений, является частью распределения, но это маловероятное или редкое событие приблизительно в 1 из 370 выборок.
Три стандартных отклонения от среднего значения — это обычное ограничение на практике для выявления выбросов в гауссовом или гауссовоподобном распределении. Для небольших выборок данных может быть использовано значение 2 стандартных отклонения (95%), а для более крупных выборок может быть использовано значение 4 стандартных отклонения (99,9%).
Давайте сделаем это на конкретном примере.
Иногда данные сначала стандартизируются (например, до Z-показателя с нулевым средним и единичной дисперсией), чтобы обнаружение выброса можно было выполнить с использованием стандартных значений отсечения Z-показателя. Это удобно и не требуется вообще, и мы сделаем вычисления в исходном масштабе данных здесь, чтобы прояснить ситуацию.
Мы можем рассчитать среднее и стандартное отклонение для данной выборки, а затем рассчитать порог для определения выбросов как более 3 стандартных отклонений от среднего.
Затем мы можем определить выбросы как те примеры, которые выходят за пределы определенных нижних и верхних пределов.
Кроме того, мы можем отфильтровать те значения из выборки, которые не находятся в определенных пределах.
Мы можем собрать все это вместе с нашим образцом набора данных, подготовленным в предыдущем разделе.
Полный пример приведен ниже.
Выполнение примера сначала выведет количество идентифицированных выбросов, а затем число наблюдений, которые не являются выбросами, демонстрируя, как идентифицировать и отфильтровать выбросы соответственно.
До сих пор мы говорили только об одномерных данных с гауссовым распределением, например одна переменная. Вы можете использовать тот же подход, если у вас есть многомерные данные, например, данные с несколькими переменными, каждая с разным распределением Гаусса.
Вы можете представить границы в двух измерениях, которые бы определяли эллипс, если у вас есть две переменные. Наблюдения, которые выходят за пределы эллипса, будут считаться выбросами. В трех измерениях это будет эллипсоид и т. Д. В более высокие измерения.
С другой стороны, если вы знали больше о домене, возможно, можно определить выброс, превышая пределы одного или подмножества измерений данных.
Таблица нормального распределения
Таблицы нормального распределения встречаются двух типов:
— таблица плотности;
— таблица функции (интеграла от плотности).
Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.
В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец , т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).
Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.
Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.
На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.
В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.
Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:
Это факт показан на картинке:
Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.
Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:
Для наглядности можно взглянуть на рисунок.
На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.
Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:
Рисунок ниже.
Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.
Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу
Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:
Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.
Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.
Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.
То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.
Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).
Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).
Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.
Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.
Так выглядит правило 3 сигм для нормального распределения на диаграмме.
С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.
Понимание асимметричного распределения
Колоколообразной кривой является распространенным типом распределения данных график, показывающий. Доходности фондового рынка иногда напоминают кривые колокола, что позволяет инвесторам анализировать их на предмет моделей распределения вероятностей доходности актива.
Асимметричное распределение возникает, когда распределение доходов от инвестиций не является симметричным с нулевой асимметрией. Отрицательно скошенное распределение известно как скошенное влево, потому что у него более длинный левый хвост на графике. Напротив, положительно скошенное распределение называется скошенным вправо и имеет более длинный правый хвост.
Инвесторы должны заботиться о том, как распределяются данные о доходности инвестиций. Классы активов (акции, облигации, сырьевые товары, валюта, недвижимость и т. Д.) Подлежат различному распределению дохода. Это также верно для секторов внутри этих классов активов (например, технологии, здравоохранение, основные продукты питания и т. Д.), А также для портфелей, включающих комбинации этих классов активов или секторов.
Эмпирически они следуют асимметричным моделям распределения. Это связано с тем, что эффективность инвестиций часто искажается периодами высокой волатильности рынка или необычной налогово-бюджетной и денежно-кредитной политикой, в течение которых доходность может быть аномально высокой или низкой.
Медиана
Медиана – число, характеризующее выборку, т.е. если взять все элементы множества, то это число ровно делит множество пополам. Одна половина множества равна или больше этого число, а другая меньше или равна этому числу.
Объясним это на примере. Допустим, дано следующее множество: ${2, 5, 10, 8, 7}$. Здесь число $7$ делит это множество пополам. $2$ и $5$ меньше, а $10$ и $8$ больше этого числа. Для удобства нахождения медианы сначала нужно отсортировать выборку в возрастающем или убывающем порядке ${2, 5, 7, 8, 10}$. Тогда элемент, стоящий ровно посередине, будет медианой. Как видите, это число $7$.
А как быть, если во множестве четное количество чисел? Например ${2, 5, 6, 8, 10, 15}$. Тогда берем среднеарифметическое значение двух чисел, которые стоят посередине. У нас эти числа $6$ и $8$. Значит $(6+8):2=14:2=7$. Среднее значение этих двух чисел, а значит медиана равна $7$.
Пример из практики
Допустим, в стране $1%$ взрослого населения зарабатывает $1$ млн. у.е. в год (может быть больше, но для примера ограничимся этим числом), $10%$ населения зарабатывает по $20,000$ у.е. в год. Остальные живут за чертой бедности, зарабатывая всего $100$ у.е. в год. Тогда, несмотря на большие заработки $11%$ населения, медиана все равно будет равна $100$ у.е. Потому что подавляющее большинство получает всего $100$ у.е. в год. Теперь вычислим среднее значение.
Значит, среднее значение в год составляет
Зная соотношение неработающих людей, на каждого работающего, и поделив полученное на это число, получим доход на душу населения (с учетом детей, стариков и больных без пенсии).
Итак, такая статистика показывает, что народ живет припеваючи, зарабатывая примерно 1,000 у.е. в месяц, а действительность другая. Как раз, так и вычисляется доход на душу населения. Берется национальный доход и делится на численность населения. Теперь вы понимаете, почему в сводках всегда называют эту цифру, потому что она никоим образом не отображает благосостояние большинства, а только является показателем экономического благосостояния страны.
Эмпирические и теоретические распределения
В примерах распределений, приведенных в разделе I, мы пользовались данными, почерпнутыми из наблюдений.
Поэтому всякий наблюденный ряд распределения назовем эмпирическим, а график, изображающий распределение
частот этого ряда, — эмпирической кривой распределения. Эмпирические кривые распределения могут быть представлены полигоном и гистограммой. При этом изображение в виде полигона применяется для рядов с прерывными значениями признака, а гистограмма— для рядов с непрерывными значениями признака.
Наблюдая многочисленные ряды распределения, математики стремятся описать эти распределения путем анализа образования величины признака, пытаются построить теоретическое распределение, исходя из данных об эмпирическом распределении.
Мы уже видели на примере распределения случайной переменной, что распределение ее задается законом распределения. Закон распределения, заданный в виде функции распределения, позволяет математически описать ряды распределения некоторых совокупностей.
Теоретическим законом распределения многих совокупностей, наблюдаемых на практике, является нормальное распределение. Иначе говоря, многие эмпирические подчинены закону нормального распределения, функция плотности вероятности которого приведена в предыдущем параграфе.
Чтобы эту формулу применять для нахождения теоретических данных по некоторому эмпирическому ряду, необходимо вероятностные характеристики заменить данными эмпирического ряда. При этой замене величина стандартизованного отклонения t будет представлять собой где х— текущие значения случайной переменной X, а и — соответствующие характеристики эмпирического распределения, а именно средняя арифметическая и среднее квадратическое отклонение.
Следовательно, нормальное распределение ряда распределения зависит от величин средней арифметической и его среднего квадратического отклонения.
Меры асимметрии
Асимметрия:Асимметрия — это асимметрия в статистическом распределении, в которой кривая выглядит искаженной или перекошенной влево или вправо. Асимметрия показывает, сосредоточены ли данные на одной стороне.
Положительная асимметрия:Положительная асимметрия — это когда средняя> средняя> мода. Выбросы наклонены вправо, то есть хвост наклонен вправо.
Отрицательная асимметрия:Отрицательная асимметрия — это когда среднее <медиана <мода. Выступы перекошены влево, т. Е. Хвост перекошен влево.
Асимметрия важна, поскольку она говорит нам о том, где распределяются данные.
Например: глобальное распределение доходов в 2003 году сильно искажено. Мы видим, что среднее значение 3451 доллара в 2003 году (зеленый цвет) больше среднего значения в 1090 долларов. Это говорит о том, что мировой доход распределяется неравномерно. Доход большинства людей составляет менее 2000 долларов и меньше людей с доходом выше 14000 долларов, поэтому асимметрия. Но, похоже, к 2035 году, согласно прогнозу, неравенство в доходах со временем уменьшится.
Дальнейшее чтение
Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться
статьи
- Выпадающий в Википедии
- Обнаружение аномалий в Википедии
- 68–95–99.7 правило в Википедии
- Межквартирный ассортимент
- Коробочный сюжет в Википедии
Резюме
В этом руководстве вы обнаружили выбросы и два статистических метода, которые можно использовать для идентификации и фильтрации выбросов из набора данных.
В частности, вы узнали:
- То, что выброс является маловероятным наблюдением в наборе данных и может иметь одну из многих причин.
- Это стандартное отклонение может использоваться для идентификации выбросов в гауссовых или гауссовоподобных данных.
- Что межквартильный диапазон может использоваться для выявления выбросов в данных независимо от их распределения.
Нормальное распределение
Расчет вероятностей по формуле биномиального распределения при больших n очень громоздок. При этом значении m прерывны, и нет возможности аналитически отыскать их сумму в некоторых границах. Лаплас нашел закон распределения, являющийся предельным законом при неограниченном возрастании числа испытаний n и называемый законом нормального распределения.
Плотность вероятности нормального распределения выражается при этом формулой:
где t представляет собой нормированное отклонение частоты т от наиболее вероятной частоты nр, т. е. — среднее квадратическое отклонение случайной переменной m. Графическое изображение плотности распределения f(t) дает кривую нормального распределения (см. график 6).
Максимальная ордината кривой соответствует точке m=nр, т. е. математическому ожиданию случайной переменной m; величина этой ординаты равна .
Для практического нахождения вероятностей используют таблицу значений f(t).
Гистограммы с интервалами
Когда набор данных содержит так много разных значений, что мы не можем удобно связать их с отдельными столбцами гистограммы, мы используем объединение в интервалы (биннинг). То есть мы определяем диапазон значений как интервал, группируем результаты измерений в эти интервалы и создаем по одному столбцу для каждого интервала.
Следующая гистограмма, которая была сгенерирована из нормально распределенных данных со средним значением 0 и стандартным отклонением 0,6, использует интервалы вместо отдельных значений:
Рисунок 2 – Гистограмма с использованием интервалов вместо отдельных значений
Горизонтальная ось разделена на десять интервалов одинаковой ширины, и каждому интервалу назначен один столбец. Все результаты измерений, попадающие в числовой интервал, влияют на высоту соответствующего столбца (метки на горизонтальной оси показывают, что интервалы не одинаковой ширины, но это просто потому, что значения меток округлены).
Определение моды и медианы по несгруппированным данным
Рассмотрим определение моды и медианы по несгруппированным данным. Предположим, рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: . Так как в данной бригаде больше всего рабочих 3-го разряда, этот тарифный разряд будет модальным. Mo = 3. Для определения медианы необходимо провести ранжирование: . Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений. Если мода отражает наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером. Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долларов в месяц, а месячные доходы последнего составляют 50000 долларов (табл. 1). Таблица 1 – Месячные доходы исследуемой группы людей.
N п/п | 1 | 2 | 3 | 4 | … | 50 | 51 | … | 99 | 100 |
Доход, долл. | 100 | 104 | 104 | 107 | … | 162 | 164 | … | 100 | 50 000 |
Если воспользоваться средней арифметической, то получим средний доход, равный примерно 600 – 700 долларов, который имеет мало общего с доходами основной части группы. Медиана же, равная в данном случае Me = 163 доллара, позволит дать объективную характеристику уровня доходов 99 % данной группы людей. Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения). Предположим, распределение рабочих всего предприятия в целом по тарифному разряду имеет следующий вид (табл. 2). Таблица 2 – Распределение рабочих предприятия по тарифному разряду
Тарифный разряд | Численность рабочих, человек |
2 | 12 |
3 | 48 |
4 | 56 |
5 | 60 |
6 | 14 |
ВСЕГО | 190 |
Моду и медиану можно найти с помощью онлайн-калькуляторов.
Тестовый набор данных
Прежде чем мы рассмотрим методы идентификации выбросов, давайте определим набор данных, который мы можем использовать для тестирования методов.
Мы сгенерируем 10 000 случайных чисел из гауссовского распределения со средним значением 50 и стандартным отклонением 5.
Числа, взятые из гауссовского распределения, будут иметь выбросы. То есть в силу самого распределения будет несколько значений, которые будут далеки от средних, редких значений, которые мы можем определить как выбросы.
Мы будем использоватьrandn ()функция для генерации случайных гауссовских значений со средним значением 0 и стандартным отклонением 1, затем умножьте результаты на наше собственное стандартное отклонение и добавьте среднее значение для смещения значений в предпочтительный диапазон.
Генератор псевдослучайных чисел засеян, чтобы гарантировать, что мы получаем одну и ту же выборку чисел при каждом запуске кода.
При выполнении примера генерируется образец, а затем выводится среднее значение и стандартное отклонение. Как и ожидалось, значения очень близки к ожидаемым.
Z-оценка
Z-балл, или стандартный счет, это число стандартных отклонений в заданной точке данных лежит выше или ниже средней. Среднее значение – это среднее значение всех значений в группе, сложенных вместе, а затем деленных на общее количество элементов в группе.
Чтобы вычислить Z-оценку, вычтите среднее значение из каждой отдельной точки данных и разделите результат на стандартное отклонение. Нулевые результаты показывают, что точка и среднее значение равны. Результат, равный единице, указывает на то, что точка находится на одно стандартное отклонение выше среднего, а когда точки данных ниже среднего, Z-оценка отрицательна.
В большинстве больших наборов данных 99% значений имеют Z-оценку от -3 до 3, что означает, что они лежат в пределах трех стандартных отклонений выше или ниже среднего.
Z-значения позволяют аналитикам сравнивать данные с нормой. Финансовая информация данной компании более значима, если вы знаете, как она сравнивается с информацией других сопоставимых компаний. Результаты Z-score, равные нулю, указывают на то, что анализируемая точка данных является именно средней, находящейся в пределах нормы. Оценка 1 указывает на то, что данные представляют собой одно стандартное отклонение от среднего, а оценка Z, равная -1, помещает данные на одно стандартное отклонение ниже среднего. Чем выше Z-оценка, тем дальше от нормы можно считать данные.
При инвестировании, когда Z-оценка выше, это указывает на то, что ожидаемая доходность будет нестабильной или, вероятно, будет отличаться от ожидаемой.
Боллинджера представляет собой технический индикатор,используемый трейдерами и аналитиками для оценки волатильность рынка наоснове стандартного отклонения.Проще говоря, они являются визуальным представлением Z-балла.Для любой данной цены количество стандартных отклонений от среднего отражается количеством полос Боллинджера между ценой и экспоненциальной скользящей средней (EMA).
Сравнительная таблица
Сравнительная таблица среднего и медианного значений
Значит | Медиана | |
---|---|---|
Определение | Среднее значение — это среднее арифметическое набора чисел или распределения. Это наиболее часто используемая мера центральной тенденции набора чисел. | Медиана описывается как числовое значение, отделяющее верхнюю половину выборки, совокупности или распределения вероятностей от нижней половины. |
Применимость | Среднее значение используется для нормального распределения. | Медиана обычно используется для искаженных распределений. |
Соответствие набору данных | Среднее значение не является надежным инструментом, поскольку на него в значительной степени влияют выбросы. | Медиана лучше подходит для асимметричных распределений, чтобы получить центральную тенденцию, поскольку она гораздо более надежна и разумна. |
Как рассчитать | Среднее значение вычисляется путем сложения всех значений и деления полученной оценки на количество значений. | Медиана — это число, которое находится точно в середине набора значений. Медиана может быть вычислена путем перечисления всех чисел в порядке возрастания и последующего определения числа в центре этого распределения. |
Меры Отношения
Меры отношения используются, чтобы найти сравнение между 2 переменными.
ковариации:Ковариация — это мера взаимосвязи между изменчивостью 2 переменных, т. Е. Она измеряет степень изменения переменных, когда одна переменная изменится, будет ли то же самое / подобное изменение в другой переменной.
Ковариация не дает эффективной информации об отношении между двумя переменными, поскольку она не нормирована.
Корреляция:Корреляция дает лучшее понимание ковариации. Это нормализованная ковариация. Корреляция говорит нам, насколько коррелируют переменные друг с другом. Он также называется коэффициентом корреляции Пирсона.
Значение корреляции варьируется от -1 до 1. -1 указывает на отрицательную корреляцию, т. Е. При увеличении на 1 независимую переменную происходит уменьшение другой зависимой переменной. 1 указывает на положительную корреляцию, т. Е. С увеличением на 1 независимую переменную наблюдается увеличение в другой зависимой переменной.0 указывает, что переменные не зависят друг от друга.
Например,
Корреляция 0,889 говорит нам, что рост и вес имеют положительную корреляцию. Очевидно, что с ростом человека вес тоже увеличивается.
Функция массы вероятности
Если наша основная цель при создании гистограммы – передать информацию о вероятности, мы можем изменить всю гистограмму, разделив все счетчики вхождений на размер выборки.
Полученный график является аппроксимацией функции массы вероятности. Например:
Рисунок 4 – Гистограмма, изображающая приблизительную функцию массы вероятности, полученную путем деления количества всех вхождений на размер выборки
Всё, что мы на самом деле выполнили, это изменили числа на вертикальной оси. Тем не менее, теперь мы можем посмотреть на отдельное значение или на группу значений и легко определить вероятность появления.
Хочу прояснить следующую деталь: я сказал, что мы аппроксимируем функцию массы вероятности, когда берем гистограмму и делим значения на размер выборки. Истинная функция массы вероятности представляет собой идеализированное распределение вероятностей, что означает, что для этого потребуется бесконечное количество измерений.
Таким образом, когда мы работаем с реалистичными размерами выборки, гистограмма, созданная на основе измеренных данных, дает нам только приближение функции массы вероятности.
Корреляция
Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.
Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:
- положительной — обе величины растут в одну сторону;
- отрицательной — одна величина растёт, другая уменьшается;
- а также сильной или слабой, независимо от направления.
Изображение: Freie Universität Berlin
Статистическую связь между переменными исследуют с помощью . Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.
И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны
Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.
Возраст победительниц конкурса «Мисс Америка» и количество убийств, совершённых с помощью пара и горячих предметов. Изображение: Tyler Vigen / Spurious Correlations
Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.
Формула медианы
Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.
Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:
где
№Me – номер значения, соответствующего медиане,
N – количество значений в совокупности данных.
Тогда медиана обозначается, как
Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:
В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.
Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.
Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.
Обратимся к наглядной схеме.
Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:
где xMe — нижняя граница медианного интервала;
iMe — ширина медианного интервала;
∑f/2 — количество всех значений, деленное на 2 (два);
S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;
fMe — число наблюдений в медианном интервале.
Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.
Для примера рассчитаем медиану по следующим данным.
Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.
По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.
То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.