Стандартизация и нормализация данных
Стандартизация данных заключается в пропорциональном масштабировании данных для снятия ограничений между данными и преобразовании их в безразмерные данные для облегчения взвешивания и сравнения различных индексных данных. Нормализацию можно назвать своего рода стандартизацией (стандартизация и нормализация данных). Обычно используемые для непрерывных значений, дискретные значения обычно используют labelencoding и onehot для преобразования данных). Текущие методы стандартизации данных в основном делятся на следующие три типа:
Различные методы стандартизации по-разному влияют на результаты оценки системы, и вы можете попробовать несколько раз во время обучения машинному обучению.
Цель нормализации
- Повышение скорости сходимости модели
- Повысьте точность модели
- Предотвратить взрыв градиента модели
Повышена скорость сходимости модели
В практических приложениях модели, решаемые методом градиентного спуска, обычно необходимо нормализовать, например линейная регрессия, логистическая регрессия, KNN, SVM, нейронная сеть и другие модели. Если разница в размерах между элементами большая, контур модели эллиптический, а при выполнении градиентного спуска направление градиента — это направление, перпендикулярное контуру, поэтому Модель будет следовать зигзагообразному маршруту, и если скорость обучения слишком велика или слишком мала, градиент будет расходиться или не сходиться. Если разница в размерах между элементами велика, контур модели является круглым, а скорость итерации будет увеличена. На данный момент вам нужно только настроить скорость обучения. Как показано ниже:
Повысьте точность модели
Когда дело доходит до модели расчета расстояния, если значение объекта сильно отличается, оно будет доминировать в процессе расчета, а объект с небольшим значением может привести к недостатку информации (изменение значения почти не влияет на окончательный результат расчета. влияний). Следовательно, чтобы модель могла полностью изучить информацию о каждой функции, мы должны стандартизировать данные во время анализа модели. Численная стандартизация в основном включает гомотактическую обработку данных и обработку размерностей данных.
Следовательно, нормализация предназначена для того, чтобы функции между различными измерениями имели определенную степень численного сравнения, что может значительно повысить точность классификатора.
Нормализация данных в глубоком обучении может предотвратить взрыв градиента
Часто используемые методы и характеристики нормализации данных
(1) Мин-макс нормализация
-
Также известный как стандартизация дисперсии, результат отображается в
x
∗
=
x
−
m
i
n
(
x
)
m
a
x
(
x
)
−
m
i
n
(
x
)
x^* = \frac{x-min(x)}{max(x)-min(x)}
x∗=max(x)−min(x)x−min(x) - Использование: этот метод нормализации подходит для ситуаций, когда значения данных относительно сконцентрированы. Когда измерение расстояния, расчет ковариации и данные не соответствуют нормальному распределению, первый метод или другие методы нормализации (не включая Метод Z-оценки). Например, при обработке изображения изображение RGB преобразуется в изображение в градациях серого, и его значение ограничено диапазоном
- Дефекты: на этот метод легко влияют максимальные и минимальные значения, что делает нормализованный результат нестабильным и делает нестабильным последующий эффект использования. На практике вместо max и min можно использовать эмпирические константы.
(2) Метод стандартизации Z-баллов (нормализация с нулевым средним)
-
Данные, обработанные методом стандартизации Z-оценки, будут подчиняться стандартному нормальному распределению, а интервал значений после обработки не , поэтому его нельзя назвать нормализацией. Его функция преобразования
x
∗
=
x
−
μ
σ
x^* = \frac{x-\mu}{\sigma}
x∗=σx−μ - Метод стандартизации Z-оценки подходит для ситуаций, когда максимальное и минимальное значения атрибутов неизвестны.Кроме того, метод Z-оценки может использоваться для фильтрации выбросов. В алгоритмах классификации и кластеризации, когда расстояние необходимо для измерения сходства или когда технология PCA используется для уменьшения размерности, стандартизация Z-показателя работает лучше.
- Дефект: необходимо, чтобы распределение исходных данных было приблизительно гауссовым, иначе эффект будет плохим.
(3)
l
o
g
log
logПреобразование функций
-
Также может быть реализован метод преобразования функции журнала в базу 10. Конкретный метод выглядит следующим образом:
x
∗
=
l
o
g
1
(
x
)
l
o
g
1
(
m
a
x
(
x
)
)
x^* = \frac{log_10(x)}{log_10(max(x))}
x∗=log1(max(x))log1(x)
Друзья Александра то и дело хвастаются, что зарабатывают деньги на операциях с ценными бумагами, убеждая его, что это гораздо выгоднее депозитов.
Но Александр никогда раньше не инвестировал и плохо разбирается в фондовом рынке, да и вообще он не склонен к риску. Какие шаги ему стоит предпринять, если он все же поддастся уговорам и решит попробовать инвестировать на фондовом рынке?
Выберите все верные ответы
Пройти бесплатное обучение для начинающих инвесторов
Открыть брокерский счет, спросить у друзей, во что они инвестируют, и можно начинать самому
Для начала: выбрать пассивную стратегию инвестирования (например, используя коллективные инвестиции)
Не нужно ничего делать, инвестиции — это большой риск. Если получилось у друзей, это не значит, что получится у вас
Виталий решил открыть депозит, но в Петропавловске-Камчатском, где он живет, банки предлагают по вкладам не больше 4,5% годовых.
А его сестра Наталья, которая переехала в Калининград, рассказывает, что там можно положить деньги в банк и под 6%. Что может сделать Виталий, чтобы стать клиентом банка, у которого нет офиса в его городе?
Выберите один верный ответ
У Виталия есть возможность открыть вклад, а также купить ценные бумаги и оформить страховые полисы в компаниях из других регионов дистанционно — через финансовый маркетплейс
Виталию придется съездить один раз в другой город, заключить договор с нужной ему финансовой организацией и дальше он сможет дистанционно с ней работать — другого выхода нет
Инвестиции — Что нужно знать инвестору 5 вопросов
Среднеквадратичное отклонение — что это
Стандартное (или среднеквадратичное) отклонение – это квадратный корень из дисперсии. В свою очередь, под последним термином подразумевается степень разброса значений. Для получения дисперсии, и, как следствие, ее производного в виде стандартного отклонения, существует специальная формула, которая, впрочем, нам не так важна. Она довольно сложная по своей структуре, но при этом ее можно полностью автоматизировать средствами Excel. Главное – знать, какие параметры нужно передавать функции. В целом как для вычисления дисперсии, так и стандартного отклонения, аргументы используются одинаковые.
- Сначала мы получаем среднее арифметическое.
- После этого каждое исходное значение сопоставляется со средним и определяется разница между ними.
- После этого каждая разница возводится во вторую степень, после чего получившиеся результаты складываются между собой.
- Наконец, финальный шаг – деление получившегося значения на общее количество элементов в данной выборке.
Получив разницу между одним значением и средним арифметическим всей выборки, мы можем узнать расстояние к нему от определенной точки на координатной прямой. Начинающему человеку вся логика понятна равно до третьего шага. Зачем возводить значение в квадрат? Дело в том, что иногда разница может быть отрицательной, а нам нужно получить положительное число. И, как известно, минус на минус дает плюс. А далее нам нужно определить среднее арифметическое из получившихся значений. Дисперсия имеет несколько свойств:
- Если выводить дисперсию из одного числа, то она всегда будет равняться нулю.
- Если случайное число умножить на константу А, то дисперсия увеличится в количество раз, равное А в квадрате. Проще говоря, константу можно вынести за знак дисперсии и возвести его во вторую степень.
- Если к произвольному числу добавить константу А или же отнять ее, то дисперсия от этого не поменяется.
- Если два случайных числа, обозначаемых, к примеру переменными X и Y не зависят друг от друга, то в таком случае для них справедлива формула. D(X+Y) = D(X) + D(Y)
- Если же в предыдущую формулу внести изменения и пытаться определить дисперсию разницы этих значений, то она также будет составлять сумму этих дисперсий.
Среднеквадратическое отклонение – это математический термин, являющийся производным от дисперси. Получить его очень просто: достаточно извлечь квадратный корень из дисперсии.
Разница между дисперсией и стандартным отклонением находится сугубо в плоскости единиц измерения, если можно так выразиться. Стандартное отклонение является значительно более простым для считывания показателем, поскольку оно показывается не в квадратах числа, а непосредственно в значениях. Простыми словами, если в числовой последовательности 1,2,3,4,5 средним арифметическим является 3, то соответственно, стандартным отклонением будет число 1,58. Это говорит о том, что в среднем одно число отклоняется от среднего числа (которым является тройка в нашем примере), на 1,58.
Дисперсия же будет тем же самым числом, только возведенным в квадрат. В нашем примере – чуть меньше, чем 2,5. В принципе, можно использовать как дисперсию, так и стандартное отклонение для статистических расчетов, только надо четко знать, с каким именно показателем пользователь работает.
У страховой компании отозвали лицензию и суд признал ее банкротом. С данной компанией у вас заключен договор ОСАГО. Что будет в этом случае?
Выберите один верный ответ
В связи с отзывом лицензии договоры ОСАГО прекращаются по истечении 45 календарных дней с даты вступления в силу решения органа страхового надзора об отзыве лицензии
Несмотря на отзыв лицензии и признание компании банкротом, договоры ОСАГО продолжают свое действие
Необходимо заключать новые договоры и обращаться в Агентство по страхованию вкладов (АСВ) с заявлением о возврате части страховой премии пропорционально не истекшему сроку действия договоров
Необходимо заключать новые договоры и обращаться во временную администрацию, которую Банк России назначил на этапе приостановки лицензии или сразу после отзыва лицензии
Общая финансовая грамотность — Какие знания, умения и навыки необходимы, чтобы принимать правильные финансовые решения 4 вопроса
Сначала поймите разницу между дисперсией, стандартным отклонением и среднеквадратичной ошибкой.
Дисперсия (дисперсия)
Измерьте степень дисперсии (отклонения) случайной величины или набора данных
Предположим, что используется математическое ожидание (среднее значение) набора случайных величин или статистических данных.
E
(
x
)
E(x)
E(x), Тогда его дисперсия выражается как данные и
E
(
x
)
E(x)
E(x)Сумма квадратов разностей
∑
x
−
E
(
x
)
2
\sum^2
∑x−E(x)2, А затем найти его ожидание (среднее), чтобы получить
D
(
x
)
=
∑
x
−
E
(
x
)
2
D(x)=\sum^2
D(x)=∑x−E(x)2
Зачем использовать стандартное отклонение
Согласно вышеизложенному, мы знаем, что дисперсия используется для измерения степени дисперсии (отклонения) случайной величины или набора данных. Формула для стандартного отклонения (также называемая среднеквадратической ошибкой):
σ
=
D
(
x
)
\sigma = \sqrt {D(x)}
σ=D(x), Дисперсия и стандартное отклонение имеют общее свойство: чем больше значение, тем более пологая кривая распределения, то есть более разбросанная. Поскольку данные являются случайными, предполагая, что такое же распределение основано на центральной предельной теореме, данные подчиняются распределению Гаусса (нормальному) (типичным примером является ошибка). Давайте посмотрим на область распределения. При использовании стандартного отклонения мы можем четко увидеть вероятность того, что данные принадлежат определенному значению. (Когда мы обрабатываем функции, мы можем отфильтровать выбросы на основе этого)