bugorwiki.info
на главную

Коэффициент вариации

Не путать с коэффициентом решимости.
Статистический параметр

В теории и статистике вероятностей коэффициент вариации ( CV ), также известный как относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятности или распределения частоты. Он часто выражается в процентах и ​​определяется как отношение стандартного отклонения σ {\ displaystyle \ \ sigma} к среднему значению μ {\ displaystyle \ \ mu} (или его абсолютному значению | μ | {\ displaystyle | \ mu |}). CV или RSD широко используются в аналитической химии для выражения точности и повторяемости анализа. Он также широко используется в таких областях, как инжиниринг или физика, при проведении исследований по обеспечению качества и R & R датчика ANOVA. Кроме того, CV используется экономистами и инвесторами в экономических моделях и при определении волатильности ценной бумаги.

Определение

Коэффициент вариации (CV) определяется как отношение стандартного отклонения σ {\ displaystyle \ \ sigma} к среднему значению μ {\ displaystyle \ \ mu}: cv = σμ. {\ Displaystyle c _ {\ rm {v} } = {\ frac {\ sigma} {\ mu}}.} Показывает степень изменчивости по отношению к средней численности населения. Коэффициент вариации должен рассчитываться только для данных, измеренных по шкале отношений, поскольку это измерения, которые допускают операцию деления. Коэффициент вариации может не иметь никакого значения для данных в интервальной шкале. Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. Д.) Являются интервальными шкалами с произвольными нулями, поэтому коэффициент вариации будет различным в зависимости от используемой вами шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии, и, следовательно, является шкалой отношений. В то время как стандартное отклонение (SD) может быть осмысленно получено с использованием Кельвина, Цельсия или Фаренгейта, CV действительна только как мера относительной изменчивости для шкалы Кельвина, потому что ее вычисление включает в себя деление.

Измерения, которые логарифмически нормально распределены, показывают стационарное CV; напротив, SD изменяется в зависимости от ожидаемого значения измерений.

Более надежной возможностью является коэффициент дисперсии квартиля, половина межквартильного диапазона (Q3-Q1) / 2 {\ displaystyle {(Q_ {3} -Q_ {1}) / 2}}, деленная на среднее значение квартилей ( середина), (Q1 + Q3) / 2 {\ displaystyle {(Q_ {1} + Q_ {3}) / 2}}.

В большинстве случаев CV вычисляется для одной независимой переменной (например, для одного продукта фабрики) с многочисленными повторяющимися измерениями зависимой переменной (например, ошибка в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают в себя непрерывный диапазон для независимой переменной с разреженными измерениями по каждому значению (например, график рассеяния), могут быть пригодны для вычисления одного CV с использованием подхода оценки максимального правдоподобия.

Примеры

Набор данных имеет постоянные значения. Его стандартное отклонение равно 0, а среднее значение равно 100, что дает коэффициент вариации как

0/100 = 0%

Набор данных имеет большую изменчивость. Его стандартное отклонение равно 10, а его среднее значение равно 100, что дает коэффициент вариации как

10/100 = 10%

Набор данных имеет еще большую изменчивость. Стандартное отклонение составляет 32,9, а среднее - 27,9, что дает коэффициент вариации

32,9 / 27,9 = 118%

Примеры неправильного использования

Сравнение коэффициентов вариации между параметрами с использованием относительных единиц может привести к различиям, которые могут быть ненастоящими. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где шкала Кельвина и Ренкина являются их соответствующими абсолютными значениями):

Цельсия:

Fahrenheit:

Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого сета - 15,81 / 20 = 0,79. Для второго набора (которые имеют одинаковые температуры) это 28,46 / 68 = 0,42.

Например, если наборы данных представляют собой показания температуры от двух разных датчиков (датчик Цельсия и датчик Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав датчик с наименьшей дисперсией, то вы будете введены в заблуждение, если вы используете РЕЗЮМЕ. Проблема в том, что вы поделили относительное значение, а не абсолютное.

Сравнивая тот же набор данных, теперь в абсолютных единицах:

Kelvin:

Ренкина:

Стандартные отклонения выборки по-прежнему составляют 15,81 и 28,46 соответственно, поскольку на стандартное отклонение не влияет постоянное смещение. Коэффициенты вариации, однако, теперь оба равны 0,0539.

Предварительный расчет

Если доступна только выборка данных из совокупности, CV совокупности можно оценить, используя отношение стандартного отклонения выборки s {\ displaystyle s \,} к среднему значению выборки x¯ {\ displaystyle {\ bar {x}} }:

cv ^ = sx¯ {\ displaystyle {\ widehat {c _ {\ rm {v}}}} = {\ frac {s} {\ bar {x}}}}

Но эта оценка, когда применяется к образцу небольшого или среднего размера, имеет тенденцию быть слишком низкой: это искаженная оценка. Для нормально распределенных данных несмещенная оценка для выборки размера n:

cv ^ ∗ = (1 + 14n) cv ^ {\ displaystyle {\ widehat {c _ {\ rm {v}}}} ^ {*} = {\ bigg (} 1 + {\ frac {1} {4n}} {\ bigg)} {\ widehat {c _ {\ rm {v}}}}}

Вход нормальных данных

Во многих приложениях можно предположить, что данные распределены по нормальному логарифмическому закону (о чем свидетельствует наличие асимметрии в выборочных данных). В таких случаях более точная оценка, полученная из свойств логнормального распределения, определяется как:

cv ^ ln = esln2−1 {\ displaystyle {\ widehat {c _ {\ rm {v}}}} _ {\ rm {ln}} = {\ sqrt {\ mathrm {e} ^ {s _ {\ rm {ln }} ^ {2}} - 1}}}

где sln {\ displaystyle {s _ {\ rm {ln}}} \,} - примерное стандартное отклонение данных после естественного преобразования журнала. (В случае если измерения записываются с использованием любой другой логарифмической базы b, их стандартное отклонение sb {\ displaystyle s_ {b} \,} преобразуется в базу e с использованием sln = sbln⁡ (b) {\ displaystyle s _ {\ rm {ln}} = s_ {b} \ ln (b) \,} и формула для cv ^ ln {\ displaystyle {\ widehat {c _ {\ rm {v}}}} _ {\ rm {ln}} \,} остается прежним.) Эту оценку иногда называют «геометрическим CV», чтобы отличить ее от простой оценки выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом как:

GCVK = esln − 1 {\ displaystyle \ mathrm {GCV_ {K}} = {\ mathrm {e} ^ {s _ {\ rm {ln}}} \! \! - 1}}

Этот термин должен был быть аналогом коэффициента вариации для описания мультипликативного отклонения в лог-нормальных данных, но это определение GCV не имеет теоретической основы как оценка cv {\ displaystyle c _ {\ rm {v}} \, } сам.

Для многих практических целей (таких как определение размера выборки и вычисление доверительных интервалов) это sln {\ displaystyle s_ {ln} \,}, который наиболее полезен в контексте данных, нормально распределенных по журналу. При необходимости это можно вывести из оценки cv {\ displaystyle c _ {\ rm {v}} \,} или GCV путем обращения соответствующей формулы.

Сравнение со стандартным отклонением

преимущества

Коэффициент вариации полезен, потому что стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения измерения, поэтому оно является безразмерным числом. Для сравнения наборов данных с разными единицами измерения или разными способами следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки

  • Когда среднее значение близко к нулю, коэффициент вариации приближается к бесконечности и поэтому чувствителен к небольшим изменениям среднего. Это часто имеет место, если значения не происходят из шкалы отношений.
  • В отличие от стандартного отклонения, его нельзя использовать напрямую для построения доверительных интервалов для среднего значения.
  • CV не являются идеальным показателем достоверности измерения, когда число повторов варьируется в разных образцах, поскольку CV не зависит от количества повторений, в то время как достоверность среднего значения увеличивается с увеличением числа повторов. В этом случае стандартная ошибка в процентах должна быть выше.

Приложения

Коэффициент вариации также распространен в прикладных областях вероятности, таких как теория обновления, теория массового обслуживания и теория надежности. В этих полях экспоненциальное распределение часто более важно, чем нормальное распределение. Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV 1 (например, распределение Эрланга) считаются малодисперсионными, в то время как распределения с CV> 1 (такие как гиперэкспоненциальное распределение) считаются высокодисперсионными. Некоторые формулы в этих полях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариация CV - это CV (RMSD). По сути, CV (RMSD) заменяет термин стандартного отклонения среднеквадратичным отклонением (RMSD). В то время как многие естественные процессы действительно показывают корреляцию между средним значением и величиной отклонения вокруг него, точные сенсорные устройства должны быть сконструированы таким образом, чтобы коэффициент вариации был близок к нулю, т. Е. Приводил к постоянной абсолютной ошибке по сравнению с их рабочий диапазон.

В актуарной науке CV известен как унифицированный риск .

В промышленной обработке твердых частиц CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, была ли достигнута достаточная степень смешивания.

Лабораторные измерения внутрипробных и межпробных резюме

Показатели CV часто используются в качестве контроля качества для количественных лабораторных анализов. Хотя можно предположить, что CV внутри анализа и между анализами можно рассчитать путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что эти методы являются неправильными и что требуется более сложный вычислительный процесс. Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда число повторов варьируется между образцами - в этом случае стандартная ошибка в процентах считается более высокой. Если измерения не имеют естественной нулевой точки, то CV не является допустимым измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции.

Как мера экономического неравенства

Коэффициент вариации удовлетворяет требованиям для измерения экономического неравенства. Если x (с записями xi) является списком значений экономического показателя (например, богатства), где xi является богатством агента i , то выполняются следующие требования:

  • Анонимность - cv не зависит от порядка списка x . Это следует из того факта, что дисперсия и среднее не зависят от порядка x .
  • Масштабная инвариантность: cv ( x ) = cv (α x ), где α - действительное число.
  • Независимость населения - если { x , x } является списком x, добавленным к нему, то cv ({ x , x }) = cv ( x ). Это следует из того факта, что дисперсия и среднее оба подчиняются этому принципу.
  • Принцип передачи по Пигу-Далтону: когда богатство передается от более богатого агента i более бедному агенту j (то есть xi> xj) без изменения их ранга, тогда cv уменьшается и наоборот.

cv принимает минимальное значение ноль для полного равенства (все xi равны). Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать, чтобы он находился в фиксированном диапазоне (например, как коэффициент Джини, который ограничен значением от 0 до 1). Это, однако, более математически, чем коэффициент Джини.

распределение

При условии, что отрицательные и небольшие положительные значения среднего значения выборки встречаются с незначительной частотой, распределение вероятностей коэффициента вариации для выборки размера n было показано Хендриксом и Роби как

DFCV = 2π1 / 2Γ (п-12) е-п2 (σμ) 2cv21 + cv2cvn-2 (1 + CV2) п / 2ΣΣ'i = 0n-1⁡ (п-1)! Γ (п-i2) (n − 1 − i)! i! ni / 22i / 2 (σμ) i1 (1 + cv2) i / 2dcv, {\ displaystyle \ mathrm {d} F_ {c _ {\ rm {v}}} = {\ frac {2} {\ pi ^ {1/2} \ Gamma \ left ({\ frac {n-1} {2}} \ right)}} \; \ mathrm {e} ^ {- {\ frac {n } {2 \ left ({\ frac {\ sigma} {\ mu}} \ right) ^ {2}}} {\ frac {{c _ {\ rm {v}}} ^ {2}} {1+ { c _ {\ rm {v}}} ^ {2}}}} {\ frac {{c _ {\ rm {v}}} ^ {n-2}} {(1+ {c _ {\ rm {v}} } ^ {2}) ^ {n / 2}}} \ sideset {} {^ {\ prime}} \ sum _ {i = 0} ^ {n-1} {\ frac {(n-1)! \ , \ Gamma \ left ({\ frac {ni} {2}} \ right)} {(n-1-i)! \, I! \,}} {\ Frac {n ^ {i / 2}} { 2 ^ {i / 2} \ left ({\ frac {\ sigma} {\ mu}} \ right) ^ {i}}} {\ frac {1} {(1+ {c _ {\ rm {v}} } ^ {2}) ^ {i / 2}}} \, \ mathrm {d} c _ {\ rm {v}},}

где символ ∑∑ ′ {\ displaystyle \ sideset {} {^ {\ prime}} \ sum} указывает, что суммирование выполняется только по четным значениям n -1- i , т. е. если n нечетно, сумма по четным значениям из i, и если n четное, сумма только по нечетным значениям i .

Это полезно, например, при построении проверок гипотез или доверительных интервалов. Статистический вывод для коэффициента вариации в нормально распределенных данных часто основывается на приближении Мак-Кея для коэффициента вариации

альтернатива

По словам Лю (2012), Леманн (1986). «также вывел выборочное распределение CV для того, чтобы дать точный метод построения доверительного интервала для CV»; это основано на нецентральном t-распределении.

Подобные отношения

Стандартизированные моменты - это аналогичные отношения, μk / σk {\ displaystyle {\ mu _ {k}} / {\ sigma ^ {k}}}, где μk {\ displaystyle \ mu _ {k}} - это k- й момент о среднем , которые также безразмерны и масштабно инвариантны. Отношение дисперсии к среднему, σ2 / μ {\ displaystyle \ sigma ^ {2} / \ mu}, является другим подобным отношением, но не является безразмерным и, следовательно, не масштабируемым. См. Нормализация (статистика) для дальнейших соотношений.

При обработке сигналов, в частности при обработке изображений, обратное отношение μ / σ {\ displaystyle \ mu / \ sigma} упоминается как отношение сигнал / шум в целом и отношение сигнал / шум (отображение) в частности.

  • Эффективность, σ2 / μ2 {\ displaystyle \ sigma ^ {2} / \ mu ^ {2}}
  • Стандартизированный момент, μk / σk {\ displaystyle \ mu _ {k} / \ sigma ^ {k}}
  • Отношение дисперсии к среднему (или относительная дисперсия), σ2 / μ {\ displaystyle \ sigma ^ {2} / \ mu}
  • Коэффициент Фано, σW2 / µW {\ displaystyle \ sigma _ {W} ^ {2} / \ mu _ {W}} (оконный VMR)
  • Относительная стандартная ошибка

просмотров: 200