Как найти эмпирическую функцию распределения и построить ее график. Эмпирическая функция распределения. Примеры задач на нахождение эмпирической функции распределения

Лекция 13. Понятие о статистических оценках случайных величин

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X < x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X < x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функцияопределяет вероятность события X < x, тогда как эмпирическая – относительную частоту этого же события.

При росте n относительная частота события X < x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Свойства эмпирической функции распределения :

1) Значения эмпирической функции принадлежат отрезку

2) - неубывающая функция

3) Если - наименьшая варианта, то = 0 при , если - наибольшая варианта, то =1 при .

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример . Построим эмпирическую функцию по распределению выборки:

Варианты
Частоты

Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x £ 2. Значение x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x> 10. таким образом, искомая эмпирическая функция имеет вид:

Важнейшие свойства статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона – то необходимо оценить параметр l.

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое



Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком , т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :. Аналогично, если дает оценку с недостатком , то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения ,а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию .

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности .

Состоятельной называется статистическая оценка, которая при n®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®¥ стремится к нулю, то такая оценка оказывается и состоятельной.

Узнайте, что такое эмпирическая формула. В химии ЭФ – это самый простой способ описания соединения – по сути это список элементов, образующих соединение с учетом их процентного содержания. Нужно обратить внимание, что эта простейшая формула не описывает порядок атомов в соединении, она просто указывает, из каких элементов оно состоит. For example:

  • Соединение, состоящее из 40,92% углерода; 4,58% водорода и 54,5% кислорода, будет иметь эмпирическую формулу C 3 H 4 O 3 (пример того, как найти ЭФ этого соединения будет рассмотрен во второй части).
  • Усвойте термин "процентный состав". "Процентным составом" называется процентное содержание каждого отдельного атома во всем рассматриваемом соединении. Чтобы найти эмпирическую формулу соединения, необходимо знать процентный состав соединения. Если вы находите эмпирическую формулу в качестве домашнего задания, то проценты, скорее всего, будут даны.

  • Имейте в виду, что вам придется иметь дело с грамм-атомами. Грамм-атом – это определенное количество вещества, масса которого равна его атомной массе. Чтобы найти грамм-атом, нужно воспользоваться следующим уравнением: Процентное содержание элемента в соединении делится на атомную массу элемента.

    • Допустим, к примеру, что у нас есть соединение, содержащее 40,92% углерода. Атомная масса углерода равна 12, поэтому наше уравнение будет иметь 40,92 / 12 = 3,41.
  • Знайте, как находить атомное соотношение. Работая с соединением, у вас будет получаться больше одного грамм-атома. После нахождения всех грамм-атомов вашего соединения, посмотрите на них. Для того, чтобы найти атомное соотношение, вам нужно будет выбрать наименьшее значение грамм-атома, которые вы вычислили. Затем нужно будет разделить все грамм-атомы на наименьший грамм-атом. Например:

    • Допустим вы работаете с соединением, содержащим три грамм-атома: 1,5; 2 и 2,5. Наименьшее из этих чисел – 1,5. Поэтому, чтобы найти соотношение атомов, вы должны разделить все числа на 1,5 и поставить между ними знак отношения : .
    • 1,5 / 1,5 = 1. 2 / 1,5 = 1,33. 2,5 / 1,5 = 1,66. Следовательно, соотношение атомов равно 1: 1,33: 1,66 .
  • Разберитесь, как переводить значения отношений атомов в целые числа. Записывая эмпирическую формулу, вы должны использовать целые числа. Это значит, что вы не можете использовать числа вроде 1,33. После того, как вы найдете отношение атомов, вам нужно перевести дробные числа (вроде 1,33) в целые (например, 3). Для этого вам нужно найти целое число, умножив на которое каждое число атомного соотношения, вы получите целые числа. Например:

    • Попробуйте 2. Умножьте числа атомного соотношения (1, 1,33 и 1,66) на 2. Вы получите 2, 2,66 и 3,32. Это не целые числа, поэтому 2 не подходит.
    • Попробуйте 3. Если вы умножите 1, 1,33 и 1,66 на 3, у вас получится 3, 4 и 5 соответственно. Следовательно, атомное соотношение целых чисел имеет вид 3: 4: 5 .
  • Определение эмпирической функции распределения

    Пусть $X$ -- случайная величина. $F(x)$ - функция распределения данной случайной величины. Будем проводить в одних и тех же независимых друг от друга условий $n$ опытов над данной случайной величиной. При этом получим последовательность значений $x_1,\ x_2\ $, ... ,$\ x_n$, которая и называется выборкой.

    Определение 1

    Каждое значение $x_i$ ($i=1,2\ $, ... ,$ \ n$) называется вариантой.

    Одной из оценок теоретической функции распределения является эмпирическая функция распределения.

    Определение 3

    Эмпирической функцией распределения $F_n(x)$ называется функция, которая определяет для каждого значения $x$ относительную частоту события $X \

    где $n_x$ - число вариант, меньших $x$, $n$ -- объем выборки.

    Отличие эмпирической функции от теоретической состоит том, что теоретическая функция определяет вероятность события $X

    Свойства эмпирической функции распределения

    Рассмотрим теперь несколько основных свойств функции распределения.

      Область значений функции $F_n\left(x\right)$ -- отрезок $$.

      $F_n\left(x\right)$ неубывающая функция.

      $F_n\left(x\right)$ непрерывная слева функция.

      $F_n\left(x\right)$ кусочно-постоянная функция и возрастает только в точках значений случайной величины $X$

      Пусть $X_1$ -- наименьшая, а $X_n$ -- наибольшая варианта. Тогда $F_n\left(x\right)=0$ при ${x\le X}_1$и $F_n\left(x\right)=1$ при $x\ge X_n$.

    Введем теорему, которая связывает между собой теоретическую и эмпирическую функции.

    Теорема 1

    Пусть $F_n\left(x\right)$ -- эмпирическая функция распределения, а $F\left(x\right)$ -- теоретическая функция распределения генеральной выборки. Тогда выполняется равенство:

    \[{\mathop{lim}_{n\to \infty } {|F}_n\left(x\right)-F\left(x\right)|=0\ }\]

    Примеры задач на нахождение эмпирической функции распределения

    Пример 1

    Пусть распределение выборки имеет следующие данные, записанные с помощью таблицы:

    Рисунок 1.

    Найти объем выборки, составить эмпирическую функцию распределения и построить её график.

    Объем выборки: $n=5+10+15+20=50$.

    По свойству 5, имеем, что при $x\le 1$ $F_n\left(x\right)=0$, а при $x>4$ $F_n\left(x\right)=1$.

    Значение $x

    Значение $x

    Значение $x

    Таким образом, получаем:

    Рисунок 2.

    Рисунок 3.

    Пример 2

    Из городов центральной части России случайным образом выбрано 20 городов, для которых получены следующие данные по стоимости проезда в общественном транспорте: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14, 15, 13, 13, 12, 12, 15, 14, 14.

    Составить эмпирическую функцию распределения данной выборки и построить её график.

    Запишем значения выборки в порядке возрастания и посчитаем частоту каждого значения. Получаем следующую таблицу:

    Рисунок 4.

    Объем выборки: $n=20$.

    По свойству 5, имеем, что при $x\le 12$ $F_n\left(x\right)=0$, а при $x>15$ $F_n\left(x\right)=1$.

    Значение $x

    Значение $x

    Значение $x

    Таким образом, получаем:

    Рисунок 5.

    Построим график эмпирического распределения:

    Рисунок 6.

    Оригинальность: $92,12\%$.

    Вариационный ряд. Полигон и гистограмма.

    Ряд распределения - представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

    В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

    § Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .

    Вариационный ряд распределения состоит из двух столбцов:

    В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
    Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

    Частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

    Частости () - это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

    Графическое изображение рядов распределения

    Наглядно ряды распределения представляются при помощи графических изображений.

    Ряды распределения изображаются в виде:

    § Полигона

    § Гистограммы

    § Кумуляты

    Полигон

    При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

    1. Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.


    Гистограмма



    Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

    На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

    Рис.1. Распределение населения России по возрастным группам

    Эмпирическая функция распределения, свойства.

    Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X

    Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X

    В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X

    При росте n относительная частота события X

    Основные свойства

    Пусть зафиксирован элементарный исход . Тогда является функцией распределения дискретного распределения, задаваемого следующейфункцией вероятности:

    где , а - количество элементов выборки, равных . В частности, если все элементы выборки различны, то .

    Математическое ожидание этого распределения имеет вид:

    .

    Таким образом выборочное среднее - это теоретическое среднее выборочного распределения.

    Аналогично, выборочная дисперсия - это теоретическая дисперсия выборочного распределения.

    Случайная величина имеет биномиальное распределение:

    Выборочная функция распределения является несмещённой оценкой функции распределения :

    .

    Дисперсия выборочной функции распределения имеет вид:

    .

    Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения:

    почти наверное при .

    Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то

    По распределению при .

    Определение эмпирической функции распределения

    Пусть $X$ -- случайная величина. $F(x)$ - функция распределения данной случайной величины. Будем проводить в одних и тех же независимых друг от друга условий $n$ опытов над данной случайной величиной. При этом получим последовательность значений $x_1,\ x_2\ $, ... ,$\ x_n$, которая и называется выборкой.

    Определение 1

    Каждое значение $x_i$ ($i=1,2\ $, ... ,$ \ n$) называется вариантой.

    Одной из оценок теоретической функции распределения является эмпирическая функция распределения.

    Определение 3

    Эмпирической функцией распределения $F_n(x)$ называется функция, которая определяет для каждого значения $x$ относительную частоту события $X \

    где $n_x$ - число вариант, меньших $x$, $n$ -- объем выборки.

    Отличие эмпирической функции от теоретической состоит том, что теоретическая функция определяет вероятность события $X

    Свойства эмпирической функции распределения

    Рассмотрим теперь несколько основных свойств функции распределения.

      Область значений функции $F_n\left(x\right)$ -- отрезок $$.

      $F_n\left(x\right)$ неубывающая функция.

      $F_n\left(x\right)$ непрерывная слева функция.

      $F_n\left(x\right)$ кусочно-постоянная функция и возрастает только в точках значений случайной величины $X$

      Пусть $X_1$ -- наименьшая, а $X_n$ -- наибольшая варианта. Тогда $F_n\left(x\right)=0$ при ${x\le X}_1$и $F_n\left(x\right)=1$ при $x\ge X_n$.

    Введем теорему, которая связывает между собой теоретическую и эмпирическую функции.

    Теорема 1

    Пусть $F_n\left(x\right)$ -- эмпирическая функция распределения, а $F\left(x\right)$ -- теоретическая функция распределения генеральной выборки. Тогда выполняется равенство:

    \[{\mathop{lim}_{n\to \infty } {|F}_n\left(x\right)-F\left(x\right)|=0\ }\]

    Примеры задач на нахождение эмпирической функции распределения

    Пример 1

    Пусть распределение выборки имеет следующие данные, записанные с помощью таблицы:

    Рисунок 1.

    Найти объем выборки, составить эмпирическую функцию распределения и построить её график.

    Объем выборки: $n=5+10+15+20=50$.

    По свойству 5, имеем, что при $x\le 1$ $F_n\left(x\right)=0$, а при $x>4$ $F_n\left(x\right)=1$.

    Значение $x

    Значение $x

    Значение $x

    Таким образом, получаем:

    Рисунок 2.

    Рисунок 3.

    Пример 2

    Из городов центральной части России случайным образом выбрано 20 городов, для которых получены следующие данные по стоимости проезда в общественном транспорте: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14, 15, 13, 13, 12, 12, 15, 14, 14.

    Составить эмпирическую функцию распределения данной выборки и построить её график.

    Запишем значения выборки в порядке возрастания и посчитаем частоту каждого значения. Получаем следующую таблицу:

    Рисунок 4.

    Объем выборки: $n=20$.

    По свойству 5, имеем, что при $x\le 12$ $F_n\left(x\right)=0$, а при $x>15$ $F_n\left(x\right)=1$.

    Значение $x

    Значение $x

    Значение $x

    Таким образом, получаем:

    Рисунок 5.

    Построим график эмпирического распределения:

    Рисунок 6.

    Оригинальность: $92,12\%$.