Важной задачей
математической статистики является
задача оценивания
(приближенного определения) по выборочным
данным параметров закона распределения
признака X
генеральной совокупности. Другими
словами, необходимо по данным выборочного
распределения
оценить неизвестные параметры
теоретического
распределения.
Статистические
оценки могут
быть точечными
и интервальными.
Задачу статистического
оценивания, а также основные виды
статистических оценок, рассмотрим для
частного случая: пусть признак X
генеральной совокупности распределен
нормально, то есть теоретическое
распределение имеет вид:
с параметрами:
– математическое ожидание признака X
;
– среднеквадратическое отклонение
признака X.
Точечной оценкой
неизвестного параметра называют число
(точку на числовой оси), которое
приблизительно
равно
оцениваемому параметру и может заменить
его с
достаточной степенью точности
в статистических расчетах.
Точечной оценкой
генеральной средней
и параметра a
может служить выборочная средняя
.
Точечными оценками
генеральной дисперсии
могут служить выборочная дисперсия
,
или, при малых объемах выборки n ,
исправленная выборочная дисперсия:
.
Точечными оценками
для генерального среднеквадратического
отклонения
могут служить:
– выборочное
среднее квадратическое отклонение
или
– исправленное
выборочное среднее квадратическое
отклонение.
Формулы, необходимые
для вычисления выборочной средней
и выборочной дисперсии
,
приведены в п. 2.
Для того чтобы
точечные статистические оценки
обеспечивали “хорошие”
приближения неизвестных параметров,
они должны быть несмещенными,
состоятельными
и эффективными.
Пусть
–
точечная оценка неизвестного параметра
.
Несмещенной
называют такую точечную статистическую
оценку
,
математическое
ожидание
которой равно
оцениваемому параметру:
.
Состоятельной
называют такую точечную статистическую
оценку,
которая при
стремится
по вероятности
к оцениваемому параметру.
В частности, если дисперсия несмещенной
оценки при
стремится к нулю, то такая оценка
оказывается и состоятельной.
Эффективной
называют такую точечную статистическую
оценку,
которая при фиксированном n
имеет наименьшую
дисперсию.
Можно показать,
что выборочная средняя
является несмещенной, состоятельной и
эффективной оценкой генеральной средней
.
Для построения
интервальной
оценки
рассмотрим событие, заключающееся в
том, что отклонение точечной оценки
параметра
от истинного значения этого параметра
по абсолютной величине не превышает
некоторую положительную величину .
Вероятность такого события
.
Заменив неравенство
на равносильное, получим:
.
Вероятность того,
что доверительный
интервал
заключает в себе (покрывает) неизвестный
параметр
равна
и называется
доверительной вероятностью
или надежностью
интервальной оценки. Величину
называют точностью
оценки.
Построим интервальную
оценку параметра
для двух случаев:
1) параметр
нормального закона распределения
признака Х
генеральной совокупности известен.
В этом случае интервальная
оценка
параметра
с заданной надежностью
определяется формулой:
,
где
=
,
t
– аргумент функции Лапласа: Ф(t)
=
(прил. 2).
2) параметр
нормального закона распределения
признака Х
генеральной совокупности неизвестен.
В этом случае интервальная
оценка
параметра
с заданной надежностью
определяется формулой:
,
где = ,
S
– точечная оценка параметра
,
– значения распределения Стьюдента,
которые находим по таблице (прил. 6).
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Содержание:
Интервальные оценки параметров распределения. Непрерывное и дискретное распределения признаков:
В материалах сегодняшней лекции мы рассмотрим интервальные оценки параметров распределения, а именно непрерывное и дискретное распределения признаков генеральной и выборочной совокупности.
Статистические ряды и их геометрическое изображение дают представление о распределении наблюдаемой случайной величины X по данным выборки. Во многих задачах вид распределения случайной величины X известен, необходимо получить приближённое значение неизвестных параметров этого распределения: m,
Пусть
Точечной оценкой 

Очевидно, что 



Точечная оценка 
1. Состоятельность. Оценка 

состоятельной, если 
Состоятельность оценки можно установить с помощью теоремы: если 

2. Несмещённость. Оценка 


Для оценки параметра 

Отсюда вытекает третье свойство.
3. Эффективность. Несмещённая оценка 

Запишем точечные оценки числовых характеристик случайной величины X.
1. Точечная оценка 

Проверим свойства оценки:
а) состоятельность следует из теоремы Чебышева:
б) несмещённость:
в)эффективность:
так как
2. Точечная оценка

она обладает свойствами: состоятельность, несмещённость,
эффективность.
3. Точечная оценка
Интервальные оценки
При статистической обработке результатов наблюдений необходимо знать не только точечную оценку 

Характеристики вариационного ряда
В материалах сегодняшней лекции мы рассмотрим характеристики вариационного ряда.
Вариационные ряды
Установление закономерностей, которым подчиняются массовые случайные явления, основано на изучении статистических данных — сведений о том, какие значения принял в результате наблюдений интересующий исследователя признак.
Пример:
Исследователь, интересующийся тарифным разрядом рабочих механического цеха, в результате опроса 100 рабочих получил следующие сведения:
Здесь признаком является тарифный разряд, а полученные о нём сведения образуют статистические данные. Для изучения данных прежде всего необходимо их сгруппировать. Расположим наблюдавшиеся значения признака в порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим следующий ряд, который называется ранжированным:
(1, 1, 1, 1) — 4 раза; (2, 2, 2, 2, 2, 2) — 6 раз; (3, 3, …, 3) — 12 раз; (4, 4, …, 4) —
16 раз; (5, 5, …, 5) — 44 раза; (6, 6, …, 6) — 18 раз.
Из ранжированного ряда следует, что признак (тарифный разряд) принял шесть различных значений: первый, второй и т.д. до шестого разряда.
В дальнейшем различные значения признака условимся называть вариантами, а под варьированием — понимать изменение значений признака. Если признак по своей сущности таков, что различные его значения не могут отличаться друг от друга меньше чем на некоторую конечную величину, то говорят, что это дискретно варьирующий признак.
Тарифный разряд — дискретно варьирующий признак: его различные значения не могут отличаться друг от друга меньше, чем на единицу. В примере этот признак принял 6 различных значений — 6 вариантов: вариант 1 повторился 4 раза, вариант 2-6 раз и т.д. Число, показывающее. сколько раз встречается вариант л* в ряде наблюдений, называется частотой варианта 
Вместо частоты варианта x можно рассматривать её отношение к общему числу наблюдений n, которое называется частостью варианта х и обозначается 

Таблица, позволяющая судить о распределении частот (или частостей) между вариантами, называется дискретным вариационным рядом.
В примере 1 была поставлена задача изучить результаты наблюдений. Если просмотр первичных данных не позволил составить представление о варьировании значений признака, то, рассматривая вариационный, ряд, можно сделать следующие выводы: тарифный разряд колеблется от 1-го до 6-го; наиболее часто встречается 5-й тарифный разряд; с ростом тарифного разряда (до 5-го разряда) растёт число рабочих, имеющих соответствующий разряд.
Наряду с понятием частоты используют понятие накопленной частоты, которую обозначают 

В дискретном вариационном ряду накопленные частоты (частости) вычисляются для каждого варианта и являются результатом последовательного суммирования частот (частостей). Накопленные частоты (частости) для вариационного ряда, заданного в табл. 1, вычислены в табл. 2.
Например, варианту 1 соответствует накопленная частота, равная нулю, так как среди опрошенных рабочих не было таких, у которых тарифный разряд был бы меньше 1-го; варианту 5 соответствует накопленная частота 38, так как было 4+6+12+16 рабочих с тарифным разрядом, меньшим 5-го, накопленная частость для этого варианта равна 0,38 (38: 100); если тарифный разряд выше 6-го, то ему соответствует накопленная частота 100, так как тарифный разряд всех опрошенных рабочих не выше 6-го.
Пример:
Исследователь, изучающий выработку на одного рабочего-станочника механического цеха в отчётном году в процентах к предыдущему году, получил следующие данные (в целых процентах) по 117 рабочим:
В этом примере признаком является выработка в отчётном году в процентах к предыдущему. Очевидно, что значения, принимаемые этим признаком, могут отличаться одно от другого на сколь угодно малую величину, т. е. признак может принять любое значение в некотором числовом интервале (только для упрощения дальнейших расчетов полученные данные округлены до целых процентов). Такой признак называют непрерывно варьирующим. По приведенным данным трудно выявить характерные черты варьирования значений признака. Построение дискретного вариационного ряда также не даст желаемых результатов (слишком велико число различных наблюдавшихся значений признака). Для получения ясной картины объединим в группы рабочих, у которых величина выработки колеблется, например, в пределах 10%. Сгруппированные данные представим в табл. 3.
В табл. 3 частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют интервальной, а отношение её к общему числу наблюдений — интервальной частостью w. Таблицу, позволяющую судить о распределении частот (или частостей) между интервалами варьирования значений признака, называют интервальным вариационным рядом.
Интервальный вариационный ряд, представленный в табл. 3, позволяет выявить закономерности распределения рабочих по интервалам выработки. В табл. 3 для верхних границ интервалов приведены накопленные частоты (частости) (они получены последовательным суммированием интервальных частот (частостей), начиная с частоты (частости) первого интервала). Например, для верхней границы третьего интервала, равной 110, накопленная частота равна 69; так как 8+15+46 рабочих имели выработку меньше 110%, накопленная частость равна 69/117.
Интервальный вариационный ряд строят по данным наблюдений за непрерывно варьирующим признаком, а также за дискретно варьирующим, если велико число наблюдавшихся вариантов. Дискретный вариационный ряд строят только для дискретно варьирующего признака.
Иногда интервальный вариационный ряд условно заменяют дискретным. Тогда серединное значение интервала принимают за вариант х, а соответствующую интервальную частоту — за
Построение интервального вариационного ряда
Для построения интервального вариационного ряда необходимо определить величину интервала, установить полную шкалу интервалов, в соответствии с ней сгруппировать результаты наблюдений. В примере 2 при выборе величины интервала учитывались требования наибольшего удобства отсчётов. Интервал был принят равным 10% и оказался удачным. Построенный интервальный ряд позволил выявить закономерности варьирования значений признака. Для определения оптимального интервала h, т.е. такого, при котором построенный интервальный ряд не был бы слишком громоздким и в то же время позволял выявить характерные черты рассматриваемого явления, можно использовать формулу Стэрджеса
где 
За начало первого интервала рекомендуется принимать величину



После установления шкалы интервалов следует сгруппировать результаты наблюдений. Границы последовательных интервалов записывают в столбец слева, а затем, просматривая статистические данные в том порядке, в каком они были получены, проставляют чёрточки справа от соответствующего интервала. В интервал включается данные, большие или равные нижней границе интервала и меньшие верхней границы. Целесообразно каждые пятое и шестое наблюдения отмечать диагональными черточками, пересекающими квадрат из четырёх предшествующих. Общее количество чёрточек, проставленных против какого-либо интервала, определяет его частоту.
Графическое изображение вариационных рядов
Графическое изображение вариационного ряда позволяет представить в наглядной форме закономерности варьирования значений признака. Наиболее широко используются следующие виды графического изображения вариационных рядов: полигон, гистограмма, кумулятивная
кривая.
Полигон, как правило, служит для изображения дискретного вариационного ряда. Для его построения в прямоугольной системе координат наносят точки с координатами 



Гистограмма служит для изображения только интервального вариационного ряда. Для её построения в прямоугольной системе координат по оси абсцисс откладывают отрезки, изображающие интервалы варьирования, и на этих отрезках, как на основании, строят прямоугольники с высотами, равными частотам (или частостям) соответствующего интервала. В результате получают ступенчатую фигуру, состоящую из прямоугольников, которую и называют гистограммой.
Если по оси абсцисс выбрать такой масштаб, чтобы ширина интервала была равна единице, и считать, что по оси ординат единица масштаба соответствует одному наблюдению, то площадь гистограммы равна общему числу наблюдений, если по оси ординат откладывались частоты, и эта площадь равна единице, если откладывались частости.
Иногда интервальный ряд изображают с помощью полигона. В этом случае интервалы заменяют их серединными значениями и к ним относят интервальные частоты. Для полученного дискретного ряда строят полигон.
Кумулятивная кривая (кривая накопленных частот или накопленных частостей) строится следующим образом. Если вариационный ряд дискретный, то в прямоугольной системе координат строят точки с координатами 



Если вариационный ряд интервальный, то по оси абсцисс откладывают интервалы. Верхним границам интервалов соответствуют накопленные частоты (или накопленные частости); нижней границе первого интервала — накопленная частота, равная нулю. Построив кумулятивную кривую, можно приблизительно установить число наблюдений (или их долю в общем количестве наблюдений), в которых признак принял значения, меньшие заданного.
Построение вариационного ряда — первый шаг к осмысливанию ряда наблюдений. Однако на практике этого недостаточно, особенно когда необходимо сравнить два ряда или более. Сравнению подлежат только так называемые однотипные вариационные ряды, т. е. ряды, которые построены по результатам обработки сходных статистических данных. Например, можно сравнивать распределения рабочих по возрасту на двух заводах или распределения времени простоев станков одного вида. Однотипные вариационные ряды обычно имеют похожую форму при графическом изображении, однако могут отличаться друг от друга, а именно: иметь различные значения признака, вокруг которых концентрируются наблюдения (меры этой качественной особенности называется средними величинами); различаться рассеянием наблюдений вокруг средних величин (меры этой особенности получили название показателей вариации).
Средние величины и показатели вариации позволяют судить о характерных особенностях вариационного ряда и называются статистическими характеристиками. К статистическим характеристикам относятся также показатели, характеризующие различия в скошенности полигонов и различия в их островершинности.
Средние величины
Средние величины являются как бы «представителями» всего ряда наблюдений, поскольку вокруг них концентрируются наблюдавшиеся значения признака. Заметим, что только для качественно однородных наблюдений имеет смысл вычислять средние величины.
Различают несколько видов средних величин: средняя арифметическая, средняя геометрическая, средняя гармоническая, средняя квадратическая, средняя кубическая и т.д. При выборе вида средней величины необходимо прежде всего ответить на вопрос: какое свойство ряда мы хотим представить средней величиной или, иначе говоря, какая цель преследуется при вычислении средней? Это свойство, получившее название определяющего, и определяет вид средней. Понятие определяющего свойства впервые введено советским статистиком А. Я. Боярским.
Наиболее распространенной средней величиной является средняя арифметическая. Пусть 

Так как 
вычисления средней арифметической по данным наблюдений:
Если по наблюдениям построен вариационный ряд, то средняя арифметическая
где x- — вариант, если ряд дискретный, и центр интервала, если ряд интервальный;
Частоты

Очевидно, что если по данным наблюдений построен дискретный вариационный ряд, то формулы (3) и (4) дают одинаковые значения средней арифметической. Если же по наблюдениям построен интервальный ряд, то средние арифметические, вычисленные по формулам
(3) и (4), могут не совпадать, так как в формуле (4) значения признака внутри каждого интервала принимаются равными центрам интервалов. Ошибка, возникающая в результате такой замены, вообще говоря, очень мала, если наблюдения, распределены равномерно вдоль каждого интервала, а не скапливаются к одноименным границам интервалов (т.е. либо все к нижним границам, либо все к верхним границам).
Среднюю арифметическую для вариационного ряда можно вычислять по формуле
которая является следствием формулы (4). Действительно,
Свойство, определяющее среднюю арифметическую, сводилось к требованию неизменности суммы наблюдений при замене каждого из них средней арифметической. При решении практических задач может оказаться необходимым вычислить такую среднюю 
где q — положительное или отрицательное число. Среднюю 

Сравнивая формулы (7) и (3), можно сделать вывод, что степенная средняя первого порядка есть не что иное, как средняя арифметическая, т.е.
При q=-l из формулы (7) получаем выражение для средней гармонической, при q=2 — для среднеквадратической, при q=3 — для средней кубической и т.д.
Средней геометрической 

Рассмотрим основные свойства средней арифметической.
1°. Сумма отклонений результатов наблюдений от средней арифметической равна нулю.
Доказательство. Исходя из определяющего свойства (2) средней арифметической, получаем
Если по результатам наблюдений построен вариационный ряд и средняя арифметическая взвешенная, то свойство 1° формулируется так: сумма произведений отклонений вариантов от средней арифметической на соответствующие частоты равна нулю. Действительно, на основании формулы (4) получаем
или
2°. Если все результаты наблюдений уменьшить (увеличить) на одно и то же число, то средняя арифметическая уменьшится (увеличится) на то же число. (Доказательство свойств 2° и 3° проведём в предположении, что по результатам наблюдений построен вариационный ряд и средняя арифметическая — взвешенная).
Доказательство. Очевидно, что при уменьшении вариантов на одно и то же число с соответствующие им частоты останутся прежними. Поэтому взвешенная средняя арифметическая для изменённого вариационного ряда такова:
Аналогично можно показать, что 
3°. Если все результаты наблюдений уменьшить (увеличить) в одно и то же число раз, то средняя арифметическая уменьшится (увеличится) во столько же раз.
Доказательство. Очевидно, что при уменьшении вариантов в k раз их частоты останутся прежними. Поэтому средняя арифметическая для изменённого ряда
Аналогично можно доказать, что
(уменьшить) в k раз, то получим среднюю арифметическую для первоначального вариационного ряда.
4°. Если ряд наблюдений состоит из двух групп наблюдений, то средняя арифметическая всего ряда равна взвешенной средней арифметической групповых средних, причём весами являются объёмы групп.
Пусть 

средняя арифметическая для всего ряда 

Доказательство. Исходя из определяющего свойству средней арифметической, имеем: произведение 




Следовательно,
Следствие. Если ряд наблюдений состоит из k групп наблюдений, то средняя арифметическая всего ряда 

5°. Средняя арифметическая для сумм (разностей) взаимно соответствующих значений признака двух рядов наблюдений с одинаковым числом наблюдений равна сумме (разности) средних арифметических этих рядов.
Пусть 





Доказательство. Имеем
Аналогично можно показать, что
Следствие. Средняя арифметическая алгебраической суммы соответствующих значений признака нескольких рядов наблюдений с одинаковым числом наблюдений равна алгебраической сумме средних арифметических этих рядов.
Вычисление средней арифметической вариационного ряда непосредственно по формуле (4) приводит к громоздким расчётам, если числовые значения вариантов и соответствующие им частоты велики. Поэтому часто используют следующий способ, основанный на свойствах 3° и 2° средней арифметической: среднюю вычисляют не по первоначальным вариантам л-, а по уменьшенным на не которое число с, а затем разделённым на некоторое число k т.е. для вариантов 

Действительно, принимая во внимание свойства 3° и 2° средней арифметической, получаем



Медиана и мода
Наряду со средними величинами в качестве описательных характеристик вариационного ряда применяют медиану и моду.
Медианой 
Пусть проведено нечётное число наблюдений, т.е. n=2q—1, и результаты наблюдений проранжированы и выписаны в следующий ряд:



Если проведено чётное число наблюдений, т.е. n=2q, то на середину ранжированного ряда 


, т.е.
Покажем на примерах на практическом занятии, как определяется медиана дискретного и интервального вариационных рядов.
В общем случае медиана для интервального вариационного ряда определяется по формуле
или по следующей формуле, полученной из формулы (9) в результате деления числителя и знаменателя входящей в неё дроби на n:
где


Модой 
В случае интервального вариационного ряда мода вычисляется по следующей формуле (вывод формулы можно найти в кн.: Венецкий И. Г Кильдишев Г. С. Теория вероятностей и математическая статистика. М., 1975.):
или по тождественной формуле:
где 



Моду используют в случаях, когда нужно ответить на вопрос, какой товар имеет наибольший спрос, каковы преобладающие в данный момент уровни производительности труда, себестоимости и т. д. Модальная производительность, себестоимость и т.д. помогают вскрыть ресурсы, имеющиеся в экономике.
Показатели вариации
Средние величины, характеризуя вариационный ряд числом, не отражают изменчивости наблюдавшихся значений признака, т.е. вариацию. Простейшим показателем вариации является вариационный размах 

Вариационный размах — приближённый показатель вариации, так как почти не зависит от изменения вариантов, а крайние варианты, которые используются для его вычисления, как правило, ненадёжны.
Более содержательными являются меры рассеяния наблюдений вокруг средних величин. Средняя арифметическая является основным видом средних, поэтому ограничимся рассмотрением мер рассеяния наблюдений вокруг средней арифметической.
Сумма отклонений результатов наблюдений 


Средним линейным отклонением (d) называют среднюю арифметическую абсолютных величин отклонений результатов наблюдений от их средней ар и ф метической:
Эмпирической дисперсией 
Если по результатам наблюдений построен вариационный ряд, то эмпирическая дисперсия
Вместо эмпирической дисперсии в качестве меры рассеяния наблюдений вокруг средней арифметической часто используют эмпирическое среднеквадратическое отклонение, равное арифметическому значению корня квадратного из дисперсии и имеющее ту же размерность, что и значения признака.
где x — вариант (если ряд дискретный) и центр интервала (если ряд интервальный); 

Для краткости величину 
Приведем свойство минимальности эмпирической дисперсии:
если
Доказательство. Найдём экстремум функции 
этого решим уравнение 
Так как 

Можно показать, что среднее линейное отклонение не обладает свойством минимальности. Поэтому наиболее употребительными мерами рассеяния
Для вариационного ряда среднеквадратическое отклонение наблюдений вокруг средней арифметической являются эмпирическая дисперсия и эмпирическое среднеквадратическое отклонение.
Итальянский статистик Коррадо Джинни предложил в качестве показателя вариации использовать величину 


Свойства эмпирической дисперсии
Рассмотрим основные свойства эмпирической дисперсии, знание которых позволит упростить её вычисление.
1 °. Дисперсия постоянной величины равна нулю.
Доказательство этого свойства очевидно вытекает из того, что дисперсия является показателем рассеяния наблюдений вокруг средней арифметической, а средняя арифметическая постоянной равна этой постоянной.
2°. Если все результаты наблюдений уменьшить (увеличить) на одно и то же число с, то дисперсия не изменится.
Доказательство свойств 2° и 3° проведём в предположении, что по результатам наблюдений построен вариационный ряд.
Доказательство. Если все варианты уменьшить на число с, то в соответствии со свойством 2° средней арифметической средняя для измененного вариационного ряда равна 
,т.е. совпадает с дисперсией первоначального вариационного ряда. Аналогично можно показать, что
Доказанное свойство позволяет вычислять дисперсию не по данным вариантам, а по уменьшенным, (увеличенным) на одно и то же число с, так как дисперсия, вычисленная для измененного ряда, равна первоначальной.
3°. Если все результаты наблюдений уменьшить (увеличить) в одно и то же число k раз, то дисперсия уменьшится (увеличится) в 
Доказательство. Если все варианты уменьшить в k раз, то, согласно свойству 3 средней арифметической, средняя для измененного вариационного ряда равна 
Аналогично можно показать, что
Это свойство позволяет эмпирическую дисперсию вычислять не по данным вариантам, а по уменьшенным (увеличенным) в одно и то же число k раз. Если дисперсию, вычисленную для измененного ряда, увеличить (уменьшить) в 
Следствие. Если все варианты уменьшить (увеличить) в k раз, то среднеквадратическое отклонение уменьшится (увеличится) в число раз, равное k.
Следствие очевидно вытекает из определения среднеквадратического
отклонения.
Прежде чем рассматривать следующее свойство дисперсии, докажем теорему.
Теорема. Эмпирическая дисперсия равна разности между средней
арифметической квадратов наблюдений и квадратом средней
арифметической, т.е.
Доказательство проведём для случая взвешенных средних арифметических, т.е.
Доказательство. Тождественно преобразуя выражения для дисперсии, имеем
4°, Если ряд наблюдений состоит из двух групп наблюдений, то дисперсия всего ряда равна сумме средней арифметической групповых дисперсий и средней арифметической квадратов отклонений групповых средних от средней всего ряда, причем ‘ при вычислении средних арифметических весами являются объемы групп.
Пусть 





Пусть



В соответствии со свойством 4° средней арифметической можно записать 
Используя найденные выражения для слагаемых, получаем
Свойство 4° можно обобщить на случай, когда ряд наблюдений состоит из любого количества 
Если ряд наблюдений состоит из k групп наблюдений, то межгрупповой дисперсией 



Средней групповых дисперсий или внутригрупповой дисперсией 

Следствие (свойства 4°). Если ряд наблюдений состоит из k групп наблюдений, то дисперсия всего ряда s2 равна сумме внутригрупповой и межгрупповой дисперсий, т.е.
Вычисление дисперсии вариационного ряда непосредственно по формуле (16) приводит к громоздким расчётам, если числовые значения вариантов и соответствующие им частоты велики. Поэтому часто дисперсию вычисляют не по первоначальным вариантам х, а по вариантам 


Действительно, принимая во внимание свойства 3° и 2° дисперсии, получаем
откуда следует, что
Требования к с и k предъявляют те же, что и в упрощенном способе вычисления средней арифметической.
Эмпирические центральные и начальные моменты
Средняя арифметическая и дисперсия вариационного ряда являются частными случаями более общего понятия о моментах вариационного ряда.
Эмпирическим начальным моментом
Эмпирический начальный момент нулевого порядка
Эмпирический начальный момент первого порядка
Эмпирический начальный момент второго порядка 
Эмпирическим центральным моментом 
Эмпирический центральный момент нулевого порядка


Эмпирический центральный момент второго порядка
В дальнейшем для краткости величину
Используя формулу бинома Ньютона, разложим в ряд выражение для центрального момента q-го порядка:
В проведенных тождественных преобразованиях использованы свойства 5° и 3° средней арифметической; 
Итак, центральный момент q-го порядка выражается через начальные моменты следующим образом:
Полагая q = 0, 1, 2,…, можно получить выражения центральных моментов различных порядков через начальные моменты:
и т.д.
Заметим, что формула (23) для центрального момента второго порядка, как и следовало ожидать, аналогична формуле (18) для дисперсии.
Рассмотрим свойства центральных моментов, которые позволят значительно упростить их вычисление.
1°. Если все варианты уменьшить (увеличить) на одно и то же число с, то центральный момент q-го порядка не изменится.
Доказательство. Если все варианты уменьшить на число с, то средняя арифметическая для измененного ряда равна 
Аналогично можно показать, что
2°. Если все варианты уменьшить (увеличить) в одно и то же число k раз, то центральный момент q-го порядка уменьшится (увеличится) в 
то средняя арифметическая для измененного вариационного ряда равна
поэтому центральный момент q-го порядка
Аналогично можно показать, что
Для облегчения расчётов центральные моменты вычисляют не по первоначальным вариантам х, а по вариантам

внимание свойства центрального момента, получаем
откуда следует, что
Эмпирические асимметрия и эксцесс
Эмпирическим коэффициентом асимметрии 
Если полигон вариационного ряда скошен, т.е. одна из его ветвей, начиная от вершины, зримо длиннее другой, то такой ряд называют асимметричным. Из формулы (27) следует, что если в вариационном ряду преобладают варианты, меньшие 

Эмпирическим эксцессом или коэффициентом крутости 
За стандартное значение эксцесса принимают нуль-эксцесс так называемой нормальной кривой (см. рис. 1).
Кривые, у которых эксцесс отрицательный, по сравнению с нормальной менее крутые, имеют, более плоскую вершину и называются «плосковершинными» Кривые с положительным эксцессом более крутые по сравнению с нормальной кривой, имеют более острую вершину и называются «островершинными».
Интервальные оценки параметров распределений
Доверительный интервал, доверительная вероятность:
Точечная оценка неизвестного параметра 






Чем меньше разность 


Доверительной вероятностью оценки называется вероятность 




Из (10.1) видно, что неизвестный параметр 
Доверительным интервалом называется интервал

Длина его (см. рис. 10.1) 

Доверительный интервал для математического ожидания случайной величины X при известной дисперсии
Доверительный интервал для математического ожидания случайной величины X при известной дисперсии (или 
Пусть эксперимент Е описывается нормальной случайной величиной X.
Плотность распределения 





откуда получим

Для определения доверительного интервала рассмотрим разность между оценкой и параметром: 


Покажем, что случайная величина U имеет нормированный нормальный закон распределения. Найдем ее числовые характеристики:
Таким образом 
Зная плотность распределения случайной величины U, легко найти вероятность попадания случайной величины U в интервал
Левая часть этого уравнения представляет собой доверительную вероятность
Тогда из (10.4) и (10.5) следует уравнение
Решая уравнение (10.6), по таблицам функции Лапласа для заданной доверительной вероятности 


Считая, что 



Замечания по формуле (10.8):
- при увеличении объема выборки
из (10.8) видим, что е уменьшается, значит, уменьшается длина доверительного интервала, а точность оценки увеличивается;
- увеличение доверительной вероятности
приводит к увеличению длины доверительного интервала (см. рис. 10.2, где квантили
увеличиваются), т. е. е увеличивается, а точность оценки падает;
- если задать точность е и доверительную вероятность
, то можно найти объем выборки, который обеспечит заданную точность:
Пример №1
Сколько конденсаторов одного номинала надо измерить, чтобы с вероятностью 0,95 можно было утверждать, что мы с точностью 1 % определили их среднее значение — математическое ожидание.
Обозначим 


Доверительный интервал для математического ожидания нормальной случайной величины X при НЕизвестной дисперсии
Доверительный интервал для математического ожидания нормальной случайной величины X при неизвестной дисперсии или
Пусть эксперимент описывается случайной величиной X с нормальным распределением с неизвестными параметрами 


Здесь использовали для оценки дисперсии 






Умножим числитель и знаменатель в (10.10) на
Здесь X — нормированная нормальная случайная величина, знаменатель — распределение 



Зная закон распределения случайной величины t и задавая доверительную вероятность 

Из таблиц распределений Стьюдента по заданной доверительной вероятности 


Подставляя в (10.13) вместо t равенство (10.10), получаем
Разрешим неравенство в левой части формулы (10.14) относительно
Отсюда непосредственно следует, что доверительный интервал 

Интервал (10.15) несколько шире интервала (10.7), определенного для той же выборки и той же доверительной вероятности. Зато в (10.15) используется меньшая априорная информация — 
Можно обозначить ширину доверительного интервала или точность через 
Все замечания, сделанные по формуле (10.8), справедливы и для формулы (10.16).
Пример №2
Даны результаты четырех измерений напряжения сети (значения приведены в
Считаем, что X — напряжение сети — является нормальной случайной величиной. Построить доверительный интервал с вероятностью 0,95 для истинного напряжения сети —
Найдем точечную оценку
Из таблиц распределения Стьюдента для 

Тогда
Полученные значения подставим в формулу (10.16):
Найдем левую и правую границы доверительного интервала для
Таким образом, истинное напряжение сети с вероятностью 0,95 накрывается доверительным интервалом
Найдем минимальное число измерений, чтобы с вероятностью 0,95 точ ность определения истинного напряжения сети не превышала 0,5 В, т. е. 

Видим, что число измерений 







Доверительный интервал для дисперсии или ст нормальной случайной величины X
Рассмотрим вероятностный эксперимент с нормальной моделью, где параметры 

Составим вспомогательную случайную величину
Эта случайная величина имеет распределение 
Это и есть распределение хи-квадрат с 
Зная закон распределения случайной величины У, определим вероятность того, что случайная величина 
Здесь 





Это означает, что площади заштрихованных фигур равны. Задавая доверительную вероятность 


Считая 
Подставим в (10.20) значение 
Решаем неравенство в левой части (10.21) относительно
Из (10.22) записываем доверительный интервал для
Для среднего квадратического отклонения 
Можно ввести коэффициенты
Тогда доверительный интервал для о определится следующим образом:
Коэффициенты 



Пример №3
В предыдущем разделе (10.3) приведен пример для измеренных значений напряжения сети. Продолжим и найдем доверительный интервал для среднего квадратического отклонения 
Найдена точечная оценка для 



Тогда нижняя граница для
Верхняя граница для
И окончательно:
Пример №4
Случайная величина 




Решение. Определим значение 
Точность оценки
Подставим в неравенство (4.1):
Смысл полученного результата: если произведено достаточно большое число выборок по 36 в каждой, то 95 % из них определяют такие доверительные
интервалы, в которых 
Пример №5
Для исследования нормального распределения 
Найти с надежностью 
Решение. Найдем несмещенные оценки для математического ожидания и дисперсии, используя метод произведений (табл. 4.2).
Контроль:
По табл. П3 по данным 
Для определения доверительного интервала для математического ожидания используем неравенство (4.2):
Таким образом, интервал (50, 547; 51, 453) накрывает точку 
Для определения доверительного интервала для среднего квадратического отклонения используем неравенство (4.3). По табл. П4 по заданным 
С вероятностью 0,95 неизвестное значение 
- Алгебра событий — определение и вычисление
- Свойства вероятности
- Многомерные случайные величины
- Случайные события — определение и вычисление
- Основные законы распределения дискретных случайных величин
- Непрерывные случайные величины
- Закон больших чисел
- Генеральная и выборочная совокупности
Содержание:
- Точечные и интервальные оценки параметров распределения
- Примеры решения задач
Точечные и интервальные оценки параметров распределения
Оценка параметра распределения совокупности 
Оценка называется обоснованной, если она совпадает по вероятности с соответствующим параметром при
Оценка называется несмещенной, если ее математическое ожидание совпадает со значением параметра.
В случае выбора из всех известных несмещенных обоснованных оценок определенной оценки, необходимо указать критерий, по которому сделан выбор.
Чаще всего используется критерий, который состоит в выборе оценки, имеющей наименьшую возможную дисперсию. Такая оценка называется эффективной. Нижняя граница дисперсии несмещенной оценки параметра 

где 

Оценки параметров распределения находят методами максимальной правдоподобности и моментов. Метод максимальной правдоподобности состоит вот в чем. Пусть закон распределения случайной величины определяется через параметр 


За оценки максимальной правдоподобности параметров 
Использование метода моментов основывается на сходстве (по вероятности) статистических моментов распределения с соответствующими теоретическими моментами распределения, которые в этом случае должны существовать. Как известно, теоретические моменты распределения выражаются через параметры распределения. Составим систему 
Пусть есть точечная оценка 











Примеры решения задач
Пример 1. Выборка объемом 
Найти оценку для параметра 
Решение. Применим метод максимальной правдоподобности. Построим функцию правдоподобности, составим и решим уравнение для определения оценки:
Проверим оценку на несмещенность, найдя ее математическое ожидание:
Преобразование выполнено согласно свойствам математического ожидания и с учетом того, что результаты выборки являются независимыми одинаково распределенными случайными величинами. Найдем 
Тогда 
Проверку обоснованности оценки выполним, второй формой неравенства Чебышева, то есть оценим вероятность 
(Последний интервал, который является математическим ожиданием квадрата случайной величины, равен 

Подставляя дисперсию оценки в неравенство Чебышева, получим:

Следовательно, оценка обоснованная.
Находим дисперсию эффективной оценки:
Дисперсия эффективной оценки совпадает с дисперсией найденной оценки для 
Пример 2. Методом моментов найти оценку параметра 
Решение. Геометрический закон распределения определяется формулой 
Пример 3. По данным выборки объемом 


Решение. Интервальная оценка для математического ожидания, если дисперсия совокупности 



Для построения оценки рассматривалась выборочная функция 
Пример 4. Решить предыдущую задачу для случая, когда дисперсия совокупности неизвестна.
Решение. В этом случае интервальную оценку построим с помощью выборочной функции 





Пример 5. По результатам выборки объемом 

Решение. Для определения доверительного интервала берем выборочную функцию 






Пример 6. Найти с надежностью 



Решение. Для определения доверительного интервала берем выборочную функцию 
где 


Получим интервал
Пример 7. Определить минимальный объем выборки 



Решение. Воспользовавшись формулой 




Пример 8. Из партии однотипных высокоомных сопротивлений взяли для контроля 10 штук. Измерения показали такие отклонения от номинала, кОм:
Найти выборочную среднюю и дисперсию отклонения фактического значения сопротивления от номинала в этой партии и определить точность оценки математического ожидания выборочной средней величиной с надежностью 
Решение. Считаем, что отклонение 








Следовательно, получим такой доверительный интервал для математического ожидания:
Пример 9. В ВТК были измерены диаметры 200 валов, изготовленных на станке-автомате. Отклонения измеренных диаметров от номинала, мкм, приведены в таблице.
Считая, что выборка сделана из нормально распределенной совокупности, определить с надежностью 

Решение. С помощью условных моментов распределения, вычислим выборочную дисперсию 
найдем условные моменты распределения и выборочную дисперсию на основании расчетов в таблице:
Точность оценки 












Выборочная функция 
Выполним преобразование для определения границ доверительного интервала:
Следовательно, доверительный интервал для дисперсии такой:
Найдем точность оценки как половину длины доверительного интервала:
Согласно значению 
Окончательно получим:
Лекции:
- Проверка статистических гипотез
- Дисперсионный анализ
- Элементы теории корреляции
- Выборка из генеральной совокупности. Вариационный ряд. Гистограмма относительных частот
- Выборочная функция распределения
- Закон больших чисел в форме Чебышева
- Теорема Бернулли
- Центральная предельная теорема
- Теория случайных процессов и теория массового обслуживания
- Первичная обработка и графическое представление выборочных данных
Точечное и интервальное оценивание числовых характеристик
Точечной оценкой числовой характеристики называют оценку, которая определяется одним числом. К точечным оценкам относятся: среднее арифметическое, дисперсия или стандартное отклонение.
Например, среднее арифметическое пробегания 100 м равно 15,38 с.
Если выборка небольшого объёма, то точечная оценка может значительно отличаться от оцениваемого параметра генеральной совокупности, в данном случае от среднего арифметического генеральной совокупности (обозначается μ) и её использование может привести к грубым ошибкам. Поэтому при небольшом объёме выборки в математической статистике используют другого типа оценки характеристик генеральной совокупности – интервальные.
Интервальной оценкой числовой характеристики называется интервал[1], который с доверительной вероятностью P (задаваемой заранее) накрывает истинное значение числовой характеристики генеральной совокупности.
Как правило, в научных исследованиях в области физической культуры и спорта считается достаточной доверительная вероятность Р=0,95. В некоторых случаях, связанных с большой ответственностью при принятии решений, принимают P равной 0,99 или 0,999. Таким образом, доверительная вероятность – это уровень гарантии суждения о значениях генеральной характеристики на основании выборочных данных.
Вероятность α=1-Р того, что построенный доверительный интервал не накроет значение генеральной характеристики, называется уровнем значимости; другими словами, α — вероятность ошибки.
В литературе часто обе вероятности α и P выражают в процентах, т.е. 100α% и 100P%.
Для определения доверительного интервала необходимо знать значение параметра t. Он зависит от объема выборки (n) и доверительной вероятности P (таблица 1).
Таблица 1 — Значения t в зависимости от объёма выборки и доверительной вероятности Р.
|
n |
Р | ||
| 0,95 | 0,99 | 0,999 | |
| 10 | 2,265 | 3,250 | 4,781 |
| 15 | 2,145 | 2,977 | 4,140 |
| 20 | 2,093 | 2,861 | 3,883 |
| 30 | 2,042 | 2,750 | 3,646 |
| 40 | 2,021 | 2,704 | 3,551 |
| 50 | 2,009 | 2,678 | 3,505 |
| 60 | 2,000 | 2,660 | 3,505 |
| 80 | 1,990 | 2,639 | 3,416 |
Покажем на примере, как определить границы 95% доверительного интервала для среднего результата в беге на 100 м (n = 50), если: среднее арифметическое равно 15,38 с, а ошибка среднего арифметического равна 0,13 с.
Из таблицы 1 для n = 50 и P= 0,95 находим значение t. Оно равно t=2,009. Следовательно, доверительный интервал будет следующим: 15,38 — 2,009·0,13<μ<15,38+2,009·0,13
или 15,12<μ<15,64 с
После округления получим итоговый результат: 15,1<μ<15,6 c
Таким образом, с доверительной вероятностью Р=0,95 можно утверждать, что генеральное среднее μ заключено в границах от 15,1 до 15,6 с.
Если мы хотим с большей вероятность (например, Р=0,99) утверждать, что генеральное среднее заключено в определенном интервале, необходимо из таблицы 1 найти значение t для n = 50 и P= 0,99. Оно равно t=2,678.
Тогда доверительный интервал для генерального среднего арифметического будет следующим:
15,38 — 2,678·0,13<μ<15,38+2,678·0,13
или 15,03<μ<15,73 с.
После округления получим итоговый результат: 15,0<μ<15,7 c.
Таким образом, с доверительной вероятностью Р=0,99 можно утверждать, что генеральное среднее μ заключено в границах от 15,0 до 15,7 с. То есть утверждение с большей вероятностью увеличивает интервал, в котором заключено генеральное среднее арифметическое.
[1] Интервал – множество всех чисел, удовлетворяющих строгому неравенству a < x < b
4. Статистические оценки параметров генеральной совокупности
Вспомним основной метод математической статистики. Он состоит в том, что для изучения генеральной совокупности объёма из неё производится выборка объёма
, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с некоторой достоверностью можем оценить генеральные характеристики. Само собой, чем выше достоверность – тем лучше, тем качественнее исследование. Этому вопросу и посвящена данная глава.
Чаще всего требуется выявить закон распределения генеральной совокупности (о чём пойдёт речь позже) и оценить его важнейшие числовые параметры, такие как генеральная средняя , генеральная дисперсия
и стандартное отклонение
.
4.1. Точечные оценки
Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, выборочная средняя позволяет нам оценить генеральную среднюю
, причём, оценить её точечно. Почему точечно? Потому что
– это отдельно взятое, конкретное значение. Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой точечную оценку генерального значения
.
Аналогично, точечной оценкой генеральной дисперсии является исправленная выборочная дисперсия
, и соответственно, стандартного отклонения
– исправленное стандартное отклонение
.
4.2. Интервальная оценка и доверительный интервал
Недостаток точечных оценок состоит в том, что при небольшом объёме выборки (как оно часто бывает), мы можем получать выборочные значения, которые далеки от истины. И в этих случаях логично потребовать, чтобы выборочная характеристика (средняя, дисперсия или какая-то другая) отличалась от своего генерального значения
не более чем на некоторое положительное значение
.
Справка: – греческая буква «тета»,
– греческая буква «дельта», вместо «дельты» также используют
(«эпсилон»).
Значение называется точностью оценки, и озвученное выше требование можно записать с помощью модуля:
Но статистические методы не позволяют 100%-но утверждать, что рассчитанное значение будет удовлетворять этому неравенству – ведь в статистике всегда есть место случайности, когда мы можем «выиграть в лотерею» в плохом смысле этого слова. Таким образом, можно говорить лишь о вероятности
(«гамма»), с которой это неравенство осуществится:
.
А теперь я раскрою модуль:
и сформулирую суть:
Интервал называется доверительным интервалом и представляет собой интервальную оценку генерального значения
по найденному выборочному значению
. Данный интервал с вероятностью
«накрывает» истинное значение
. Эта вероятность называется доверительной вероятностью или надёжностью интервальной оценки. Надёжность «гамма» часто задаётся наперёд, популярные варианты:
.
Переходим к конкретике:


| Оглавление |















































































































из (10.8) видим, что е уменьшается, значит, уменьшается длина доверительного интервала, а точность оценки увеличивается;
приводит к увеличению длины доверительного интервала (см. рис. 10.2, где квантили
увеличиваются), т. е. е увеличивается, а точность оценки падает;
, то можно найти объем выборки, который обеспечит заданную точность:






































































































