Содержание:
Интервальные оценки параметров распределения. Непрерывное и дискретное распределения признаков:
В материалах сегодняшней лекции мы рассмотрим интервальные оценки параметров распределения, а именно непрерывное и дискретное распределения признаков генеральной и выборочной совокупности.
Статистические ряды и их геометрическое изображение дают представление о распределении наблюдаемой случайной величины X по данным выборки. Во многих задачах вид распределения случайной величины X известен, необходимо получить приближённое значение неизвестных параметров этого распределения: m,
Пусть
Точечной оценкой 

Очевидно, что 



Точечная оценка 
1. Состоятельность. Оценка 

состоятельной, если 
Состоятельность оценки можно установить с помощью теоремы: если 

2. Несмещённость. Оценка 


Для оценки параметра 

Отсюда вытекает третье свойство.
3. Эффективность. Несмещённая оценка 

Запишем точечные оценки числовых характеристик случайной величины X.
1. Точечная оценка 

Проверим свойства оценки:
а) состоятельность следует из теоремы Чебышева:
б) несмещённость:
в)эффективность:
так как
2. Точечная оценка

она обладает свойствами: состоятельность, несмещённость,
эффективность.
3. Точечная оценка
Интервальные оценки
При статистической обработке результатов наблюдений необходимо знать не только точечную оценку 

Характеристики вариационного ряда
В материалах сегодняшней лекции мы рассмотрим характеристики вариационного ряда.
Вариационные ряды
Установление закономерностей, которым подчиняются массовые случайные явления, основано на изучении статистических данных — сведений о том, какие значения принял в результате наблюдений интересующий исследователя признак.
Пример:
Исследователь, интересующийся тарифным разрядом рабочих механического цеха, в результате опроса 100 рабочих получил следующие сведения:
Здесь признаком является тарифный разряд, а полученные о нём сведения образуют статистические данные. Для изучения данных прежде всего необходимо их сгруппировать. Расположим наблюдавшиеся значения признака в порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим следующий ряд, который называется ранжированным:
(1, 1, 1, 1) — 4 раза; (2, 2, 2, 2, 2, 2) — 6 раз; (3, 3, …, 3) — 12 раз; (4, 4, …, 4) —
16 раз; (5, 5, …, 5) — 44 раза; (6, 6, …, 6) — 18 раз.
Из ранжированного ряда следует, что признак (тарифный разряд) принял шесть различных значений: первый, второй и т.д. до шестого разряда.
В дальнейшем различные значения признака условимся называть вариантами, а под варьированием — понимать изменение значений признака. Если признак по своей сущности таков, что различные его значения не могут отличаться друг от друга меньше чем на некоторую конечную величину, то говорят, что это дискретно варьирующий признак.
Тарифный разряд — дискретно варьирующий признак: его различные значения не могут отличаться друг от друга меньше, чем на единицу. В примере этот признак принял 6 различных значений — 6 вариантов: вариант 1 повторился 4 раза, вариант 2-6 раз и т.д. Число, показывающее. сколько раз встречается вариант л* в ряде наблюдений, называется частотой варианта 
Вместо частоты варианта x можно рассматривать её отношение к общему числу наблюдений n, которое называется частостью варианта х и обозначается 

Таблица, позволяющая судить о распределении частот (или частостей) между вариантами, называется дискретным вариационным рядом.
В примере 1 была поставлена задача изучить результаты наблюдений. Если просмотр первичных данных не позволил составить представление о варьировании значений признака, то, рассматривая вариационный, ряд, можно сделать следующие выводы: тарифный разряд колеблется от 1-го до 6-го; наиболее часто встречается 5-й тарифный разряд; с ростом тарифного разряда (до 5-го разряда) растёт число рабочих, имеющих соответствующий разряд.
Наряду с понятием частоты используют понятие накопленной частоты, которую обозначают 

В дискретном вариационном ряду накопленные частоты (частости) вычисляются для каждого варианта и являются результатом последовательного суммирования частот (частостей). Накопленные частоты (частости) для вариационного ряда, заданного в табл. 1, вычислены в табл. 2.
Например, варианту 1 соответствует накопленная частота, равная нулю, так как среди опрошенных рабочих не было таких, у которых тарифный разряд был бы меньше 1-го; варианту 5 соответствует накопленная частота 38, так как было 4+6+12+16 рабочих с тарифным разрядом, меньшим 5-го, накопленная частость для этого варианта равна 0,38 (38: 100); если тарифный разряд выше 6-го, то ему соответствует накопленная частота 100, так как тарифный разряд всех опрошенных рабочих не выше 6-го.
Пример:
Исследователь, изучающий выработку на одного рабочего-станочника механического цеха в отчётном году в процентах к предыдущему году, получил следующие данные (в целых процентах) по 117 рабочим:
В этом примере признаком является выработка в отчётном году в процентах к предыдущему. Очевидно, что значения, принимаемые этим признаком, могут отличаться одно от другого на сколь угодно малую величину, т. е. признак может принять любое значение в некотором числовом интервале (только для упрощения дальнейших расчетов полученные данные округлены до целых процентов). Такой признак называют непрерывно варьирующим. По приведенным данным трудно выявить характерные черты варьирования значений признака. Построение дискретного вариационного ряда также не даст желаемых результатов (слишком велико число различных наблюдавшихся значений признака). Для получения ясной картины объединим в группы рабочих, у которых величина выработки колеблется, например, в пределах 10%. Сгруппированные данные представим в табл. 3.
В табл. 3 частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют интервальной, а отношение её к общему числу наблюдений — интервальной частостью w. Таблицу, позволяющую судить о распределении частот (или частостей) между интервалами варьирования значений признака, называют интервальным вариационным рядом.
Интервальный вариационный ряд, представленный в табл. 3, позволяет выявить закономерности распределения рабочих по интервалам выработки. В табл. 3 для верхних границ интервалов приведены накопленные частоты (частости) (они получены последовательным суммированием интервальных частот (частостей), начиная с частоты (частости) первого интервала). Например, для верхней границы третьего интервала, равной 110, накопленная частота равна 69; так как 8+15+46 рабочих имели выработку меньше 110%, накопленная частость равна 69/117.
Интервальный вариационный ряд строят по данным наблюдений за непрерывно варьирующим признаком, а также за дискретно варьирующим, если велико число наблюдавшихся вариантов. Дискретный вариационный ряд строят только для дискретно варьирующего признака.
Иногда интервальный вариационный ряд условно заменяют дискретным. Тогда серединное значение интервала принимают за вариант х, а соответствующую интервальную частоту — за
Построение интервального вариационного ряда
Для построения интервального вариационного ряда необходимо определить величину интервала, установить полную шкалу интервалов, в соответствии с ней сгруппировать результаты наблюдений. В примере 2 при выборе величины интервала учитывались требования наибольшего удобства отсчётов. Интервал был принят равным 10% и оказался удачным. Построенный интервальный ряд позволил выявить закономерности варьирования значений признака. Для определения оптимального интервала h, т.е. такого, при котором построенный интервальный ряд не был бы слишком громоздким и в то же время позволял выявить характерные черты рассматриваемого явления, можно использовать формулу Стэрджеса
где 
За начало первого интервала рекомендуется принимать величину



После установления шкалы интервалов следует сгруппировать результаты наблюдений. Границы последовательных интервалов записывают в столбец слева, а затем, просматривая статистические данные в том порядке, в каком они были получены, проставляют чёрточки справа от соответствующего интервала. В интервал включается данные, большие или равные нижней границе интервала и меньшие верхней границы. Целесообразно каждые пятое и шестое наблюдения отмечать диагональными черточками, пересекающими квадрат из четырёх предшествующих. Общее количество чёрточек, проставленных против какого-либо интервала, определяет его частоту.
Графическое изображение вариационных рядов
Графическое изображение вариационного ряда позволяет представить в наглядной форме закономерности варьирования значений признака. Наиболее широко используются следующие виды графического изображения вариационных рядов: полигон, гистограмма, кумулятивная
кривая.
Полигон, как правило, служит для изображения дискретного вариационного ряда. Для его построения в прямоугольной системе координат наносят точки с координатами 



Гистограмма служит для изображения только интервального вариационного ряда. Для её построения в прямоугольной системе координат по оси абсцисс откладывают отрезки, изображающие интервалы варьирования, и на этих отрезках, как на основании, строят прямоугольники с высотами, равными частотам (или частостям) соответствующего интервала. В результате получают ступенчатую фигуру, состоящую из прямоугольников, которую и называют гистограммой.
Если по оси абсцисс выбрать такой масштаб, чтобы ширина интервала была равна единице, и считать, что по оси ординат единица масштаба соответствует одному наблюдению, то площадь гистограммы равна общему числу наблюдений, если по оси ординат откладывались частоты, и эта площадь равна единице, если откладывались частости.
Иногда интервальный ряд изображают с помощью полигона. В этом случае интервалы заменяют их серединными значениями и к ним относят интервальные частоты. Для полученного дискретного ряда строят полигон.
Кумулятивная кривая (кривая накопленных частот или накопленных частостей) строится следующим образом. Если вариационный ряд дискретный, то в прямоугольной системе координат строят точки с координатами 



Если вариационный ряд интервальный, то по оси абсцисс откладывают интервалы. Верхним границам интервалов соответствуют накопленные частоты (или накопленные частости); нижней границе первого интервала — накопленная частота, равная нулю. Построив кумулятивную кривую, можно приблизительно установить число наблюдений (или их долю в общем количестве наблюдений), в которых признак принял значения, меньшие заданного.
Построение вариационного ряда — первый шаг к осмысливанию ряда наблюдений. Однако на практике этого недостаточно, особенно когда необходимо сравнить два ряда или более. Сравнению подлежат только так называемые однотипные вариационные ряды, т. е. ряды, которые построены по результатам обработки сходных статистических данных. Например, можно сравнивать распределения рабочих по возрасту на двух заводах или распределения времени простоев станков одного вида. Однотипные вариационные ряды обычно имеют похожую форму при графическом изображении, однако могут отличаться друг от друга, а именно: иметь различные значения признака, вокруг которых концентрируются наблюдения (меры этой качественной особенности называется средними величинами); различаться рассеянием наблюдений вокруг средних величин (меры этой особенности получили название показателей вариации).
Средние величины и показатели вариации позволяют судить о характерных особенностях вариационного ряда и называются статистическими характеристиками. К статистическим характеристикам относятся также показатели, характеризующие различия в скошенности полигонов и различия в их островершинности.
Средние величины
Средние величины являются как бы «представителями» всего ряда наблюдений, поскольку вокруг них концентрируются наблюдавшиеся значения признака. Заметим, что только для качественно однородных наблюдений имеет смысл вычислять средние величины.
Различают несколько видов средних величин: средняя арифметическая, средняя геометрическая, средняя гармоническая, средняя квадратическая, средняя кубическая и т.д. При выборе вида средней величины необходимо прежде всего ответить на вопрос: какое свойство ряда мы хотим представить средней величиной или, иначе говоря, какая цель преследуется при вычислении средней? Это свойство, получившее название определяющего, и определяет вид средней. Понятие определяющего свойства впервые введено советским статистиком А. Я. Боярским.
Наиболее распространенной средней величиной является средняя арифметическая. Пусть 

Так как 
вычисления средней арифметической по данным наблюдений:
Если по наблюдениям построен вариационный ряд, то средняя арифметическая
где x- — вариант, если ряд дискретный, и центр интервала, если ряд интервальный;
Частоты

Очевидно, что если по данным наблюдений построен дискретный вариационный ряд, то формулы (3) и (4) дают одинаковые значения средней арифметической. Если же по наблюдениям построен интервальный ряд, то средние арифметические, вычисленные по формулам
(3) и (4), могут не совпадать, так как в формуле (4) значения признака внутри каждого интервала принимаются равными центрам интервалов. Ошибка, возникающая в результате такой замены, вообще говоря, очень мала, если наблюдения, распределены равномерно вдоль каждого интервала, а не скапливаются к одноименным границам интервалов (т.е. либо все к нижним границам, либо все к верхним границам).
Среднюю арифметическую для вариационного ряда можно вычислять по формуле
которая является следствием формулы (4). Действительно,
Свойство, определяющее среднюю арифметическую, сводилось к требованию неизменности суммы наблюдений при замене каждого из них средней арифметической. При решении практических задач может оказаться необходимым вычислить такую среднюю 
где q — положительное или отрицательное число. Среднюю 

Сравнивая формулы (7) и (3), можно сделать вывод, что степенная средняя первого порядка есть не что иное, как средняя арифметическая, т.е.
При q=-l из формулы (7) получаем выражение для средней гармонической, при q=2 — для среднеквадратической, при q=3 — для средней кубической и т.д.
Средней геометрической 

Рассмотрим основные свойства средней арифметической.
1°. Сумма отклонений результатов наблюдений от средней арифметической равна нулю.
Доказательство. Исходя из определяющего свойства (2) средней арифметической, получаем
Если по результатам наблюдений построен вариационный ряд и средняя арифметическая взвешенная, то свойство 1° формулируется так: сумма произведений отклонений вариантов от средней арифметической на соответствующие частоты равна нулю. Действительно, на основании формулы (4) получаем
или
2°. Если все результаты наблюдений уменьшить (увеличить) на одно и то же число, то средняя арифметическая уменьшится (увеличится) на то же число. (Доказательство свойств 2° и 3° проведём в предположении, что по результатам наблюдений построен вариационный ряд и средняя арифметическая — взвешенная).
Доказательство. Очевидно, что при уменьшении вариантов на одно и то же число с соответствующие им частоты останутся прежними. Поэтому взвешенная средняя арифметическая для изменённого вариационного ряда такова:
Аналогично можно показать, что 
3°. Если все результаты наблюдений уменьшить (увеличить) в одно и то же число раз, то средняя арифметическая уменьшится (увеличится) во столько же раз.
Доказательство. Очевидно, что при уменьшении вариантов в k раз их частоты останутся прежними. Поэтому средняя арифметическая для изменённого ряда
Аналогично можно доказать, что
(уменьшить) в k раз, то получим среднюю арифметическую для первоначального вариационного ряда.
4°. Если ряд наблюдений состоит из двух групп наблюдений, то средняя арифметическая всего ряда равна взвешенной средней арифметической групповых средних, причём весами являются объёмы групп.
Пусть 

средняя арифметическая для всего ряда 

Доказательство. Исходя из определяющего свойству средней арифметической, имеем: произведение 




Следовательно,
Следствие. Если ряд наблюдений состоит из k групп наблюдений, то средняя арифметическая всего ряда 

5°. Средняя арифметическая для сумм (разностей) взаимно соответствующих значений признака двух рядов наблюдений с одинаковым числом наблюдений равна сумме (разности) средних арифметических этих рядов.
Пусть 





Доказательство. Имеем
Аналогично можно показать, что
Следствие. Средняя арифметическая алгебраической суммы соответствующих значений признака нескольких рядов наблюдений с одинаковым числом наблюдений равна алгебраической сумме средних арифметических этих рядов.
Вычисление средней арифметической вариационного ряда непосредственно по формуле (4) приводит к громоздким расчётам, если числовые значения вариантов и соответствующие им частоты велики. Поэтому часто используют следующий способ, основанный на свойствах 3° и 2° средней арифметической: среднюю вычисляют не по первоначальным вариантам л-, а по уменьшенным на не которое число с, а затем разделённым на некоторое число k т.е. для вариантов 

Действительно, принимая во внимание свойства 3° и 2° средней арифметической, получаем



Медиана и мода
Наряду со средними величинами в качестве описательных характеристик вариационного ряда применяют медиану и моду.
Медианой 
Пусть проведено нечётное число наблюдений, т.е. n=2q—1, и результаты наблюдений проранжированы и выписаны в следующий ряд:



Если проведено чётное число наблюдений, т.е. n=2q, то на середину ранжированного ряда 


, т.е.
Покажем на примерах на практическом занятии, как определяется медиана дискретного и интервального вариационных рядов.
В общем случае медиана для интервального вариационного ряда определяется по формуле
или по следующей формуле, полученной из формулы (9) в результате деления числителя и знаменателя входящей в неё дроби на n:
где


Модой 
В случае интервального вариационного ряда мода вычисляется по следующей формуле (вывод формулы можно найти в кн.: Венецкий И. Г Кильдишев Г. С. Теория вероятностей и математическая статистика. М., 1975.):
или по тождественной формуле:
где 



Моду используют в случаях, когда нужно ответить на вопрос, какой товар имеет наибольший спрос, каковы преобладающие в данный момент уровни производительности труда, себестоимости и т. д. Модальная производительность, себестоимость и т.д. помогают вскрыть ресурсы, имеющиеся в экономике.
Показатели вариации
Средние величины, характеризуя вариационный ряд числом, не отражают изменчивости наблюдавшихся значений признака, т.е. вариацию. Простейшим показателем вариации является вариационный размах 

Вариационный размах — приближённый показатель вариации, так как почти не зависит от изменения вариантов, а крайние варианты, которые используются для его вычисления, как правило, ненадёжны.
Более содержательными являются меры рассеяния наблюдений вокруг средних величин. Средняя арифметическая является основным видом средних, поэтому ограничимся рассмотрением мер рассеяния наблюдений вокруг средней арифметической.
Сумма отклонений результатов наблюдений 


Средним линейным отклонением (d) называют среднюю арифметическую абсолютных величин отклонений результатов наблюдений от их средней ар и ф метической:
Эмпирической дисперсией 
Если по результатам наблюдений построен вариационный ряд, то эмпирическая дисперсия
Вместо эмпирической дисперсии в качестве меры рассеяния наблюдений вокруг средней арифметической часто используют эмпирическое среднеквадратическое отклонение, равное арифметическому значению корня квадратного из дисперсии и имеющее ту же размерность, что и значения признака.
где x — вариант (если ряд дискретный) и центр интервала (если ряд интервальный); 

Для краткости величину 
Приведем свойство минимальности эмпирической дисперсии:
если
Доказательство. Найдём экстремум функции 
этого решим уравнение 
Так как 

Можно показать, что среднее линейное отклонение не обладает свойством минимальности. Поэтому наиболее употребительными мерами рассеяния
Для вариационного ряда среднеквадратическое отклонение наблюдений вокруг средней арифметической являются эмпирическая дисперсия и эмпирическое среднеквадратическое отклонение.
Итальянский статистик Коррадо Джинни предложил в качестве показателя вариации использовать величину 


Свойства эмпирической дисперсии
Рассмотрим основные свойства эмпирической дисперсии, знание которых позволит упростить её вычисление.
1 °. Дисперсия постоянной величины равна нулю.
Доказательство этого свойства очевидно вытекает из того, что дисперсия является показателем рассеяния наблюдений вокруг средней арифметической, а средняя арифметическая постоянной равна этой постоянной.
2°. Если все результаты наблюдений уменьшить (увеличить) на одно и то же число с, то дисперсия не изменится.
Доказательство свойств 2° и 3° проведём в предположении, что по результатам наблюдений построен вариационный ряд.
Доказательство. Если все варианты уменьшить на число с, то в соответствии со свойством 2° средней арифметической средняя для измененного вариационного ряда равна 
,т.е. совпадает с дисперсией первоначального вариационного ряда. Аналогично можно показать, что
Доказанное свойство позволяет вычислять дисперсию не по данным вариантам, а по уменьшенным, (увеличенным) на одно и то же число с, так как дисперсия, вычисленная для измененного ряда, равна первоначальной.
3°. Если все результаты наблюдений уменьшить (увеличить) в одно и то же число k раз, то дисперсия уменьшится (увеличится) в 
Доказательство. Если все варианты уменьшить в k раз, то, согласно свойству 3 средней арифметической, средняя для измененного вариационного ряда равна 
Аналогично можно показать, что
Это свойство позволяет эмпирическую дисперсию вычислять не по данным вариантам, а по уменьшенным (увеличенным) в одно и то же число k раз. Если дисперсию, вычисленную для измененного ряда, увеличить (уменьшить) в 
Следствие. Если все варианты уменьшить (увеличить) в k раз, то среднеквадратическое отклонение уменьшится (увеличится) в число раз, равное k.
Следствие очевидно вытекает из определения среднеквадратического
отклонения.
Прежде чем рассматривать следующее свойство дисперсии, докажем теорему.
Теорема. Эмпирическая дисперсия равна разности между средней
арифметической квадратов наблюдений и квадратом средней
арифметической, т.е.
Доказательство проведём для случая взвешенных средних арифметических, т.е.
Доказательство. Тождественно преобразуя выражения для дисперсии, имеем
4°, Если ряд наблюдений состоит из двух групп наблюдений, то дисперсия всего ряда равна сумме средней арифметической групповых дисперсий и средней арифметической квадратов отклонений групповых средних от средней всего ряда, причем ‘ при вычислении средних арифметических весами являются объемы групп.
Пусть 





Пусть



В соответствии со свойством 4° средней арифметической можно записать 
Используя найденные выражения для слагаемых, получаем
Свойство 4° можно обобщить на случай, когда ряд наблюдений состоит из любого количества 
Если ряд наблюдений состоит из k групп наблюдений, то межгрупповой дисперсией 



Средней групповых дисперсий или внутригрупповой дисперсией 

Следствие (свойства 4°). Если ряд наблюдений состоит из k групп наблюдений, то дисперсия всего ряда s2 равна сумме внутригрупповой и межгрупповой дисперсий, т.е.
Вычисление дисперсии вариационного ряда непосредственно по формуле (16) приводит к громоздким расчётам, если числовые значения вариантов и соответствующие им частоты велики. Поэтому часто дисперсию вычисляют не по первоначальным вариантам х, а по вариантам 


Действительно, принимая во внимание свойства 3° и 2° дисперсии, получаем
откуда следует, что
Требования к с и k предъявляют те же, что и в упрощенном способе вычисления средней арифметической.
Эмпирические центральные и начальные моменты
Средняя арифметическая и дисперсия вариационного ряда являются частными случаями более общего понятия о моментах вариационного ряда.
Эмпирическим начальным моментом
Эмпирический начальный момент нулевого порядка
Эмпирический начальный момент первого порядка
Эмпирический начальный момент второго порядка 
Эмпирическим центральным моментом 
Эмпирический центральный момент нулевого порядка


Эмпирический центральный момент второго порядка
В дальнейшем для краткости величину
Используя формулу бинома Ньютона, разложим в ряд выражение для центрального момента q-го порядка:
В проведенных тождественных преобразованиях использованы свойства 5° и 3° средней арифметической; 
Итак, центральный момент q-го порядка выражается через начальные моменты следующим образом:
Полагая q = 0, 1, 2,…, можно получить выражения центральных моментов различных порядков через начальные моменты:
и т.д.
Заметим, что формула (23) для центрального момента второго порядка, как и следовало ожидать, аналогична формуле (18) для дисперсии.
Рассмотрим свойства центральных моментов, которые позволят значительно упростить их вычисление.
1°. Если все варианты уменьшить (увеличить) на одно и то же число с, то центральный момент q-го порядка не изменится.
Доказательство. Если все варианты уменьшить на число с, то средняя арифметическая для измененного ряда равна 
Аналогично можно показать, что
2°. Если все варианты уменьшить (увеличить) в одно и то же число k раз, то центральный момент q-го порядка уменьшится (увеличится) в 
то средняя арифметическая для измененного вариационного ряда равна
поэтому центральный момент q-го порядка
Аналогично можно показать, что
Для облегчения расчётов центральные моменты вычисляют не по первоначальным вариантам х, а по вариантам

внимание свойства центрального момента, получаем
откуда следует, что
Эмпирические асимметрия и эксцесс
Эмпирическим коэффициентом асимметрии 
Если полигон вариационного ряда скошен, т.е. одна из его ветвей, начиная от вершины, зримо длиннее другой, то такой ряд называют асимметричным. Из формулы (27) следует, что если в вариационном ряду преобладают варианты, меньшие 

Эмпирическим эксцессом или коэффициентом крутости 
За стандартное значение эксцесса принимают нуль-эксцесс так называемой нормальной кривой (см. рис. 1).
Кривые, у которых эксцесс отрицательный, по сравнению с нормальной менее крутые, имеют, более плоскую вершину и называются «плосковершинными» Кривые с положительным эксцессом более крутые по сравнению с нормальной кривой, имеют более острую вершину и называются «островершинными».
Интервальные оценки параметров распределений
Доверительный интервал, доверительная вероятность:
Точечная оценка неизвестного параметра 






Чем меньше разность 


Доверительной вероятностью оценки называется вероятность 




Из (10.1) видно, что неизвестный параметр 
Доверительным интервалом называется интервал

Длина его (см. рис. 10.1) 

Доверительный интервал для математического ожидания случайной величины X при известной дисперсии
Доверительный интервал для математического ожидания случайной величины X при известной дисперсии (или 
Пусть эксперимент Е описывается нормальной случайной величиной X.
Плотность распределения 





откуда получим

Для определения доверительного интервала рассмотрим разность между оценкой и параметром: 


Покажем, что случайная величина U имеет нормированный нормальный закон распределения. Найдем ее числовые характеристики:
Таким образом 
Зная плотность распределения случайной величины U, легко найти вероятность попадания случайной величины U в интервал
Левая часть этого уравнения представляет собой доверительную вероятность
Тогда из (10.4) и (10.5) следует уравнение
Решая уравнение (10.6), по таблицам функции Лапласа для заданной доверительной вероятности 


Считая, что 



Замечания по формуле (10.8):
- при увеличении объема выборки
из (10.8) видим, что е уменьшается, значит, уменьшается длина доверительного интервала, а точность оценки увеличивается;
- увеличение доверительной вероятности
приводит к увеличению длины доверительного интервала (см. рис. 10.2, где квантили
увеличиваются), т. е. е увеличивается, а точность оценки падает;
- если задать точность е и доверительную вероятность
, то можно найти объем выборки, который обеспечит заданную точность:
Пример №1
Сколько конденсаторов одного номинала надо измерить, чтобы с вероятностью 0,95 можно было утверждать, что мы с точностью 1 % определили их среднее значение — математическое ожидание.
Обозначим 


Доверительный интервал для математического ожидания нормальной случайной величины X при НЕизвестной дисперсии
Доверительный интервал для математического ожидания нормальной случайной величины X при неизвестной дисперсии или
Пусть эксперимент описывается случайной величиной X с нормальным распределением с неизвестными параметрами 


Здесь использовали для оценки дисперсии 






Умножим числитель и знаменатель в (10.10) на
Здесь X — нормированная нормальная случайная величина, знаменатель — распределение 



Зная закон распределения случайной величины t и задавая доверительную вероятность 

Из таблиц распределений Стьюдента по заданной доверительной вероятности 


Подставляя в (10.13) вместо t равенство (10.10), получаем
Разрешим неравенство в левой части формулы (10.14) относительно
Отсюда непосредственно следует, что доверительный интервал 

Интервал (10.15) несколько шире интервала (10.7), определенного для той же выборки и той же доверительной вероятности. Зато в (10.15) используется меньшая априорная информация — 
Можно обозначить ширину доверительного интервала или точность через 
Все замечания, сделанные по формуле (10.8), справедливы и для формулы (10.16).
Пример №2
Даны результаты четырех измерений напряжения сети (значения приведены в
Считаем, что X — напряжение сети — является нормальной случайной величиной. Построить доверительный интервал с вероятностью 0,95 для истинного напряжения сети —
Найдем точечную оценку
Из таблиц распределения Стьюдента для 

Тогда
Полученные значения подставим в формулу (10.16):
Найдем левую и правую границы доверительного интервала для
Таким образом, истинное напряжение сети с вероятностью 0,95 накрывается доверительным интервалом
Найдем минимальное число измерений, чтобы с вероятностью 0,95 точ ность определения истинного напряжения сети не превышала 0,5 В, т. е. 

Видим, что число измерений 







Доверительный интервал для дисперсии или ст нормальной случайной величины X
Рассмотрим вероятностный эксперимент с нормальной моделью, где параметры 

Составим вспомогательную случайную величину
Эта случайная величина имеет распределение 
Это и есть распределение хи-квадрат с 
Зная закон распределения случайной величины У, определим вероятность того, что случайная величина 
Здесь 





Это означает, что площади заштрихованных фигур равны. Задавая доверительную вероятность 


Считая 
Подставим в (10.20) значение 
Решаем неравенство в левой части (10.21) относительно
Из (10.22) записываем доверительный интервал для
Для среднего квадратического отклонения 
Можно ввести коэффициенты
Тогда доверительный интервал для о определится следующим образом:
Коэффициенты 



Пример №3
В предыдущем разделе (10.3) приведен пример для измеренных значений напряжения сети. Продолжим и найдем доверительный интервал для среднего квадратического отклонения 
Найдена точечная оценка для 



Тогда нижняя граница для
Верхняя граница для
И окончательно:
Пример №4
Случайная величина 




Решение. Определим значение 
Точность оценки
Подставим в неравенство (4.1):
Смысл полученного результата: если произведено достаточно большое число выборок по 36 в каждой, то 95 % из них определяют такие доверительные
интервалы, в которых 
Пример №5
Для исследования нормального распределения 
Найти с надежностью 
Решение. Найдем несмещенные оценки для математического ожидания и дисперсии, используя метод произведений (табл. 4.2).
Контроль:
По табл. П3 по данным 
Для определения доверительного интервала для математического ожидания используем неравенство (4.2):
Таким образом, интервал (50, 547; 51, 453) накрывает точку 
Для определения доверительного интервала для среднего квадратического отклонения используем неравенство (4.3). По табл. П4 по заданным 
С вероятностью 0,95 неизвестное значение 
- Алгебра событий — определение и вычисление
- Свойства вероятности
- Многомерные случайные величины
- Случайные события — определение и вычисление
- Основные законы распределения дискретных случайных величин
- Непрерывные случайные величины
- Закон больших чисел
- Генеральная и выборочная совокупности
материальных
явлений, имеющие определенные качественные
характеристики. Тогда как наука математика
изучает только количественные отношения,
абстрагированные от качественной
стороны явлений.
Статистика,
изучающая массовые явления в общественном
здоровье и здравоохранении, носит
название медицинской статистики, которая
рассматривает человека как социальное
существо, а все стороны его жизни,
деятельности и состояния здоровья как
социально обусловленные.
Медицинская
статистика делится на два основных
раздела: статистика здоровья населения
и статистика здравоохранения.
Статистика здоровья
изучает основные показатели, характеризующие
санитарное состояние общества (смертность,
рождаемость, естественный прирост (или
убыль) населения, заболеваемость,
инвалидизация и основные параметры
физического развития) посредствам
исследований и анализа полученных
статистических данных; выявляет и
устанавливает взаимосвязь этих
показателей с различными факторами
окружающей среды, это служит основой
для разработки оздоровительных и
профилактических мероприятий.
В понятие статистики
здравоохранения входит сбор и изучение
данных о кадрах и сети лечебно-профилактических
учреждений с целью планирования лечебных
и профилактических мероприятий и оценки
качества работы отдельных ЛПУ и органов
здравоохранения регионов и всего
здравоохранения в целом и т.д.
Если методологической
основой медицинской статистики являются
законы диалектики (единства и борьбы
противоположностей, перехода количества
в качество, категории необходимости и
случайности и т.д.), то математическая
основа – закон больших чисел, который
представляет одно из выражений
диалектической связи между случайностью
и необходимостью, а также теория
вероятностей.
При использовании
закона больших чисел удается освободить
статистические показатели от влияния
случайных причин и выявить в массе
изучаемых явлений действие объективных
закономерностей. Теория вероятностей
позволяет установить шансы «за» и
«против» реальной возможности наступления
данного события.
Основными задачами медицинской
(санитарной) статистики являются:
-
изучение
здоровья (санитарного состояния)
населения, которое характеризуется
демографическими показателями,
заболеваемостью и параметрами физического
развития и показателями инвалидности
(статистика здоровья населения); -
изучение и анализ результатов деятельности
медицинских учреждений и оценка
эффективности их работы (статистика
здравоохранения); -
оценка
достоверности результатов научных
исследований.
Статистическое исследование проводят
с целью получения:
-
сведений
о заболеваемости и воспроизводстве
населения; -
данных о физическом развитии отдельных
групп населения; -
результатов анализа деятельности
лечебно-профилактических учреждений
и оценка эффективности их функционирования,
в т.ч. и диспансерного наблюдения и т.д.
Статистическое исследование строится
на основе определенных, выработанных
в процессе многолетней практики и научно
обобщенных принципах, правилах и приемах,
составляющих статистическую методологию.
Работа, как правило, проводится в строгой
последовательности по следующим этапам:
-
Составление
плана и программы исследования; -
Регистрация
и сбор материала; -
Группировка
и сводка материала; -
Анализ,
оценка, выводы, применение в практике
полученных данных.
Эти этапы работы неразрывно связаны
между собой. Достаточно не выполнить
или не учесть требования, предъявленные
к одному из них, чтобы в конце исследования
получить неверные данные, на основе
которых нельзя будет сделать правильные,
научно достоверные выводы.
I этап статистического
исследования. Каждое исследование
имеет целью установить существующие в
изучаемых явлениях закономерности, их
привычную связь с другими явлениями,
тенденцию развития и прочее. При
исследовании одного и того же материала
цели могут быть различными. Поэтому
необходимо заранее, еще при планировании
и подготовке, четко определить цель
исследования, т.к. объект наблюдения,
единица наблюдения, исследуемые признаки
объекта, место и время исследования,
методы обработки собранных данных, их
анализ и интерпретация в конечном счете
зависят от цели и задач, поставленных
перед исследователями. Цель зависит
также от возможностей, имеющихся в
распоряжении исследователя. Составление
плана начинают с определения цели и
задач исследования, рабочей гипотезы
на основании личного опыта и изучения
литературы; формулировки темы. Цель –
для чего изучать, какое применение
найдут результаты исследования. Задачи
– то, что хотим изучить (процессы
смертности, заболеваемости, рождаемости
и т.д). Опираясь на четко сформулированные
цель и задачи исследования можно точно
определить объект и единицу наблюдения.
В плане исследования определяются его
сроки, объем и время проведения, источники
финансирования, научные консультанты,
литературные источники, непосредственные
исполнители и т.д.
Объект наблюдения – это явление,
подлежащее исследованию (статистическая
совокупность), например: все больные
неспецифическими заболеваниями легких
в г. Ижевске. Затем устанавливается
единица наблюдения. Это элемент
статистической совокупности,
характеризуемый рядом признаков,
подлежащих учету. Единицей наблюдения
в нашем примере будет каждый больной
неспецифическими заболеваниями легких,
проживающий в г. Ижевске; больного будет
характеризовать ряд признаков (пол,
возраст, профессия, длительность
заболевания и т.д.). Признаки, характеризующие
единицу наблюдения, составляют программуисследования. Уточнение и формулирование
признаков производится на основе
следующих общих правил:
— признаки отбирают с учетом целей
изучения и возможностей обработки и
анализа, полученных при обработке
данных. Критерием оценки важности
признака является цель;
-
отобранных
признаков должно быть оптимальное
число; -
признаки
необходимо комбинировать таким образом,
чтобы они взаимно дополняли и
контролировали друг друга.
Различают следующие виды наблюдения:
-
по
объему (сплошное и несплошное); -
по
времени (единовременное и текущее).
Сплошным исследованием пользуются
тогда, когда изучают все единицы, входящие
в объект наблюдения. Примером сплошного
наблюдения может служить перепись
населения, регистрация смертей и рождений
по соответствующим свидетельствам,
регистрация острозаразных заболеваний
и т.п. При выборочном исследовании
изучают только часть единиц, входящих
в объект наблюдения. Однако эта часть
должна быть репрезентативной ,
означает соответствие (однотипность)
качественных и количественных признаков,
характеризующих элементы выборочной
совокупности по отношению к генеральной.
Выборочное наблюдение, в сравнении со
сплошным, дешевле. Оно может быть
проведено при меньшем количестве
персонала и с меньшими материальными
затратами. Выборочное исследование
дает более точные результаты, т.к. при
сплошном исследовании допускается
большее число регистрационных ошибок.
По виду выборка единиц наблюдения может
быть:
-
случайная;
-
механическая;
-
типологическая,
в т.ч. гнездовая, основного массива,
монографическая.
В любой выборке необходимо обеспечить
случайность, непреднамеренность отбора
единиц наблюдения. При механическом
отборе берут каждую 2-ую, 5-ую, 30-ую, и т.д.
единицы наблюдения; а при типологическом
– только по однородным признакам; при
случайном – любые, непреднамеренно
выбранные единицы наблюдения (тянуть
жребий, по таблицам случайных чисел, по
первой букве фамилии и т.д.). Выборка
должна быть достаточной по числу
наблюдений.
Как указывалось выше во временном
аспекте наблюдение может быть текущим
или единовременным, т.е. явление может
изучаться в динамике и статике. При
проведении 1-го этапа исследования
определяется также место исследования.
II этап статистического
исследования.Этот этап заключается
в сборе материала путем регистрации,
заполнения разработанных учетных
документов, которые могут быть в форме
списка или карт. В некоторых случаях
используются оперативно-учетные
документы органов здравоохранения.
Сбор материала проводят по заранее
составленной программе и плану
исследования. Статистические данные
могут собираться путем постоянной
регистрации или единовременной
регистрации. Способами сбора материала
являются: опрос; непосредственное
наблюдение; выкопировка данных;
анамнестический опрос или заполнение
анамнестической анкеты. Регистратор
должен иметь четкую инструкцию по
методике работы и по заполнению учетных
документов или разработанных карт.
В учетные документы заносят сведения
о каждой единице наблюдения.
Методы сбора информации: опрос;
непосредственное наблюдение (медицинские
осмотры, измерение артериального
давления, числа дыхательных движений
и т.д.); выкопировка сведений из учетной
документации. Чаще всего сочетают все
три метода. При сборе материала могут
быть сделаны ошибки: случайные (вписали
информацию не в ту строчку по
невнимательности) или систематические,
связанные с непониманием методики
работы или другими факторами, зависящими
от опрашиваемых лиц (округление возраста
и т.д.). Систематические ошибки могут
повлиять на конечный результат. В связи
с этим к конце II-го этапа
или началеIII-го этапа
следует провести проверку собранного
материала. Прежде всего, собранный
материал подвергают проверке и контролю
в отношении полноты учета и точности
записей. Можно провести проверку
количественно: проверить, все ли лечебные
учреждения сдали отчеты, или на всех ли
историях болезней выкопированы сведения.
Далее надо проверить на все ли вопросы,
занесенные в статистическую карту, дан
ответ. Затем проводят проверку логическую.
Она сводится к качественной оценке
записей, произведенных в статистических
документах. Легче всего это сделать,
сопоставляя отдельные признаки между
собой, например, пол и диагноз, возраст
и диагноз, возраст и профессию, возраст
и причину смерти и т.д. Так, если в стоке
«возраст» указано 12 лет, а в строке
«профессия» — «учитель», то сопоставление
сразу дает возможность выявить неточность,
допущенную при регистрации материала.
Обнаруженные недостатки исправляют на
основании дополнительных сведений.
Совершенно дефектный материал, не
поддающийся исправлению, исключают из
обработки.
III этап статистического
исследования. После того, как собран
статистический материал, приступают к
группировке и сводке материала.
Группировка представляет собой
расчленение совокупности изучаемых
данных на однородные группы по наиболее
существенным признакам. Она позволяет
выделить основные типы, взаимосвязь и
взаимозависимость явлений, а также
структуру изучаемой совокупности.
Сводка – это подсчет итоговых данных
для заполнения таблиц. В результате
сводки единичные индивидуальные
наблюдения обобщаются и дается сводная
характеристика полученных данных. Для
облегчения группировки и сводки
полученных данных проводят шифровку
материала. Зашифровать – это значит
признаки, подлежащие группировке,
обозначать в статистической карте
цифрами, буквами или другими значками
в соответствии с тем, каково разнообразие
признаков. Например, признак: «пол»
имеет только два варианта: «муж» или
«жен». ключ к шифру будет: «муж» — 1, «жен»
— 2, затем во всех картах в месте для
шифра против признака «пол» ставят 1
или 2, в зависимости от того, мужчина это
или женщина. Правильно составленные
группировки помогают выявить закономерности
изучаемого вопроса. Например, изучая
заболеваемость, обязательно нужно
выделить возрастные группы от 0 до 1
года, от 2лет до 4 лет, 5-9 лет, и затем по
5-летним или 10-летним интервалам. При
изучении рождаемости, например, нет
необходимости выделять отдельно группы
50-59, 60-69 лет и т.д., т.к. в этом возрасте
роды почти не встречаются, но целесообразно
выделить группу женщин в возрасте старше
49 лет. Признаки, по которым производится
группировка, делятся на количественные
и атрибутивные (качественные).
Количественным называется признак,
который выражается числом (возраст,
масса и длина тела, длительность
пребывания больного на койке и т.д.).
атрибутивный признак выражается словесно
(диагноз, пол, вид операции, профессии
и т.д.). После шифровки карты группируются,
раскладываются по номерам шифра, затем
подсчитываются и заносятся в заранее
составленные макеты таблиц. Программа
разработки материала предусматривает
составление макетов разного типа,
которые заполняются наIIIэтапе статистического исследования.
Каждая таблица должна иметь номер,
краткое и точное название, из которого
можно было бы сразу видеть, какой материал
освещен в этой таблице, заголовки для
каждой графы, строки и итоги. Каждая
таблица, подобно грамматическому
предложению имеет статистическое (или
табличное) подлежащее и сказуемое.
Подлежащее – это то, о чем говорится в
таблице, т.е. объект исследования в целом
или его часть (население, больницы,
врачи, больные и т.д.). Сказуемое – это
то, что говорит о подлежащем (признаки,
которые характеризуют основную
совокупность – пол, возраст, время, стаж
работы и т.д.). Обычно принято подлежащее
располагать по строкам таблицы, а
сказуемое – по графам, но это не является
непременным правилом. Например, при
печатании материала (для удобства
расположения статистических данных)
этот порядок может быть изменен. По
видам статистические таблицы делятся
на простые и сложные (групповые и
комбинационные). Простая таблица состоит
из подлежащего и сказуемого или нескольких
сказуемых, не связанных между собой.
Она содержит только перечень явлений,
в ней нет никаких группировок. Простые
таблицы бывают территориальные,
хронологические и перечневые.
Простые таблицы, не показывая взаимосвязи
отдельных признаков между собой, имеют
ограниченное познавательное значение,
из указанных таблиц мы узнаем только,
сколько было зарегистрировано заболеваний
по населенным пунктам и по месяцам года.
При изучении же заболеваемости важно
выявить, когда чаще болеют, какие
заболевания чаще встречаются.
Для более углубленного анализа нужно
составить более сложные таблицы
(групповые, а также комбинационные), как
более отвечающие существу статистики,
т.к. они выявляют взаимосвязь между
изучаемыми явлениями.
Групповой называется таблица, в которой
подлежащее и несколько сказуемых,
связанных между собой. Групповая таблица
состоит из сочетания двух признаков
(один признак в подлежащем, другой – в
сказуемом). Число признаков сказуемого
может быть увеличено, но каждый из них
сочетается с подлежащим попарно,
изолировано от других.
Однако, чрезмерно усложнять комбинационную
таблицу не следует, т.к. она становится
трудной для прочтения.
IV этап статистического
исследования.В результате группировки
табличной и табличной сводки исследователь
получает абсолютные величины. В ряде
случаев их достаточно для характеристики
размеров изучаемых явлений и процессов.
Например, когда речь идет о численности
среды (населения городов, районов,
численность отдельных возрастно-половых
групп населения и т.п.) достаточно знать
абсолютные цифры. В тех же случаях, когда
речь идет о частоте явления, абсолютных
цифр для вывода, где она ниже, а где выше
недостаточно, т.к. неизвестно, какова
численность населения, среди которого
это явление зарегистрировано, за
исключением очень редко встречаются
заболеваний, когда даже единичные случаи
заболеваний имеют значение (трахома,
холера и др.) для вывода. Поэтому абсолютные
величины преобразуют в относительные.
Различают следующие виды относительных
величин или показателей: интенсивные,
экстенсивные, соотношения, показатели
динамического ряда: наглядности, темпы
роста, темп прироста.
Интенсивный показательхарактеризует
частоту явления в среде, которая это
явление порождает. Для расчета интенсивного
показателя необходимо наличие двух
статистических совокупностей, одна из
которых представляет среду, другая –
явление (например, больные и умершие из
их числа, население и случаи смерти
т.д.), показатель рассчитывается на 100,
1000, 10000, 100000 населения, соответственно:
в процентах — %, промилле — %○, продецимилле
— %○○, в просантимилле — %○○○, в зависимости
от частоты явления: чем реже встречается
явление, тем больше основание, на которое
делается расчет. Так, общие показатели
смертности и заболеваемости рассчитываются
в промилле, а смертность от отдельных
причин и заболеваемость отдельными
нозологическими формами – в продецимилле.
Допустим, установлено, что в городе А.
в течение года зарегистрировано 1875
больных туберкулезом, а в городе В. –
9001 случай данного заболевания. Для того,
чтобы сделать вывод о том, в каком городе
чаще болеют туберкулезом, абсолютных
чисел недостаточно. Ответить на этот
вопрос можно лишь в том случае, если мы
имеем представление о численности
населения в этих городах. В городе В.
больных туберкулезом больше в 4,8 раза,
нежели в городе А., и на первый взгляд в
городе В. чаще болеют туберкулезом.
Когда же мы узнаем, что в городе А.
проживает 150200 человек, а в городе В.
975246 человек, то возникает сомнение в
правильности первого предположения,
т.к. в городе В. жителей в несколько раз
больше, чем в городе А. В таких случаях
принято переводить абсолютные цифры
в относительные. В данном случае
необходимо число заболеваний в городе
отнести к численности населения этого
города. Для города А. показатель
рассчитывается так:
из 150200 человек заболело 1875,
а из 1000 человек заболело Х .
Х= 1875 х 1000= 12,48%○
150200
для
города В: из 975246 человек заболело 9001, а
из 1000 человек заболело – Х.
Х = 9001х1000 =9,23%○
975246
Из полученных величин видно, что
показатель заболеваемости туберкулезом
выше в городе А. Таким образом, точный
вывод о величине того или иного явления
можно получить только на основании
относительных величин или показателей,
которые представляют результат
соотношения статистических величин
друг с другом.
Коэффициент соотношения применяют
при оценке взаимосвязи разнородных
величин (обеспеченность населения
врачами, средними медицинскими
работниками, койками). Коэффициент
соотношения можно вычислять на 100, 1000,
10000. В отличие от интенсивных коэффициентов
он может быть выражен дробными числами:
число средних медицинских работников,
приходящихся на 1 врача: 1.53 медсестры
на 1 врача.
По методике вычисления он схож с
интенсивным показателем: в городе с
населением 70000 коечный фонд составил
560 коек. Какова обеспеченность населения
койками? Составляем пропорцию, определяем
Х:
70000 – 560
10000 – Х,
Х=560х10000= 8 коек на 10000 населения
(продецимилле, %○o )
70000
Экстенсивный показательхарактеризует
соотношение части к целому (долю части
в целом) и выражается в процентах.
Например: число умерших от болезней
органов дыхания в 2005 г. в области А.
составило 1720 человек, а число умерших
от всех причин смерти составило 8500
человек. Какова доля заболеваний органов
дыхания среди всех причин смерти?
8500 – 100%
1720 – Х
Х= 1720х100= 20,2%
8500
Показатель динамического ряда.
Динамический ряд – это ряд величин,
показывающих изменение каких-либо
явлений или признака во времени. Важно,
чтобы он состоял из однородных и,
следовательно, сопоставимых данных. Он
может быть составлен из абсолютных, и
относительных и средних величин. В
зависимости от составляющих его величин
различают три основных типа динамических
рядов:
-
Динамические
ряды, построенные из абсолютных величин
(численность населения в различные
годы или периоды, количество больничных
коек); -
Динамические
ряды, представленные относительными
величинами (рождаемость, смертность,
летальность); -
Динамические
ряды, состоящие из средних величин
(показатели физического развития,
средняя длительность пребывания на
койке, средняя длительность лечения).
Динамические ряды в зависимости от
сроков, какие они отражают, делятся на
моментные и интервальные. Моментные
динамические ряды строятся из
статистических величин, относящихся к
определенному моменту, к точной дате.
Интервальный ряд характеризует изменения
размеров явления за определенный период
(интервал времени). При анализе динамических
рядов используют следующие показатели:
темп роста, темп прироста, показатель
наглядности. Темп роста– это
отношение каждого последующего члена
динамического ряда к своему предыдущему,
выраженное в процентах.Темп прироста– это отношение абсолютного прироста
к предыдущему члену динамического ряда,
выраженное в процентах.Абсолютный
прирост – это разность между
последующим и предыдущим членом ряда.
Коэффициент наглядности(относительная
величина сравнения) – соотношение
величин одноименных показателей,
относящихся к разным промежуткам
времени, территориям и т.п. Вычисляется
в процентах. Например: если число
студентов, принятых наIкурс вуза, принять за 100%, то наIIкурсе их, по отношению к численности
принятых в вуз – 99%.
Динамические ряды можно использовать
для прогнозирования явлений, в частности
здоровья населения. Осуществить это
можно с помощью системы уравнений, выбор
которых зависит от вида кривой
распределения величин в реальном
динамическом ряду (по параболе 1-ого,
2-ого и 3-го порядка). Удобнее это делать
с использовать ЭВМ.
Графические изображения в статистике.
Различают плоскостные (т.е. цифровые
данные приводят в виде геометрических
фигур в двух измерениях) и объемные
диаграммы.
Интенсивный показатель графически
может быть представлен в виде следующих
диаграмм:
-
линейной;
-
столбиковой
или ленточной; -
радиальной;
-
картограммы;
-
картодиаграммы.
При построении линейной диаграммы на
оси абцисс (горизонтальный уровень)
отмечаются анализируемые годы в
соответствии с заданным масштабом, на
оси ординат (вертикальный уровень) –
частота изучаемого явления.
При построении графика на оси абсцисс
отмечены анализируемые годы, на оси
ординат – число посещений в поликлинику,
приходящуюся на одного жителя Удмуртской
Республики. На координатное поле
наносятся точки в соответствии с
показателем, затем эти точки последовательно
соединяют и получается непрерывная
линия, отражающая суть явления графически,
что позволяет наглядно представить
изменение показателя за определенный
период времени.
Столбиковые и ленточные диаграммы
относятся к плоскостным.
Столбиковая это, или ленточная диаграмма,
зависит от того, в какой плоскости они
отображены (по вертикали – столбиковая,
по горизонтали – ленточная диаграммы).
На оси абсцисс располагают основание
столбика, на оси ординат – величину
изучаемого признака в соответствии с
избранным масштабом. Столбики должны
быть одинаковой ширины и могут
располагаться как рядом друг с другом,
так и на определенном расстоянии.
Радиальная диаграмма строится на основе
окружности, которую делят на секторы,
которые должны соответствовать изучаемым
временным периодам (12 секторов при
изучении явления за год и т.д.); на каждом
радиусе соответственно определенному
месяцу откладывают величину явления в
соответствии с избранным масштабом.
Построение диаграммы осуществляется
по часовой стрелке, конечные точки
обрезков соединяют линиями. Величина
явления, отложенная на радиусе может
отходить далеко за пределы окружности,
такую разновидность радиальной диаграммы
называют полярной.
Картограмма получается при изображении
изучаемого явления на контурной или
географической карте посредством
обозначения разной интенсивности
окраски или штриховкой.
В картодиаграмме частоту изучаемого
явления изображают на контурной или
географической карте в виде столбиков
различной высоты, соответствующей
частоте изучаемого явления.
Экстенсивный показатель графически
изображается посредством внутристолбиковой
и секторной (круговой) диаграмм, которые
являются разновидностями плоскостных
диаграмм.
Для построения внутристолбиковой
диаграммы используется прямоугольник,
высота которого принимается за 100%, доли
составных частей этой фигуры располагают
снизу вверх в порядке возрастания
процентов; составные части прямоугольника
различают по штриховке или расцветке.
Доли составных частей указывают внутри
прямоугольника.
Секторная диаграмма строится следующим
образом:
Окружность произвольного радиуса
принимают за 100%, тогда 1% будет
соответствовать 3,6°, т.к. вся окружность
составляет 360°
На окружности откладывают дуги в
соответствии с углами в градусах, что
соответствует долям от целого. Концы
отрезков, соединяющих дуги, линиями
соединяют с центром окружности, таким
образом получая секторы. Сумма всех
долей должна быть равна 100%, или в градусах
— 360°.
Показатель соотношения графически
может быть отображен теми же диаграммами,
что и интенсивный показатель, а также
фигурными диаграммами.
В фигурной объемной диаграмме на оси
абсцисс отмечают анализируемые годы,
на оси ординат – частоту явления. В
соответствии с построенными осями на
координатное поле наносят изображения
в виде фигур (обеспеченность населения
койками в виде схематически изображенных
больничных коек, обеспеченность врачами
и ли средними медицинскими работниками
– фигурки в медицинской форме и т.д.).
Задачи.
-
В
стационаре МУЗ ГБ №3 г. Ижевска в
течение 2005 года лечилось 500 больных с
инфарктом миокарда, из них умерли 10
человек. Рассчитать показатель
летальности от инфаркта миокарда на
2005 год. Как изменился этот показатель
в сравнении с2004 годом, когда он составлял
2,4%?
-
Обеспеченность
России врачами (на 10000 населения) 1913 год
– 2,0; 1950 – 14,0; 1980 – 37,3; 1995 – 40,7, 2004 – 41,4.
Рассчитать показатель наглядности,
темп роста и темп прироста.
-
В
поликлинике, обслуживающей 50000 населения
в течение 2005 года было зарегистрировано
1890 случаев острой дизентерии, 840 случаев
– вирусного гепатита, 1260 – эпидемического
гепатита, 126 – брюшного тифа, 42 –
бруцеллеза, 21 – сыпного тифа.
Определить структуру заболеваемости
и показатели частоты на 1000 человек.
-
Число
впервые зарегистрированных больных
со злокачественными опухолями кишечника
по Первомайскому Району г. Ижевска за
2000-2005 года:
2000 год — 96
2001 год – 118
2002 год – 108
2003 год – 123
2004 год – 135
2005 год – 134
Рассчитать показатель наглядности,
темп роста, темп прироста.
-
Определить
обеспеченность населения врачами в
г. А. и г.Б., если в г. А. население составляет
40000 человек, а врачей – 170, в г. Б. проживает
50000 человек, а врачей – 210. Как называется
этот статистический показатель?
-
Определить
структуру распределения детей по
детским учреждениям и заболеваемость
острой пневмонией в каждой группе детей
по представленным данным:
|
Детские учреждения |
Число |
Число |
|
школы |
21016 |
94 |
|
Д/сады |
7449 |
37 |
|
Д/ясли |
30572 |
29 |
-
Рассчитать
долю патологических состояний во время
родов из общего числа осложнений по
роддому №6 г. Ижевска:
|
Всего |
1505 |
||||||||||||||
|
В |
14 |
||||||||||||||
|
Разрыв |
942 |
||||||||||||||
|
Разрыв |
16 |
||||||||||||||
|
Оценка
Врачу, как правило,
Под статистической
Мерой
ОЦЕНКА
____
Ошибка n
где
m М √n
где
Ошибка
Доверительные p±tm M±tm
р M
ошибка
При
Одним из основных
Кроме того, врачу
Достоверность √m1²+m2²
а √m1²+m2²
При
t=1
t=2
t=3
t=3,3
При статистических, Например,
Рассчитываем
____________
m1=±√4,1+(100-4,1)
____________
m2
140
Подставив их
t=
√1,8+1,4 √3,2
Видим,
Задачи для
M1 (m=±0,05). M2
Определить,
2. При изучении
Определить
Определить Задачи для педиатрического факультета.
(m=±0,3%), в больнице Б — 1,0% (m=±0,2%). Значит ли, что P1 Р2 послеоперационная
P1
в Р2
иммунизация
P1
(m Р2
болезнью Боткина
Задачи для
ЛИТЕРАТУРА
Список литературы:
|
где
р –величина показателя в процентах
(%), промилле (‰), продицемилле (‰○),
проксантимилле (‰○○),
g
– разность между условным числом,
на которое рассчитывался показатель и
его величиной. Например, величинаg– равна100 – р, если показатель вычисляется
в процентах (%),
Ошибка
средней величины определяется по
формуле:
nM=
±
_δ_
,
√ n
где
δ – среднее квадратическое отклонение,
n
– общее число наблюдений
Ошибка репрезентативности позволяет
установить доверительные границы, т.е.
тот интервал, в пределах которого с
определенной степенью вероятности
будет находиться величина показателя
или средней, характеризующая всю
генеральную совокупность.
Доверительные
границы определяются по формуле:
p±tm
M±tm
р
(М)М
± t
,
где
p
– относительный показатель
или
М – средняя величина,
m
– ошибка репрезентативности для
показателя или средней величины,
t
— доверительный коэффициент или
критерий достоверности точности.
Критерий
позволяет установить достоверные
границы с определенной степенью
вероятности. При числе наблюдений >30,
при t=1
доверительные границы, в которых будут
находиться генеральная средняя или
показатель, гарантируется с вероятностью
в 0,683 (68,3%). Эта вероятность считается
недостаточной. В медицинских исследованиях
в качестве минимально допустимой
вероятности для оценки достоверности
выборочных величин принята вероятность
0,955 (95,5%), что соответствует t=2
(точнее 1,96).
При
t=1,96
достоверность выборочных величин
гарантируется с вероятностью 0,955 (95,5%),
при t=3
– 0,997 (99,7%), при t=3,3
обеспечивается вероятность 0,999 (99,9%).
Одним из основных
моментов в статистических исследованиях
является сравнительный анализ. Полученные
в результате исследования данные
сравниваются в динамике (с аналогичными
показателями или средними величинами
предыдущих исследований в предыдущие
годы), со стандартами физического
развития, с нормативными данными, с
данными других учреждений и т. д.
Результаты исследований можно сравнить
с аналогичными данными контрольной
(опытной) группы.
Кроме того, врачу
в практической деятельности, а так же
при научных исследованиях, бывает
необходимо оценить достоверность
произошедшего сдвига в показателях или
средних. Определить достоверность
сдвига – это значит установить является
ли разность в показателях или средних
результатом нашей целенаправленной
деятельности (проведение оздоровительных
мероприятий, улучшение качества лечебной,
диагностической работы, эффективности
диспансеризации и т. п.), апробированного
в наблюдении фактора (влияние нового
лекарственного препарата, нового метода
лечения, ведение послеоперационного
периода и т. п.) или это влияние было
случайным , от независящих от нас причин.
Например, показатель летальности,
являясь показателем качества лечебной
работы, зависит от сроков доставки в
стационар, возраста и пола больных,
тяжести течения заболевания и т. д.
Достоверность
разности показателей определяется по
формуле Стъюдента:
t
= Р1-Р2 ,
√m1²+m2²
а
средних t
= М1-М2 ,
√m1²+m2²
При
вычислении t
целесообразно в качестве Р1 и М1 брать
большую величину. Если вычисленное
значение окажется <2, то разность между
показателями или средними считается
случайной, т. е. независимой от нашей
деятельности или влияния изучаемого
фактора. Критерий t
достоверность разности показателей
или средних величин определяются двумя
способами:
-
при
n<30
по таблицам Плахинского или Стъюдента. -
при
n>30
следующим образом:
t=1
достоверность составляет 68,3%
t=2
достоверность составляет 95,5%
t=3
достоверность составляет 99,7%
t=3,3
достоверность составляет 99,9%
При статистических,
клинических, санитарно-гигиенических
и клинико-социологических исследованиях
результат считается закономерным при
достоверности 95 и более процентов, т.
е. разрешается ошибка риска не более
5%.
Например,
из 140 детей больных пневмонией, леченных
новым способом умерли 3, а в контроле
среди лечившихся старым способом из
220 умерли 9 больных, летальность составила
соответственно 2,1% и 4,1%. Летальность
изменилась почти в 2 раза. Значит ли это,
что новый способ эффективнее?
Прежде чем изучать готовые решения задач по математической статистике, нужно знать теорию, поэтому для вас я подготовила краткую теорию по предмету «математическая статистика», после которой подробно решены задачи.
Эта страница подготовлена для школьников и студентов.
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Приступая к изучению элементов статистики, отметим несколько особенностей в постановке и решении ее задач в сравнении с задачами теоретико-вероятностными.
Теория вероятностей, исходя из известных характеристик совокупности случайных величин, отвечает на вопрос о возможности осуществления того или иного события, обусловленного рассматриваемыми случайными величинами:
знаем закон распределения совокупности случайных величин 
В статистике мы решаем задачи, в некотором смысле обратные, а именно: наблюдая некоторые события, о которых известно, что возможность их осуществления или неосуществления обусловливается комплексом случайных величин, хотим определить эти (неизвестные) случайные величины, их вероятностные характеристики:
знаем результаты наблюдений {конкретные значения, принятые случайной величиной} —хотим сделать какие-нибудь заключения о законе распределения (в частности о параметрах и числовых характеристиках} наблюдаемой случайной величины.
Ясно, что в силу принципиальной непредсказуемости результатов наблюдения за случайной величиной, выводы, сделанные на основе результатов эксперимента, будут информативными только в том случае, когда эти наблюдения «хорошие» — т. е. те значения £, которые имеют большую вероятность, будут наблюдаться в эксперименте чаще, а имеющие меньшую вероятность — реже. Законы больших чисел утверждают, что в подавляющем большинстве экспериментов так и будет. Однако, это не гарантирует нам, что данный конкретный эксперимент окажется именно таким.
Поэтому всякое статистическое заключение недостоверно: если основа заключения «хороший» эксперимент, то заключение достаточно близко к истине, если «плохой», то ошибочно. При этом «хорош» эксперимент или «плох» определяется не нами, не нашей добросовестностью наблюдателя и тщательностью экспериментатора, а исключительно случаем — природой.
Сказанное хорошо иллюстрируется следующим примером: пусть наблюдаются результаты n-кратного бросания монеты. Если бросать монету достаточно долго, то частота появления, например, герба, как гласит закон больших чисел в форме Бернулли, будет близка к вероятности. Поэтому по частоте (наблюдаемой и вычисляемой величине) можно сделать заключение о вероятности (неизвестной величине). Насколько это заключение соответствует истине?
Пусть монета симметрична, т. е. Р(Г) = Р(Р) = 0,5 (что тем не менее не препятствует асимметрии в количестве появлений герба и решки в конкретном эксперименте)!
Может статься, что в серии из 100 бросаний герб появится 45 раз, а решка 55, а может статься и так, что герб появится 20 раз, а решка — 80. Ясно, что первая серия может быть признана «хорошей» с точки зрения рассматриваемой задачи, а вторая — «плохой». В любом случае мы сделаем заключение о неизвестной вероятности выпадения герба по наблюденной в эксперименте частоте и в первом случае положим Р(Г) = 0,45, а во втором — 0,2. Основанием для оптимизма является то важное обстоятельство, что «плохие» серии будут встречаться тем реже, чем длиннее серия! Значит, при достаточно длинной серии бросаний эксперимент скорее будет «хорошим» чем «плохим», и определенная по результатам такого эксперимента Р(Г) будет «похожа» на истинную. Достоверность статистического вывода будет определяться тем, насколько «редки» плохие эксперименты.
Практика использования статистических процедур показывает, что чаще всего решения, принятые на основании подобных выводов, оказываются верными. И именно это обстоятельство (согласованность статистических выводов с экспериментом) делает математическую статистику не бесполезной в практическом отношении наукой.
В дальнейшем мы неоднократно будем употреблять термины «маленькая вероятность», «маловероятное событие» и т. п. Какая же вероятность может считаться маленькой, а какая нет? Не вдаваясь подробно в обсуждение этого вопроса, заметим только, что абсолютная величина вероятности вне связи с конкретной обстановкой не дает нам никаких сведений о ее малости или немалости. Скажем, если нам известно, что вероятность осуществления некоторого события равна 0,01, то эта вероятность будет маленькой, если комплекс условий, обусловливающий рассматриваемое событие, складывается один раз за сто лет. Если же комплекс условий, при котором наблюдается рассматриваемое событие, складывается каждые пять минут, то эта же вероятность должна рассматриваться как значительная. Другими словами, под маленькой вероятностью мы будем понимать вероятность такого события, которое практически не наблюдается, вне зависимости от ее численного значения.
Математическая статистика
Математическая статистика – это раздел математики, изучающий математические методы сбора, систематизации, обработки и интерпретации результатов наблюдений с целью выявления статистических закономерностей.
Статистический материал и его обработка
Результаты наблюдений массовых явлений, случайных величин составляют статистические данные или статистический материал. Выборкой объёма 

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака 
Результаты наблюдений выборки 

При больших значениях 
Расположим значения 














Последовательность 

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины 

Вариационный ряд обозрим при небольших значениях 
Все варианты 




Обозначим эти промежутки следующим образом: 








Количество интервалов 


Геометрическим изображением интервальной обработки служит гистограмма (см. рисунок 1). Гистограммой частот называется множество прямоугольников с основаниями 


Нормированная гистограмма (гистограмма относительных частот) представляет собой ступенчатую фигуру из прямоугольников с основаниями равными интервалам значений признака 



Эмпирической функцией распределении (функцией распределения выборки) называется функция 



где 



Функция 

-монотонно неубывающая, непрерывная слева функция.
Функция 





Эмпирическая функция распределения служит для оценки вида теоретической функции распределения случайного признака, полигон и гистограмма — для оценки вида теоретической кривой распределения.
Числовые характеристики законов распределения эмпирических величии
Одна из задач математической статистики состоит в установлении закона распределения случайной величины 
Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из параметров этого закона.
Важнейшим этапом обработки статистических данных является вычисление оценок числовых характеристик исследуемой случайной величины.
Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.
Любая величина 




Существует два вида оценок параметров: точечные и интервальные.
Точечной называется статистическая оценка, которая определяется одним числом.
К точечным статистическим оценкам предъявляется ряд требований.
Если 

1) быть несмещенной, что означает, что 
2) быть состоятельной, т.е. предел по вероятности при 


3) быть эффективной, т.е. дисперсия 

Число 




Выборочной средней 



Выборочная средняя служит несмещенной оценкой математического ожидания признака 
Кроме выборочной средней в статистическом анализе применяются структурные средние: медиана и мода.
Модой Мо называют варианту, которая имеет наибольшую частоту. Если распределение интервальное, то определяется модальный интервал 


где 

Медианой Me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если 



где 




Средние величины не отражают изменчивости (вариации) значений признака. Чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения 
Выборочной дисперсией 


Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Выборочная дисперсия является смещённой оценкой генеральной дисперсии, так как

В качестве несмещенной оценки генеральной дисперсии служит «исправленная» выборочная дисперсия:

При достаточно больших 

Выборочная средняя и дисперсия вариационного ряда являются частными случаями более общего понятия — выборочных (эмпирических) моментов.
Начальный момент 

Центральный момент 

В частности

Центральные моменты первых четырёх порядков выборки 


Коэффициентом асимметрии вариационного ряда называется число

Эксцессом вариационного ряда называется число:

Асимметрия называется также нормированным третьим центральным моментом, а эксцесс — нормированным четвертым центральным моментом признака 







Положительное значение эксцесса указывает на то, что полигон распределения около моды имеет более высокую острую вершину, чем нормальная кривая, с тем же центром и той же дисперсией.
Отрицательное значение эксцесса имеет место для кривых с более низким и более плоским характером вершины по сравнению с нормальной кривой (см. рисунок 4).

Точечные оценки не указывают величину ошибки, которая совершается при замене 



Пусть 






Доверительной вероятностью оценки называется вероятность 



Доверительный интервал — это интервал 


Границы интервала и его величина находятся по выборочным данным и поэтому являются случайными величинами в отличие от оцениваемого параметра 


Величина доверительного интервала существенно зависит от объёма выборки 



Интервальной оценкой с надёжностью у математического ожидания а нормально распределённой случайной величины (признака) 



где 




При неизвестном 




где 

При больших выборках 
Доверительный интервал для 

где 



Величина 

Статистическая проверка гипотез
Статистической гипотезой называется предположение относительно параметров или вида распределения изучаемой случайной величины.
Статистические гипотезы можно разделить на следующие основные группы:
1 (гипотезы о параметрах распределения;
2)гипотезы о виде распределения.
Выдвинутую гипотезу называют нулевой и обозначают ее через 


Таким образом, ставится задача проверки гипотезы 




Ошибка первого рода: 




Величину 
Ошибка второго рода: 


Вероятность принять гипотезу 
Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) 











Множество возможных значений статистики 








Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона
Одной из задач математической статистики является установление истинного закона распределения случайной величины на основании экспериментальных данных. Критерии, устанавливающие закон распределения, называются критериями согласия.
Алгоритм применения критерия Пирсона.
1)Из генеральной совокупности образовывается случайная выборка, и на ее основе делается предположение о нормальном законе распределения. Выдвигается гипотеза 
2)Вычисляются выборочные числовые характеристики 
3)Вычисляются теоретические частоты:
а) Для дискретного ряда

где 


Значения 
б) Для интервального ряда 



теоретические вероятности попадания в интервалы


функция Лапласа, значения которой определяются по таблице
4)Находится наблюдаемое значение критерия Пирсона по формуле

5)По таблице критических точек распределения 



6)Если 

Замечание. Малочисленные варианты и интервалы (содержащие малочисленные частоты 


Элементы теории регрессионного и корреляционного анализа
Методы теории корреляции позволяют определять зависимость между различными факторами или случайными величинами. Термин «корреляция» происходит от латинского «correlatio» — соотношение, взаимосвязь.
В естественных науках часто речь идёт о функциональной зависимости, когда каждому значению одной величины соответствует вполне определённое значение другой. Случайные величины обычно не связаны функциональной зависимостью. В большинстве случаев между переменными существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).
В силу неоднозначной статистической зависимости между случайными величинами 















Уравнение (14) называют уравнением регрессии 






Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка ее тесноты. Основной задачей регрессионного анализа — установление и изучение формы зависимости между переменными.
Данные о статистической зависимости удобно представлять в виде корреляционной таблицы:

Здесь

значения случайных величин 


соответствующие частоты, 

По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные.
Наличие корреляции приближенно может быть определено с помощью корреляционного поля. Его получим, если нанесем на график в определенном масштабе точки, соответствующие наблюдаемым одновременным значениям двух величин 



Рассмотрим наиболее важный для практики случай линейной зависимости между величинами. В теории вероятностей показателем тесноты линейной зависимости являлся коэффициент корреляции, в математической статистике таким показателем является выборочный коэффициент корреляции.
Выборочным коэффициентом корреляции называется величина, рассчитываемая по формуле:

где

оценка корреляционного момента; 

Выборочный коэффициент корреляции обладает некоторыми свойствами:
;
- Чем ближе значение
к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько
приближается к единице, различают слабую, умеренную, заметную, достаточно тесную и весьма тесную линейную связь.
- Если
, то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же
, говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
- Если все значения переменных увеличить (уменьшить) на одно и тоже число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Коэффициент корреляции есть безразмерная характеристика тесноты линейной связи.
- При
корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
- При
или
близком к нулю линейная корреляционная связь отсутствует, но это не означает отсутствие другой зависимости, например, нелинейная связь может быть очень тесной.
Для ответа на вопрос о значимости коэффициента корреляции проверяют нулевую гипотезу 


Для того чтобы при уровне значимости 


затем, пользуясь таблицей критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы 

•если 

•если же 
Рассмотрим уравнение парной линейной регрессии 



Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений 


На основании необходимого условия экстремума, приравнивая нулю частные производные, получим:

После преобразования получаем систему нормальных уравнений для определения параметров линейной регрессии:

Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии 


Уравнение регрессии 


Коэффициент 


Уравнение регрессии может быть использовано для прогнозирования значений 

Величину 








Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.
Задачи с решением
Задача № 1
- Из генеральной совокупности извлечена выборка объёма
:

Требуется:
1)Найти и построить эмпирическую функцию распределения;
2)Найти выборочное среднее, «исправленное» СКО, выборочную моду и медиану.
Решение:
1) Согласно определению эмпирической функции распределения её значение при любом 




Например, при
Тогда

График эмпирической функции распределения изображён на рисунке 6.

2) Определим выборочное среднее выборки по формуле (2):

«Исправленную» дисперсию найдём, используя следующую формулу:

Так как мода — это варианта, которой соответствует наибольшая частота, то 
Не сгруппированные данные образуют дискретный вариационный ряд, содержащий нечётное число вариант 

Значит, медиана равна

Задача № 2
- Записать в виде вариационного ряда выборку 20, 19, 12, 13, 16, 17, 17, 14, 16, 14, 13, 19, 18, 16, 14. Представить статистическое распределение выборки. Построить полигон относительных частот для статистического ряда. Вычислить числовые характеристики выборки: выборочное среднее, «исправленную» и выборочную дисперсии, «исправленное» среднеквадратическое отклонение (СКО).
Решение:
Объём выборки 
12, 13, 13, 14, 14, 14, 16, 16, 16, 17, 17, 18, 19, 19, 20.
Статистическое распределение исходной выборки можно записать в виде следующей таблицы:

Полигон относительных частот изображён на рисунке 7.

Находим выборочное среднее по формуле (2):

Для вычисления выборочной дисперсии используем формулу (5):

«Исправленная» дисперсия и СКО:

Задача № 3
- Найти выборочное среднее, моду, медиану и выборочное СКО выборки объёмом
, распределение которой задано следующей таблицей:

Построить гистограмму и полигон частот.
Решение:
Для построения гистограммы все частоты необходимо разделить на длину интервала, равную 1,02, и откладывать по оси ординат. По оси абсцисс отмечаются границы интервалов (рисунок 8).
Для построения полигона частот найдем середины интервалов и дополним исходную таблицу:

Ломаная линия (рисунок 


Для расчёта выборочного среднего и выборочного СКО составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Таким образом:

Так как наибольшая частота

отвечает интервалу 1,02 — 2,04, то

Мода (согласно формуле (3)) равна:

Определим номер медианного интервала. Так как 

Задача № 4
Дан статистический ряд признака 

Найти начальные и центральные моменты первых четырёх порядков признака 
Решение:
Вычисления проводим по формулам (8) для 

Начальные моменты:

Центральные моменты

Тогда, так как

то

Задача № 5
Предельная нагрузка для выборки из 50 стальных стержней характеризуется следующим рядом:

Считая распределение предельной нагрузки 

Решение:
Вычислим выборочное среднее и исправленное СКО соответственно по формулам

По таблице (см. приложение 3) найдём

Точность оценки:

Доверительный интервал для средней предельной нагрузки найдём по формуле (13):

Доверительный интервал для СКО предельной нагрузки будем искать по формуле

так как


Задача № 6
В результате эксперимента получены данные, представленные в виде статистического ряда:
Требуется:
1 )3аписать значения результатов эксперимента в виде вариационного ряда.
2)Представить данную выборку в виде интервального статистического ряда.
3)Найти числовые характеристики выборки:

4) Определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения. Предполагается, что генеральная совокупность имеет нормальное распределение. Доверительную вероятность принять равной 0,95.
Решение:
1) Расположим значения результатов эксперимента в порядке возрастания, т.е. записываем вариационный ряд:
14 21 28 30 30 32 33 35 38 39 40 41 41 42 42 42 43 44 45 45 46 4747 47 48 48 49 49 50 51 52 53 54 54 56 57 58 58 59 59 60 60 60 60 61 61 65 67 72 77.
2) Объём выборки 

Выбираем длину интервала 9. Интервальный статистический ряд примет вид:
3) Для вычисления числовых характеристик составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:
Таким образом:

4) Доверительный интервал для оценки математического ожидания нормально распределённой случайной величины найдём по формуле:

Из приложения 3 для 


Доверительный интервал для оценки а нормального распределения по несмещённой оценке 

где величина

определяется из таблицы (приложение 4).
Имеем

При

в таблице приложения находим

Следовательно,
Значит,

Задача № 7

Решение:
Определим наблюдаемое значение критерия Пирсона по формуле

В таблице критических точек 




Задача № 8
- Из генеральной совокупности извлечена выборка, представленная в виде ряда.
Требуется проверить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины 







Решение:
Подсчитаем количество интервалов разбиения:

Из ряда видно, что

поэтому
Границы интервалов будут:
Частота 


Объем выборки равен

Выборочное среднее и дисперсия определяются по формулам:
Найдём теоретические вероятности 

где 
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим следующую расчетную таблицу:

По таблице критических точек распределения 


находим

Так как

то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности.
Задача № 9

вычислить выборочный коэффициент корреляции и остаточную дисперсию. Записать уравнения прямой регрессии 

Решение:
Вычислим основные выборочные характеристики: Выборочные средние:

Найдем оценки для средних квадратичных отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:
Согласно формуле (15):

Найдем методом наименьших квадратов эмпирическую формулу вида 
Уравнение регрессии 


Остаточная дисперсия:

Корреляционное поле и линия регрессии на корреляционном поле изображены на рисунке 9.

Задача № 10
Построить корреляционное поле. Найти выборочный коэффициент корреляции, оценить его значимость. Записать уравнения прямой линии регрессии 

Решение:
Корреляционное поле данной двумерной выборки приведено на рисунке 10.
По виду поля корреляции можно судить о том, что между величинами существует зависимость.
Для вычисления выборочных числовых характеристик составляем следующую расчётную таблицу:
Замечание. Строка

получается следующим образом:

Столбец

Вычислим выборочные средние


«Исправленные» дисперсии находим по формулам:
Оценку корреляционного момента вычисляем по формуле:
Рассчитав все нужные величины, можно вычислить выборочный коэффициент корреляции:

Для оценки значимости выборочного коэффициента корреляции вычислим наблюдаемое значение критерия, воспользовавшись формулой (16):

Затем по таблице критических точек распределения Стьюдента, по заданному уровню значимости 



Сравнивая 


Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид

Тогда

Задача № 11
Из генеральной совокупности извлечена выборка, представленная в виде статистического ряда:

Требуется:
1)вычислить выборочное среднее 



2)найти размах варьирования; моду и медиану;
3)построить полигон частот и эмпирическую функцию распределения;
4)провсрить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины 


5)найти с доверительной вероятностью 

Решение:
1) Объем выборки равен

Выборочное среднее определим по формуле:

Для нахождения выборочной дисперсии составим следующую вспомогательную таблицу:

Тогда


Исправленное среднее квадратичное отклонение будет

2) Размах варьирования находится по формуле


Так как мода — это варианта, которой соответствует наибольшая частота, то

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий чётное число вариант 
3) Согласно определению эмпирической функции распределения ее значение при любом 




Тогда

График эмпирической функции распределения:

Полигон частот изображен на рисунке:

4) Так как полигон частот по форме напоминает кривую Гаусса, то можно сделать предположение о том, что случайная величина 

Длина интервала

Границы интервалов будут:

Посчитаем число выборочных значений, попавших в каждый интервал. Частота 



Полученные данные сведём в следующую таблицу:
Найдем теоретические вероятности 

Результаты вычислений сведем в таблицу:

Так как ожидаемые (эмпирические) частоты первого и седьмого интервалов группировки не удовлетворяют условию 
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим

По таблице критических точек распределения 




то гипотеза о нормальном распределении принимается.
5) Доверительный интервал для математического ожидания найдём по формуле

Значение 

и объёму выборки


Тогда доверительный интервал имеет вид:

Задача № 12
По заданной таблице зависимости признаков 

1}Вычислить выборочный коэффициент корреляции; проверить его на значимость, приняв 
2)Методом наименьших квадратов выровнять зависимость 


3)Вычислить остаточную дисперсию, сделать вывод.
4)Построить корреляционное поле и линию регрессии на корреляционном поле.
Решение:
Найдём выборочные средние х, у, а также оценки для средних квадратичсских отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Здесь

Тогда

Выборочное значение коэффициента корреляции:

Проверим значимость полученного выборочного коэффициента корреляции. Найдём наблюдаемое значение критерия:

По таблице критических точек распределения Стьюдента, по уровню значимости 


Так как 



Запишем нормальную систему уравнений. Так как


то

Решая систему по формулам Крамера, получим:
Следовательно, зависимость между величинами 


3) Остаточная дисперсия:

То сеть величина ошибки, которая возникает при замене 


4) Корреляционное поле и линия регрессии на корреляционном поле представлены на следующем рисунке:

Возможно эти страницы вам будут полезны:
- Предмет теория вероятностей и математическая статистика Решение задач по теории вероятностей
- Помощь по теории вероятности
- Заказать работу по теории вероятности
- Контрольная работа по теории вероятности
- Курсовая работа по теории вероятности
- Помощь по математической статистике
- Заказать работу по математической статистике
- Контрольная работа по математической статистике
- Курсовая работа по математической статистике
- Теория вероятностей краткий курс для школьников и студентов
Примеры решения задач по всем темам математической статистики
Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.
Статистическое описание применяют к таким физическим процессам, для которых результат отдельного измерения не может быть предсказан с необходимой точностью. Тем не менее, при проведении достаточто большого числа повторных измерений может быть с достаточно хорошей точностью предсказана некоторая величина, являющаяся функцией результатов измерений.
При построении моделей в математической статистике предполагают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей. Хотя математическая статистика и опирается на методы и понятия теории вероятностей, но можно сказать, что в каком-то смысле математическая статистика решает обратные задачи.
Основные понятия и задачи математической статистики
Математическая статистика — это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных,
В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.
Главная цель статистики — получение осмысленных заключений из несогласованных (подверженных разбросу) данных.
Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин «шум»).
Чем же конкретно занимается математическая статистика? Какие задачи решает?
Выборочные распределения
Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.
Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СБ). Обычно функции распределения вероятностей бывают заданы с точностью до одного, двух параметров значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики поволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра,
Оценки, тесты (критерии значимости), решения Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.
Существуют различные методы конструирования точечных оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия (ММП). Другой известный метод, который можно рассматривать либо как специальный случай ММП, либо как независимую процедуру подгонки, — метод наименьших квадратов.
Интервальное оценивание связано с определением «доверительных интервалов», правдоподобных интервалов, байесовских интервалов.
Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра — одна при одном наборе условий, а другая -при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами. Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.
Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А. Фишера, который рассматривает проверку гипотезы как пробный шаг в проведении научного исследования, позволяющий получить ученому объективный критерий, с помощью которого можно судить об истинности гипотезы.
Другой подход связан в основном с именами Дж. Неймана и Э. Пирсона, которые рассматривают процедуру проверки гипотезы как правило, с помощью которого должен быть сделан выбор либо принято решение об истинности одной гипотезы в противоречие другой.
Одна из частных проблем теории проверки статистических гипотез -оценка пригодности модели, предложенной для объяснения (интерпретации) данных, При этом необходимо решить: насколько предложенная модель соответствует выборке? И являются ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.
Генеральной совокупностью случайной величины
Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе — бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введены понятия абстрактной генеральной совокупности и выборки.
Генеральной совокупностью случайной величины 

Выпорка представляет собой совокупность ограниченного числа наблюдений.
В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.
На практике во многих случаях функция распределения рассматриваемой случайной величины 
Выборкой объемом 


Пусть из генеральной совокупности извлечена выборка, причем

Объем выборки:

Наблюдаемые значения 
Число наблюдений называют частотами, а их отношение к объему выборки: 
В статистике различают малые и большие выборки.
Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.
Больший считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и достижению заданных значений точности и достоверности.
Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В Этом случае строится гак называемый группированный статистический ряд.
Группирование данных, гистограмма, полигон
При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:
- Объем выборки должен быть достаточно велик
.
- Число интервалов группирования
(число групп) должно находиться в интервале
. При выборе
в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
- Необходимо, по возможности, охватывать всю область данных, так как при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
- Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
- Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5-2 раза по сравнению с оптимальным числом
.
Оптимальное число групп 

• при известном значении


• при неизвестном значении 


• согласно формуле Стерджесса:

Из (8.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое, Шаг группирования (ширина интервала) 

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.
Гистограммой распределения, или просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось которого разбивается на 


Полигоном распределения. или просто полигоном называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы как слева, так и справа размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.
Кумулятивная кривая (кумулята) — кривая накопления частот (час-гостей). Для дискретного ряда кумулята представляет ломаную, соединяющую точки

Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината — накопленной частоте (частости), равной нулю. Остальные точки этой ломаной соответствуют концам интервалов.
Пример № 1
Построить полигон, гистограмму и кумуляту по выборке объема 


Статистическая (эмпирическая) функция распределения
Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (частосгпей).
В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми значениями и их частотами или относительными частотами.
Пример № 2
Задана выборка объемом 

Контроль:

Пусть исследуется статистическое распределение частот количественного признака (случайной величины) 





Статистической функцией распределения случайной величины 



Сравним статистическую и интегральную функции распределения. Вспомним (теорема Бернулли), что относительная частота события 


Функция 

- Значения
.
- Эмпирическая функция распределения
— неубывающая.
- Если
— наименьшая варианта, то
при
.
- Если
— наибольшая варианта, то
при
.
Пример № 3
Построить эмпирическую функцию по данной выборке:

Решение:
Найдем объем выборки 

Представим 


Выборочные значения и оценка параметров
Рассмотрим один из возможных методов оценивания среднего значения и дисперсии случайной величины 


Здесь 


• выборочная дисперсия (несмещенная)

♦ среднее квадратическое отклонение

• выборочный коэффициент асимметрии

выборочный коэффициент эксцесса

Для установления качества или «правильности» любой оценки используются свойства (требования) «хороших оценок».
Требования «хороших оценок»
1 Несмещенность.
Во-первых, желательно, чтобы математическое ожидание оценки равнялось оцениваемому параметру:

где 

2, Эффективность,
Во-вторых, желательно, чтобы среднеквадратическая ошибка данной оценки была наименьшей среди всех возможных оценок, то есть:

где 


3* Состоятельность,
В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, то есть для любого

Если выполнено условие (8,14), то оценка называется состоятельной. Из неравенства Чебышева следует, что достаточным для выполнения (8.14) является условие:

В качестве примера «хорошей оценки» рассмотрим оценку среднего значения (8.6). Математическое ожидание выборочного среднего 

Следовательно, согласно (8.12), оценка 
Среднеквадратическая ошибка выборочного среднего 

Поскольку наблюдения 

Таким образом, согласно (8.15) оценка 
Рассмотрим оценку дисперсии по формуле (8.7).

Однако

Поскольку

то, подставив получим:

Следовательно, оценка 
Хотя оценка (выборочная дисперсия) 

Интервальное оценивание
Ранее мы обсудили использование выборочных значений в качестве оценок параметров случайных величин. Однако такие процедуры дают только точечные оценки интересующих нас параметров и не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более предпочтительная процедура — построения интервала, который накрывает оцениваемый параметр с известной степенью достоверности, Такой подход называется «интервальным оцениванием».
Сразу отметим следующее: чем больше уверенность в том, что оцениваемый параметр лежит в интервале, тем шире интервал.
Так что искать интервал, накрывающий параметр с вероятностью, равной единице, бессмысленно. Это вся область 

Пусть для параметра 






Тогда диапазон практически возможных значений ошибки, возникающей при замене 





То есть неизвестное значение параметра 


Ранее (в теории вероятностей) мы рассматривали вероятность попадания случайной величины на некоторый интервал. У нас же а не случайная величина, а интервал случаен, здесь корректно говорить о вероятности 
Вероятность 

Рассмотрим задачу нахождения доверительных границ 







Пусть теперь распределение случайной величины 
С увеличением объема выборки 

Практически во многих случаях выборочное 


В качестве примера рассмотрим задачу нахождения доверительного интервала математического ожидания, Пусть произведено 


Для этих параметров выберем оценки:

Необходимо построить доверительный интервал 


Интервальная оценка математического ожидания при известной дисперсии
Пусть СВ 





При этом 

Статистика (оценка) СВ

имеет распределение 




где 




Запишем это неравенство относительно 

Квантили стандартного нормального распределения определяются по таблицам, тогда окончательно получим:

Искомый доверительный интервал математического ожидания нормально распределенной СВ с известной дисперсией равен:

На рис. 9.1 представлена плотность распределения стандартного нормального распределения с отмеченными квантилями 
Интервальная оценка математического ожидания при неизвестной дисперсии
На практике почти всегда генеральная дисперсия 


с неизвестными параметрами 


Построение интервальной оценки основано на статистике:

Вспомним, что

и подставим в (9.11):

Числитель выражения (9.12), как было показано выше, имеет стандартное нормальное распределение 







Следует отметить, что распределение Стьюдента напоминает нормальное распределение, и при 
Число степеней свободы 


Так, например, для распределения 



Таким образом, по аналогии с (9.6) запишем:

Ha рис. 9,2 представлена плотность распределения Стьюдента с пятнадцатью степенями свободы.
Доверительный интервал математического ожидания нормально распределенной СB с неизвестной дисперсией равен:

Интервальная оценка выборочной дисперсии
Доверительный интервал для оценки дисперсии по выборочной дисперсии 

строится аналогичным образом.
Естественно, что в качестве математического ожидания и дисперсии гауссовой СВ мы возьмем их несмещенные и эффективные оценки:

Исходя из вышесказанного, запишем:

Это интервал, который с вероятностью 


то справедливо соотношение:

Здесь 




Как же решить эту задачу однозначно? Ведь сдвигая интервал влево или вправо соответствующим образом, можно для заданной доверительной вероятности найти бесконечное множество решений (интервалов).
Для обеспечения единообразия условились выбирать такие квантили (интервал), чтобы площадь под кривой, лежащая левее левой квантили, равнялась площади под кривой, расположенной правее правой квантили:

Тогда из (9.19), учитывая (9.20), получим соответствующие границы интервала:

Пример № 4
Дана выборка СВ 




Необходимо найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,97,
Решение:
В качестве несмещенных и эффективных оценок вычислим:

a) Вычислим доверительный интервал для математического ожидания, если дисперсия известна (полагаем, что 

Подставим значения квантилий в (9.9) и (9.10):


b) Вычислим доверительный интервал для математического ожидания, при неизвестной дисперсии. Воспользуемся таблицей распределения Стьюдснта с числом степеней свободы

Соответствующие квантили равны

Подставим полученные значения в (9.15) и (9.16):

c) Вычислим доверительный интервал для дисперсии. Воспользуемся таблицей распределения 

числом степеней свободы: (2,33; 20,5). Подставив полученные значения в (9.21), получим:

Статистические критерии
Прежде чем перейти к рассмотрению понятия статистической гипотезы, сформулируем так называемый принцип практической уверен-посты, лежащий в основе применения выводов и рекомендаций, полученных с помощью теории вероятностей и математической статистики.
Если вероятность события А в данном испытании очень мала, то при однократном испытании можно быть уверенным в том, что событие А не произойдет, и в практической деятельности вести себя так, как будто событие А вообще невозможно.
Вопрос о том, насколько малой должна быть вероятность а события А, чтобы его можно было считать практически невозможным, выходит за рамки математической теории и решается в каждом отдельном случае с учетом важности последствий, вытекающих из наступления события А. В ряде случаев можно пренебречь событиями, вероятность которых меньше 0,05, а в других, когда речь идет, например, о разрушении сооружений, гибели судна и т. п., нельзя пренебрегать событиями, которые могут появиться с вероятностью, равной 0,00К
Статистическим критерием (или просто критерием) называют случайную величину Кщ которая служит для проверки гипотезы.
Критерии значимости (критерии проверки гипотез, иногда просто тесты) — это простейшие, но наиболее широко используемые стати сти ч ее к и е средства.
Критерий значимости дает возможность статистику найти разумный ответ на вопрОС, подобный следующим;
• Сталь, произведенная разными методами, имеет неодинаковые пределы прочности. «Указывает ли это на то, что производимая разными методами сталь имеет различную прочность или же выявленное различие можно объяснить выборочными флуктуация ми?»
- «Превосходит ли по эффективности одно противогриппозное средство другое?»
- «Способствует ли отказ от курения снижению вероятности раковых заболеваний?»
- «Превосходит ли по воздействию одно удобрение другое приращивании овощей ? »
Проверка гипотез
Статистически называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.
Рассмотрим простейший вид статистической процедуры, называемой проверкой гипотез. Пусть дана некоторая оценка 


Однако, даже если истинное значение параметра 











Проиллюстрируем общий подход, предположив, что выборочное значение 





Вероятность использованная при испытании гипотез, называется уровнем значимости критерия.
Вероятность того, что 






Нулевой (основной) называют выдвинутую гипотезу 
примере 

Область значений 

Конкурирующей (альтернативной) называют гипотезу, которая противоречит нулевой.
В данном примере

Рассмотренный нами простой критерий испытания гипотез называется двусторонним критерием, так как, когда гипотеза неверна, значение может быть либо больше, либо меньше 
В ряде случаев достаточно бывает односторонних критериев (рис. 10.2). Например, пусть основная гипотеза

Тогда альтернативная гипотеза:

Следовательно, в критерии должна использоваться только нижняя (левая} граница определяемая по плотности вероятности 

Ошибки проверки гипотез
При проверке гипотезы возможны два типа ошибок.
- Во-первых, гипотеза может быть отклонена, хотя фактически она верна. Такая ошибка называется ошибкой первого рода.
- Во-вторых, гипотеза может быть принята, хотя фактически она неверна. Такая ошибка называется ошибкой второго рода.
Проиллюстрируем эти понятия графически (рис, 10.3).

Из рисунка видно, что ошибка первого рода происходит в том случае, когда при справедливости гипотезы 


Для определения вероятности ошибки второго рода предположим, к примеру, что истинный параметр равен либо

либо

(см. рис. 10.3), Если гипотеза состоит в том, что

тогда как на самом деле

то вероятность того, что 

равна 


Вероятность называется мощностью критерия Следует отмстить, что вероятности ошибок первого и второго рода вычисляются при разных предположениях о распределении (если верна гипотеза 






Именно такие соображения лежат в основе выбора нужного размера выборки в статистических экспериментах.
Пример № 5
Построение критерия проверки гипотез,
Предположим, что среднее значение СВ 

также предположим, что дисперсия известна и равна

Необходимо найти объем выборки, позволяющий построить критерий проверки гипотезы

с 5%-м уровнем значимости и 5%-й ошибкой второго рода для выявления 10%-х отклонений от гипотетического значения. Построим также область принятия гипотезы 
Решение:
Выборочное среднее 


где 


Если теперь истинное среднее значение равно

то с вероятностью 



или

для верхней и нижней границ (рис. 10,3);

Итак, справедливы следующие равенства:

Вспомним, что благодаря симметричности распределения 

Теперь из (10.4) с учетом (10.5) найдем требуемый объем выборки:

Для конкретных значений данного примера:


Подставим эти значения в (10.6) и получим значение необходимою объема выборки 


Математическая статистика основные определения и вычисления
Основные задачи математической статистики:
Математическая статистика — это раздел математики, который изучает методы обработки и классификации статистических данных для получения научно обоснованных выводов и принятия решений.
Примером статистических данных служит последовательность значений случайной величины, полученных в результате некоторого наблюдения, эксперимента (опыта). Так, последовательность чисел, которые получаются в результате неоднократного измерения некоторой величины, скажем, взвешивания некоторого тела на
аналитических весах, является простейшим примером статистических данных. Рассмотрим еще один пример. Электрическая лампочка считается стандартной, если она горит не менее 1400 часов. Каким образом определить, в какой степени партия лампочек, выпущенная заводом, соответствует установленному стандарту? Очевидно, что испытывать все лампочки бессмысленно. Поэтому выбирают случайным образом некоторое количество лампочек для испытания. Последовательность полученных данных о продолжительности горения отобранных лампочек представляет собой статистические данные, которые, будучи обработаны методами математической статистики, позволяют делать выводы о качестве данной партии продукции.
В связи с тем, что статистические данные зависят от случайных факторов, математическая статистика тесно связана с теорией вероятностей, которая является ее теоретической основой.
Как мы уже знаем, теория вероятностей устанавливает правила нахождения вероятностей более сложных событий (суммы, произведения событий) и вычисления различных числовых характеристик случайных величин (математического ожидания, дисперсии) по заданным вероятностям исходных событий. На практике же редко встречаются задачи, в которых вероятности
рассматриваемых событий были бы заранее известны. В таких случаях методами математической статистики можно получить сведения о случайной величине путем изучения небольшого набора наблюденных значений случайной величины, содержащего как можно больше нужных сведении о случайной величине.
Основные задачи математической статистики могут быть сформулированы следующим образом:
а) оценка неизвестных параметров случайной величины (вероятности случайного события, математического ожидания случайной величины, дисперсии, функции распределения);
б) статистическая проверка гипотез, т. е. проверка предположений, сделанных относительно некоторых случайных событий, случайных величин (о вероятности события, о законе распределения случайной величины и т. д. );
в) принятие решений (сюда относятся, в частности, задачи оптимального выбора момента настройки или замены действующей аппаратуры, например, определения срока замены двигателя самолета, отдельных деталей станков и т. д.).
В настоящее время математическая статистика продолжает бурно развиваться; при этом все больше расширяется круг ее задач и методов исследования с широким применением ЭВМ.
Так, разрабатываются статистические методы распознавания образов, определения характеристик элементов системы автоматического управления и т. д.
Математическая и прикладная статистика используется при планировании и организации производства, при анализе технологических процессов при предупредительном и приемочном контроле качества продукции и в других практических задачах.
Основные понятия математической статистики
Пусть требуется изучить множество значений случайной величины или совокупности объектов относительно некоторого признака. Например, требуется определить процент изделий, выпускаемых одним и тем же оператором, параметры которых отличаются от
номинальных.
Если число элементов в совокупности не очень большое, обследование объекта не связано с его уничтожением или не требует больших затрат, то можно исследовать каждый элемент в отдельности, фиксировать значение исследуемого признака и соответствующей обработкой результатов сделать тот или иной вывод о наблюдаемом или измеряемом признаке.
Если же совокупность состоит из очень большого числа объектов, или исследование связано с уничтожением объекта, или оно дорого стоит, то сплошное обследование невозможно. Невозможно, например,
исследовать на долговечность всю партию электрических
лампочек, так как в результате исследуемые лампочки сгорают и вся партия уничтожилась бы. В этих случаях выводы об исследуемом признаке делаются на основе изучения ограниченного числа
объектов, должным образом отобранных из общей совокупности. Основными понятиями математической статистики являются генеральная и выборочная совокупности.
Множество всех значений некоторой изучаемой величины или, другими словами, совокупность всех объектов, которая подлежит изучению, носит название генеральной совокупности, а специальным образом отобранная группа объектов — выборочной совокупности или выборки. Например, партия всех электрических
лампочек, которая подлежит изучению, является генеральной совокупностью, а множество лампочек, взятых для обследования, составляет выборочную совокупность.
Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности (выборки). Например, если цех выпустил 2000 деталей, а для обследования отобрано 150 деталей, то объем генеральной совокупности равен 2000 (N = 2000), а объем
выборки— 150 (п = 150).
Сейчас можно сказать, что основная задача математической статистики состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки.
Рассмотрим теперь основные виды выборок. Различают выборки с возвращением и без возвращения. Если после фиксирования значения параметра объект возвращается в генеральную совокупность и, таким образом, он может многократно повторяться в выборке, то говорят о выборке с возвращением или с повторением. Если же раз отобранный объект обратно не возвращается и он не может больше, чем один раз, повторяться в выборке, то такая выборка называется выборкой без возвращения или без повторения. Заметим, что когда объем выборки намного меньше объема генеральной
совокупности, то различие между выборкой с возвращением и без возвращения практически исчезает.
Говорят, что выборка репрезентативна (представительна), если она достаточно «хорошо» представляет изучаемые признаки генеральной совокупности.
Важным условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.
С целью обеспечения репрезентативности выборки в зависимости от конкретных условий применяются различные способы отбора: простой, типический, механический, серийный.
Простым называется отбор, при котором из генеральной совокупности случайным образом извлекается по одному элементу с возвращением или без возвращения. Например, для изучения белых медведей экспедиция ловит- случайным образом попавшихся ей белых медведей, измеряет исследуемые параметры и отпускает
на волю или сдает в зоопарк в зависимости от целей, которые стоят перед ней.
Типическим называется отбор, при котором объекты случайным образом отбираются из каждой «типической» части генеральной совокупности…
Например, если детали изготовляются разными цехами, то для обеспечения репрезентативности выборки отбор производится случайным образом с соблюдением пропорций из продукции каждого цеха. Типическим отбором пользуются тогда, когда исследуемый признак существенно колеблется в различных частях генеральной совокупности.
Механическим называется отбор, при котором объекты отбираются через определенный интервал, скажем, каждый пятый, двадцатый, сотый и т. д. Механическим отбором надо пользоваться осторожно.
Например, если резец заменяется после тридцати обработанных
деталей, то нельзя составлять выборку, отбирая каждую десятую или пятнадцатую детали. Отметим, что в таких случаях целесообразно, чтобы номер отбираемой детали и период ритма работы были взаимно простыми числами. Тогда в выборку попадут объекты со всех точек периода ритма.
Серийным называется отбор, при котором выборка состоит из целой серии объектов. Этим способом пользуются в тех случаях, когда исследуемый признак в генеральной совокупности колеблется незначительно.
Например, если квалификация всех рабочих цеха, качество технических средств и сырья существенно не изменяются в течение недели, то для проверки недельной продукции данного цеха можно провести сплошную проверку продукции одного дня.
На практике для обеспечения репрезентативности выборки пользуются сочетанием вышеуказанных способов отбора.
Если отбор объектов из генеральной совокупности и образование выборки невозможны непосредственным манипулированием самими объектами ввиду их громоздкости, труднодоступности или по другим причинам, то объектам генеральной совокупности присваиваются номера, которые записываются, например, на отдельных карточках, удобных для перемешивания и осуществления отбора. Путем случайного отбора карточек образуется выборка заданного объема, а впоследствии из генеральной совокупности отбираются те объекты номера которых совпадают с номерами карточек, попавших в выборку. Описанным способом поступают,
например, при составлении тиражей выигрышных билетов в денежно-вещевых лотереях, облигаций трехпроцентного займа и др.
В научных исследованиях для формирования выборок чаще всего пользуются так называемыми таблицами случайных чисел, которые могут быть получены при помощи случайного выбора карточек или
специальными алгоритмами на ЭВМ. Существуют таблицы случайных чисел четырехзначные, пятизначные и т. д. Если надо, например, образовать выборку объема n из генеральной совокупности объема N = 100 000, то берем пятизначную таблицу случайных чисел и выписываем любую группу из n последовательных ее чисел. Обследованию подвергаются те объекты генеральной совокупности, номера которых совпадают с выписанными числами из таблицы случайных чисел.
Выборочные ряды распределения
Группировка статистических данных. Определение
статистических (выборочных) распределений
Для установления закономерностей массовых случайных явлений изучаются статистические данные, т. е. сведения, полученные путем наблюдений или экспериментов о значениях интересующего нас признака. Примеры статистических данных были приведены в § 1. Рассмотрим здесь еще один пример. Экономист, интересующийся
тарифным разрядом рабочих некоторого подразделения завода, выбрал документы 100 рабочих и выписал из них последовательность разрядов 5, 1, 4, 5, 4, 3, 6 и т. д. Эта последовательность представляет собой статистические данные, которые подлежат обработке.
Изучение статистических данных обычно начинается с их группировки в порядке возрастания значения признака. Пусть в нашем примере после упорядочения по возрастанию статистических данных мы получили ряд из 100 чисел

где 1 повторяется 4 раза, 2 — 6 раз, 3—12 раз, 4 — 16 раз (для экономии места мы не выписали этот ряд полностью), 5 — 44 раза и 6— 18 раз.
Наблюдаемые значения рассматриваемого признака называются вариантами, а последовательность вариант, записанных в возрастающем порядке, называется выборочным или вариационным рядом.
Условимся обозначать через 




Пусть из генеральной совокупности отобрана выборка, в которой значение 




Числа 

Рассматривается еще накопленная или кумулятивная частота 



Определение:
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
В теории вероятностей изучается аналогичное понятие, именно закон распределения или просто распределение случайной величины. При этом под распределением случайной величины понимается соответствие между возможными значениями случайной величины и их вероятностями. Для дискретной случайной величины X, принимающей значения 


В первой строке этой таблицы указаны значения случайной величины, во второй соответствующие вероятности Аналогичным образом, статистическое распределение выборки можно записать в виде таблицы, в первой строке которой указываются значения вариант выборки, во второй строке — значения частот:

или значения относительных частот (которые легко вычисляются по известным частотам и объему выборки):

Так, статистическое распределение выборки рассмотренного выше примера, запишется в виде

или

Можно свести обе эти характеристики выборки в одну таблицу:
Таблица 6

Пример:
Дано статистическое распределение выборки

Найти относительные частоты, накопленные частоты накопленные относительные частоты.
Решение:
Вычислим объем выборки n = 3 + 10 + 7 = 20. Тогда

Пример:
Найти вариационный ряд, частоты, относительные частоты для выборки, полученной при измерении электрической емкости двадцати пластин пьезоэлементов в пикофарадах по следующим результатам:

Решение:
Вариационный ряд для данной выборки будет:

Здесь каждая варианта встречается по одному разу, следовательно, 


Теперь мы можем следующим образом уточнить понятие репрезентативности выборки: выборка является репрезентативной, если относительные частоты выборки близки к соответствующим относительным частотам генеральной совокупности (по всем вариантам генеральной совокупности).
Пример:
Исследовать репрезентативность выборки

для генеральной совокупности, заданной таблицей 6.
Решение:
Вычислим относительные частоты для нашей выборки (обозначим их через 

Из этих подсчетов делаем вывод, что данную выборку можно считать репрезентативной.
При большом числе наблюдений и большом числе
вариант, удобно варианты группировать по отдельным интервалам их значений. Для этого шкала интересующего нас признака разделяется на некоторое число интервалов, и вместо отдельных вариант рассматриваются группы значений вариант, попавших в последовательно расположенные интервалы. Число m таких интервалов, как правило, берется в пределах от 10 до 20. Ширина
интервалов 


в данный интервал.
Пример:
Для выборки примера 2 составить таблицу статистического распределения, по интервалам, беря число интервалов m = 10.
Решение:
Вычисляем ширину интервалов:

Следовательно, имеем интервалы (точнее, — промежутки):
[7,0; 7,5], ]7,5; 8,0], ]8,0; 8,5], ]8,5; 9,0], ]9,0; 9,5], ]9,5; 10,0], ]10,0; 10,5], ]10,5; 11,0], ]11,0; 11,5], ]11,5; 12,0]. Используя данные примера 2, получаем следующую таблицу статистического распределения
выборки по интервалам:

Геометрическая интерпретация статистических распределений выборки
Если на оси абсцисс прямоугольной системы координат расположить варианты 


полигоном частот.

Пример:
Построить полигон частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 148
Полигоном относительних частот называют ломаную, отрезки которой соединяют точки 






Следовательно, полигон частот будет представлять полигон относительных частот в системе координат, у которой масштаб на оси ординат увеличен в n раз.
Пример:
Построить полигон относительных частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 149.

Если статистическое распределение выборки задается в виде
последовательности интервалов значений вариант и их частот, то геометрическое изображение дается при помощи гистограммы
частот (очевидно, что в этом случае нельзя построить полигон частот).
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, построенных на частичных интервалах с длиной d и высотой, равной отношению 

Площадь i-го частичного прямоугольника равна 
Гистограммы относительных частот строятся аналогичным образом, только в качестве высот прямоугольников берется отношение 
Гистограмма относительных частот может быть получена из гистограммы частот сжатием вдоль оси ординат в n раз, или увеличением масштаба на оси ординат в n раз.
Легко видеть, что площадь гистограммы относительных частот равна единице.
Пример:
По данным изучения выработки на одного рабочего в отчетном году в процентах по отношению к предыдущему году было составлено интервальное статистическое распределение в виде таблицы 7 для выборки объема n = 117, извлеченной из всей
совокупности рабочих завода. Построить гистограмму статистического распределения данной выборки.
Таблица 7

Решение:
См. рис. 150.
Можно построить и график кумулятивной частоты или кумулятивной относительной частоты — кумулятивную кривую.
Пример:
Построить кумулятивную кривую частот для статистического распределения выборки, заданной таблицей 6.
Решение:
См. рис. 151.
Заметим, что кумулятивная кривая частот сыграничена сверху числом n, а кумулятивная кривая относительных частот ограничена сверху единицей.
Теоретико-вероятностные аналоги статистических распределений
Сопоставляя известные нам определения вероятности и данное выше определение относительной частоты выборки, легко заметить, что между ними имеется числовая связь. Однако следует подчеркнуть, что между этими двумя понятиями имеется и принципиальное различие. Это различие состоит в том, что вероятность события определяется до испытания, исходя из равновозможности элементарных событий, а относительная частота выборки — после испытания (отбора выборки). Обычно о равновозможности элементарных событий судят, исходя из. соображений симметрии, однородности и т. д., т. е. из теоретических соображений. Так, исходя из того, что игральная кость имеет форму куба, состоит из однородного материала, заключают, что вероятность появления какого-нибудь определенного числа очков, например 4, равна 1/6, причем такова же вероятность появления 1, 2, ».., 6 очков.

Определение же относительной частоты может быть получено только после того как испытания были фактически произведены. Так,
если при 100-кратном бросании игральной кости мы получили варианты

то относительные частоты будут
в то время как вероятность любого из указанных исходов равна 
будет близкой к его вероятности. На практике же случаи, в которых можно определить вероятность, исходя из теоретических соображений, встречаются весьма редко. Поэтому на практике, учитывая закон больших чисел, в качестве приближенного значения вероятности случайной величины принимают относительную частоту репрезентативной выборки.
В силу такой тесной связи между понятиями вероятности и относительной частоты имеет место много аналогий между основными понятиями и теоремами теории вероятностей и математической статистики.
В математической статистике большую роль играют понятия, аналогичные понятиям математического ожидания, дисперсии, среднего квадратичного отклонения, известные нам из теории вероятностей.
Сводные числовые характеристики выборки
Как мы уже говорили выше, одной из основных задач математической статистики является оценка параметров генеральной совокупности (случайной величины) при помощи соответствующих параметров выборки. Пусть дана случайная величина X, принимающая значения
Определение:
Выборочным средним 

называется «среднее взвешенное» значений признака выборки, т. е.

Если рассмотренная выборка является генеральной совокупностью объема N со статистическим распределением

то получаем генеральное среднее:

Вероятность 



Таким образом,

Генеральное среднее (а следовательно, и математическое ожидание случайной величины) может быть оценено при помощи выборочной средней той или иной выборки. Точность таких оценок зависит от степени репрезентативности данной выборки.
Пример:
Вычислить генеральное среднее для генеральной совокупности, заданной таблицей 6.
Решение:
Пример:
Оценить генеральное среднее генеральной совокупности примера 1 при помощи выборочного среднего выборки

Решение:

Следовательно, можно принять 

Пример:
По данным таблицы 7 оценить среднюю выработку на одного рабочего завода в отчетном году в процентах к предыдущему году (в качестве вариант берутся середины соответствующих интервалов).
Решение:
Оценим среднюю выработку при помощи выборочного среднего 

Определение:
Выборочной дисперсией 

Если варианты 
имеют частоты 

Если рассматриваемая выборка является генеральной совокупностью, то получаем генеральную дисперсию 

Тогда 
Вычислим дисперсию случайной величины X:

Множество значений случайной величины 



Таким образом.

Генеральная дисперсия генеральной совокупности (а следовательно, и дисперсия случайной величины) может быть оценена при помощи выборочной дисперсии той или иной выборки. Точность такой оценки зависит от степени репрезентативности данной выборки.
Напомним, что дисперсия является характеристикой рассеяния значений признака вокруг своего среднего значения.
Часто рассматривается еще величина которая называется средним квадратическим отклоненнием выборки.
Пример:
Вычислить генеральную дисперсию генеральной совокупности, заданной таблицей 6.
Решение:
Из примера 1 имеем 

Пример:
Оценить генеральную дисперсию генеральной совокупности, заданной таблицей 6, при помощи выборочной дисперсии выборки из примера 2.
Решение:
Из примера 2 имеем 
Тогда

Следовательно, можно принять 

Пример:
По данным таблицы 7 оценить дисперсию средней выработки на одного рабочего завода и среднее квадратическое отклонение.
Решение:
Из примера 3 имеем 

Отсюда

Понятие об аппроксимации распределений
Пусть дано статистическое распределение частот некоторой выборки объема n случайной величины X. Пусть 


простоты, обозначим ее через 

относительную накопленную частоту 






и назовем ее функцией распределения выборки. Поскольку значения функции 


Из теоремы Бернулли следует, что относительная частота события 




использована для приближенного представления теоретической функции распределения генеральной совокупности или соответствующей случайной величины.
Пример:
Построить эмпирическую функцию распределения по данному, распределению выборки:

Решение:
Вычислим объем выборки:

Наименьшая варианта 

Значение 



Значение 



Значение 



Наконец, так как 


Следовательно, искомая эмпирическая функция распределения дается формулой

График этой функции изображен на рис. 152
Таким образом, если дана генеральная совокупность (или случайная величина), закон распределения которой неизвестен, то извлекают репрезентативную выборку и вычисляют эмпирическую функцию распределения 
деление генеральной совокупности 


закона распределения. Многие Случайные величины, а следовательно, и генеральные совокупности, имеют нормальный закон распределения с функцией распределения

где параметры a и 


где а — математическое ожидание случайной величины, случайные величины с биномиальным законом распределения и др.
Допустим, что нам известен вид функции распределения генеральной совокупности, например, что генеральная совокупность имеет нормальное распределение, показательное распределение или какой-либо другой вид распределения. Рассмотрим некоторую выборку,
которая извлечена из данной генеральной совокупности.
Определяем по вариантам данной выборки значения параметров, входящих в формулу теоретической функции распределения. Заменяя найденные значения параметров в формулах функции распределения, получим конкретную функцию, которая является
аппроксимацией выборочных распределений теоретическими
распределениями. Таким образом, распределения конкретных выборок аппроксимируются теоретическими.
Совместные распределения случайных величин
1. Статистическая зависимость. Во многих случаях возникает необходимость совместного изучения двух или нескольких случайных величин. Две случайные величины могут быть независимыми, либо зависимыми, при этом зависимость может быть функциональной или статистической (во втором случае говорят еще — вероятностная, или стохастическая зависимость). В теории вероятностей и математической статистике изучаются статистические (стохастические) зависимости.
Зависимость между двумя случайными величинами называется статистической, если при изменении одной го величин изменяется закон распределения другой величины.
Пусть, например, Y — вес мужчин одного возраста, a X — их рост. Зависимость между Y и X не является функциональной, так как вес разных мужчин одного и того же роста различный, но изменение величины X ведет к изменению закона распределения величины Y — веса. Зависимость между Y и X является статистической.
Статистическая зависимость, у которой при изменении одной из величин изменяется среднее значение другой величины, называется корреляционной.
Пусть, например, Y — урожай участка, X — количество внесенных удобрений. Зависимость между Y и X не является функциональной, так как на равных участках земли при равном количестве удобрений снимают все же различный урожай. Это связано с тем, что урожай
зависит от многих случайных факторов. Тем не менее, опыт показывает, что средний урожай зависит от количества удобрений. Следовательно, случайные величины — урожай и количество внесенных удобрений — связаны корреляционной зависимостью.
Понятие о корреляции и регрессии
Рассмотрим две случайные величины Y и X. Допустим, что каждому значению X соответствует несколько значений Y, например при 

Среднее арифметическое значений величины Y при 


Как мы уже отметили, зависимость Y от X называется корреляционной зависимостью, если условная средняя 

Уравнение (1) называется уравнением регрессии Y на X; 
Аналогично определяется корреляционная зависимость X от Y, 
Различаются две основные задачи теории корреляции. Первая — установить вид функции регрессии (1) (линейная, квадратическая, показательная и т. д.). Вторая — определить величину рассеяния значений Y вокруг условного среднего 
зависимости Y от X.
3. Выборочное уравнение. Пусть X и Y — две случайные величины, связанные корреляционной зависимостью. Для отыскания уравнения этой зависимости проведено n независимых испытаний; в результате
получены n пар чисел:

Множество пар (2) является случайной выборкой из генеральной совокупности всех возможных пар (x; у) значений величин X и Y. Распределение выборки (2) называется выборочным распределением пары случайных величин X и Y. В связи с этим уравнение (1),
определенное по данным выборки (2), называется выборочным уравнением регрессии Y на X.
Нахождение уравнений выборочной регрессии методом наименьших квадратов
Будем искать выборочное уравнение регрессии

по выборке

в виде линейного уравнения — одного из самых распространенных случаев. При этом будем считать, что в данной выборке каждому значению x признака X соответствует единственное значение у признака Y. Тогда 
значения величины Y для каждого значения X.
Рассмотрим линейную функцию

и поставим задачу определить параметры 

коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X и обозначается через 
Таким образом, выборочное уравнение прямой линии регрессии Y на X будем искать в виде

Если 






или

была минимальной.
Для отыскания минимума приравняем нулю соответствующие частные производные

Отсюда находим:

Умножая уравнение (5) на n и (6) на — 

Сложив полученные уравнения, имеем

Отсюда

Аналогично находим

Пример:
Найти выборочное уравнение прямой линии регрессии Y на X по данным n = 5 наблюдений:

Решение:
Составим расчетную таблицу дли вычисления 

Математическая статистика — решение заданий и задач по всем темам с вычислением
Статистический материал и его обработка
1°. Результаты наблюдений массовых явлений, случайных величин составляют статистические данные, или статистический материал. Выборкой объема n называется совокупность n случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).
Выборочный метод состоит в том, что на основании изучения некоторого количественного признака X у некоторой части статистической совокупности (выборки), полученной в результате случайного отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).
Результаты наблюдений выборки объема n записываются, в частности, в виде статистической совокупности:
i: 1, 2, …. n — номера наблюдений, измерений, 

2°. Расположим значения 









Число 



Имеем

Последовательность 
Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины X, — ломаная с вершинами
Вариационный ряд обозрим при небольших значениях 
3°. Все варианты принадлежат отрезку (см. п. 2°). Пусть к некоторое (не больше 20) натуральное число. Отрезок [а; b] разобьем на к равных частей длины h =(b — a)/k. Обозначим эти промежутки следующим образом:
Через 








Три последние строки этой таблицы составляют вариационный ряд, которым можно заменить вариационный ряд предыдущего пункта (в случае, если число его вариант велико). В качестве новых вариант можно принять середины интервалов.
Геометрическим изображением интервальной обработки служит гистограмма. Гистограммой частот называется множество прямоугольников с основаниями 

Нормированной гистограммой называется множество прямоугольников с основаниями 

4°. Эмпирической функцией распределения выборки объема n называется функция F(x), определяющая для каждого х относительную частоту события X < х:


Функция F(x) обладает свойствами (здесь 

1)
2) F(x) = 0 при x < a, F(x) = 1 при x > b.
3) F(x) — монотонно неубывающая, непрерывная слева функция.
Пример обработки статистического материала.
Признак X — объем товарооборота (в млн. руб.) группы обследованных магазинов в течение месяца. Результаты обследования 50 магазинов следующие: 32, 17, 22, 15, 22, 17, 20, 26, 27, 32, 17, 32, 17, 22, 15, 26, 17, 22, 15, 20, 26, 32, 22, 32, 37, 22, 15, 20, 27, 26, 32, 37, 22, 20, 27, 32, 37, 22, 32, 37, 26, 32, 17, 32, 22, 15, 20, 26, 22; 32.
1) Вариационный ряд имеет вид:

2) Полигон распределения (рис. 8.1):

3) Для удобства интервальной обработки расширим интервал, на котором расположены варианты х. Положим а = 14, b = 38 и разобьем интервал (14,38) на к = 4 равных интервала. Часть совпадающих значений 

Гистограмма частот (рис. 8.2) — набор внешних прямоугольников. Нормированная гистограмма — нижняя, внутренняя.
4) Эмпирическая функция распределения и ее график (рис. 8.3):
Числовые характеристики законов распределения эмпирических величин
1°. Одна из задач математической статистики состоит в установлении закона распределения случайной величины X (генеральной совокупности) и оценке параметров этого закона.
Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из имеющейся выборки.
Например, для нормального закона нужно определить математическое ожидание а и среднее квадратическое отклонение 
2°. Обозначим через 

1) несмещенности — математическое ожидание оценки параметра должно совпадать с самим параметром;
2) эффективности — при данном объеме выборки оценка должна иметь наименьшую дисперсию;
3) состоятельности — предел по вероятности при 


3°. Оценка называется точечной, если она определяется лишь одним числом, и интервальной, если она определяется двумя числами — концами интервала.
Число 



Интервал 

4°. Выборочной средней 

Выборочная средняя служит несмещенной оценкой математического ожидания признака X или генеральной совокупности.
5°. Выборочная дисперсия — среднее арифметическое квадратов отклонений наблюденных значений 



S — несмещенная дисперсия.
6°. Мода выборки — варианта 

7°. Начальные эмпирические моменты Мk (к = 1,2,3,4) и центральные эмпирические моменты 
8°. Варианты 
Для упрощения вычислений начальных моментов равноотстоящих вариант удобно переходить к так называемым условным, или центрированным вариантам: 

Центральные моменты первых четырех порядков равноотстоящей выборки 

Асимметрия выборки: 
В вычислениях можно указать индексом варианту, для которой вычисляются соответствующие моменты (например, 
9°. Предположим, что признак X генеральной совокупности распределен нормально со средним квадратическим отклонением 



Значение t следует найти в табл. 1 приложения по значению функции
Доверительный интервал с надежностью а для оценки среднего квадратического отклонения сто нормального распределения по несмещенной оценке S определяется из неравенства:

где 


10°. Если признак X распределен по биномиальному закону с относительной частотой 


Задачи с решениями
Задача:
Дан статистический ряд — число дней в году, пропущенных по болезни сотрудниками лаборатории.

Определить среднее число дней на одного человека, пропущенных по болезни, и разброс этого числа около среднего.
Решение:
Определим среднее выборки объема n = 30 (k = 7) по формуле (1):
Дисперсию и среднее квадратическое отклонение вычислим по формуле (2):
Имеем
Округляя до целых, получаем, что среднее число (математическое ожидание) пропусков в году на одного человека составляет 4 дня, разброс 3 дня.
Задача:
Выборка, приведенная в следующей таблице, соответствует времени обслуживания (в минутах) покупателя магазина:
Привести прогноз времени обслуживания магазином и среднее квадратическое отклонение этого времени. Найти моду вариационного ряда.
Решение:
От интервальной таблицы переходим к вариационному ряду, заменяя интервал времени центром этого интервала:

Мода — варианта с максимальной частотой;
Числа вариационного ряда не удобны для вычислений, т.к. они большие, поэтому переходим к условным вариантам с новым центром с = 48 и шагом (разностью) h = 4. Положим
Вычислим выборочное среднее и дисперсию для новой варианты. Для удобства приводим таблицу с промежуточными вычислениями.

При помощи сумм в последней строке таблицы вычислим:

Обратный переход к вариантам х осуществляется по формулам, которые следуют из формул п. 8°:

Получаем:

Прогноз обслуживания: 

Задача:
Случайная величина X — число семян сорняков в пробе зерна, распределена по закону Пуассона. В таблице

приведено распределение числа семян сорняков в n = 1000 пробах зерна. В первой строке — количество 

Решение:
Закон Пуассона имеет вид 


Вычисляем 
Ответ.

Задача:
Время работы элемента радиоустройства подчиняется закону
В таблице

приведено эмпирическое распределение среднего времени работы
n = 200 элементов: 


Решение:
Как известно, для показательного закона математическое ожидание М(Х) равно 


Следовательно,
Ответ
Задача:
Дан вариационный ряд признака X:

Найти начальные и центральные моменты первых четырех порядков признака X, а также определить асимметрию и эксцесс.
Решение:
Вычисления проводим по формулам п. 7° для 

Задача:
По данным выборочного обследования 7, 3, 0, 7, 2, 1, 2, 4, 5, 3 определить несмещенную выборочную дисперсию и среднее квадратическое отклонение.
Решение:
Составим сначала вариационный ряд:

Вычислим выборочное среднее
Вычислим теперь выборочную дисперсию
Несмещенная оценка дисперсии имеет вид
Несмещенное среднее квадратическое отклонение:
Задача:
Найти с надежностью 0,99 доверительный интервал для оценки неизвестного математического ожидания нормально распределенного признака X генеральной совокупности, если


Решение:
Согласно п. 9° доверительным интервалом неизвестного математического ожидания является интервал 

Определим сначала t из равенства 2Ф(t) = 0,99, т.е Ф(t) = 0,495. Из табл. 1 приложения находим
Далее, 
Ответ. 19,21 < а < 21,79.
Задача:
Найти доверительный интервал для оценки с надежностью 0,99 неизвестной вероятности р биномиального закона распределения, если в 400 испытаниях событие наступило 140 раз.
Решение:
Согласно п. 10° искомый доверительный интервал имеет вид:
Находим также
Наконец,
Ответ.
Задача:
Из текущей продукции токарного автомата был произведен выбор 250 валов. Результаты измерений отклонения диаметра валов от номинала приведены в таблице:
Требуется:
1) найти оценки математического ожидания, дисперсии и среднего квадратического отклонения случайной величины X — отклонения диаметра вала от номинала;
2) определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения случайной величины X. Предполагается, что случайная величина X имеет нормальное распределение. Доверительную вероятность принять равной 0,95.
Решение:
1) Составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:
В третьей строке таблицы записаны произведения
Последний столбец содержит суммы чисел соответствующих строк. Таким образом,

2) Согласно п.9°
Из равенства Ф(t) =
t = 1,96.
Далее,
3) Доверительный интервал для оценки 
где 


Имеем
При 
t(0,95; 250) = 0,089.
Следовательно,
Значит,
Построение теоретического закона распределения и его согласование с эмпирическими данными
1°. Предположим, что выборка объема n из генеральной совокупности значений случайной величины X задана в виде вариационного ряда. Требуется определить вид теоретического закона распределения СВ X и установить, насколько этот закон согласуется с данной выборкой.
Вид теоретического закона выбирается интуитивно, исходя из вида эмпирического полигона, а его параметры вычисляются по методике, изложенной ранее, в предыдущих параграфах.
2°. Согласование теоретического закона с эмпирическими данными произведем на основании критерия Пирсона «хи квадрат», который заключается в оценке вероятности величины

где 
Если вероятность 

Мы будем пользоваться табл. 3 приложения. В ней приводятся критические значения 
Наиболее употребительными уровнями значимости являются:

Значение 

Если 

Проверка гипотезы о нормальном распределении генеральной совокупности
Предположим, что выборка случайной величины X задана в виде вариационного ряда с равноотстоящими вариантами.
Правило. Для того, чтобы при данном уровне значимости проверить гипотезу о нормальном распределении генеральной совокупности, необходимо:
1) вычислить
2) вычислить теоретические частоты 

(значения даны в табл. 2 приложения);
3) вычислить значение
4) в табл. 3 приложения найти значение по уровню значимости а и числу степеней свободы r = k — 3 (k — число групп выборки);
5) сравнить 


Примечание. Малочисленные интервалы 
Задачи с решениями
Задача:
Построить теоретический закон распределения генеральной совокупности СВ Х, заданной в виде выборки объема
n = 100 вариант при помощи вариационного ряда

Используя критерий Пирсона при уровне значимости 
Решение:
Первую рабочую таблицу (с. 349) используем для вычисления эмпирических начальных и центральных моментов данного вариационного ряда. Для этого переходим к центрированным вариантам 

При помощи таблицы находим последовательно:
При помощи 


Построим эмпирический полигон (рис. 8.4) и, исходя из его внешнего вида, выдвигаем гипотезу: генеральная совокупность распределена по нормальному закону с параметрами

Для проверки этой гипотезы воспользуемся новой рабочей таблицей (с. 350), в которой




Из таблицы находим 

Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается. График теоретической функции плотности изображен на рис. 8.4 пунктиром. Сравнивая теоретический и эмпирический графики, видим, что эмпирический полигон скошен вправо (что соответствует As = 0,13) и «слегка низковершинный» (что согласуется с Еk = — 0,71).
Задача:
Дан вариационный ряд случайной величины X с n = 150 вариантами:

Построить теоретический закон распределения СВ X. Используя критерий Пирсона при уровне значимости 
Решение:
Сначала объединим малочисленные варианты, переходя к новому вариационому ряду с k = 10 различными вариантами и объемом выборки n = 150 Новый вариационный ряд имеет вид:

Построив полигон этого вариационного ряда (рис 8.5), замечаем, что он напоминает график нормального распределения, поэтому можно выдвинуть гипотезу о нормальном распределении данной СВ X. Параметры 



Из таблицы получаем выборочное средние и среднее квадратическое отклонение СВ и


Соответствующие параметры для СВ X находим по формулам перехода


Тем самым теоретический закон имеет вид (принимаем 

выпишем теоретические частоты, отклонения теоретических и эмпирических частот и определим

Положим 


В таблице критических точек распределения 


Гипотеза о том, что данное распределение нормально, отвергается при уровне значимости 
Таким образом, уровень значимости представляет собой уровень точности (близости) полученного закона к стандартному, каноническому.
Анализ экспериментальных данных позволяет найти причину того, что полученный закон не является нормальным в каноническом смысле. Этому мешает частота 
Задача:
Используя критерий Пирсона при уровне значимости 0,05, проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200:

Решение:
Рекомендуем построить самостоятельно эмпирический полигон и сделать предположение о виде теоретического закона.
Непосредственные вычисления параметров нормального распределения дают следующие результаты:
Дальнейшие вычисления поместим в расчетную таблицу. Отметим только, что
(результаты для 

Последнее число 24,045 и есть 


Гипотеза о нормальном распределении генеральной совокупности признака X отвергается, т.к
Проверка гипотезы о распределении генеральной совокупности по биномиальному закону
1°. Произведены п опытов. Каждый опыт состоит из N независимых испытаний, в каждом из которых вероятность события А равна
р = р(А). Регистрируется число наступлений события А в каждом опыте.
Для случайной величины X — числа появлений события А в одном опыте — получена таблица

Требуется, используя критерий Пирсона, проверить гипотезу о распределении X по биномиальному закону.
2°. Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что дискретная случайная величина X распределена по биномиальному закону, необходимо (q = 1 — р):
1) вычислить вероятности 
2) вычислить теоретические частоты
3) сравнить эмпирические и теоретические частоты по критерию Пирсона при уровне значимости 

( 

Задачи с решениями
Задача:
Произведены n = 100 опытов. Каждый опыт состоит из 10 испытаний. Вероятность появления события А в каждом испытании равна р = 0,3. В результате регистрации опытов получено эмпирическое распределение (



Требуется установить при уровне значимости 0,05, согласуется ли с этими данными гипотеза о том, что СВ X — число появлений А — распределена по биномиальному закону.
Решение:
Построим полигон распределения (рис. 8.6). Применим правило п. 2°.
2) Вычислим теперь теоретические
В табл. 3 приложения по уровню значимости 
Ответ. Гипотеза верна.
Задача:
Отдел технического контроля проверил n=100 партий по N = 10 изделий в каждой партии, и в результате этого получена таблица распределений случайной величины X — числа нестандартных изделий в одной партии:

Требуется при уровне значимости 
Решение:
Вероятность р = р(А) вычисляем по выборке:
р = 0,4. В табл. 3 приложения находим 


Ответ. Гипотеза верна.
Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
Правило. Для того, чтобы при уровне значимости а проверить гипотезу о том, что СВ X распределена по закону Пуассона, необходимо:
1) вычислить параметр
2) вычислить 
3) вычислить теоретические частоты
4) применить критерий Пирсона при данном 
Задача с решением
Задача:
Отдел технического контроля проверил n = 200 партий одинаковых изделий и получил следующее эмпирическое распределение количества нестандартных изделий:

Требуется при уровне значимости 
Решение:
Построим полигон распределения (рис. 8.7).
Закон Пуассона имеет вид:

Применим правило (см. выше).
1) Имеем
Принимаем
2) Вычислим вероятности
Находим: р(0) = 0,549; р(1) = 0,329; р(2) = 0,098; р(3) = 0,019; р(4) = 0,003.
3) Вычислим (округляя до целого числа) теоретические частоты

4) Вычислим теперь 


В табл. 3 приложения при 

Проверка гипотезы о распределении генеральной совокупности по показательному закону
Правило. Для того, чтобы при уровне значимости 
1) вычислить 
2) найти вероятности попадания X в частичные интервалы:

3) вычислить теоретические частоты
4) применить критерий Пирсона при данном 
Задача с решением
Задача:
Дано интервальное распределение:

Требуется при уровне значимости 
Решение:
1) Эмпирическое выборочное среднее 
Принимаем
Таким образом, плотность показательной функции распределения имеет вид:
2) Вычислим

Получаем:

Аналогично,
3) Вычислим теоретические частоты
4) Применим критерий Пирсона (частоты 4 + 2 + 1 объединим в одну; соответствующая теоретическая частота равна 6,3 + 2,3 + 0,8 = 9,4).
Получаем

После объединения трех интервалов число степеней свободы стало
r = 4 — 2 = 2. Из табл. 3 приложения берем
Ответ. Гипотеза подтверждается.
Линейная корреляция случайных величин
1°. Корреляционная зависимость между случайными величинами (признаками) X и У обычно задается с помощью корреляционной таблицы:

Здесь

— середины интервалов или признаков X и Y, a 

2°. Заданная таблицей корреляционная зависимость между признаками X и У может быть заменена функциональной зависимостью, если каждому значению 

— среднее значение Y.
Если теперь точки 
то последняя называется линией регрессии У на X, а ее уравнение — уравнением регрессии Y на X. Аналогично определяется линия регрессии X на У.
Наиболее простыми и важными случаями линий регрессии являются прямые линии.
3°. Если обе линии регрессии У на X и X на У — прямые линии, то величины У и X называют линейно коррелированными.
4°. Выборочное уравнение прямой линии регрессии У на X имеет вид:

где 



5°. Аналогичный вид имеет выборочное уравнение прямой линии регрессии X на Y:

6°. Величину 
г) называют остаточной дисперсией величины X относительно У. При 
7°. При необходимости, для облегчения вычислений, целесообразно переходить к условным (центрированным) вариантам: 


Величины 
Наконец,

Задача с решением
Задача:
Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице, вычислить остаточную дисперсию:

Решение:
Берем


Построим корреляционную таблицу для U, V:

Вычисления:

Однофакторный дисперсионный анализ
Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак.
Например, если измерения некоторой величины производятся на к различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений, т.е. ответить на вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (проверяется гипотеза о равенстве средних). ‘
Предположим, что на количественный признак X, распределенный нормально, воздействует фактор F, который имеет р уровней 

номер испытания, j = 1,2, …, р — номер уровня фактора 
Требуется: при условии значимости а проверить гипотезу о равенстве групповых средних при условии, что групповые генеральные дисперсии одинаковы, хотя они и неизвестны.
Эта задача решается по следующей схеме.
1) Вычислить общую среднюю

2) Вычислить сумму квадратов отклонений групповых средних от общей средней

Имеет место формула:

3) Вычислить факторную сумму квадратов отклонений групповых средних от общей средней (рассеяние между группами)

Имеет место формула:

4) Вычислить остаточную сумму квадратов отклонений значений группы от своей групповой средней (рассеяние внутри групп)

5) Вычислить факторную и остаточную дисперсии

и величину

6) Величина 

используя табл. 4 приложения:
если 
если 
Примечания. 1 Если 
2.Если 


Задачи с решениями
Задача:
Произведено по 4 испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями:

Решение:
Поскольку данные варианты являются дробными числами, то для упрощения вычислений переходим к новым, целым и центрированным вариантам, полагая

(общее среднее арифметическое значений 

А теперь реализуем схему, описанную выше.

6) В табл.4 приложения находим
Неравенство 
Задача:
В трех филиалах одного банка были организованы три уровня различных услуг для клиентов. После этого в течение шести месяцев измерялись объемы вкладов X (тыс. руб.). Методом

дисперсионного анализа проверить нулевую гипотезу о существенном влиянии организации услуг на объем вкладов при уровне значимости 0,05. Данные измерений приведены в таблице
(с. 367).
Решение:
Имеем р = 3, q = 6, значения вариант — целые числа.
1) Находим групповые и общие средние:
2) Для расчета 

Вычислим 
3) Вычислим 
4) Факторная, остаточная дисперсии и 

5) В табл. 4 приложения находим
Неравенство 
Обработка результатов измерений (анализ данных)
Основные определения:
Научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, систематизации и обработки данных с целью их интерпретации и получения выводов, называется анализом данных.
Пусть проводится некоторый опыт (рассматривается некоторое явление). Все возможные результаты опыта образуют так называемую генеральную совокупность. Если в данной серии опытов получено несколько результатов, то эта совокупность данных называется выборкой. Количество объектов в генеральной совокупности или в выборке называется ее объемом. Свойства и характеристики генеральной совокупности обычно не известны. Необходимо, исследуя данные выборки, как можно точнее оценить свойства и характеристики генеральной совокупности. Решение такого рода задач — предмет рассмотрения дисциплины, называемой математической статистикой. Отметим, что она применима только к массовым явлениям, имеющим вероятностную природу.
При составлении выборки используют разные методы отбора. Прежде всего, отбор может быть повторным, при котором выбранный объект возвращается в генеральную совокупность, и бесповторным, при котором объект не возвращается. Кроме того, отбор может проводиться с расчленением генеральной совокупности на части и без такого расчленения,. При раз-
бивании генеральной совокупности на части используют:
■ типический отбор, при котором объекты выбираются из каждой типической части генеральной совокупности; •
■ механический отбор, при котором генеральная совокупность формально делится на столько групп, сколько элементов в выборке и из каждой группы берут один элемент;
■ серийный отбор, при котором объекты выбираются сериями.
Если генеральная совокупность не разбивается на части, то используют простой случайный бесповторный отбор и простой случайный повторный отбор, при которых элементы выбираются из всей совокупности.
При любых способах отбора необходимо, чтобы выборка правильно отражала пропорции генеральной совокупности, т. е. выборка должна быть репрезентативной. Выборка будет репрезентативной, если ее осуществлять случайно. Если объем выборки велик, то разность между повторной и бесповторной выборкой стираются.
Существует множество ситуаций, когда полученные данные, даже если их и много, характеризуют не все, а только некоторые объекты, т. е. нарушено требование репрезентативности. В таких случаях мы не вправе распространять результаты обработки данных на другие (не рассмотренные) объекты. Например, проведено обследование приморских городов страны. Полученные характеристики будут справедливы только для этих городов и не могут быть в полной мере распространены на города, расположенные в глубинных районах. Другой пример: проведено исследование населения городов с числом жителей более миллиона. Полученные данные нельзя использовать для прогнозирования ситуации в населенных пунктах с другой численностью населения. Или, в 12 часов дня проведен опрос населения по домашним телефонам, хотя в это время основная масса трудоспособного населения не находится дома. Данные опроса нельзя распространить на всех жителей города.
Другой пример: рассматриваются произведения поэтов «серебряного века». Цель рассмотрения — выявление групп поэтов,
близких по стилю построения стихов, их размеру, тематической направленности и т.д. Полученные при этом результаты будут справедливы только для рассматриваемой группы поэтов (только для данной выборки). Надо понимать, что данные такого типа имеют другую, не вероятностную природу. Отличительной особенностью таких данных является то, что они уникальны и многократное повторение анализа (опытов) не принесет существенно новой информации. Анализу данных, имеющих не вероятностную природу, посвящены методы кластерного анализа, распознавания образов и т.п. Но, тем не менее, и для анализа данных, имеющих не вероятностную природу, широко применяются методы статистической обработки наблюдений.
Элементы математической статистики
Основной целью применения аппарата математической статистики является определение ряда числовых характеристик случайной величины, например, математического ожидания и дисперсии или ее закона распределения в целом с тем, чтобы иметь возможность при решении прикладных задач применять аппарат теории вероятностей.
Поскольку рассматривается только выборка (а не генеральная совокупность), при решении задач математической статистики всегда присутствует элемент случайности, и результаты получаются лишь с некоторой степенью уверенности.
Существуют три основные задачи математической статистики:
• Определение вида закона распределения исследуемой случайной величины (задача сглаживания экспериментальных зависимостей).
• Определение неизвестных параметров распределения.
• Проверка правдоподобия гипотез.
Первичная обработка данных
Решение любой задачи математической статистики предваряет первичная обработка наблюдений. Пусть в результате проведения в одинаковых условиях независимых опытов получено n значения исследуемой случай-
ной величины X. Расположенные в виде таблицы полученные данные,

где 



Если получено большое число данных, а в статистике оперируют, как правило, сотнями и тысячами значений, то их преобразуют в так называемый статистический ряд. Для этого весь диапазон полученных значений случайной величины X разбивают на разряды (подинтервалы). Для удобства обычно вводят 



Графическое изображение статистического ряда называется гистограммой, (см. рис. 4.6 а). Данные статистического ряда можно использовать для построения статистической функции распределения
График этой функции, изображенной на рис. 4.6 б, всегда представляет собой характерную ступенчатую функцию. Полученные в результате первичной обработки данные используются для решения задач математической статистики.
Пример:
Изготавливается тираж книги, один из размеров которой должен быть равен 20 см. Выбрано и измерено 100 готовых экземпляров. Результаты измерений сведены в таблицу, где 


Построить статистический ряд, гистограмму и статистическую функцию распределения.
Решение:
Из анализа данных таблицы можно сделать вывод о том, что целесообразно разбить интервал наблюденных отклонений на семь разрядов и построить следующий статистический ряд
Гистограмма, построенная на основе этого статистического ряда, представлена на рис. 4.7.

Статистическая функция распределения данной выборки имеет следующий вид:

Определение неизвестных параметров закона распределения
Полученные характеристики являются лишь статистическими аналогами параметров исследуемой случайной величины, и им в большей или меньшей мере присущи черты случайности. Так, гистограмма дает наглядное представление о том, как часто случайная величина в проведенных опытах принимала значения из соответствующего разряда. Очевидно, что при увеличении числа опытов и увеличении числа разрядов, гистограмма для непрерывной случайной величины X будет приближаться к кривой плотности вероятности этой случайной величины. Аналогично, статистическая функция при увеличении числа проведенных опытов и разрядов приближается к универсальному закону — функции распределения.
Задача заключается в подборе математической модели — закона распределения исследуемой случайной величины X. При этом модель должна в некотором смысле слова наилучшим образом описывать свойства этой величины и отражать лишь существенные стороны ее распределения. Сложность задачи заключается в том, чтобы найти сглаживающую кривую только на основании имеющегося экспериментального материала. Формально эта задача является неопределенной, поскольку слова «наилучшим образом» могут пониматься по-разному. На
практике класс сглаживаемых функции получают на основании априорных сведений о характере исследуемой величины X. Так, если речь идет об измерениях, то сглаживающая кривая для гистограммы, как правило, есть кривая нормального закона распределения, если речь идет о времени телефонного разговора, то это кривая экспоненциального закона распределения и т.п. При большом объеме экспериментальных данных и значительном числе разрядов форма гистограммы и статистической функции распределения могут служить основанием для выбора типа сглаживающей функции.
Высказанная гипотеза о виде сглаживающей кривой еще не дает возможности применять количественные методы теории вероятностей. Так, например, если установлено, что X имеет нормальный закон распределения
то для нахождения вероятности попадания в интервал (а,b) необходимо знать математическое ожидание ш и среднеквадра-тическое отклонение 
Для математического ожидания статистическим аналогом является среднее арифметическое (среднее выборочное)
где 

Для дисперсии — статистическая дисперсия (выборочная дисперсия)
Отсюда находится, статистическое среднеквадратическое отклонение
Для разобранного ранее примера можно выдвинуть гипотезу о том, что распределение размера книги подчинено нормальному закону. Параметры этого закона при помощи метода моментов можно определить, используя данные ряда распределения:
Теперь можно сказать, что средний размер выпускаемых книг равен приблизительно 20,72 см и разброс размеров в обе стороны (по правилу «три сигма») практически не превысит 0,27 см.
Проверка правдоподобия гипотез
Предположим, что сформулирована гипотеза Н о законе распределения исследуемой случайной величиной X (ее будем называть теоретическим распределением). Требуется проверить, не противоречит ли эта выдвинутая гипотеза имеющимся выборочным данным.
Чтобы иметь основания принять или опровергнуть гипотезу, необходимо выработать некоторый критерий, позволяющий делать корректные выводы. В математической статистике при проверке гипотез выбрать критерий — значит задать некоторое критическое значение вероятности ошибочного отклонения проверяемой гипотезы. Эта вероятность называется уровнем значимости и обозначается 



из ста случаев мы (в среднем) только один раз отбросим верную гипотезу.
Основная идея проверки гипотез заключается в следующем Выбирается уровень значимости 


Для проверки гипотезы о законе распределения исследуемой случайной величины применяют различные критерии. Чаще других применяется критерий согласия Пирсона. Здесь в качестве меры рассогласования U выбирается величина (обозначаемая 

где 

Вычисленная по такой формуле величина рассогласования (называемая «хи-квадрат») является хорошо изученной случайной величиной, для распределения которой построены таблицы.
Схема применения критерия согласия 
1.По формуле (4.36) вычисляется мера рассогласования 
2.Вычисляется число степеней свободы
где k — число разрядов, на которое разбит диапазон наблюденных значений величины X; s — число параметров теоретического закона распределения, которые определены по выбор-
ке. Например, для гипотезы о нормальном законе: если известно среднее значение х известно, то 

3.По таблице распределения «хи-квадрат» для найденных 


Для примера проверим гипотезу о том, что размеры книги имеют нормальное распределение. Используя формулы приведенной функции Лапласа для интервалов, выбранных при формировании гистограммы, представленной на рис. 4.7, и найденных ранее 





Методы анализа статистических зависимостей
Рассмотренные выше методы позволяют определять статистические характеристики результатов опыта: Однако важным является нахождение и анализ статистических зависимостей между наблюдаемыми результирующими величинами й факторами, их вызывающими.
Основные задачи анализа статистических зависимостей
Наблюдаемая результирующая величина y может зависеть от нескольких характеризующих ее величин (факторов)


Схема А — зависимость между неслучайными параметрами. Здесь связь у с факторами детерминированная, и задача состоит в том, чтобы восстановить по значениям факторов значения результирующих величин, т.е. установить вид функции f:
Схема В — регрессионная зависимость. Зависимость случайного результирующего показателя 

Данная схема реализуется в том случае, если у связана со случайными обстоятельствами регистрации или с наличием неучтенных случайных факторов. Предполагается, что случайный компонент 
1.Его математическое ожидание равно нулю
2.Его дисперсия конечна
Схема С — корреляционная зависимость. Зависимость случайного результирующего показателя 


Существует и целый ряд других зависимостей. Выбор схемы исследуемых зависимостей в первую очередь определяется сущностью решаемой задачи, ее смысловой направленности и глубиной рассмотрения вопроса. Приведем ряд примеров. Классический пример схемы А — установление зависимости между возрастом дерева (у) и числом колец х на срезе его ствола. Сейчас всем, наверное, известно, что в данном случае
Если рассматривается вопрос о числе гласных букв (у) в словах с различным количеством букв 
ми частями речи 
Методы исследования зависимостей функций вида
которые описывают поведение условных средних результирующего показателя 

Можно рассматривать качественные и количественные факторы. Если свойство объекта рассмотрения не выражается числовым показателем, то это качественный показатель. Например: квалификация наблюдателя, социальное положение опрашиваемого, материал, из которого изготовлено изделие — качественные факторы, но температура воздуха, скорость автомобиля, этажность зданий — количественные факторы.
Некоторые факторы в зависимости от точки зрения исследователя можно рассматривать и как качественные, и как количественные. Примером может явиться возраст людей. Если результат наблюдения рассматривается как функция от возраста людей, то возраст выступает как количественный фактор. Однако результаты наблюдения можно рассматривать для различных возрастных групп населения (дети, молодежь, пенсионеры и т.д.). Здесь возраст — качественный фактор.
Анализ статистических зависимостей проводится в рамках тех или иных теорий. Так, если все факторы относятся к качественному виду, то анализ зависимостей проводится в рамках дисперсионного и факторного анализа. Когда все факторы количественные, то приложимы методы регрессионного анализа. В рамках корреляционного анализ’а возможно исследование наборов факторов, относящихся к различным типам.
Сформулируем следующую задачу. По результатам опытов получена определенная информация. Исходя из сути рассмат-
риваемых процессов, выбрана схема зависимости. Необходимо проанализировать полученные данные и получить характеристики причинно-следственной связи. Такой анализ сводится, как минимум, к поиску ответов на следующие вопросы:
1.Действительно ли у зависит от факторов
2.Если у зависит от 
3.Каков вид имеет причинно-следственная зависимость между у и X, в частности, каков между ними вид аппроксимационной зависимости f?
Рассмотрим кратко наиболее простые и распространенные методы анализа статистической зависимости. .
Дисперсионный анализ
Установление зависимости у от качественного фактора х. Будем считать, что результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить наличие (или отсутствие) влияния х на у.
Предположим, что фактор х может принимать ряд значений, называемых уровнями 


Из анализа данных обычно следует, что при одном и том же значении фактора имеются различные значения результата 
между 

Задача о проверке гипотезы 


представлено следующим образом:
где 

В однофакторном дисперсионном анализе приняты следующие допущения: ошибка 



Ее оценка имеет следующий вид:

где 



Групповая дисперсия 


Оценка этой дисперсии вычисляется по формуле:
Межгрупповая дисперсия 


где 
Если 

Внутригрупповая дисперсия 

и, если 


Из сравнения введенных оценок дисперсии следует
Рассмотрим методику проверки существенности влияния фактора х на результаты наблюдения.
1.Выдвигается гипотеза о несущественности фактора х (гипотеза 
При этом условии оценка межгрупповой дисперсии должна быть значительно меньше, чем оценка внутригрупповой дисперсии. В этой связи величина

может выступать в качестве меры непротиворечивости выдвинутой гипотезы, характеристикой справедливости гипотезы 
2.По формуле (4.42), исходя из полученных результатов опытов, вычисляется экспериментальное значение величины u.
Показано, что такая величина и распределена по закону распределения Фишера со степенями свободы 

3.По таблицам распределения Фишера находится теоретическая величина показателя u

4.Гипотеза не противоречит экспериментальным данным, если выполняется условие

Выполнение этого неравенства свидетельствует о том, что влияние фактора несущественно и все наблюдаемые различия обусловлены не изменением значения фактора х, а какими то другими обстоятельствами. Следовательно, можно сказать, что гипотеза 
Анализ существенности влияния (тесноты связи) количественных факторов на результаты наблюдений
Рассмотрим наиболее простой случай: результирующая величина у зависит только от одного фактора х. Требуется, исходя из результатов наблюдений, определить степень тесноты связи х и у. Решение этой задачи осуществляется в рамках корреляционного анализа (см. главу 4.4).
Пусть проведена первичная обработка результатов опытов и получены оценки необходимых математических ожиданий и дисперсий. Существенность влияний х на y может быть определена, если будет указано, какая доля степени изменчивости
интересующего нас результата обусловлена изменчивостью описывающей его функции f от контролируемого нами аргумента х. Количественной мерой этой доли может выступать отношение оценки межгрупповой дисперсии к оценке общей дисперсии

Величина 




В частном случае, когда связь между у и х является линейной, для оценивания степени зависимости используется оценка коэффициента корреляции 

Оценка коэффициента корреляции определяется с помощью соотношения

Оценка 

Решение этой задачи проводится по следующей методике.
1.Вычисляется мера согласованности гипотезы об отсутствии линейной зависимости у от х с наблюденными значениями
2.По таблицам распределения Стьюдента с 


3.Если окажется, что 

Определение причинно-следственной зависимости между результатом и влияющими на него факторами
Пусть рассматривается некоторая случайная результирующая переменная 






Случайный характер величины 


Зависимость (4.47) называется регрессионной, что определило название методов определения причинно-следственных зависимостей: регрессионный анализ.
Для установления причинно-следственной связи f необходимо:
1.Выбрать класс функций, в рамках которого целесообразно искать общий вид функции

2.Подобрать подходящие параметры 
Первая из этих задач не решается формальными методами. Обычно класс функций определяется на основе знаний о предметной области и в каждом конкретном случае вид функции f конструируется индивидуально. Следует подчеркнуть, что неверный выбор класса функций приводит обычно к ошибкам, которые невозможно устранить подбором коэффициентов в (4.48).
В рамках регрессионного анализа для подбора неизвестных параметров обычно используется метод наименьших квадратов (МНК). Суть этого метода заключается в подборе параметров функции (4.48), обеспечивающих минимум суммы квадратов отклонений наблюденных значений 

Выбор в (4.49) функционала именно такого вида в большинстве случаев практики имеет серьезное теоретико-вероятностное обоснование (реализуется принцип максимального правдоподобия), чем и обусловлена распространенность МНК. Покажем схему реализации МНК на примере функции одной пере-
менной 





Система уравнений (4.50) состоит из k уравнений. Решив эту систему относительно неизвестных 
Пример:
Результирующая величина у измерена при помощи четырех разнотипных приборов, причем каждым прибором было осуществлено по пять измерений. Результаты измерений сведены в таблицу

Требуется определить, существенно ли зависят измерения от типа прибора, если приборы имеют одинаковую погрешность измерения.
Решение:
Тип прибора относится к качественным факторам, поэтому решение этой задачи целесообразно вести в рамках дисперсионного анализа с числом уровней 4.
Для решения задачи дисперсионного анализа необходимо по данным таблицы определить оценки межгрупповой и внутригрупповой дисперсией. В соответствии с формулами (4.40а) и (4.41а)
Показатель согласованности, согласно (4.42), следующий
Поскольку 



Поскольку 
Пример:
Произведенные 20 измерений системы двух случайных величин х и у сведены в таблицу

Требуется определить тесноту связи между x и у.
Решение:
Вначале определим корреляционное отношение между измеряемыми величинами. Используя формулу (4.45), найдем
Следовательно, между х и у существует достаточно сильная статистическая связь.
Рассмотрим вопрос о степени линейной зависимости между х и y. Для этого вычислим величину u, связанную с оценкой коэффициента корреляции и распределенную по закону Стьюдента:
Для доверительной вероятности 0,95 и 18 степеней свободы по таблице распределения Стьюдента находим 
мы не можем принять гипотезу о линейной связи х с у. Однако близость значений показателей согласованности позволяет в итоге сделать следующий вывод: между х и у, скорее всего, стохастическая нелинейная связь.
Пример:
Проведены измерения величины растворяемой в данном объеме воды некоторой соли при различных температурах.

Определить зависимость объема растворяемой соли как функцию температуры.
Решение:
Если нанести полученные значения на плоскость, то можно увидеть, что искомую зависимость можно считать линейной, т.е. 
Система уравнений в данном случае имеет вид
Решение этой системы дает такие результаты:
Следовательно, искомая зависимость имеет следующий вид
Математическая статистика и ее формулы и теоремы
Статистика как раздел науки об управлении государством, сборе,
классификации и обсуждении сведений о состоянии общества и
государства зародилась в XVII в. Однако статистический учет
существовал еще в глубокой древности. Так, за аять тысяч лет до нашей эры проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме и т.д.
В современном понимании статистика — это регистрация, описание и
анализ экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений.
В настоящее время статистические методы используются не
только для описания состояния общества и государства, но также в
технике, физике и т.д.
Наука, занимающаяся общими вопросами, связанными с собиранием и классификацией числовых данных и сведений, называется
математической статистикой.
Важнейшей задачей статистики является определение закона
распределения случайной величины (системы случайных величин)
по статистическим данным. Закономерности, наблюдаемые в
массовых случайных явлениях, проявляются тем точнее, чем больше
объем статистической информации. На практике, как правило, мы
имеем ограниченное количество экспериментальных данных,
поэтому при определении закона распределения возникает
необходимость расчета уровня доверия к нему. Отсюда следует задача проверки правдоподобия гипотез, предполагающая выявление в статистических закономерностях элементов случайности. В частности, может быть проверена гипотеза о том, что данная случайная величина подчиняется заданному закону распределения.
При обработке статистических данных часто возникает задача
определения параметров закона распределения, а не самого закона.
Генеральная совокупность и выборка
Генеральной совокупностью называются все возможные наблюдения интересующего нас показателя, все исходы испытания или вся совокупность реализаций случайной величины X .
В генеральной совокупности обычно интересуются признаком,
имеющем качественный или количественный характер. Примером
генеральной совокупности может быть все население страны. Такая
совокупность иногда изучается путем переписи населения. В этой
совокупности нас могут интересовать, например, доходы жителей —
количественный признак совокупности. Другим примером
генеральной совокупности являются все изготовленные на данном
станке детали. Эти детали могут быть бракованными и годными.
Данный признак деталей является качественным.
Выборкой называется выбор части объектов из генеральной совокупности, причем выбор отдельных объектов происходит независимо один от другого.
Примером выборки объема и может являться независимый
выбор из всех изготовленных на данном станке деталей в количестве
n штук. Результатом выборки объема n является совокупность 
Обычно под целью математической статистики понимают
определение закона распределения или его характеристик по выборке.
Гистограмма. Статистическая функция распределения
Предположим, что изучается некоторая величина X. Пусть закон
распределения X нам неизвестен. Требуется определить данный
закон опытным путем. С этой целью над случайной величиной X
производится ряд независимых наблюдений. В результате получим
выборку 
При большом числе наблюдений простая выборка становится
слишком громоздкой и неудобной для анализа. Для придания ей
большей наглядности строится статистический ряд. Для этого
разделим весь диапазон полученных в результате опыта значений на интервалы и подсчитаем количество значений 
Эта величина называется также статистикой. Вообще говоря,
статистика — это любое число, вычисленное по выборке.
Занесем полученные данные в табл. 12.1, в которой интервалы
расположены в порядке их возрастания вдоль оси абсцисс.
Таблица 12.1
Здесь 
число интервалов; 
и j +1; k +1 — число границ.
Статистический ряд, представленный в табл. 12.1, называется
интервальным. Если частота задана для дискретной случайной
величины, то ряд называется дискретным.
Очевидно, что
Пример:
Произведено 500 измерений диаметра детали,
изготовленной на данном станке. После предварительной обработки этой выборки отклонения диаметра от номинала (в микрометрах) сведены в табл. 12.2 (две первые строки). Определить частоты попадания ошибки в заданные интервалы.
Решение:
Результаты расчета по формуле (12.1) представлены в
последней строке табл. 12.2. ►
Таблица 12.2
Если экспериментальные значения случайной величины X
находятся в точности на границе двух интервалов, то чисто условно
можно рекомендовать одну половину этих значений прибавить к
предыдущему интервалу, а другую — к последующему. Можно
также граничные значения целиком отнести как к предыдущему, так и к последующему интервалу.
Статистический ряд можно представить в виде графика,
называемого гистограммой. При этом по оси абсцисс откладываются
интервалы и на каждом из них строится прямоугольник, площадь
которого равна частоте данного интервала. При увеличении числа
опытов можно выбирать все более и более мелкие интервалы. При
этом гистограмма приближается к некоторой кривой, являющейся
плотностью распределения величины X.
Пример:
Построить гистограмму для данных примера 12.1.
Решение:
Гистограмма представлена на рис. 12.1. ►
По статистическому ряду можно приближенно построить
статистическую (выборочную) функцию распределения случайной
величины X. Соотношения для расчета выборочной функции
распределения по статистическому ряду удобно представить в виде:
Пример:
Для условий примера 12.1 построить таблицу и
график статистической функции распределения.
Решение:
Статистическая функция распределения,
рассчитанная по формулам (12.2), представлена в табл. 12.3. График данной функции показан на рис. 12.2. ►
Таблица 12.3
При увеличении числа опытов и уменьшении интервала
статистическая функция распределения приближается к функции
распределения генеральной совокупности.
Числовые характеристики выборочного распределения
Каждой числовой характеристике случайной величины X
соответствует ее выборочная аналогия. Для математического ожидания случайной величины X в качестве аналогии используют среднее арифметическое полученных в результате опыта значений, вычисляемое по формуле
где 
опыте; n — число опытов.
При неограниченном увеличении числа опытов среднее
арифметическое сходится к математическому ожиданию.
Значение 

ожидание равно математическому ожиданию случайной величины X:
Оценка любой характеристики случайной величины X, проведенная по выборке, называется несмещенной, если ее математическое ожидание равно оцениваемому параметру.
Из определения несмещенной оценки и соотношения (12.4)
следует, что выборочное среднее является несмещенной оценкой
для генерального среднего 



Выборочные дисперсии рассчитываются по одной из следующих
формул:
Величину s называют выборочным стандартным отклонением. Величины 

Поскольку 


Если выборка задана в виде статистического ряда, то формулы (12.3), (12.5), (12.6) удобно представить в виде:
где 

Для дискретного статистического ряда значения 

Иногда используются и другие моменты выборки.
Пример:
Для условий примера 12.1 определить выборочные среднюю и дисперсию.
Решение:
В табл. 12.2 для частот попадания ошибки в заданные интервалы вместо интервалов 

Таблица 12.4
Для расчета выборочных среднего и дисперсии используем формулы (12.3′) и (12.6′):
Основные статистические распределения
Статистические распределения, с одной стороны, играют роль
эталона при определении закона распределения случайной
величины, а с другой, используются для оценки правдоподобия
выдвигаемых гипотез. Среди известных распределений в статистике
используются закон равномерной плотности, закон Пуассона, нормальный закон распределения. Большое значение в статистике играют также 


совокупности случайной величины X. Рассмотрим статистику
где 
ожидание.
Распределение 

Плотность распределения случайной величины X при х>0
определяется соотношением
Это распределение достигает максимума при 
математическое ожидание 
Графики 
t-распределение Стьюдента. Пусть X — случайная нормально распределенная величина с параметрами а и 


Величина
называется отношением Стьюдента.
Выборочное распределение данной величины называется t-распределением Стьюдента с v = n-1 степенями свободы.
Функция плотности распределения отношения Стьюдента определяется соотношением
Математическое ожидание t-распределения 

Доверительные интервалы и доверительные пределы
Доверительным интервалом параметра 






Доверительный интервал для математического ожидания нормального распределения
Вначале рассмотрим доверительный интервал для математического ожидания нормального распределения при известном значении дисперсии.
Пусть 


Среднее арифметическое 
величины X, также является случайной величиной,
распределенной по нормальному закону с параметрами а и
Отсюда можно построить доверительный интервал для заданного
уровня доверительной вероятности F, в котором находится
математическое ожидание а . Данный интервал определяется выражением
где t — коэффициент доверия, от которого зависит доверительная вероятность F.
Некоторые значения доверительной вероятности для нормального закона распределения, соответствующие тому или иному уровню доверия, приведены в табл. 12.5.
Таблица 12.5
Пример:
Для изучения размера крестьянских хозяйств проведена выборка, в результате которой получены следующие данные: обследовано 100 участков, 

Решение:
Для требуемой доверительной вероятности из таблиц находим t = 2. Тогда 
Если дисперсия неизвестна и выборка невелика (n < 40), то доверительный интервал вычисляют с помощью t-распределения Стьюдента по формуле
где 
вероятность. При расчете используются таблицы. Необходимо помнить, что в различных источниках таблицы представлены в разной форме.
Интеграл вероятности для t-распределения Стьюдента имеет вид
где 
В рассматриваемом случае табулируются значения 
различных значений 
можно представить так, как показано на рис. 12.6.
Заштрихованная на рис. 12.6 площадь является доверительной
вероятностью F.
Таким образом, расчет производится по следующему алгоритму:
1.Находят 
2.Задаются доверительной вероятностью F.
3.Рассчитывают 
4.При известном количестве степеней свободы v = n -1 по
таблицам находят 
5.Определяют доверительные пределы по формуле
Иногда таблицы t-распределения Стьюдента представлены в
виде критических точек. В этих таблицах для различных значений
уровня значимости
и разных значений степеней свободы v = n -1 приведены данные
для 
1.Находят 
2.Задаются уровнем значимости 
3.Рассчитывают F по формуле
F = —
4.По заданному уровню значимости а и известному
количеству степеней свободы v = n -1 по таблицам находят 
5.Определяют доверительные пределы по формуле (12.11).
Пример:
Для условий примеров 12.1 и 12.4 определить
доверительный интервал математического ожидания для доверительных вероятностей 
Решение:
В примере 12.4 были определены 
Уровни значимости для поставленных условий:
Значения коэффициентов доверия находим из таблиц (см., например, [9], с. 626):

По полученным данным определяем доверительные пределы и
интервалы:
1.При 
2.
Доверительный интервал для дисперсии нормального распределения
Пусть 
совокупности с математическим ожиданием а и дисперсией 



На рис. 12.7 доверительная вероятность равна заштрихованной
площади. Значения b и с определяются по таблицам из условия
симметричного вероятностного интервала:
Тогда с вероятностью F имеем
Это равносильно неравенствам

Для среднего квадратического отклонения
Расчет производится по следующему алгоритму:
1.Находят 

2.Задаются доверительной вероятностью F.
3.По таблицам при известных
находят b и с.
4.Определяют доверительный интервал для дисперсии и
среднего квадратического отклонения по формулам (12.12) и (12.13).
Пример:
Произведено 101 измерение диаметра детали,
изготовленной на данном станке. После обработки установлено, что среднее арифметическое этой выборки 

Решение:
Количество степеней свободы для рассматриваемого
случая v = n -1 = 100. Находим по формулам
Используя таблицу распределения 
находим для v = 100 величины с = 140,169 и b = 67,3276.
Подставляя полученные значения в (12.13), найдем доверительный
интервал среднего квадратического отклонения:
Определение закона распределения случайной величины
Обычно закон распределения случайной величины неизвестен и имеется ограниченное число наблюдений (выборка). При его определении задаются некоторым известным законом распределения и затем проверяют эту гипотезу на значимость.
Простейшим методом проверки гипотезы о законе распределения является визуальный. Он заключается в построении гистограммы по выборке и анализу ее внешнего вида, однако данный метод неточен. Наиболее полная и точная проверка соответствия выбранного распределения реальному производится с помощью критерия Карла Пирсона.
Статистика Карла Пирсона имеет вид
где n — количество полученных в результате наблюдения значений
случайной величины X (объем выборки);
k — число интервалов;

j-й интервал;

величины в j-й интервал;

результате опыта.
Теоретическая вероятность попаданий случайной величины в
j -й интервал 
рассчитывается по формуле
Разделив числитель и знаменатель статистики Карла Пирсона
(12.14) на n и учитывая (12.1), получим
Рассчитывать значение 
Выборочное распределение 

v = k-b-1,
где k — число интервалов;
b — число параметров вероятностной модели, которые должны быть оценены по тем же данным.
Отклонение от проверяемой модели всегда будет приводить к увеличению значения
Значимость выбранного закона распределения определяется сравнением рассчитанного и табличного (теоретического) значений 
Геометрический смысл теоретического значения 


равна уровню значимости
Таким образом, если 
свободы и заданном уровне значимости 
соответствия закона распределения исследуемой случайной величины выбранному закону распределения будет больше или равно 
Если ожидаемые частоты слишком малы для использования

интервал. Значений частот не должно быть меньше 5—10. При
объединении необходимо учитывать и то, что число интервалов не должно быть слишком малым.
Пример:
Для условий примеров 12.1 и 12.4 определить
значимость соответствия закона распределения исследуемой случайной величины нормальному.
Решение:
Используя результаты решения примера 12.4,
запишем функцию плотности распределения исследуемой случайной
величины в виде
Результаты обработки выборки табл. 12.2 (пример 12.1) представлены в первых трех строках табл. 12.6 Здесь же представлены результаты
остальных расчетов.
Таблица 12.6
Теоретические значения вероятности попадания случайной
величины в j-й интервал для заданной плотности распределения
рассчитывается по формуле
Интеграл вероятности
находим по таблицам. Его значения записаны в третьей и четвертой строках табл. 12.6. Теоретические значения вероятности попадания случайной величины в j-й интервал представлены в пятой строке данной таблицы. Расчет статистики Карла Пирсона проведем по формуле (12.14), слагаемые которой представлены в последней строке:
Уровень значимости определяется по формуле
при количестве степеней свободы v = k —b —1 = 8 — 2 —1 = 5. Уровни
значимости в зависимости от заданного значения 




Принимаем зависимость 

линейной (рис. 12.9).
Из подобия прямоугольных треугольников находим:
Отсюда определяем уровень значимости:
Таким образом, гипотеза о том, что случайная величина
распределена по нормальному закону с вероятностью 0,61 принимается. ►
Исследование случайных зависимостей
Любой закон природы или общественное явление могут быть
выражены в виде описания взаимосвязей, существующих между
показателями данного закона или явления. Статистика изучает
связи между показателями, часть из которых являются случайными.
Функционирование изучаемого объекта можно описать набором
переменных. Эти переменные подразделяют на:
■ независимые (экзогенные, предикаторные, объясняющие),
которые не обязательно являются случайными величинами;
■ зависимые (эндогенные, результирующие, объясняемые), которые обязательно являются случайными величинами.
Задача измерения связи между переменными решается на
эмпирическом материале, представляющем собой выборку объема n из (k+ 1)-мерной совокупности наблюдений или матрицы размером
(k + 1)хn (табл. 12.7).
Таблица 12.7
Если количество независимых переменных больше двух, то
исследуемая модель называется многофакторной. В табл. 12.7
представлена k-факторная модель.
Корреляционно-регрессионный анализ
В обычном смысле термин «регрессия» понимается как
«обратное движение, возврат к исходной точке или месту». Этот термин был введен в статистику в XIX в. в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека. При этом
обнаружили, что сыновья высоких отцов хотя и имеют больший рост по сравнению с сыновьями низких отцов, но разброс в росте сыновей
был меньше, чем разброс в росте отцов. Таким образом, была
замечена тенденция возврата сыновей к среднему росту, т.е. регресс.
Большинство исследуемых явлений зависит от действия
множества факторов. Обычно отбирают те факторы, которые наиболее существенно влияют на явление. В перечне отобранных факторов не исключено наличие таких, которые слабо влияют на изучаемый показатель. Их отсев осуществляется в ходе построения
многофакторной модели путем многошагового регрессионного анализа. Вначале строят уравнение регрессии по максимально возможному количеству факторов. Затем с помощью определенных критериев (например t-критерия Стьюдента) исключают те факторы, которые оказывают статистически несущественное влияние. Такой отсев по одному фактору на каждом шаге проводится до тех пор, пока в уравнении регрессии с точки зрения выбранного критерия не
останется незначимых факторов.
Важнейшим этапом построения многофакторной регрессионной
модели является выбор формы связи (функции регрессии). Форму
связи можно определить путем перебора функций разных типов,
что сопряжено со значительным количеством лишних расчетов.
Обычно для этих целей используются наиболее известные функции.
Широкое применение получила линейная функция. Это связано,
во-первых, с ее простотой. Во-вторых, путем замены переменных
или логарифмирования многие используемые для этих целей
функции можно свести к линейным.
Если форма связи случайной величины у (см. табл. 12.7)
является линейной, то функция регрессии имеет вид
После выбора формы связи определяют коэффициенты
функции регрессии так, чтобы она (с точки зрения заданного критерия) лежала ближе всех других к исследуемым точкам.
Функция регрессии 
случайная переменная 
соотношением
Случайная переменная 
изменяется для каждого наблюдения
Для однофакторной модели линейная функция регрессии
приобретает вид
Проверка предпосылок регрессионного анализа
В регрессионном анализе делаются следующие основные
предположения:
1.Возмущающая переменная 
В силу этого 
распределением того же вида, что и 
2.Случайная величина 
равное нулю. Значения случайных переменных
независимы между собой.
3.Случайная величина 
постоянной дисперсией 
При нарушении нормальности возмущения при оценке по
методу наименьших квадратов остатки остаются наилучшими и
сохраняют свойство несмещенности и состоятельности, но становятся неустойчивыми (малоэффективными). Существуют методы получения устойчивых (робастных) оценок.
Постоянство дисперсии 
условием однородности).
Если это условие не выполняется, то эти наблюдения
неоднородны (гетероскедастичны). Это может возникнуть, например, при исключении из модели переменной, коррелированной с любой из оставшихся переменных, влияние которой приписывается
случайному возмущению 
4.Наблюдения 
j от 1 до к .
5.На значения параметров 
ограничений, т.е. предварительно об их значениях ничего не известно.
6.Матрица значений независимых переменных 
линейно связанных столбцов.
7.Число наблюдений n должно превышать число параметров k.
Выполнение рассмотренных предпосылок обеспечивает
возможность проведения классического регрессионного анализа.
Однако часто эти предпосылки не полностью удовлетворяются. Для
устранения этого недостатка разработаны различные методы
обработки. Например, робастные (устойчивые) методы допускают
нарушение предпосылок, но требуют, чтобы эти нарушения
находились в определенных пределах.
Оценка качества регрессионной модели
Построенная регрессионная модель нуждается в проверке ее
соответствия реальным статистическим данным. В качестве
показателя степени согласованности расчетных значений 
Для расчета коэффициента детерминации и проведения
дисперсионного анализа потребуются приведенные ниже статистики. Эти статистики могут быть использованы также при проведении многофакторного анализа.
1.Общая девиация, являющаяся суммой квадратов отклонений
признака от средней арифметической,
2.Общая выборочная дисперсия
3.Девиация регрессии, равная сумме квадратов отклонения
функции регрессии от средней арифметической,
4.Выборочная дисперсия функции регрессии
где m = k +1 — число коэффициентов в исследуемой функции
регрессии (см. табл. 12.7).
5.Остаточная девиация, равная сумме квадратов отклонений
зависимой переменной от функции регрессии,
6.Выборочная остаточная дисперсия
Сумма числа степеней свободы остаточной дисперсии и
дисперсии регрессии равна числу степеней свободы общей дисперсии:
(n-m) + (m-1) = n-1.
Справедливо также соотношение
Действительно, подставив сюда (12.24) и (12.23), получим
(12.20)
Чем больше второе слагаемое и меньше первое, тем меньше
разброс у относительно среднего, т.е. тем больше коэффициент
детерминации, вычисляемый по формуле
Так как 
Чем больше 

Отсюда следует, что
Корень квадратный из коэффициента детерминации называется выборочным коэффициентом корреляции 
Величина коэффициента корреляции используется как характеристика качества полученной модели любой формы связи (не обязательно линейной).
Значимость рассчитанного коэффициента корреляции 
Значения 





Качество подбора функции регрессии можно оценить путем сравнения остаточной 



Значимость коэффициентов регрессии 
где
a 




Доверительным интервалом коэффициента 
где 
В указанном интервале с наперед заданной вероятностью F = 1 — 
Для линейной однофакторной модели
Остаточную дисперсию для линейной однофакторной модели находят из (12.24) при m = 2:
Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Теснота взаимосвязи линейной однофакторной модели проверяется при помощи коэффициента корреляции
Используя обозначения
получим
Коэффициент корреляции лежит в пределах
При значении коэффициента корреляции, близком к 1 или — 1, связь сильная, при значении, близком к нулю, — слабая. Отрицательное значение коэффициента корреляции указывает на обратную связь, положительное — на прямую.
Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации 
Факт совпадения 

связи. При разности между 

Чем больше 
фактические данные.
Значимость коэффициента корреляции с доверительной
вероятностью 
где 
Качество подбора формы кривой оценивается по критерию Дарбина—Уотсона. Для этого проводится анализ остатков (12.18)
Если модель функции регрессии адекватна форме подобранной
кривой, то соседние значения остатков независимы друг от друга. Эта
независимость проверяется с помощью критерия Дарбина—Уотсона
По таблице Дарбина—Уотсона для заданной доверительной
вероятности 
позволяющие вынести суждение о наличии автокорреляции (рис. 12.10). Задавшись уровнем значимости 
При 

Однофакторный корреляционно-регрессионный анализ
Корреляционно-регрессионный анализ целесообразно начинать
с изучения однофакторной модели. Исходными данными для
построения модели является выборка n наблюдений зависимой переменной 

выборку можно представить в виде
где 
(функция регрессии);

Так как каждое значение 
значение 

данной случайной величины.
Построить корреляционно-регрессионную модель явления — значит найти функцию регрессии и характеристики случайных отклонений от нее, позволяющие определить доверительный интервал, в границах которого с заданной доверительной вероятностью должна находиться исследуемая величина.
Модель явления строится по следующему алгоритму:
1.На основе качественного и количественного анализа
исходных данных выбирают вид функции регрессии, наилучшим образом описывающий данное явление.
2.Для выбранной функции подбирают параметры по какому-
либо критерию оптимизации.
3.Оценивают качество подобранной кривой по совокупности
критериев и делают вывод о ценности данной модели для
практического использования.
Явление может быть описано некоторой функцией или
комбинацией функций. На практике используются линейная функция, парабола, многочлен, гипербола, экспонента и др. Наиболее часто для этих целей используется линейная функция по причинам, описанным в § 12.11.
Для вычисления параметров уравнения регрессии будем использовать метод наименьших квадратов. При этом минимизируется cумма квадратов остатков
Рассмотрим метод наименьших квадратов на примере линейной
функции регрессии
В этом случае сумма квадратов остатков приобретает вид
Найдем частные производные по коэффициентам 
Приравняв эти производные нулю и сгруппировав слагаемые,
получим систему из двух уравнений для искомых коэффициентов:
Решение этой системы имеет вид
где
Используя полученную регрессионную модель, можно
прогнозировать появление зависимой случайной величины. Так как
процесс подвержен случайным воздействиям, то прогноз может быть
сделан лишь в виде доверительного интервала. Средним значением
прогноза является линия регрессии. Пусть нас интересует прогноз в
точке 
прогнозируемой точки будут определяться по формуле
где 
доверительной вероятности 
Общая дисперсия фактического значения у в точке 
вычисляется по формуле
Доверительный интервал расширяется при удалении координаты х от ее среднего значения 

Пример:
Дана выборка производительности труда у рабочего в зависимости от стажа его работы х (два первых столбца табл. 12.8). Данные ранжированы по стажу.
Рассчитать линию регрессии, определить ее адекватность и значимость, сделать прогноз производительности труда для рабочих со стажем 5,5 и 12 лет.
Решение:
Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Значения, полученные в результате выборки, нанесены в виде точек в прямоугольной системе координат на рис. 12.12.
Таблица 12.8
Анализируя ломаную линию, можно предположить, что возрастание производительности труда идет равномерно, пропорционально стажу работы. Видимо, в основе этой зависимости лежит прямолинейная связь
Из табл. 12.8 следует, что
По формулам (12.20) находим
Таким образом, функция регрессии имеет вид
Для определения адекватности и значимости модели необходимо рассчитать ряд статистик. Результаты расчета сведены в табл. 12.9.
Таблица 12.9
Проверим точность построения модели производительности труда с помощью дисперсионного анализа:
Коэффициент детерминации
Отсюда заключаем, что 92,5% производительности труда обусловлено стажем работы.
Мера неопределенности
т.е. только 7,5% общей вариации производительности труда нельзя объяснить стажем работы.
Выборочный коэффициент корреляции 
Рассмотрим существенность связи по критерию Фишера:
При уровне значимости 






Оценим качество подбора функции регрессии с помощью сравнения общей и остаточной дисперсий. Так как 
Значимость коэффициентов регрессии проверим по t-критерию Стьюдента:
По таблице распределения Стьюдента для 
числе степеней свободы n —2 = 8
Так как в обоих случаях 


значимыми.
Доверительные интервалы коэффициентов 

формуле
Предварительно находим
Отсюда
Найдем коэффициент корреляции по формуле (12.33). Для этого определим
Результат практически совпал с вычисленным ранее
коэффициентом корреляции 
Проверим значимость линейного коэффициента корреляции на
основе t-критерия Стьюдента:
Табличное значение 
Так как 
между производительностью труда и стажем работы существует с
вероятностью
По критерию Дарбина—Уотсона оценим качество подбора формы
кривой. Для этих целей найдем по формуле (12.35)
Ближайшие табличные значения критических границ в таблице
Дарбина—Уотсона для заданной доверительной вероятности


Таким образом, построенная регрессионная модель в виде функции
связи
определена в целом, и выводы, полученные по результатам, хотя и
малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.
Средняя величина прогноза выработки рабочего со стажем 5,5 лет
составляет
а со стажем 12 лет —
Доверительный интервал выборки этих рабочих определяется
границами, рассчитанными по формуле

где
Для доверительной вероятности F = 0,99 имеем 
как 
Отсюда следует
Таким образом,
Для доверительной вероятности F = 0,95 имеем 

Тогда
Многофакторный корреляционно-регрессионный анализ
Функция регрессии
В рассматриваемом случае зависимая переменная является случайной функцией нескольких независимых переменных 


На практике часто сталкиваются с моделью линейной регрессий (12.17)
Для каждого наблюдения i можно записать
где возмущающая переменная 
Для линейной модели наблюдение i можно представить в виде
Отсюда
Для расчета параметров 
Для этого находят частные производные по каждому коэффициенту

Приравнивая данные производные нулю и проводя суммирование, получим искомую систему уравнений. Первое уравнение системы при дифференцировании по 
При j = 1, 2, 3, …, k запишем уравнения системы в общем виде:
Перепишем эту систему уравнений в более привычном виде:
Подобную систему линейных уравнений можно решить,
например, методом Крамера или с помощью теории матриц.
Для математической модели линейной регрессии представим:
■ неизвестные параметры а — матрицей-вектором размера mх1 в
виде 
■ независимые переменные — матрицей размера nхm в виде
■ зависимые переменные — матрицей-вектором размера nх1 в виде
Тогда систему линейных уравнений (12.39) в матричной форме
можно представить в виде
где 
Чтобы показать соответствие формулы (12.40) системе (12.39),
найдем вначале произведение матриц
Затем найдем
Отсюда следует, что при перемножении трех матриц 
При перемножении двух матриц
получаем матрицу-столбец правых частей уравнений системы
(12.39).
Таким образом, система уравнений (12.39) соответствует
формуле (12.40).
Решение (12.40) можно записать в виде
Это выражение позволяет произвести расчет всех
коэффициентов линейного уравнения множественной регрессии.
Пример:
Оценить взаимосвязь зависимой переменной у
и двух независимых переменных 

приведенной в первых четырех столбцах табл. 12.10.
Таблица 12.10
Решение:
Матрицы X и Y имеют вид
Произведение двух матриц
Элементы матрицы произведения находятся по формуле
Отсюда следует, что
Произведение двух матриц
так как
Обратной матрицей 
называется матрица
где 




Определитель матрицы
Обратная матрица равна
В результате находим
Таким образом, уравнение регрессии имеет вид
Значения 
выборке 

соответствующие возмущения 
Коэффициент множественной корреляции
Как указывалось ранее, взаимосвязь зависимой переменной у с
рядом независимых переменных х измеряется с помощью
коэффициента множественной корреляции
Чем теснее экспериментальные данные прилегают к функции регрессии, тем больше эта величина.
Пример:
Для данных примера 12.10 определить коэффициент множественной корреляции.
Решение:
Данные для расчета коэффициента множественной корреляции приведены в табл. 12.11.
Таблица 12.11
Необходимые данные для расчета коэффициента множественной корреляции представлены в третьем и четвертом столбцах табл. 12.11:
Такое значение коэффициента множественной корреляции
свидетельствует о том, что связь между изучаемыми признаками весьма тесная. ►
Значимость коэффициента множественной корреляции
Существенность связи, или значимость рассчитанного
коэффициента множественной корреляции 
Значения выборочной дисперсии функции регрессии 
выборочной остаточной дисперсии 







Пример:
Для данных примера 12.10 определить значимость
коэффициента множественной корреляции, рассчитанного в примере 12.11.
Решение:
Данные для определения значимости коэффициента
множественной корреляции приведены в табл. 12.11. Найдем дисперсии:
Находим
При коэффициенте значимости 
вероятности F -1 — 


Так как 
Матрица ковариаций
Рассмотрим k-факторную модель, в которой зависимая
переменная X определяется k независимыми переменными 
j = 1, 2,…, k. Наблюдению над объектом под номером i присвоены
некоторые скалярные численные значения 
качестве объектов могут выступать, например, люди, а в качестве
факторов — их вес, рост, возраст и т.д. Зависимую переменную X
и наблюдения над объектом под номером i можно представить как
матрицы-столбцы
Выборка объемом n из k-мерной совокупности содержит n
наблюдений (матриц-столбцов) по одному на каждый объект в
выборке:
Эти наблюдения удобно представить в виде выборочной матрицы
Среднее значение j-й компоненты, например среднее значение роста опрошенных людей, определяется по формуле
Среднее всей выборки можно представить в виде матрицы-
столбца
Подставив в (12.45) формулу (12.44), получим
Учитывая (12.42), это соотношение можно записать в виде
Таким образом, матрица-столбец среднего всей выборки равна сумме матриц-столбцов наблюдений, деленной на количество наблюдений.
Введем матрицу А с элементами
где j,s = 1,2,…,k.
По определению 
Она является симметричной матрицей размера kхk. Ее можно
представить также через матрицу S. Действительно,
(В этой и других формулах в транспонированных матрицах
номер столбца обозначен буквой s.)
Сопоставляя две последние формулы с (12.47) и с (12.48),
можно записать
Это соотношение часто записывают в виде
Действительно, используя (12.42) и (12.45), найдем
Тогда (12.50) приобретает вид
После проведения суммирования матриц получим
Сопоставляя это с (12.47) и (12.48), видим, что соотношение
(12.50) действительно имеет место.
Выборочные дисперсии и ковариации находятся по формулам
Таким образом, выборочная ковариационная (дисперсионно-
ковариационная) матрица является симметричной матрицей
размера kхk, определяемой как
Иногда формулу (12.51) записывают в виде
где М — оператор математического ожидания, х — матрица-столбец.
Значимость коэффициентов регрессии
Значимость коэффициентов регрессии определяется при
помощи t-критерия Стьюдента (12.30):
где 

Дисперсиями 

диагонали матрицы ковариации для матрицы а. В соответствии с
(12.52) имеем
Выше показано, что матрица а определяется соотношением
(12.41). При использовании для X и Y обозначений п. 12.15.1
формула для зависимой случайной величины (12.18) приобретает
следующий матричный вид:
где
Найдем произведение двух матриц:
Сложив две матрицы, найдем
Отсюда следует справедливость соотношения (12.54).
Подставив в (12.41) соотношение (12.54), найдем
Отсюда
Учитывая следующие свойства матриц:
найдем
Тогда перепишем (12.53) в виде
Отсюда найдем
Раскроем
Эта матрица является диагональной, так как все ее элементы, не лежащие на главной диагонали, равны нулю в силу того, что остатки не коррелированы между собой
Все остатки имеют одинаковую дисперсию, которую заменим на выборочную дисперсию (12.25):
С учетом сказанного можно записать:
Подставив это в (12.56), найдем
Из соотношения (12.57) следует, что дисперсия коэффициентов
регрессии 
где 
Пример:
Для данных примера 12.10 определить значимость
коэффициентов регрессии.
Решение:
Уравнение регрессии, остаточная дисперсия и
обратная матрица 
Отсюда находим
Значимость коэффициентов регрессии найдем при помощи t-критерия Стьюдента (12.30):
Для числа степеней свободы 10 — 3 = 7 и вероятности 



коэффициента 





Таким образом, коэффициент 
Обычно, если проверка параметров приводит к тому, что один
или несколько из них оказываются несущественными, то они
исключаются из регрессии. Оценивание параметров повторяется уже для нового набора независимых переменных.
Оценка степени линейной независимости факторов друг от друга
В хорошей модели зависимость факторов друг от друга не
должна быть существенной. Для проверки степени линейной
зависимости факторов друг от друга рассчитывают попарно
коэффициенты корреляции
где
Эти коэффициенты можно представить в виде таблицы (матрицы)
В идеальном случае все парные коэффициенты корреляции при 
Их значимость проверяется с помощью t-критерия Стьюдента
где m = k +1. Если 
Пример:
Для данных примера 12.10 определить степень линейной зависимости факторов друг от друга и значимость полученного коэффициента корреляции.
Решение:
Для определения коэффициента корреляции между первым и вторым фактором проведены расчеты, результаты которых сведены в табл. 12.12.
Подставив данные из табл. 12.12 в формулу (12.59), найдем:
Значение этого коэффициента велико, поэтому связь между факторами сильная.
По формуле (12.60) находим
Таблица 12.12
Для числа степеней свободы 10—3=7 и вероятности 
находим 

Так как связь между факторами очень сильная, то структура
уравнения регрессии должна быть пересмотрена. В данном случае должен быть исключен фактор 
Оценка степени линейной взаимосвязи между зависимой переменной и каждым из факторов
Зависимость у с каждым из факторов в модели регрессии
должна быть существенной. Эта зависимость проверяется при
помощи коэффициента корреляции
где
Значимость коэффициентов корреляции может быть проверена
с помощью t-критерия Стьюдента:
где m = k +1. Если 
Пример:
Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.
Для данных примера 12.10 определить степень
линейной зависимости зависимой переменной от каждого из факторов и значимость полученных коэффициентов корреляции.
Решение:
Для определения коэффициентов корреляции между
первым и вторым факторами воспользуемся данными табл. 12.11, 12.12. Подставив эти данные в формулу (12.61), найдем
Значение этих коэффициентов велико, поэтому связь между
зависимой переменной и факторами сильная.
По формуле (12.62) находим
Для числа степеней свободы 10 — 3 = 7 и вероятности 


Автокорреляция остатков
Отсутствие автокорреляции соседних значений остатков оценивается с помощью критерия Дарбина—Уотсона
По таблице Дарбина—Уотсона для заданной доверительной вероятности 


При 


Пример:
Для данных примера 12.10 провести исследование автокорреляции остатков.
Решение:
Воспользовавшись данными табл. 12.10 и 12.11, по формуле (12.63) найдем
Ближайшее табличное значение d определено при n = 15 и k = 2 
Доверительные интервалы регрессии и ошибка прогноза
Пусть прогнозируемое значение у определяется по уравнению регрессии с полученными выше параметрами
Пусть
— матрица-столбец заданных значений независимых переменных, подстановкой которой в 
Используя теорему о дисперсии суммы зависимых величин, получим
где 

В матричной записи выражение для дисперсии выглядит
следующим образом:
где 
Границы доверительного интервала для прогнозируемой точки
будут определяться по формуле
Вероятность попадания прогнозируемого значения в
доверительный интервал зависит от коэффициента доверия 


Пример:
Для данных примера 12.10 найти доверительные
границы в точке 

Решение:
В примере 12.10 нашли
Подставив сюда 

Значения обратной матрицы 
Произведение матриц под корнем в (12.64) равно:
Умножение матриц является ассоциативной операцией, т.е.
Таким образом,
Отсюда следует, что границы доверительного интервала для
прогнозируемой точки согласно (12.64):
Значение остаточной дисперсии 

Тогда
Вероятность попадания прогнозируемого значения в доверительный
интервал зависит от коэффициента доверия 

доверительной вероятности F = 0,95 для степеней свободы n-m = 7
находим по таблице Стьюдента: 
Таким образом,
Введение в математическую статистику
Цель: Освоить понятие статистическая гипотеза. По знакомиться с методами статистической проверки гипотез.
В задачу математической статистики входит изучение массовых явлений в природе, обществе и технике и их научное обоснование. Везде, где приходится иметь дело с обработкой
экспериментальных результатов, необходимыми и незаменимыми вспомогательными средствами являются методы математической статистики.
Зарождение математической статистики было связано со сбором данных и графическим представлением полученных результатов измерений. Так возникли первые сводки рождаемости, бракосочетаний и смертности в демографической статистике.
В 20-е годы нашего столетия, главным образом в США и Англии, были разработаны математико-статистические методы научной обработки результатов измерений, основанные на закономерностях теории вероятностей (К. Пирсон, Р.А. Фишер, Дж. Нейман, А. Вальд).
Генеральная совокупность (популяция) W – полный набор объектов, с которыми связана данная проблема. Эти объекты могут быть людьми, животными, изделиями и так далее. С каждым объектом связана величина (или величины), называемая исследуемым признаком
Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотрение каждого ее элемента. Однако в большинстве задач используются либо бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации необходимо отобрать из генеральной совокупности подмножество из n элементов, называемое выборкой объема n, исследовать его свойства, а затем обобщить эти результаты на всю генеральную совокупность. Это обобщение называется статистическим выводом.
Способы получения различных выборок и оценка их представительности будут рассмотрены в лабораторном практикуме.
Различные значения признака, наблюдающиеся у членов генеральной совокупности (или выборки), называются вариантами, а
числа, показывающие сколько раз встречается каждый вариант, частотами.
В данном определении предполагается дискретное изменения признака. Однако, если измерять непрерывную величину, то точность измерения и количество измерений в единицу времени
тоже дадут некий дискретный набор.
Мы предполагаем, что измеряемый или исследуемый признак изменяется некоторым случайным образом. Произведя серию измерений, получим набор данных, которые, скорее всего,
будут случайной выборкой из генеральной совокупности. Чтобы
провести первичную обработку этой выборки, необходимо построить экспериментальное распределение данных по частотам
или (если данные имеют явно непрерывный характер) по интервалам частот.
Выборочные функции
Для любой случайной величины Х существует (теоретическая) функция распределения F(x), или по-другому “Генеральная совокупность имеет теоретическое распределение F(x)”.
Вероятностный закон генеральной совокупности на практике почти всегда неизвестен. Единственным источником информации о нем служит взятая из этой совокупности выборка объема n, элементы которой 
Эмпирическое распределение выборки рассматривается в
качестве оценки теоретической функции распределения F(x) генеральной совокупности.
Пусть дана выборка значений случайной величины 
F(x). Тогда любое утверждение, касающееся природы F(x), называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:
Статистическая гипотеза, однозначно определяющая распределение F(x), то есть 

Статистическая гипотеза, утверждающая принадлежность
распределения F(x) к некоторому семейству распределений, то
есть вида 
Например, для экспоненциального распределения гипотеза 

бесконечного числа простых гипотез вида λ = с, где с – любое число, большее 3.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу . Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза , называемая конкурирующей или альтернативной.
Различают две группы математико-статистических методов:
- статистическая проверка гипотез (статистические тесты);
- статистическая оценка параметров распределения.
Статистическая проверка гипотез предполагает выдвижение
определенных допущений (гипотез) относительно неизвестных
параметров F(x). Правильность этих гипотез проверяется затем по числовым значениям, полученным из выборки, и, в зависимости от результата проверки, гипотезы принимаются или отвергаются.
Примеры непараметрических гипотез







Статистическая оценка параметров распределения предусматривает получение оценок (для отдельных значений или интервалов) неизвестных параметров вероятностного закона генеральной совокупности по параметрам выборки.
При статистической оценке параметров распределения и проверке гипотез используются числовые характеристики, рассчитанные по n наблюдениям выборки.
Пример параметрической гипотезы
Пусть дана независимая выборка из нормального распределения, где 
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
Статистической гипотезой называется любое предположение о
виде неизвестного распределения или о параметрах известного
распределения.
Статистическая проверка гипотез
Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).
Располагая выборочными данными и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной или нулевой, и гипотезу 
Термин «конкурирующая» означает, что являются противоположными следующие два события:
Гипотезу 
Основная гипотеза:
Конкурирующая гипотеза:
Статистическая проверка гипотез применяется для того, чтобы использовать полученную по выборке информацию для суждения о законе распределения генеральной совокупности. При этом имеется определенное представление о неизвестном вероятностном законе F(x) и его параметрах, которое формулируется в виде статистической гипотезы, обозначаемой символом Н или 
Целесообразным оказался следующий способ записи: 
есть функция распределения генеральной совокупности. Например, 


С помощью статистических методов или критериев для проверки гипотезы устанавливается, соответствуют ли взятые из выборки данные выдвинутой гипотезе или нет, то есть нужно ли принять или отвергнуть гипотезу.
Если вид функции распределения F(x) задан отдельными параметрами и, если гипотеза строится именно по этим неизвестным параметрам, то говорят о параметрических гипотезах.
Например, допущение о неизвестном параметре 
распределения является такой параметрической гипотезой.

арифметическая величина” по выборке.
В противоположность этому статистические гипотезы общего порядка 
Этапы проверки статистических гипотез
1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.
2. Задание вероятности , называемой уровнем значимости и
отвечающей ошибкам первого рода, на котором в дальнейшем и
будет сделан вывод о правдивости гипотезы.
3. Расчёт статистики критерия такой, что:
- её величина зависит от исходной выборки

- по её значению можно делать выводы об истинности
гипотезы ; - сама статистика должна подчиняться какому-то известному закону распределения, т.к. сама является случайной в силу случайности .
4. Построение критической области. Из области значений
выделяется подмножество таких значений, по которым можно
судить о существенных расхождениях с предположением. Его
размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы
Параметрические критерии
В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.
Критерий Стьюдента (t-критерий)
Критерий позволяет найти вероятность того, что оба средних
значения в выборке относятся к одной и той же совокупности.
Данный критерий наиболее часто используется для проверки
гипотезы: «Средние двух выборок относятся к одной и той же
совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.
Случай независимых выборок
Статистика критерия для случая несвязанных, независимых
выборок равна:

где 
контрольной группах; 
средних арифметических, которая находится из формулы:

где 

Если 

где n величина выборки.
Подсчет числа степеней свободы осуществляется по формуле:

При численном равенстве выборок k = 2n – 2.
Далее необходимо сравнить полученное значение 


Пример:
В двух группах учащихся – экспериментальной и
контрольной – получены следующие результаты по учебному
предмету (см. табл. 13).
Общее количество членов выборки:
Расчет средних арифметических:
Стандартное отклонение:
По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два.
Табличное значение 
возможности риска сделать ошибочное суждение в пяти случаях
из ста (уровень значимости 
Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу 
эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.
Здесь могут возникнуть такие вопросы:
- Что если полученное в опыте значение t окажется меньше
табличного? Тогда надо принять нулевую гипотезу. - Доказано ли преимущество экспериментального метода?
Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве. - Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами,
сделав средней арифметической экспериментальной группыа
— контрольной:

Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза 
метода.
Случай связанных выборок
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента. Вычисление значения t осуществляется по формуле:

где 


Число степеней свободы k определяется по формуле k=n-1.
Рассмотрим пример использования t-критерия Стьюдента для
связных и, очевидно, равных по численности выборок.
Если 
Пример:
Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы
посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос:
какова эффективность проведенной работы? С целью проверки
эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в табл. 14 приводятся результаты небольшого числа испытуемых.
Таблица 14
Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:
И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k=10-1=9 и по таблице находим 

В терминах статистических гипотез полученный результат
будет звучать так: на 5%-м уровне гипотеза 
принимается гипотеза 
Критерий Фишера
F – критерий Фишера используют для сравнения дисперсий
двух вариационных рядов. Он вычисляется по формуле:

где 

выборочные функции:

Если предположить, что соответствующие генеральные совокупности распределены нормально с параметрами 


Данное распределение названо в честь Р.А. Фишера F -распределением с 
Число степеней свободы числителя определяется по формуле: 

Число степеней свободы знаменателя определяется по формуле: 

Рассмотрим пример расчета критерия Фишера
Известны результаты женской эстафеты 5-го этапа Кубка мира 2010 г. по биатлону, прошедшей в Рупольдинге (в Германии).

совокупностей равны). 
По таблице критических точек распределения Фишера-Снедекора можно найти критическую точку для F-критерия при известных степенях свободы, равных: k= 4 – 1 = 3. Получаем
Поскольку, 


Непараметрические тесты
Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы.
1) В пределах осей можно нарисовать полигон частоты
(эмпирическую функцию распределения) и кривую нормального
распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой.
2) Вычисляется среднее, медиана и мода и на основе этого
определяется отклонение от нормального распределения. Если
мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.
3) Эксцесс кривой распределения должен быть равен 0.
Кривые с положительным эксцессом значительно круче кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения.
4) Правило трех сигм. После определения среднего значения распределения частоты и стандартного отклонения находят следующие четыре интервала распределения сравнивают их
с действительными данными ряда:
а) 
частоты совокупности,
б) 
частоты совокупности,
в) 
частоты совокупности,
г) 
частоты совокупности.
Проверка гипотез о законе распределения по критерию (хи-квадрат)
Проверка гипотез о законе распределения по критерию
(хи-квадрат)
Численным методом оценки того, принадлежит ли данная
выборка генеральной совокупности с нормальным распределением, является критерий 
Критерий 
Критерий 
Пусть в результате n наблюдений получен вариационный
ряд с опытными частотами 
Анализируя опытные данные, выбираем некоторый закон теоретического распределения для рассматриваемого признака. По
опытным данным найдем параметры этого закона (гипотеза). С помощью теоретического закона вычислим теоретические частоты
Сумма теоретических частот также должна быть равна объему
выборки – n (соглашение).
В качестве меры расхождения теоретического и эмпирического рядов частот возьмем величину:

s – число параметров теоретического закона, найденного с помощью этого распределения или число связей теоретического и эмпирического распределений. Например, если мы нашли –
среднее арифметическое и 
опытного распределения и установили, сумма частот опытного
распределения равна сумме частот теоретического распределения, то число связей s = 3.
Если же эмпирическое распределение не использовалось для
нахождения параметров теоретического закона и теоретических
частот, а эмпирические частоты не связаны никакими дополнительными соотношениями, то k равно числу групп эмпирического распределения. Количество частот в группе должно быть больше 5. Если количество меньше, то соседние группы следует
объединить.
Выборочная совокупность. Вариационный ряд
Цель: изучение типов выборок, методов анализа выборочной совокупности. Получение представлений о статистической
оценке параметров и интервалов вариационного ряда.
Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая процедура – рассмотреть каждый ее элемент.
Однако чаще всего на практике приходится ограничиваться
выборочными значениями из генеральной совокупности. Основное требование к выборке – хорошо представлять (быть репрезентативной, представительной) генеральную совокупность.
Обычно считается, что чтобы иметь право судить о генеральной совокупности по выборке, выборка должна быть образована случайно. Это можно достичь различными способами (наиболее распространенными):
- собственно-случайная выборка;
- механическая;
- типическая;
- серийная.
Собственно-случайная выборка
Существует два подхода к решению данной задачи:
Простая случайная выборка с возвращением – объект извлекается из генеральной совокупности случайным образом, и перед извлечением следующего, возвращается обратно. Например, после отбора деталей на анализ соответствия стандарту из большой партии, их снова возвращают назад и партию перемешивают.
Выборка без возвращения – извлеченный объект не возвращается в генеральную совокупность, а значит, может появиться в выборке только один раз. Например, отбор деталей производится с конвейера и после деструктивного анализа (разрушающего), возврат уже не возможен.

Если генеральная совокупность бесконечна, то процедуры
выборки как с возвращением, так и без него, дают простую случайную выборку. Если генеральная совокупность конечна и велика по сравнению с размером выборки, то процедура извлечения без возвращения дает приблизительно простую случайную выборку. Если генеральная совокупность конечна и объем выборки составляет заметную долю от размера генеральной совокупности, то различие между этими двумя методами становится заметным.
Механическая выборка
Механической называется выборка, в которую объекты из
генеральной совокупности отбираются через определенный интервал (рис. 24).
Например, если объем выборки должен составлять 5 % объема генеральной совокупности, то отбирается каждый двадцатый объект генеральной совокупности. Опасность, которая подстерегает исследователя при использовании этого метода – попасть в период циклически изменяющейся случайной величины.
Типическая выборка
Если генеральную совокупность предварительно разбить на непересекающиеся группы, а затем образовать собственнослучайные выборки элементов (с возвратом или без) изкаждой группы и все отобранные объекты считать попавшими в выборку, то получим выборочную совокупность, называемую типической выборкой. Считается, что типическая выборка с большей
достоверностью воспроизводит однородную генеральную совокупность.
Серийная выборка
Если генеральную совокупность предварительно разбить на
непересекающиеся серии, а затем, рассматривая серии как элементы некой мегасовокупности, выбрать случайным образом несколько серий и все объекты отобранных серий поместить в выборку, то получим выборочную совокупность, которая называется серийной.
Всякая случайная выборка возникает из генеральной совокупности в результате случайного отбора, ее можно описать с
помощью n-мерного случайного вектора 

Можно говорить о выборке объема n из распределенной согласно F(x) генеральной совокупности, когда случайные компоненты 
Закон распределения случайного вектора
в этом случае полностью определяется формулой: Эта формула получается из условий: F(x) – вероятность, 
Отсюда следует, что каждая из рассчитанных по наблюдениям 
Такая случайная величина называется выборочной функцией и в общем случае обозначается как

Такая запись означает зависимость выборочной функции от случайных компонент 
Так как выборочная функция Т является случайной величиной, то она имеет закон распределения, зависящий от закона распределения случайной величины X в генеральной совокупности. Для построения математико-статистических методов
оценки параметров и проверки гипотез необходимо знание закона распределения, поэтому его расчет по распределению Х для различных выборочных функций образует основную техническую проблему математической статистики.
Распределение среднего арифметического значения используется достаточно часто. Если из генеральной совокупности, распределение которой имеет математическое ожидание 
дисперсию 
приближается по форме к нормальной кривой. Можно математически строго доказать, что имеет (для больших n) асимптотически нормальное распределение с математическим ожидание 
Некоторые важные распределения выборочных функций
Все приведенные ниже теоремы предполагают, что n компонент 

нормальное распределение с математическим ожиданием 
дисперсией 
распределенной генеральной совокупности.
Теорема:
Выборочная функция
распределена нормально согласно
Величина также приближенно распределена нормально согласно 


Теорема:
Выборочная функция (нормированная) удовлетворяет нормированному (стандартному) нормальному распределению с параметрами N(0; 1).

Теорема:
Образованная с помощью эмпирической дисперсии (деление на n-1 дает несмещенную оценку) выборочная функция удовлетворяет непрерывной функции распределения с плотностью для х>0 при m = n-1.
Значение 

Плотность распределения хи-квадрат асимметрична, но при 
Теорема:
Если из выборочных функций 


то для нее доказано, что эта выборочная функция непрерывна, а ее плотность равна:
константа, зависимая только от m.
Эта плотность вероятности получена У. С. Гассетом и названа по его псевдониму – Student. Распределение Стьюдента или t-распределение с m=n-1 степенями свободы.
Кривая плотности вероятности тем более полога, чем меньше m, и при 
Статистические оценки параметров распределения
Цель: получение представлений о статистической оценке
параметров и интервалов выборочного распределения.
Точечные оценки параметров распределения
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.
Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.
Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.
Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.
M(Q*) = Q.
Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.
Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (n велико!) к
статистическим оценкам предъявляется требование состоятельности.
Состоятельной называют статистическую оценку, которая при 

тельной.
Рассмотрим точечные оценки параметров распределения,
т.е. оценки, которые определяются одним числом 

Генеральная средняя
Пусть изучается генеральная совокупность относительно
количественного признака Х.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.
Если все значения признака различны, то

Если значения признака распределены по частотам:


Выборочная средняя
Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.
Выборочной средней называют среднее арифметическое
значение признака выборочной совокупности.
Если все значения признака выборки различны, то

а если же все значения имеют частоты 

Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней. Замечание: Если выборка
представлена интервальным вариационным рядом, то за 
Генеральная дисперсия
Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг
своего среднего значения, вводят сводную характеристику – генеральную дисперсию.
Генеральной дисперсией 

Если же значения признака имеют соответственно частоты
Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии.
Выборочная дисперсия
Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.
Если все значения признака выборки различны, то

если же все значения имеют частоты 

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением.
Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии:

Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:

Вычисление дисперсии – выборочной или генеральной, можно упростить, используя формулу:
Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.
Исправленная дисперсия
Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Для исправления выборочной дисперсии достаточно умножить ее на дробь

получим исправленную дисперсию 
дисперсии принимают исправленную дисперсию.
Для оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение

Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30.
Вычислим выборочные характеристики по выборкам, рассмотренным в табл. 16.
Пример:
Для дискретного вариационного ряда:
Среднее выборочное
Выборочная дисперсия
Выборочное среднее квадратическое отклонение

Исправленная дисперсия

Рассмотрим пример расчета точечных оценок параметров
интервального вариационного ряда (табл. 17).
За 
Для вычисления выборочной дисперсии воспользуемся формулой
Тогда выборочная дисперсия равна

Выборочное среднее квадратическое отклонение:

Интервальные оценки параметров распределения
Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q.
Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если 


Таким образом, положительное число 


Надежностью (доверительной вероятностью) оценки называют вероятность 

Обычно надежность оценки задается наперед, причем в качестве 
Пусть вероятность того, что, |Q- Q*| <d равна

Заменив неравенство, равносильным ему двойным неравенством получим:

Это соотношение следует понимать так: вероятность того, что интервал Q* – d < Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна 
Интервал 

Интервальные оценки параметров нормального распределения
Доверительный интервал для оценки математического ожидания при известном среднем квадратичном отклонении
Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения 



Потребуем, чтобы выполнялось равенство

Заменив Х и 

Задача решена. Число t находят по таблице функции Лапласа Ф(х).
Пример:
Случайная величина Х распределена нормально и
Найти доверительный интервал для оценки математического ожидания по выборочным средним, если n = 36 и задана надежность
Из соотношения 2Ф(t)= 0,95 , откуда Ф(t) = 0,475 по таблице найдем
t =1,96. Точность оценки

Доверительный интервал

Пример:
Найти минимальный объем выборки, который обеспечивает заданную точность 

Из равенства

подставим значения и получим минимальный объем выборки
n=80.
Доверительный интервал для оценки математического ожидания при неизвестном среднем квадратичном отклонении
Поскольку мы не знакомы с законами распределения случайной величины, которые используются при выводе формулы, то примем ее без доказательства.
В качестве неизвестного параметра 


Значение этой величины зависит от надежности 


и доверительный интервал имеет вид

Пример:
Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8.
По таблице приложения найдем 




откуда получим доверительный интервал (19,774; 20,626).
Смысл полученного результата: если взять 100 различных
выборок, то в 95 из них математическое ожидание будет находиться в пределах данного интервала, а в 5 из них – нет.
Пример:
Измеряют диаметры 25 корпусов электродвигателей. Получены выборочные характеристики

Необходимо найти вероятность (надежность) того, что интервал: 
Из условия задачи найдем точность d, составив и решив систему:

Откуда d =10. Из равенства

откуда 

Доверительный интервал для оценки дисперсии и среднего квадратического отклонения
Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и 

Потребуем выполнения соотношения

Раскроем модуль и получим двойное неравенство:

Преобразуем:

Обозначим d/s = q (величина q находится по «Таблице значений q» и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:

Замечание:
Так как s >0, то если q >1 , левая граница
интервала равна 0:
0< s < s ( 1 + q ).
Пример:
По выборке объема n = 25 найдено «исправленное» среднее квадратическое отклонение s = 0,8. Найти до- верительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95. По таблице приложения по данным 
Искомый доверительный интервал 0,8(1- 0,32)< s < 0,8(1+ 0,32) или 0,544 < s <0,056.
Пример:
По выборке объема n = 10 найдено s = 0,16.
Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.

Искомый доверительный интервал 0< s <0,16(1+1,8) или 0< s <0,448.
Так как дисперсия есть квадрат среднего квадратического
отклонения, то доверительный интервал, покрывающий генеральную дисперсию с заданной надежностью 

Линейный корреляционный анализ
Цель: изучение связей между величинами, носящими случайный характер. Проверка гипотез о линейной и нелинейной корреляции величин.
Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы.
Корреляционный анализ (термин “корреляция” происходит
от лат. correlatio – соотношение, связь) измеряет степень взаимосвязи между двумя переменными – например, ценой товара
на рынке и объемом спроса на этот товар. Величина, характеризующая наличие связи – коэффициент корреляции показывает, приведут ли изменения одной переменной, например, цены к изменениям другой – спроса.
При корреляционном анализе двух переменных одна из них называется «зависимая», а другая – «независимая». Цель анализа
– определить, приведут ли изменения независимой переменной
к изменениям зависимой.
Из математики нам известно понятие функции, которая описывает зависимость значения величины Y от значения независимой переменной Х, называемой аргументом. Однозначная зависимость между переменными величинами Y и X называется функциональной, т.е. Y = f(X) (“игрек есть функция от икс”).
Например, в функции Y = -3X+5 каждому значению X соответствует значение Y. В функции 
Если функциональные связи одинаково легко обнаружить и на
единичных, и на групповых объектах, то этого нельзя сказать о
связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.
Задача корреляционного анализа сводится к установлению
направления и формы связи между признаками, измерению ее
тесноты и к оценке достоверности выборочных показателей корреляции.
Для двух случайных величин х и y коэффициент корреляции определяется по формуле:

где 


средние квадратичные отклонения по выборкам.

Коэффициент корреляции Браве–Пирсона по выборочным
данным можно оценить по формуле:

Выборочный коэффициент корреляции лежит между -1 и +1
и принимает одно из граничных значений только при наличии
идеальной линейной связи между наблюдениями. Нелинейная
связь и (или) разброс данных, вызванный ошибками измерения
или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного значения
Данный коэффициент впервые использовал Карл Пирсон
(1857–1936), английский математик, разработавший статистический аппарат для проверки теории Ч.Дарвина. Статистические
методики Пирсона широко используются в психологии и педагогике.
Расчет коэффициента корреляции правомерно проводить в том случае, когда случайные величины могут быть измерены в числовой шкале, при этом возможно вычисление средних значений. Приведём пример, когда нахождение коэффициента корреляции некорректно именно по причине измерения случайных величин в качественной шкале. Любые измеряемые величины соотносят с одной из измерительных шкал. Обычно выделяют две качественные шкалы: номинальную и порядковую. Номинальная позволяет только качественно отличить один объект от другого, например черное – белое, Марина – Пётр – Саша. Порядковая или ранговая шкала позволяет установить порядок увеличения или уменьшения какого-либо качества: низкий – средний – высокий, плохо – удовлетворительно – хорошо – отлично и т.д.
Количественные шкалы – интервалов и отношений, позволяют сравнивать величины между собой и выражать различие числом. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами 

Данная модель двумерного нормального распределения
(корреляционное поле) позволяет дать наглядную графическую
интерпретацию коэффициента корреляции, т.к. распределение в
совокупности зависит от пяти параметров: 

Если р = 0, то значения, 
нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью. В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.
Пример:
Определить достоверность взаимосвязи между по-
казателями веса и количеством подтягиваний на перекладине у
11 исследуемых с помощью расчета нормированного коэффициента корреляции, если данные выборок таковы:
Решение:
1.Расчет коэффициента корреляции Пирсона:

2.Для расчетов создать вспомогательную таблицу


3.Рассчитать число степеней свободы по формуле:

4.Сравнить рассчитанное значение нормированного
коэффициента корреляции 
для К =9 при a = 5 % и сделать вывод.
Вывод
1) так как 
2) поскольку 

уверенностью 
зависимость недостоверна.
Основы дисперсионного анализа
Цель: познакомиться с теорией дисперсионного анализа.
Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия средних арифметических на основе сравнения
дисперсий нескольких групп. Дисперсию измеряемого признака
разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
Например, проводя опросы по поводу потребления какого-
либо товара в различных регионах страны, необходимо сделать
выводы на: сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация
признака. За меру вариации принимается дисперсия. На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей.
Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.
Дисперсионный анализ включает в себя проверку гипотез, связанных с оценкой выборочной дисперсии. Можно выделить три основных вида гипотез:
1) значимо ли различие между двумя дисперсиями?
2) одна дисперсия значимо больше другой?
3) значимо ли различие между несколькими дисперсиями?
Гипотезой для дисперсионного анализа может служить и
такая гипотеза: выборки, по которым определены оценки дисперсии, получены из генеральных совокупностей, обладающих
одинаковыми дисперсиями.
Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. Дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны. Однородные же совокупности можно объединить в одну и тем самым
получить о ней более полную информацию, следовательно, и
более надежные выводы.
В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия 



где p – число групп; n – число уровней фактора; – общая средняя.
Вариацию, характеризующую рассеяние между группами, описывает межгрупповая дисперсия:

Остаточная сумма квадратов отклонений наблюдаемых
значений группы от своего группового среднего, характеризует
рассеяние внутри групп:
Между общей дисперсией 



Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе. Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии:
Если справедлива гипотеза 
1.Пусть гипотеза 
2. Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение

Поэтому в результате 

Итак, метод дисперсионного анализа состоит в проверке по критерию F нулевой гипотезы о равенстве факторной и остаточной дисперсий.
Если факторная дисперсия окажется меньше остаточной, то гипотеза о равенстве математических ожиданий генеральных
совокупностей верна. При этом нет необходимости использовать критерий F.
При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.
Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.
При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.
Говорят, что техника дисперсионного анализа является «робастной». Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но, несмотря на это, технику можно использовать. При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.
Пример использования однофакторного дисперсионного анализа
В четырех группах испытуемых, по 17 человек в каждой, проводилось изучение времени реакции на звуковой стимул.
Интенсивность стимула составила 40, 60, 80 и 100 дБ, причем в
каждой группе предъявлялись стимулы только одной интенсивности.

является сила звука, а её уровни рассматриваются как градации
фактора. Таким образом, фактор «сила звука» выступает как независимая переменная, а время реакции как результативный
признак, или как зависимая переменная. Проверяется гипотеза 

Представим исходные данные для работы с однофакторным дисперсионным анализом в виде табл. 20, в которую внесены некоторые дополнительные расчетные данные.
Сравнивая F экс и F таб, можно сделать вывод, что F экс больше критического табличного значения, а это значит, что нулевую гипотезу 
принять гипотезу 
увеличении силы звука скорость реакции значительно увеличивается. Или регулируемый фактор – сила звука оказывает существенное влияние на независимую переменную – скорость реакции.
Факторный анализ
Цель: освоить методику применения факторного анализа для исследования экспериментальных данных.
Множество явлений и процессов в окружающем нас мире связаны между собой. Изучение взаимных зависимостей между составляющими явлений и процессов порождает множество вопросов: о силе связей, об их закономерностях, о причинах, породивших определенную структуру связей. Сложные зависимости системы факторов, влияющих на процесс, сложно интерпретировать, поскольку в большинстве ситуаций существуют скрытые параметры, влияющие на коррелированные признаки.
Часто изменения взаимосвязанных признаков происходит
согласованно, т.е. признаки дублируются. Стремление объяснить совокупность признаков через введение более глубинных
характеристик явления, определяющих его структуру, приводит
к модели факторного анализа.
Факторный анализ – многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.
Реализация факторного анализа представляет собой постепенный переход от исходной факторной системы к конечной факторной системе, изучение влияния полного набора прямых, количественно измеряемых факторов, оказывающих влияние на изменение результативного показателя.
Условия выполнения факторного анализа:
- факторный анализ выполняется над взаимосвязанными
переменными; - изучаемые признаки должны быть количественными;
- число признаков должно быть в два раза больше числа переменных;
- выборка должна быть однородна.
По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа.
Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер.
Основные свойства детерминированного подхода к анализу:
- построение детерминированной модели путем логического
анализа; - наличие полной (жесткой) связи между показателями;
- невозможность разделения результатов влияния одновременно действующих факторов, которые не поддаются объединению в одной модели;
- изучение взаимосвязей в краткосрочном периоде.
Различают четыре типа детерминированных моделей:
Аддитивные модели представляют собой алгебраическую сумму показателей и имеют вид

К таким моделям, например, относятся показатели себестоимости во взаимосвязи с элементами затрат на производство и со статьями затрат; показатель объема производства продукции в его взаимосвязи с объемом выпуска отдельных изделий или объема выпуска в отдельных подразделениях.
Мультипликативные модели в обобщенном виде могут быть представлены формулой

Примером мультипликативной модели является двухфакторная модель объема реализации

где X – среднесписочная численность работников;
Pr – средняя выработка на одного работника.
Кратные модели:

Примером кратной модели служит показатель срока оборачиваемости товаров (в днях) . Т ОБ.Т:

где ЗТ – средний запас товаров; ОР – однодневный объем реализации.
Смешанные модели представляют собой комбинацию перечисленных выше моделей и могут быть описаны с помощью
специальных выражений:

Примерами таких моделей служат показатели затрат на 1 руб. товарной продукции, показатели рентабельности и др.
Алгоритмы применения детерминированного факторного анализа для различных моделей
- Модель вида

2. Модель вида

3. Модель вида

4. Модель вида

Построение факторной модели – первый этап детерминированного анализа. Далее определяют способ оценки влияния факторов.
Способы оценки влияния факторов
- Способ цепных подстановок
- Способ относительных разниц
- Способ абсолютных разниц
Способ цепных подстановок заключается в определении ряда промежуточных значений обобщающего показателя путем
последовательной замены базисных значений факторов на отчетные. Данный способ основан на исключении воздействия
всех факторов на величину результативного показателя, кроме
одного. При этом исходя из того, что все факторы изменяются
независимо друг от друга, т.е. сначала изменяется один фактор, а все остальные остаются без изменения, потом изменяются два при неизменности остальных и т.д.
В общем виде применение способа цепных постановок можно описать следующим образом:

где 


Общее изменение 
Проведем факторный анализ влияния на объем товарной продукции количества работников и их выработки описанным выше способом на основе данных табл.21.
Зависимость объема товарной продукции от данных факторов можно описать с помощью мультипликативной модели:
Тогда влияние изменения величины количества работников на обобщающий показатель можно рассчитать по формуле:
Далее определим влияние изменения выработки работников на обобщающий показатель
Суммарное влияние двух факторов:

Таким образом, на изменение объема товарной продукции
отрицательное влияние оказало изменение на 32 человека чис-
ленности работников, что вызвало снижение объема продукции
на 2720 тыс. руб. и отрицательное влияние оказало снижение
выработки на 13 тыс. руб., что вызвало снижение объема на
1274 тыс. руб. Суммарное влияние двух факторов привело к
снижению объема продукции на 3994 тыс. руб.
Способ абсолютных разниц является модификацией способа цепной подстановки. Изменение результативного показателя за счет каждого фактора способом разниц определяется как произведение отклонения изучаемого фактора на базисное или отчетное значение другого фактора в зависимости от выбранной последовательности подстановки:

Способ относительных разниц применяется для измерения влияния факторов на прирост результативного показателя в мультипликативных и смешанных моделях вида у = (а – b) * с.
Он используется в случаях, когда исходные данные содержат определенные ранее относительные отклонения факторных показателей в процентах.
Для мультипликативных моделей типа у = abc методика анализа следующая: находят относительное отклонение каждого факторного показателя:

затем определяют отклонение результативного показателя у за счет каждого фактора

Пример:
Воспользовавшись данными табл. 21, проведем анализ способом относительных разниц. Относительные отклонения рассматриваемых факторов составят:
Рассчитаем влияние на объем товарной продукции каждого фактора.
Количества работников:

Выработки продукции каждым работником:
Линейный регрессионный анализ
Цель: Используя методы регрессионного анализа, научиться строить прямые регрессии и оценивать полученные данные (прогноз) в заданном доверительном интервале.
Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с
этим желательно иметь модель этой связи, которая дала бы возможность предсказывать значения одной случайной величины
по конкретным значениям другой. Методы решения подобных
задач носят наименование регрессионный анализ.
В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

Предполагается, что Х – независимые переменные (факторы, объясняющие переменные) влияют на значения Y – зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным 
Рассмотрим простой случай двух коррелированных случайных величин х и у. Линейная связь между двумя случайными величинами означает, что прогноз значения величины у по данному значению х имеет вид

где А и В – это соответственно отрезок оси ординат, отсекаемой прямой, и ее наклон. Если данные связаны идеальной линейной
зависимостью (функциональная или сильная связь – в других
терминах) 





Метод наименьших квадратов
Общепринятая процедура определения коэффициентов уравнения состоит в выборе таких значений А и В, которые минимизируют сумму квадратов отклонений наблюдаемых значений от предсказанного значения у. Эта процедура называется методом наименьших квадратов. Поскольку отклонения наблюдаемых значений от предсказанных равны

то сумма квадратов отклонений имеет вид

Следовательно, наилучшее согласие в смысле наименьших квадратов обеспечивают значения А и В, для которых частные
производные равны нулю:

Частные производные по коэффициентам А и В, так как они являются не константами в общем смысле, а некоторыми переменными величинами.
На практике обычно имеется ограниченная выборка из N пар наблюдений значений х и у. Это означает, что уравнение 
а и b соответственно. Для отыскания минимума приравняем к
нулю частные производные:

Решая систему уравнений относительно оценок величин А и В, получим:

Оценки А и В можно также подсчитать по формулам:

или в обозначениях коэффициента корреляции и выборочных
дисперсий:

Эти значения можно использовать для построения регрессионной модели, позволяющей предсказывать неизвестное у по заданному х:

Прямая линия, задаваемая указанным уравнением называется прямой линейной регрессии у на х. Ясно, что коэффициенты а и b, определенные формулами, приведенными выше, являются случайными функциями, имеющими свои распределения. Следовательно, необходимо оценить, насколько точно (или по другому – какой разброс) значения а и b мы получим.
Доверительные интервалы
Для анализа экспериментальных данных часто рассчитываются значения числовых характеристик случайных величин.
Это способ служит для оценки параметров и дает их точечные
оценки. Числовые характеристики выборки не позволяют судить о степени близости к соответствующим параметрам генеральной совокупности, поскольку каждый вариант выборки дает свои значения параметров. Более содержательны процедуры оценивания параметров, связанные не с получением точечного
значения, а с построением интервала, который накрывает оцениваемый параметр с известной степенью достоверности.
Пусть, например, выборочное среднее арифметическое, вычисленное по n независимым наблюдениям случайной величины х, используется в качестве оценки среднего
Обычно представляет интерес оценить 


Относительно значения выборочного среднего можно сделать следующее вероятностное утверждение:

где Ф(х) – стандартная функция распределения; где 
Обычно вероятность ошибки измеряется в пределах от 0,10 до 0,0001 или в процентах от 1 %, 5 % или 10 % .
Значение 
По мере уменьшения 



При оценивании среднего значения доверительный интервал для среднего 

Если 
можно построить по выборочным значениям 
используется t-распределение Стьюдента:

где n = N-1 — степени свободы для распределения Стьюдента, N — выборка. Интервалам соответствует уровень доверия
Точность оценки параметров линии регрессии
Точность оценок параметров а, b и значения предсказанной
функции 
распределения y при данном значении х (рис. 26).
Выборочные распределения указанных параметров связаны с
t-распределением соотношениями:

Распределение 





Значение будет определять границы интервала для заданного
значения 

отклонение наблюдаемого значения 


Множественный регрессионный анализ
Цель: используя множественную регрессионную модель, научиться строить регрессионную зависимость.
Общее назначение множественной регрессии (этот термин был впервые использован в работе К. Пирсона – Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан.
Например, могло бы оказаться, что число спальных комнат
является лучшим предсказывающим фактором (предиктором)
для цены продажи дома в некотором специфическом районе,
чем «привлекательность» дома (субъективная оценка). Могли бы
также обнаружиться и «выбросы», т.е. дома, которые могли бы
быть проданы дороже, учитывая их расположение и
характеристики.
Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.
В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в
исследованиях. В общем, множественная регрессия позволяет
исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшей посылкой для…». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими условиями успешной учебы в средней школе. А психолога мог бы заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.
Заметим, что термин «множественная» указывает на наличие
нескольких предикторов или регрессоров, которые используются в модели.
Множественная корреляция имеет второе название —множественное предсказание. Цель множественного
предсказания — оценивание зависимой переменной Y по
линейной (или нелинейной) комбинации m независимых
переменных
Термин »множественная регрессия» объясняется тем, что
анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков.
Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1). Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и
необходимо учитывать влияние нескольких факторов.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Различие линейных и нелинейных регрессий
Линейная регрессия описывается уравнением:

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Примеры регрессий, нелинейных по объясняющим переменным, но линейных по оцениваемым параметрам:
- равносторонняя гипербола
Примеры нелинейных регрессий, по оцениваемым параметрам:
Наиболее часто применяются следующие модели регрессий:
Чаще всего исследователи ограничиваются линейной
регрессией, т.е. зависимостью вида:

где Y – результирующий признак; 
признаки; 
член уравнения; 
Это уравнение представляет собой многомерное предсказание переменной Y по аналогии с одномерным случаем.
Уравнение (1) называется линейным, поскольку b-коэффициенты входят туда в первой степени. Уравнение (1) само по себе не представляет особой ценности; должна быть установлена процедура, посредством которой для 
Как и в случае парной регрессии, построение уравнения
множественной регрессии осуществляется в два этапа:
- определение модели;
- оценка параметров выбранной модели.
Определение модели включает в себя решение двух задач:
1) отбор p факторов 
2) выбор вида уравнения регрессии
Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.
1) Факторы, включаемые во множественную регрессию,
должны отвечать следующим требованиям.
2) Факторы должны быть количественными. Добавление
в модель качественного фактора, требует присвоения ему количественного значения (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости недвижимости районам присваиваются ранги).
3) Число включаемых факторов должно быть в 6–7 раз меньше объема совокупности, по которой строится регрессия. Факторы не должны быть взаимозависимы. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат, и параметры уравнения регрессии не будут адекватно интерпретироваться.
Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором из р факторов, то для нее рассчитывается показатель детерминации 
объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как 
При дополнительном включении в регрессию (р + 1) – фактора 

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хp+1 не улучшает модель и является лишним. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.
Отбор факторов производится на основе качественного анализа и обычно осуществляется в две стадии:
- на первой подбираются факторы исходя из сущности проблемы;
- на второй – на основе матрицы показателей корреляции оп-
ределяют t-статистики для параметров регрессии.
Коэффициенты корреляции между объясняющими переменными позволяют исключать из модели дублирующие факторы. Считается, что две переменные находятся между собой в линейной зависимости, если
Если факторы явно коллинеарны, то они дублируют друг друга и один из них нужно исключить из регрессии. Предпочтение отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
Пусть, например, при изучении зависимости y = f (х, z, v)
матрица парных коэффициентов корреляции оказалась следую-
щей:

Очевидно, что факторы q и z дублируют друг друга, поскольку связь между ними 

Выбор формы уравнения регрессии
Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.
В уравнении линейной множественной регрессии

параметры при хi называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.
Предположим, например, что зависимость расходов на
продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц, тыс. руб.; 


Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 330 руб. при том же среднем размере семьи. Иными словами, 33 % дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на 420 руб. Увеличение коммунальных платежей при тех же ее доходах предполагает дополнительный рост расходов на 250 руб.
Оценка параметров уравнения множественной регрессии
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений регрессии (и нелинейных уравнений, приводимых к линейным) строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии. В случае линейной множественной регрессии

система нормальных уравнений имеет следующий вид:

Для определения значимости факторов и повышения точности результата используется уравнение множественной регрессии в стандартизованном масштабе:

где 

для которых среднее значение равно нулю 
квадратическое отклонение равно единице
Величины βi называются стандартизованными коэффициентами регрессии. К уравнению множественной регрессии в
стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии (β-коэффициенты) определяются
из следующей системы уравнений:
либо из системы уравнений

Стандартизованные коэффициенты регрессии показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии βi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.
В парной зависимости стандартизованный коэффициент
регрессии β есть не что иное, как линейный коэффициент корреляции ryx.
Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами βi описывается соотношением

Параметр а определяется из соотношения:

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле

и показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов.
Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар относительно
отечественного его производства 



При этом средние значения для рассматриваемых признаков составили:

На основе данной информации могут быть найдены средние по совокупности показатели эластичности. Для данного примера они окажутся равными:

1) С ростом величины отечественного производства на 1 % размер импорта в среднем по совокупности регионов возрастет на 1,06 % при неизменных запасах и потреблении семей; 2) с ростом изменения запасов на 1 % при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на
0,056 %; 3) при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1 % импорт товара возрастает в среднем по совокупности регионов на 1,987 %.
Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара 
Дополнительные лекции:
- Случайные события и их вероятности
- Случайные величины
- Функции случайных величин
- Числовые характеристики случайных величин
- Законы больших чисел
- Статистические оценки
- Статистическая проверка гипотез
- Статистическое исследование зависимостей
- Теории игр
- Вероятность события
- Теорема умножения вероятностей
- Формула полной вероятности
- Теорема о повторении опытов
- Нормальный закон распределения
- Определение законов распределения случайных величин на основе опытных данных
- Системы случайных величин
- Нормальный закон распределения для системы случайных величин
- Вероятностное пространство
- Классическое определение вероятности
- Геометрическая вероятность
- Условная вероятность
- Схема Бернулли
- Многомерные случайные величины
- Предельные теоремы теории вероятностей
- Оценки неизвестных параметров
- Генеральная совокупность














































































































из (10.8) видим, что е уменьшается, значит, уменьшается длина доверительного интервала, а точность оценки увеличивается;
приводит к увеличению длины доверительного интервала (см. рис. 10.2, где квантили
увеличиваются), т. е. е увеличивается, а точность оценки падает;
, то можно найти объем выборки, который обеспечит заданную точность:









































































;
к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько
, то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же
, говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
или
:

, распределение которой задано следующей таблицей:




























.
. При выборе
.
— наименьшая варианта, то
.
— наибольшая варианта, то
при
.

















































































































































































































































































































































































































































а
— контрольной:





























































