Методы прикладной математической статистики активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента), социологии, медицине, геологии, истории и т. д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований.
Прикладная математическая статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Здравствуйте на этой странице я собрала примеры решения задач по предмету статистика с решением по каждой теме, чтобы вы смогли освежить знания!
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Статистика
Статистика изучает массовые общественно-экономические явления в конкретных обстоятельствах места и времени.
Предметом статистики выступают размеры и количественные соотношения массовых общественных явлений в неразрывной связи с их качественной стороной с целью выявления закономерностей их развития.
Статистика является важным элементом плана подготовки специалистов высшей экономической квалификации. Знание статистики необходимо современному специалисту для принятия решений в условиях, когда анализируемые явления подвержены влиянию случайностей, для анализа элементов рыночной экономики, прогнозирования и разработки сценариев поведения экономических систем при изменении условий их функционирования
Основные понятия и формы статистического наблюдения
Всякое статистическое исследование делится на три последовательных этапа: статистическое наблюдение, сводка и группировка материалов, полученных в результате наблюдения; вычисление обобщающих показателей, всесторонне характеризующих изучаемое явление и их анализ.
Таким образом, статистическое наблюдение (СН) является исходным этапом статистического исследования и состоит в планомерном, научно-организованном собирании массовых данных о явлениях и процессах общественной жизни. Целью СН является регистрация элементов, составляющих изучаемое массовое явление, по заранее установленным наиболее существенным признакам. Это означает, что СН должно быть организовано как планомерное, массовое и систематическое.
Планомерность статистического наблюдения заключается в том, что оно подготавливается и осуществляется по заранее подробно разработанному плану и программе, которые охватывают все вопросы методологии, организации и техники сбора информации. В программно-методологическую часть плана статистического наблюдения включаются вопросы определения цели, объекта наблюдения, единицы наблюдения и единицы совокупности.
Объектом статистического наблюдения называется совокупность единиц изучаемого явления, подлежащих статистическому изучению (совокупность предприятий, лиц, магазинов, фермерских хозяйств и др.).
Единицей наблюдения называется первичная ячейка совокупности, которая является источником информации.
Единицей совокупности называется элемент единицы наблюдения, служащий основой счета и обладающий признаками, подлежащими регистрации.
Каждая единица наблюдения и единица совокупности должны характеризоваться совокупностью признаков, которые по форме и содержанию делятся на количественные, т. е. выражающиеся числом (возраст, заработная плата и т. д.) и атрибутивные, характеризующие качественное состояние данного явления и не имеющие количественного выражения (пол, специальность, образование и пр.). В свою очередь и те и другие могут быть факторными, т. е. характеризующими условия, определяющие размер того или иного явления, и результативными, являющимися результатом действия факторных признаков (например, стаж работы факторный признак, производительность труда результативный признак).
Массовый характер статистического наблюдения означает, что оно организовано и направлено на охват возможно большего, массового числа случаев проявления данного явления или процесса
Систематичность статистического наблюдения определяется тем, что оно производится не стихийно, а регулярно или непрерывно.
Статистическое наблюдение осуществляется в двух формах: путем представления отчетности и проведения специально организованного статистического наблюдения, причем основной формой СН является представление отчетности.
Возможно эта страница вам будет полезна:
Виды и способы статистического наблюдения
Статистическое наблюдение различается по видам и способам проведения. Их можно классифицировать следующим способом:
I. По степени охвата единиц исследуемой совокупности.
По этому классификационному признаку СН подразделяется на два способа:
1. Сплошное наблюдение, т.е. когда охватываются все единицы совокупности (например, перепись населения, текущая отчетность предприятии).
2. Несплошное (частичное) наблюдение — обследованием охватывается определенная часть изучаемой совокупности. Несплошное наблюдение занимает очень важное место в статистике и подразделяется на следующие виды:
а) метод основного массива (наблюдение наиболее важных объектов) заключается в том, что обследованию подвергается та часть совокупности, у которой величина изучаемого признака является определяющей во всем объеме. Например, отслеживания объема реализации и динамики цен на колхозных рынках в России проводились в 264 крупных городах, составляющих менее 5% всех городов, но в которых проживало более 50% всего городского населения.
б) монографическое наблюдение состоит в подробном описании небольшого числа или отдельных единиц совокупности (описание работы передового или отстающего предприятия и т. д.);
в) суть анкетного вида несплошного наблюдения заключается в рассылке и сборе анкет;
г) случайный отбор определенного количества единиц из совокупности (выборочный метод).
В свою очередь он может выполняться следующими способами:
— при собственно-случайном отборе, отбор единиц для выборочной совокупности осуществляется случайным образом по жребию;
— сущность механического отбора состоит в том, что единицы изучаемой совокупности предварительно располагают в определенном порядке (например, по возрастанию или убыванию), а потом механическим путем выбирают необходимое количество единиц (например, берут каждую 4-ю, каждую 10-ю единицу и пр.);
— типологическому отбору предшествует распределение единиц изучаемой совокупности на группы по типичному признаку, затем внутри каждой группы проводится тот или иной отбор (собственно-случайный, механический или любой другой);
— серийный отбор предполагает образование выборочной совокупности не из отдельных единиц, а из целых серий, причем серии выбираются путем механического или собственно-случайного отбора, а внутри каждой серии проводится сплошное наблюдение.
Все способы случайного отбора могут выполняться по двум схемам:
— повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в исходную совокупность и может быть выбрана снова;
— бесповторный отбор (схема невозвращенного шара) — отобранная единица обратно в совокупность не возвращается и не может быть выбрана снова.
II. В зависимости от времени статистическое наблюдение может быть непрерывным (текущим), периодическим и единовременным.
1. Непрерывным или текущим наблюдением называется такое, которое проводится непрерывно, по мере возникновения явлений, например, учет выпуска продукции на предприятии;
2. Если наблюдение проводится через определенные промежутки времени, то оно называется периодическим (сессия в вузах);
3. Единовременное наблюдение проводится по мере необходимости, например, перепись населения.
Установление времени наблюдения является очень важным, и в статистике различают, объективное и субъективное время и критический момент.
Объективным временем называется время, к которому относятся данные наблюдения. Оно характеризует тот момент или период времени, по состоянию на который были собраны и зарегистрированы данные. Например, данные о выпуске продукции, размерах потребления и т.д. можно получить только за определенный период. Сведения же о численности населения, числе больничных коек и т. д. можно собрать только по состоянию на определенную дату.
Если наблюдение приурочено к определенному моменту, то этот момент называется критическим.
Субъективное время наблюдения — это время производства наблюдения, т.е. период, в течение которого проводится регистрация единиц совокупности. В целях обеспечения точности наблюдения субъективное время должно измеряться возможно более коротким периодом. Когда наблюдение основано на документальных данных, длительность субъективного времени не имеет значения.
III. В зависимости от источников собираемых данных различают:
4) Непосредственное наблюдение, т.е. наблюдение лично регистратором — снятие товарных остатков, изучение и замер норм времени и т. д.;
5) Документальное наблюдение, когда используются различного рода документы;
6) Наблюдение базируется на опросе заинтересованных лиц и получение данных в форме ответов.
IV. По способу организации наблюдения различают:
1) Наблюдение, заключающееся в обработке отчетных данных — отчетность, наиболее распространен в практике работы.
2) Экспедиционный способ — к каждой единице совокупности посылается специальное лицо, которое в соответствующих формулярах фиксирует необходимые сведения;
3) Саморегистрация — заполнение специально выданных бланков;
4) Анкетный способ — рассылка анкет и их обработка.
Наиболее распространенной формой статистического наблюдения является представление отчетности. Виды статистической отчетности делятся на типовую и специализированную; по периодичности различают недельную, двухнедельную, месячную, квартальную и годовую отчетность; в зависимости от установленного порядка прохождения отчетность делится на централизованную (наиболее распространенную) и децентрализованную.
Пример №1.
На заводе ведется учет выполнения норм выработки. Укажите виды наблюдения по времени проведения, охвату единиц совокупности и источника данных.
Так как наблюдению подвергаются все, без исключения, рабочие, то по степени охвата единиц наблюдение сплошное; наблюдение непрерывное, так как проводится по мере возникновения явления; источником данных служат документы.
Пример №2.
Проведено обследование части школьных буфетов в городе. Укажите вид наблюдения по степени охвата единиц и способу проведения.
Так как наблюдалась только часть буфетов, то наблюдение несплошное и, повидимому, был применен экспедиционный способ, т.е. в каждый проверяемый буфет посылался специальный человек, который и фиксировал необходимую информацию.
Пример №3.
Первая Всесоюзная перепись населения 1926 г. проводилась по состоянию на 12 ч. ночи с 16 на 17 декабря и продолжалась в городах 7 дней, а в сельской местности — 14 дней. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 12 ч. ночи с 16 на 17 декабря. Этот же момент является критическим. Субъективное время: в городах — 7 дней; в сельской местности — 14 дней.
Пример №4.
Срок представления годовых отчетов за 1995 год — 1-25 января 1996 г. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 1995 год, т.к. данные наблюдения относятся именно к этому периоду; субъективное время — 1-25 января 1996 г., так как в это время составляется отчет, собираются данные; критический момент отсутствует.
Пример №5.
Проводится перепись художественной литературы в библиотеках области. Укажите объект, единицу наблюдения и единицу совокупности.
Объектом наблюдения являются библиотеки области, единицей наблюдения здесь будет фонд художественной литературы, так как другие ее виды не учитываются, а единицей наблюдения является каждая конкретная книга, так как она обладает признаками, подлежащими регистрации.
Ошибки наблюдения и их контроль
Ошибкой называется расхождение между результатом наблюдения и истинным значением исследуемой величины.
Все ошибки статистического наблюдения можно классифицировать:
1. По характеру ошибок:
а) случайные ошибки, которые вызываются самыми разными причинами. Так как искажение может быть как в ту, так и в другую сторону, то случайные ошибки могут не очень влиять на общий результат;
б) систематические ошибки, которые искажают явление только в одну сторону более опасны и, как правило, вызываются действием систематического фактора (например, тяготение к круглым цифрам вносит большие осложнения при собирании сведений о возрасте населения).
2. По стадии возникновения:
а) ошибки регистрации;
б) ошибки при подготовке данных к обработке;
в) ошибки при обработке.
3. По причинам возникновения:
а) свойственные только выборочному методу и связанные с неправильным выбором части совокупности ошибки репрезентативности (представительности);
б) непреднамеренные ошибки, совершаются неумышленно, непреднамеренно, т. е. не имеют целью исказить результаты наблюдения;
в) преднамеренные ошибки возникают в результате умышленного искажения фактов. Все преднамеренные ошибки являются систематическими.
Для исключения ошибок статистические данные проверяются арифметическим и логическим контролем.
Логический контроль состоит в сопоставлении ответов на взаимосвязанные между собой вопросы программы наблюдения.
Счетный и арифметический контроль сводится к проверке общих и групповых цифровых итогов и сопоставлений; задача его обнаружить и исправить неверные итоги числовых показателей.
Пример №6.
В сводку завода о выпуске продукции за февраль была включена и продукция, выпущенная 1 и 2 марта. Укажите характер допущенной ошибки и причины возникновения.
Ошибка систематическая и преднамеренная, так как были сознательно искажены действительные результаты для получения определенных материальных выгод.
Пример №7.
В переписном листе записано: «лет-, месяцев — 11» вместо «лет — 11, месяцев-». Укажите характер и причину ошибки.
Ошибка случайная (описка) и непреднамеренная.
Пример №8.
Проведите логический контроль правильности заполнения переписного листа Всесоюзной переписи населения 1970 г. В ответах на какие вопросы допущены ошибки?
Переписной лист № 4
1. Фамилия имя и отчество — Антонова Мария Павловна.
2. Пол -женский.
3. Отношение к главе семьи -внучка.
4. Возраст (число исполнившихся лет) -4.
5. Состоит ли в браке в настоящее время -да.
6. Образование -не имеет начального.
Логика ответов подсказывает, что ошибка в 5 вопросе. Должно быть — «нет».
Сводка и группировка статистических данных. Сводка и группировка. Виды группировок
В результате статистического наблюдения получают сведения о каждой единице совокупности в отдельности. Чтобы на основе этих данных сделать определенные выводы, необходимо провести сводку полученных материалов, т.е. в узком смысле сводка -это подсчет или подведение итогов.
Однако в более широком смысле под статистической сводкой понимают сложную операцию научной обработки первичных статистических данных, которая включает группировку материала, разработку системы показателей для характеристики типичных групп и подгрупп, подсчет (подведение) итогов по группам и по совокупности в целом и изображение сгруппированных данных в виде статистических таблиц.
Статистическая группировка — расчленение общей совокупности единиц по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в качественном и количественном отношении и позволяющие выделить социальноэкономические типы, изучить структуру совокупности или проанализировать связи между отдельными признаками. Группировка проводится только для целей конкретного исследования.
В соответствии с решаемыми задачами все группировки подразделяются на типологические, структурные и аналитические.
1.Расчленение разнородной совокупности на качественные однородные группы, выделение качественно однородных экономических групп или типов общественных явлений осуществляется при помощи типологических группировок.
Таблица 2.1
Распределение промышленной продукции, произведенной в различных формах хозяйствования за отчетный период
Приведенные данные характеризуют социально-экономический состав промышленной продукции (выделены типы явления), а также свидетельствуют о возникших в последнее время новых формах хозяйствования.
2. Группировка, цель которой расчленение совокупности единиц на группы, характеризующие структуру по определенным признакам, называется структурной группировкой.
Приведенная в табл. 2.2 группировка, содержит систему показателей, характеризующих структуру изучаемой совокупности по ряду признаков, а также концентрацию торгово-закупочного процесса, нашедшего свое выражение в укрупнении магазинов по величине товарооборота.
Таблица 2.2
Группировка торговых предприятий района по объему товарооборота (в процентах к итогу)
3. Группировка, целью которой является установление взаимосвязей между изучаемыми явлениями, называется аналитической. Примером аналитической группировки могут служить данные табл.2.3.
Таблица 2.3
Зависимость урожайности зерновых культур от количества внесенных удобрений по группе совхозов
Данные показывают, что увеличение количества внесенных удобрений (факторный признак) приводит при прочих равных условиях к повышению урожайности (результативный признак).
Возможно эта страница вам будет полезна:
Группировочные признаки
Признаки в статистике — это свойства, характерные черты или особенности явлений, которые можно выразить рядом статистических величин. Признаки, положенные в основание группировки, называются группировочными.
Группировки по одному признаку называются простыми. Когда же для выделения групп берутся два более признака, т. е. группы, образованные по одному признаку, подразделяются на подгруппы по другому, а полученные в результате этого подгруппы подразделяются (каждая в отдельности) еще на подгруппы и т. д., то такие группировки называются комбинационными.
Различают четыре вида группировочных признаков: атрибутивные, количественные, признаки пространства и признаки времени.
2. Атрибутивным называется признак, который характеризует свойство, качество данного явления и не имеет количественного выражения. При группировке по атрибутивным (качественным) признакам статистическая совокупность разбивается на столько групп, сколько разновидностей имеет признак (по полу — на две группы, по национальному составу — на столько групп, сколько имеется национальностей и т.д.).
Разновидностью атрибутивных признаков являются альтернативные, т.е. такие признаки, которыми одни единицы совокупности обладают, а другие -нет. Например, одни работники имеют высшее образование, а другие не имеют и т. д.
3. Количественным называется признак, характеризующий размеры, величину изучаемой совокупности и дающий возможность расчленить её на группы по величине индивидуальных значений группировочного признака.
4. Признак пространства -это адресный признак (адрес предприятия и пр.). Группировки по признаку пространства применяются для изучения пространственных (географических) закономерностей.
5. Признак времени позволяет установить хронологию событий, и его применяют для изучения изменений явлений во времени.
Признаки бывают первичные и вторичные. Первичные признаки характеризуют абсолютные размеры изучаемых явлений (например, численность рабочих), вторичные являются производными от первичных и показывают структуру группируемых явлений (фондовооруженность, себестоимость и т. д.).
Предварительные сведения о рядах распределения
Ряд цифровых показателей, представляющий распределение единиц совокупности по одному признаку, разновидности которого расположены в определенной последовательности, называется рядом распределения.
Ряд распределения -это первичная характеристика массовой статистической совокупности, в которой находят количественное выражение закономерности массовых явлений и процессов.
Ряды распределения могут быть построены как по атрибутивному признаку — атрибутивные ряды распределения, так и по количественному — вариационные ряды распределения.
Числовые значения количественного признака в вариационном ряду называются вариантами и располагаются в определенном порядке; численность единиц в каждой группе называется частотой, а если частоты выражены в процентах, то они называются частостями. Рассмотрим табл.2.4.
Таблица 2.4
Распределение рабочих завода по уровню месячной заработной платы
В данной таблице уровень заработной платы является вариантой, а число рабочих — частотой, показывающей, сколько раз повторяется данная варианта (т.е. сколько рабочих получают заработную плату, лежащую в пределах от 350 до 450 тыс. руб.). Частота, выраженная в процентах (в данном примере — 48,0) — это частость. Сумма всех частот называется объемом ряда распределения или его численностью (в данном случае было обследовано 180 рабочих).
Вариация признака может быть дискретной (прерывной) или непрерывной. При дискретной вариации признака значение вариантов отличается друг от друга на вполне определенную величину, и варианты обычно выражаются целыми числами (например, число членов семьи — 1, 2, 3, 4 и т. д.). Такие ряды называются вариационными дискретными рядами.
При непрерывной вариации признака его величина может принимать любые значения в определенном интервале (интервальные ряды распределения), например, рост человека, урожайность, заработная плата и т.д. Построение интервального ряда основано на принципах статистической группировки.
Интервалы могут быть неравными, поэтому сравнивать частоты и судить о степени заполнения разных интервалов нельзя. В целях сравнения заполненности интервалов рассчитывается показатель, называемый плотностью распределения, — т.е. число единиц совокупности, приходящееся в среднем на одну единицу ширины интервала (ширина интервала — разность между его границами). Если плотность определяется с помощью частот, она называется абсолютной, если с помощью частостей — относительной.
Для облегчения анализа рядов распределения их изображают при помощи графиков.
При дискретной вариации анализа признака графиком вариационного ряда служит полигон распределения. Он представляет собой замкнутый многоугольник, абсциссами вершин которого являются значения варьирующего признака, а ординатами — соответствующие им частоты или частости. Для примера рассмотрим построение полигона распределения по следующим данным (таблица 2.5). Полигон распределения приведен на рис.2.1.
Таблица 2.5
Распределение квартир жилого дома по числу проживающих в них лиц
Для иллюстрации рядов распределения часто используется кумулятивная кривая или кумулята, построенная по накопленным частотам. Накопленная частота показывает, какое число единиц имеет величину варианта не большую данной и находится путем последовательного суммирования частот (строка 3 в табл.2.5), например из табл.2.5 видно, что в 10 квартирах проживают семьи, состав которых не превышает 2 человек, в 78 квартирах проживают семьи, состав которых не превышает 4 человек и т. д. Кумулята приведена на рис.2.2.
Если при построении кумуляты поменять местами значения признака и частоты (т.е. на оси ординат отложить значения признака, а на оси абсцисс — частоты) то получим кривую, называемую огивой.
Для иллюстрации интервального ряда распределения применяют график, называемый гистограммой распределения. Гистограмма представляет собой ряд смежных столбиков, основание каждого равно величине соответствующего интервала, а высота — частоте (правильнее — пропорциональна частоте). Пример гистограммы приведен на рис.2.3.
Разновидностью кумулятивной кривой является график Лоренца или кривая концентрации. Например, необходимо дать характеристику уровня концентрации производства в промышленности России по числу рабочих (см. табл. 2.6). График приведен на рис. 2.4. Если бы численность рабочих распределялась равномерно по числу предприятий, т.е. процесс концентрации отсутствовал полностью, график представлял бы собой прямую линию. При неравномерном распределении линия концентрации отходит от прямой, причем, чем выше уровень концентрации, тем больше ее кривизна.
Таблица 2.6
Группировка промышленных предприятий по численности рабочих за 19__г.
Возможно эта страница вам будет полезна:
Абсолютные и относительные величины
Абсолютные величины
Абсолютной величиной называется статистический показатель, выражающий абсолютные размеры изучаемого явления.
По способу выражения размеров изучаемых явлений абсолютные величины подразделяются на индивидуальные, которые отражают абсолютные размеры каждой отдельной единицы совокупности, и суммарные (групповые), которые получаются суммированием индивидуальных абсолютных величин.
Абсолютные величины — всегда числа именованные, имеющие определенную размерность, единицу измерения. В зависимости от различных причин и целей анализа применяют натуральные, условно-натуральные, трудовые и стоимостные единицы измерения.
Натуральные измерители в большинстве своем соответствуют природным или потребительским свойствам предмета изучения и выражаются в физических мерах веса, длины и т. д. Учет в натуральных единицах измерения называется натуральным учетом. Иногда применяется составная единица измерения (например, тоннокилометры — ткм и т. д.).
Однородная, но неодинаковая продукция измеряется в условно-натуральных единицах измерения. Такие единицы получают, приводя различные натуральные единицы к одной, принятой за базу, например, в консервной продукции емкость банки в 354,4 см3 принята за условную и вся продукция пересчитывается в этих условных банках. Аналогично производится пересчет в условно-натуральные измерители и в других отраслях (топливной, текстильной и пр.).
Показатели, отражающие результаты труда, измеряются в трудовых единицах измерения, а наиболее распространенные – в стоимостных (или денежных) единицах измерения.
Относительные величины: сущность, виды, единицы измерения
Статистические показатели, выражающие относительные размеры изучаемого явления, называются относительными величинами.
Относительные величины получаются в результате деления одной величины на другую, принимаемую за базу сравнения (или основание относительной величины). Причем следует иметь в виду, что в числителе всегда находится показатель, отражающий то явление, которое изучает, т.е. сравнимый показатель, а в знаменателе — показатель, с которым производится сравнение.
База сравнения выступает в качестве своеобразного измерителя. Если значение базы принимается за единицу (производится простое деление двух величин), то относительная величина выражается в коэффициенте (например, темпы роста), если основание (база) — 100%, то относительная величина выражается в процентах.
Иногда за базу принимают 1000 (при расчете коэффициентов рождаемости или смертности, естественного или механического прироста показателя, в фармации и т. д.). Такие единицы измерения называются промилле и обозначаются %0.
Все относительные величины делятся на относительные величины выполнения плана и планового задания (в настоящее время лучше говорить о выполнении договорных обязательств), динамики, структуры, координации, интенсивности, сравнения, уровня экономического развития.
Относительная величина выполнения плана (ОВВП) — соотношение величины показателя, достигнутое за какое-то время или какому-либо моменту, и величины его, установленной по плану за это же время:
ОВВП = Факт(95)/План(95)
— факт (95) — фактическое выполнение за 1995 г.;
— план (95) — плановое значение за 1995 г.
Относительная величина планового задания (ОВПЗ) — соотношение плановой величины показателя к его фактически достигнутому уровню в предыдущем периоде (или в периоде, принятом за базу):
ОВПЗ = Факт(94)/План(95)
— факт (94) — фактическое выполнение за 1994 г.
Произведение этих двух величин дает относительную величину динамики (см. ниже): ОВД = ОВВП — ОВПЗ;
Относительная величина динамики (ОВД) — соотношение величины показателя за данное время и величины его за какое-либо аналогичное предшествующее время, принятое за базу сравнения. Относительная величина динамики характеризует степень, скорость изменения показателя во времени, в частности, темпы роста. Она выражается в виде краткого отношения (коэффициента) или в процентах. Если имеется ряд динамики (ряд во времени) абсолютных величин, то ОВД может исчисляться как отношение величины показателя за каждое последующее время к величине его за непосредственно предшествующее ему время или как отношение к величине его за одно и то же время, принятое за базу сравнения. В первом случае относительная величина динамики называется ОВД с переменной базой или цепная, во втором — с постоянной базой сравнения или базисная.
Если уровни ряда обозначить через 


Относительная величина структуры характеризует состав изучаемой совокупности и показывает какой удельный вес (какую долю) в общем итоге составляет каждая ее часть. Она получается в результате деления значения каждой части совокупности на их общий итог, принятой за базу.
Относительная величина координации характеризует соотношение отдельных частей целого, одна из которых принимается за базу сравнения и является дополнением к относительной величине структуры. Например, число сельских жителей, приходящихся на 100 городских и т. д.
Относительная величина интенсивности (степени) показывает степень распространенности данного явления в определенной среде. Обычно это отношение двух разноименных абсолютных величин (плотность населения на квадратный километр; производство сельскохозяйственной продукции на 1 га сельхозугодий и пр.).
Относительная величина сравнения характеризуют соотношение одноименных показателей, относящихся к различным объектам или территориям, но за один и тот же период времени.
Относительная величина уровня экономического развития – обычно соотношение величины важнейших экономических показателей (страны, региона, отрасли) и численности населения (так называемые показатели на душу населения).
Возможно эта страница вам будет полезна:
Пример №9.
Мыловаренный завод произвел за отчетный период следующее количество продукции, т.:
мыло хозяйственное 40%-ное – 25,0;
мыло туалетное – 20,0;
мыло хозяйственное 60%-ное – 22,0; порошок стиральный – 55,0.
Определите общий выпуск продукции в пересчете на условное 40%-ное мыло по следующим переводным коэффициентам: мыло 60%-ное и туалетное – 1,75, порошок стиральный – 0,5.
Решение:
Перемножив фактический выпуск продукции на коэффициенты пересчета в условное 40%-ное мыло, получим:
25·1.0 + 22.0·1.75 + 20.0·1.75 + 55.0·0.5 = 126 тыс. т условного 40%-ного мыла.
Пример №10.
По плану предусматривалось собрать по 30 ц пшеницы с гектара, а собрано по 33 ц. Определить выполнение плана по урожайности.
Решение:
Поделим фактическую урожайность на плановую и получим:
(33·100)/30 = 110%
План по урожайности выполнен на 110%, или перевыполнен на 10%.
Пример №11.
Планом предприятия предусматривалось повысить производительность труда на 5% и снизить затраты на 2%. Фактически производительность труда возросла на 6%, затраты были снижены на 4%. Определите выполнение плана по росту производительности труда и снижению затрат.
Решение:
Степень выполнения плана по повышению производительности труда равна отношению достигнутого уровня — 106% (100% + 6%) к показателю плана — 105% (100% +5%) в процентах:
(106 ·100)/105 = 101%
Аналогично, фактическое снижение затрат — 96% (100% — 4%), а плановое — 98% (100% — 2%) их отношение дает 98%, т.е. план по снижению затрат перевыполнен на 2%.
Пример №12.
Плановое задание по выпуску продукции на 1995 г. составило 04%, а выполнено на 105%. Определить относительную величину динамики.
Решение:
Здесь 104% — это относительная величина планового задания, а 105%- это относительная величина выполнения плана, а так как ОВД = ОВВП · ОВПЗ, то (104 ·105)/100 = 109,2%, т.е. выпуск продукции в 1995 г. составил по сравнению с 1994 годом 109,2% или увеличился на 9,2%.
Пример №13.
По данным переписи населения 1970 г. в СССР проживало в возрасте 100 лет и старше 19304 чел., из них мужчин — 4252 чел., женщин — 15052. Определите структуру долгожителей по полу и относительную величину координации, приняв число мужчин за базу, равную 100.
Решение:
Для вычисления относительных величин структуры нужно разделить значение каждой части на общий итог, принимаемый за целое (100%). Количество мужчин и 18 женщин в возрасте 100 лет и старше надо поделить на общее их число или исчислить удельный вес мужчин, а затем отнять его от 100%:
(4250 ·100)/19304 = 22% мужчин
женщин — 78% (100%-22%).
Относительные величины координации характеризуют соотношение отдельных частей совокупности. В задаче требуется вычислить соотношение между численностью мужчин и женщин в возрасте 100 лет и старше. Для этого, приняв число мужчин за базу сравнения, равную 100, поделим численность женщин на численность мужчин и получим
(15052·100)/4252 = 354
Это значит, что на каждые 100 мужчин в возрасте 100 лет и старше приходится 354 женщины в том же возрасте.
Средние величины
Средней величиной называется показатель, который дает обобщенную характеристику варьирующего признака единиц однородной совокупности.
Средняя отражает то общее, что скрывается в каждой единице совокупности, улавливает общие черты, общую тенденцию, закономерность, присущую данному распределению, она является равнодействующей, потому что в ней находит свое отражение, суммируется и синтезируется влияние всей совокупности факторов, под воздействием которых формируется ряд распределения. Средняя дает также характеристику центра распределения.
Средняя арифметическая
Обозначив индивидуальные значения признака через

их количество — через n, можно записать:

Исчисленная таким образом средняя называется средней арифметической простой, т.е. она равна частному от деления суммы индивидуальных значений признака на их количество.
Средняя арифметическая простая применяется в тех случаях, когда каждое индивидуальное значение признака встречается один, или одинаковое количество раз, т. е. когда средняя рассчитывается по не сгруппированным данным.
В том случае, когда мы имеем дискретный ряд распределения, т. е. когда значение признака встречается несколько раз, применяют среднюю арифметическую взвешенную, рассчитываемую по формуле:
Таблица 4.1
По данным таблицы средняя заработная плата рассчитывается:
(1002+2005+30020+40030+50015+60010+7005) / 87 = 36200 / 87 = 416 тыс.руб.
Таким образом, средняя арифметическая взвешенная равна сумме произведений индивидуальных значений признака x на их частоты или веса f, поделенной на сумму частот ∑f.
Довольно часто в статистике приходится вычислять среднюю арифметическую в интервальном ряду, среднюю из групповых средних и среднюю из относительных величин.
При вычислении средней интервального ряда необходимо найти середину каждого интервала, и, взяв ее за значение признака использовать формулу средней арифметической взвешенной.
При вычислении средней из групповых (или частных) средних (например, при вычислении средней заработной платы по отрасли, когда имеется средняя заработная плата по предприятиям этой отрасли), в качестве индивидуальных значений признака берется соответствующая групповая средняя и рассчитывается по формуле средней арифметической взвешенной.
При вычислении средней из относительных величин в качестве весов (или частот) берут основание относительной величины, а в качестве значения признака — соответствующую этому основанию относительную величину.
Свойства средней арифметической
1) Средняя арифметическая суммы варьирующих величин равна сумме средних арифметических этих величин.
2) Алгебраическая сумма отклонений индивидуальных значений признака от средней равно нулю.
3) Если все варианты ряда (значения признака) изменить на одно и то же число a или изменить в A раз, то и средняя изменится на a или в A раз соответственно.
4) Если все частоты ряда изменить в A раз, то средняя не изменится.
Средняя гармоническая
Во многих статистических исследованиях приходится сталкиваться с таким положением, когда известны значения индивидуального признака — x и произведения x · f, т.е. действительные значения весов (частот) неизвестны. В этом случае расчет средней производится с использованием средней гармонической взвешенной, которая определяется по формуле: ,

где Z=x·f, т.е. произведению значения признака на частоту.
В тех случаях, когда произведения x·f одинаковы или равны единице
применяется средняя гармоническая простая, определяемая по формуле:

где x — отдельные варианты (значения признака);
n— число наблюдений (общее число признаков или вариант).
Таким образом, средняя гармоническая представляет собой особый вид средней, которая применяется в тех случаях, когда известны варианты x и произведения вариантов на частоты — x·f , при отсутствии действительных весов.
Средняя геометрическая
В некоторых случаях приходится вычислять средний коэффициент роста в единицу времени. Коэффициент роста характеризует скорость изменения статистических показателей и представляет собой отношение величины показателя за два периода времени, как правило, за ряд смежных лет (табл. 4.2).
Таблица 4.2
Средняя, которая отражает средний коэффициент роста показателя за определенный период называется средней геометрической, которая равна корню степени m из произведений коэффициентов роста (m — число коэффициентов роста),

Средний коэффициент роста (среднюю геометрическую) можно определить и по значениям первого и последнего членов динамического ряда. Если первый уровень ряда обозначить 


Средняя квадратическая
В тех случаях, когда осреднению подлежат величины, выраженные в виде квадратных функций, применяется средняя квадратическая. Средние диаметры колес, труб, стволов, средние стороны квадратов и т.д. определяются при помощи средней квадратической.
Средняя квадратическая простая вычисляется путем извлечения квадратного корня из частного от деления суммы квадратов отдельных значений признака на их число:

Соотношение между различными видами средних (мажорантность средних)
Все выше рассмотренные виды средних величин можно получить из формулы степенной средней вида
При различных значениях показателя получаются различные средние, средняя арифметическая, гармоническая, геометрическая и квадратическая.
Мажорантность средних состоит в том, что средняя некоторого вида всегда больше средней некоторого другого вида (для признака, не могущего иметь отрицательных значений). В частности, если для одной совокупности вычислить средние гармоническую, геометрическую, арифметическую и квадратическую, то по численному значению они расположатся в возрастающем порядке. Порядок возрастания этих средних определяет показатель степени k в формуле степенной средней, т.е. чем больше k, тем больше средняя (табл.4.3).
Таблица 4.3
Подробно общее условие мажорантности т.е. соотношения между различными видами средних было сформулировано А. Я. Боярским. Проиллюстрируем правило мажорантности геометрически (см. рисунок).
Опишем на отрезке c = a + b, как на диаметре, полукруг и восстановим из общей точки отрезка a и b перпендикуляр, длина которого будет равна. 
Возможно эта страница вам будет полезна:
Мода и медиана
Кроме средних в статистике для описательной характеристики величины варьирующего признака пользуются показателями моды и медианы.
Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей, наиболее распространенной цены на тот или иной товар и пр.
Модой в дискретном ряду называется варианта (значение признака), имеющая наибольшую частоту (повторяющаяся самое большое количество раз), например: имеем данные о продаже магазином обуви по размерам (табл.4.4):
В этом примере модой является 35-й размер, так как обуви такого размера продано больше всего — 187 пар.
Если мы имеем интервальный ряд, то для определения моды необходимо сначала определить модальный интервал, причем, если интервалы равны, то модальный интервал определяется по наибольшей частоте, а если неравны, то по наибольшей плотности. При равных интервалах мода внутри модального интервала может определяться по формуле:

где 
h — величина (ширина) интервала; 


Мода является наиболее распространенной и в этом смысле типичной величиной в распределении. Но мода и средняя величина по разному характеризуют совокупность. Мода определяет непосредственно размер признака, свойственный хотя и значительной части, но все же не всей совокупности. Поэтому мода по своему обобщающему значению уступает средней, которая характеризует совокупность в целом, так как складывается под воздействием всех без исключения элементов совокупности.
При наличии одной моды распределение называют унимодальным, при двух модах — бимодальным, при трех и более модах — мультимодальным.
Медианой называется варианта, которая приходится на середину ряда, расположенного в порядке возрастания или убывания численных значений признака. Медиана делит ряд на две равные части.
Если в совокупности нечетное число единиц, т. е. 2m+1, то значение признака у (m+1)-ой единицы будет медианным. Если в совокупности четное число, т.е. 2∙m единиц, то медиана равна средней арифметической из двух серединных значений вариантов.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот, а затем определяют, какое значение признака приходится на нее. В примере с размером обуви (см. табл.4.4) медианой является 35-й размер, так как именно он приходится на полусумму частот (500:2=250). Это значит, что 35-й размер делит ряд на две равные части.
При вычислении медианы для интервального вариационного ряда вначале определяют медианный интервал, т.е. первый интервал, накопленная частота которого принимает полусумму частот, а затем приближенное значение медианы по формуле:

где 

h — ширина интервала; 

Главное свойство медианы состоит в том, что сумма абсолютных отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):
∑|x-Ме|= min.
Медиану, являющуюся описательной характеристикой вариационного ряда, иногда называют непараметрической средней. Медиана меньше, чем средняя арифметическая, зависит от формы распределения признака. Она не зависит ни от амплитуды колебаний ряда, ни от распределения частот в пределах двух равных частей ряда. Вот почему в медиане не находят отражения важные свойства совокупности и она используется обычно для решения некоторых частных задач, связанных с определением оптимума, совпадающего с вариантой, приходящейся на середину ряда.
Мода и медиана являются описательными характеристиками совокупностей с количественно варьирующими признаками и не могут заменить среднюю обобщающую величину. Величина моды и медианы, как правило, отличается от величины средней, совпадая с ней только в случае симметрии вариационного ряда.
Пример №14.
По следующим данным определите средний стаж рабочего (табл.4.5):
Решение:
Признаком в данной задаче является общий стаж рабочего, а частотами соответственно количество рабочих, имеющих тот или иной стаж. Ряд распределения — интервальный, причем первый и последний интервал — открытые.
Если интервалы открыты, то по правилам принимаем величину первого интервала равной второму, а последнего предпоследнему. Так как имеются и значения признака и частоты, то средний стаж находим по формуле средней арифметической взвешенной. А так как ряд интервальный, то в качестве значения признака в каждой группе берём середины интервала

Пример №15.
Все частоты уменьшились в два раза, а все варианты увеличились на две единицы. Что произойдет со средней?
Решение:
Согласно свойствам средней арифметической, если все частоты ряда уменьшить или увеличить в одинаковое количество раз, то средняя не изменится, т.е. с точки зрения частот средняя не изменится. Если все варианты увеличить или уменьшить на одно и то же число, то и средняя изменится на это же число. В нашем случае средняя увеличится на две единицы.
Пример №16.
Двое рабочих в течение 8-часового рабочего дня изготовляют одни и те же детали. Первый из них тратит на изготовление детали 30 мин., второй — 40 мин. Вычислите среднюю затрату времени на изготовление одной детали.
Решение:
В этой задаче явно даны только значения признака затраты времени, а частоты, которыми является количество изготовленных каждым рабочим деталей, в явном виде не присутствуют. Однако произведения значений признака на частоты дает количество проработанного времени — 8 час. Так как произведения признака на частоту равны, то средняя определяется по формуле средней гармонической простой:

Пример №17.
Автомобиль проехал 1000 км, из них 480 км он прошел со скоростью 60 км/час, 320 — со скоростью 80 км/час и 200 км — со скоростью 50 км/час. Определите среднюю скорость, с которой совершался рейс.
Решение:
В этой задаче опять известны только значения признака, а значения частот (время) не даны, однако имеются данные о пройденном расстоянии, которое является произведением признака на частоту. В этом случае средняя рассчитывается по формуле средней гармонической взвешенной:

Пример №18.
Определите среднегодовой темп роста выпуска продукции на заводе, если в 1990 г. было произведено продукции на 21,15 у.д.е., а в 1995 г. было запланировано произвести продукции на 35 у.д.е.
Решение:
Для определения средних темпов роста применяется средняя геометрическая. Когда имеются данные о первом периоде (в нашем случае — выпуск продукции в 1990 г. на сумму 21,15 у.д.е.) и в последнем периоде (в задаче — выпуск продукции по плану в 1995 г. на сумму 35 у.д.е.), среднегодовой темп роста определяется по формуле:

Пример №19.
Определить моду и медиану по следующим данным (табл. 4.6):
Решение:
Для определения моды определяем модальный интервал. Им является интервал 25-30 лет, так как его частота наибольшая (1054), тогда

Для определения медианы тоже необходимо определить медианный интервал. Медианным интервалом является интервал 25-30, так как он является первым интервалом, накопленная частота которого превышает полусумму частот (3462:2=1731). Тогда медиана определится как:

Показатели вариации и другие характеристики рядов распределения. Понятие о вариации
При изучении процессов и явлений общественной жизни статистика встречается с разнообразной вариацией признаков, характеризующей отдельные единицы совокупности. Величина признака изменяется, колеблется под влиянием различных причин и условий. Чем разнообразнее условия, влияющие на размер данного признака, тем больше его вариация.
Одна и та же средняя может характеризовать совокупность, в которой размеры вариации признака существенно отличаются друг от друга (табл.5.1). Как видно, средняя дневная выработка в обеих бригадах одинакова, хотя в первой бригаде средняя значительно меньше отличается от индивидуальных значений признака, чем во второй.
Следовательно, для всесторонней характеристики рядов распределения необходимы показатели, определяющие меру, степень колеблемости отдельных значений признака от средней, т.е. степень вариации, а также форму (тип) распределения, характеризующую ее закономерности.
Показатели вариации и способы их расчета
а) Размах вариации является наиболее простой мерой колеблемости значений признака и представляет собой разность между максимальным и минимальным значением признака: R = Хmax — Хmin.
Размах вариации имеет недостаток, проявляющийся в том, что при вычислении R используется только крайние значения ряда распределения, и он не всегда правильно характеризует колеблемость признака.
В связи с тем, что каждое индивидуальное значение признака отклоняется от средней на определенную величину, мерой вариации может служить средняя из отклонений каждой отдельной варианты от их средней.
Такими показателями являются среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
б) Среднее линейное отклонение представляет собой среднюю из абсолютных значений отклонений индивидуальных значений признаков от их средней:

Недостаток среднего линейного отклонения в том, что оно берется без учета знака. Поэтому в статистике чаще используют дисперсию и среднее квадратическое отклонение.
в) Дисперсия и среднее квадратическое отклонение. Дисперсией называется средний квадрат отклонений индивидуальных значений признака от их средней величины

Дисперсия имеет очень большое значение в анализе. Однако ее применение как меры вариации в ряде случаев бывает не совсем удобным, потому что размерность дисперсии равна квадрату размерности изучаемого признака. Поэтому вычисляют среднее квадратическое отклонение, равное корню квадратному из суммы квадратов отклонений индивидуальных значений признака от их средней, т.е. из дисперсии

Сопоставление линейных или средних квадратических отклонений по нескольким совокупностям дает возможность определять степень их однородности в отношении того или иного признака. Чем меньше: 
г) Коэффициент вариации. Так как дисперсия и среднее квадратическое отклонение характеризуют абсолютный размер отклонений, то представляет интерес сопоставить среднее квадратическое отклонение с его средней величиной. Такой показатель называется коэффициентом вариации

Если взять отношение среднего линейного отклонения к средней арифметической, то получим линейный коэффициент вариации
Отношение размаха вариации к средней арифметической называется коэффициентом осцилляции:
Взаимосвязь показателей вариации
В нормальном ряду распределения между показателями вариации имеются следующие примерные соотношения:
Основные свойства дисперсии
1. Если все значения признака уменьшить или увеличить на какое-то постоянное число а, то дисперсия не изменится.
2. Если все значения признака уменьшить или увеличить в К раз, то дисперсия изменится в К 2 раз.
3. Сумма квадратов отклонений индивидуальных значений признака x от их средней x меньше суммы квадратов отклонений индивидуальных значений признака от любого числа а, при условии, что

4. Дисперсия признака равна разности между средним квадратом значения признака и квадратом их средней:

Дисперсия альтернативного признака
В ряде случаев возникает необходимость измерить вариацию альтернативного признака, то есть такого, который может принимать только два значения. Обозначив отсутствие интересующего нас признака через 0, его наличие через 1, долю единиц, обладающих данным признаком — через р, не обладающих — через q, дисперсию этого признака можно определить как

Например, если 64% работников предприятия имеют высшее образование р, то дисперсия будет равна:

Правило сложения дисперсий
На вариацию признака влияют различные причины и факторы, которые делятся на случайные и систематические. Поэтому и вариация может быть случайной, вызванной действием случайных причин и систематической, обусловленной воздействием постоянных причин и факторов. В связи с этим возникает необходимость в определении случайной систематической составляющей и её роли в общей вариации. Общую дисперсию мы уже рассматривали. Она характеризует общую вариацию признака под влиянием всех условий, всех причин, вызывающих эту вариацию и исчисляется по формуле:

Для определения влияния постоянного фактора на величину вариации пользуются аналитической группировкой. Вариация, обусловленная фактором, положенным в основание группировки, называется межгрупповой вариацией. Размеры ее определяются при помощи дисперсии групповых средних или межгрупповой дисперсии, которая характеризует колеблемость групповых или частных средних 

где 

n — число единиц совокупности;
f — частоты или веса.
Таким образом, межгрупповая дисперсия (дисперсия групповых средних) равна средней арифметической из квадратов отклонений частных средних от общей средней. Она характеризует систематическую вариацию, которая возникает под влиянием фактора, признака, положенного в основание группировки.
Для определения влияния случайных факторов и их роли в общей вариации определяют дисперсию в пределах каждой группы, т.е. внутригрупповую дисперсию, а затем и среднюю из внутригрупповых дисперсий:
где x — индивидуальные значения признака;
В математической статистике доказано, что общая дисперсия признака равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий.

Это правило называется правилом сложения дисперсий.
Ряды распределения и их моделирование
а) Моменты распределения
Одной из важных задач анализов рядов распределения является выявление закономерности распределения, определение ее характера и количественного выражения. Эта задача решается при помощи показателей, характеризующих форму, тип распределения.
Кроме рассмотренных выше важной характеристикой рядов распределения являются моменты распределения.
Моментом распределения 

Величина к определяет порядок момента. В зависимости от величины а различают начальные, центральные и условные моменты (табл. 5.2).
Условные моменты используются для определения дисперсий высоких степеней. Практически используются моменты первых четырех порядков. Если в качестве весов взять не частоты, а вероятности, то получим теоретические моменты распределения.
б) Кривые распределения
Для обобщенной характеристики особенностей формы распределения применяются кривые распределения, которые выражают закономерность распределения единиц совокупности по величине варьирующего признака.
Эмпирическая кривая — это фактическая кривая, полученная по данным наблюдения, в которой отражаются как общие, так и случайные условия, определяющие распределение (кривая 1, рис.5.3)
Теоретическая кривая распределения — это кривая, выражающая функциональную связь между изменением варьирующего признака и изменением частот и характеризующая определенный тип распределения (кривая 2, рис.5.3).
По форме кривые распределения бывают симметричными и асимметричными. В зависимости от того, какая ветвь кривой вытянута, различают правостороннюю асимметрию и левостороннюю асимметрию (рис.5.1). Кривые распределения также могут иметь различную островершинность (рис.5.2).
Для характеристики степени асимметрии кривой используют коэффициент асимметрии, который представляет собой отношение центрального момента третьего порядка к среднему квадратическому отклонению в кубе

Если А > 0, то асимметрия правосторонняя, а если А < 0, то асимметрия левосторонняя, в симметричном распределении — А=0. Кроме этого коэффициента для характеристики асимметрии применяют и соотношение между 

Он менее точен по сравнению с коэффициентом асимметрии и применяется реже.
Для характеристики островершинности кривой распределения применяют коэффициент эксцесса, который равен отношению центрального момента четвертого порядка к дисперсии в квадрате

В нормальном распределении Е=3, поэтому, если Е>3, то эксцесс выше нормального (островершинная кривая), Е<3, эксцесс ниже нормального (плосковершинная кривая).
в) Моделирование рядов распределения
Все рассмотренные выше показатели характеризуют отдельные свойства совокупности. Общую характеристику ряда распределения можно представить аналитически, в виде функции, характеризующей зависимость между изменениями признака и частотами. Если имеется эмпирический ряд распределения, то необходимо найти функцию распределения, т. е. подобрать такую теоретическую кривую, которая наиболее полно бы раскрывала закономерность распределения.
Нахождение функции кривой распределения называется моделированием.
Для аппроксимации (выравнивания) эмпирических кривых распределения в статистике часто пользуются нормальным распределением, функция которого
где F(x) — интегральная функция распределения;
t — нормированное отклонение;
e — основание натуральных логарифмов.
Эмпирическое и теоретическое распределение рабочих по степени выполнения норм приведено в табл.5.3 и на рис.5.3.
г) критерии согласия
Для оценки близости эмпирического и теоретического распределения используются специальные показатели, которые называются критериями согласия. Критерии согласия как правило тем или иным способом оценивают степень расхождения между эмпирическими и теоретическими частотами.
Наиболее часто используется критерий, который называется хи-квадрат Пирсона и рассчитывается
где f’ — теоретические частоты, f — эмпирические частоты.
Чем меньше значение 

Для проверки согласия с помощью 


Также применяется и критерий согласия Колмогорова 

Вычислив фактический критерий 
В явлениях общественной жизни асимметричные распределения встречаются гораздо чаще, чем симметричные. Некоторые асимметричные распределения могут быть приведены к симметричному путем преобразования признака Х, например логарифмированием. В этом случае распределение называется логарифмически нормальным. Такое преобразование производится, как правило, для сильно асимметричных распределений.
Пример №20.
Проверка пряжи на крепость в лаборатории дала следующие результаты (табл. 5.4):
Вычислить все показатели вариации.
Решение:
В задаче значения признака имеют различную численность, поэтому значения, 
Средняя крепость пряжи определяется по формуле

Размах вариации

Среднее линейное отклонение вычисляется по формуле

Дисперсия, взвешенная по частоте вариантов, равна

Среднее квадратичное отклонение равно:

коэффициент вариации составляет

Пример №21.
На предприятии 64% работников имеют среднее и высшее образование. Определить дисперсию доли рабочих, имеющих среднее и высшее образование.
Решение:
Дисперсия альтернативного признака определяется как 
Пример №22.
Имеются следующие данные (табл.5.6):
Вычислить: среднюю месячную заработную плату для каждой группы и для всех рабочих; групповые дисперсии; среднюю из внутригрупповых дисперсий; межгрупповую дисперсию; общую дисперсию; проверить правило сложения дисперсий и сделать выводы.
Решение:
В задаче требуется определить, как влияют на изменение заработной платы рабочих постоянные причины, положенные в основание группировки (в данном случае различия в профессии), и случайные причины. Для этого необходимо определить систематическую и случайную вариации и их роль в общей вариации. Для решения задачи и вычисления заданных показателей, построим вспомогательную таблицу (табл.5.7).
Среднюю заработную плату по каждой группе и для всех рабочих определяем по формуле средней арифметической простой:
Внутригрупповые дисперсии вычисляем по формуле:
Средняя из внутригрупповых дисперсий равна:
Межгрупповая дисперсия определяется как:
Общая дисперсия равна:
По правилу сложения дисперсий общая дисперсия равна сумме средней внутригрупповых и межгрупповой дисперсии:
Пример №23.
Средняя успеваемость студентов экономического факультета 
Решение:
В симметричном распределении 



Пример №24.
Урожайность сахарной свеклы в сельхозпредприятиях области характеризуется следующими показателями: 



Решение:

Асимметрия правосторонняя, так как 
Пример №25.
Центральный момент третьего порядка 



Решение:
Асимметрия правосторонняя, так как A>0 , и незначительная

Эксцесс выше нормального, потому что E>3.
Выборочное наблюдение
Общие сведения о выборочном наблюдении
В связи с тем, что статистика имеет дело с массовыми совокупностями статистические исследования весьма трудоемки. Поэтому давно возникла мысль о замене сплошного наблюдения выборочным.
Выборочное наблюдение — это наиболее совершенный способ несплошного наблюдения, при котором обследуется не вся совокупность, а лишь ее часть, отобранная по определенным правилам выборки и обеспечивающая получение данных, характеризующих всю совокупность в целом.
При проведении выборочного наблюдения нельзя получить абсолютно точные данные. Как при сплошном, так как при выборочном наблюдении неизбежны ошибки, которые делятся на ошибки регистрации и ошибки репрезентативности. В свою очередь, ошибки репрезентативности бывают случайные и систематические.
Важнейшим условием применения выборочного метода является правильный отбор единиц совокупности, а именно:
а) строго объективный отбор единиц совокупности, при котором каждая из них получала бы абсолютно одинаковую возможность попасть в выборку;
б) достаточное количество отобранных единиц совокупности. При соблюдении этих условий выборка будет репрезентативной или представительной.
Вся совокупность единиц, из которой производится отбор, называется генеральной совокупностью и обозначается буквой N. Часть генеральной совокупности, попавшая в выборку, называется выборочной совокупностью и обозначается n.
Обобщающие показатели генеральной совокупности — средняя, дисперсная и доля — называются генеральными и соответственно обозначается 


Теоретической основой выборочного метода является теорема П.Л.Чебышева, которая формулируется следующим образом: с вероятностью, сколь угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности разность между выборочной средней и генеральной средней будет сколь угодно мала:

При практическом использовании теоремы Чебышева генеральную дисперсию 
Виды и схемы отбора
Формирование выборочной совокупности из генеральной может осуществляться по-разному. Различают следующие виды отбора: собственно-случайный; механический; типический; серийный; комбинированный.
5. Собственно-случайный отбор. Он ориентирован на выборку единиц из генеральной совокупности без всякого расчленения ее на части или группы. Либо применяется жеребьевка, либо используются таблицы случайных чисел.
6. Механический отбор. Он состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы), причем все единицы генеральной совокупности должны располагаться в определенном порядке. Размер интервала или группы равен обратной величине доли выборки (или количеству отбираемых единиц). Из каждой группы (интервала) берется только одна единица. Так, при 2%-ной выборке отбирается каждая 50-ая единица (1:0,02; или формируется 50 групп или интервалов), при 20%-ной выборке — каждая 5-я единица (1:0,2) и т. д.
7. Типический отбор. При его осуществлении вся генеральная совокупность делится на группы по типическому признаку, а затем в каждой группе проводится тот или иной отбор. Наиболее часто из каждой группы выбирается количество единиц, пропорциональное удельному весу группы в общей совокупности и как правило — механическим отбором. Такой отбор часто называют пропорциональным типическим отбором с механической выборкой.
8. Серийный отбор с равновеликими сериями состоит в выборке не отдельных единиц генеральной совокупности, а целых серий (гнезд). Попавшие в выборку серии подвергаются сплошному наблюдению. Сами серии могут формироваться различными методами и способами.
9. Комбинированный отбор. Все вышеперечисленные виды отбора комбинируются между собой.
Используя различные виды отбора, можно применить и различные схемы отбора: бесповторный отбор (схема невозвращенного шара) — после выбора какой-либо единицы она обратно в генеральную совокупность не попадает и не может быть выбрана снова; повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в генеральную совокупность и может быть выбрана снова.
Определение средних и предельных ошибок при различных видах отбора
Ошибка выборки 
Если 


Ошибка выборки зависит от многих факторов, и, если из одной и той же генеральной совокупности можно сформировать бесконечное множество выборочных совокупностей, каждая из них даст и свою ошибку. Поэтому при выборочном наблюдении говорят о средней из возможных ошибок (средняя или стандартная ошибка выборки), которую обозначают как 
Величина 


Эти формулы справедливы для повторной схемы отбора. При бесповторном отборе вводится поправочный коэффициент, равный

В тех случаях, когда выборка небольшая этим множителем можно пренебречь, так как его значение близко к единице (обычно при
Для решения практических задач важна не средняя ошибка выборки, а пределы, за которые она не выйдет, т.е. говорят о предельной ошибке выборки.
Предельная ошибка выборки связана со средней ошибкой соотношением 
Таким образом, предельная ошибка выборки зависит от трех факторов: дисперсии 
Таблица 6.1
Возможно эта страница вам будет полезна:
Определение необходимой численности выборки
При разработке выборочного наблюдения предполагают заранее заданными величину допустимой ошибки выборки и вероятность ответа (и t). Неизвестным, следовательно, остается тот минимальный объем выборки, который должен обеспечить требуемую точность. Из формулы 
Таблица 6.2
Численность выборки можно выразить через отношение 
Для типического и серийного отбора объем выборки определяется по специальным формулам.
Пример №26.
Методом случайной повторной выборки было взято для проверки на вес 200 шт. деталей. В результате был установлен средний вес детали — 30 г при среднеквадратическом отклонении равном 4 г. С вероятностью 0,954 требуется определить предел, в котором находится средний вес детали в генеральной совокупности.
Решение:
Предельная ошибка средней при собственно-случайном отборе (повторная выборка) определится по формуле

Нам известно, что t=2 (т.к. P=0.954); 

Следовательно, с вероятностью 0,954 можно утверждать, что средний вес детали в генеральной совокупности будет находиться в пределах

Пример №27.
Был проведен учет городского населения города А методом случайного бесповторного отбора. Из общей численности населения 500 тыс. человек было отобрано 500 тыс. и установлено, что 15% имеют возраст старше 60 лет. С вероятностью 0,683 определить предел, в котором находится доля жителей города А в возрасте старше 60 лет.
Решение:
Предельная ошибка доли при собственно-случайном бесповторном отборе определится как

Здесь 

Следовательно, с вероятностью 0,683 можно утверждать, что доля жителей старше 60 лет находится в пределах:
Пример №28.
Проведена 10%-ная типическая выборка пропорциональна численности отобранных групп (табл. 6.3).
Таблица 6.3
Требуется с вероятностью 0,954 определить пределы, в которых находится средний процент выполнения норм рабочими завода в целом. Выборка бесповторная.
Решение:
Вычислим общий средний процент выполнения норм выработки:

Далее определим среднюю из групповых дисперсий

Рассчитаем предельную ошибку выработки для типического отбора

Таким образом, с вероятностью 0,954 можно утверждать, что средний процент выполнения норм рабочими завода в целом находится в пределах

т.е. он не меньше 103,82% и не больше 104,18%.
Пример №29.
Для определения средней урожайности сахарной свеклы в области проведена 20%-ная серийная бесповторная выборка, в которую вошло 5 районов из 25. Средняя урожайность по каждому отобранному району составила: 250, 260, 275, 280, 300 ц/га. Определить с вероятностью 0,954 пределы, в которых будет находиться средняя урожайность сахарной свеклы по области.
Решение:
Найдем общую среднюю

Определим межсерийную дисперсию по формуле

Рассчитаем предельную ошибку выборки при серийном бесповторном отборе

Следовательно, с вероятностью 0,954 можно утверждать, что средняя урожайность сахарной свеклы в области будет находиться в пределах от 272,66 до 287,34 ц/га.
Пример №30.
Предполагается, что партия деталей содержит 8 % брака. Определить необходимый объем выборки, чтобы с вероятностью 0,954 можно было установить долю брака с погрешностью не более 2% . Исследуемая партия содержит 5000 деталей.
Решение:
По условию задачи t=2 , доля бракованных деталей 


Чтобы с вероятностью 0,954 можно было утверждать, что предельная ошибка доли брака не превысит 2% , необходимо из 5000 деталей отобрать 642.
Пример №31.
Что произойдет с предельной ошибкой выборки, если:
а) дисперсия уменьшится в 4 раза;
б) численность выборки увеличить в 9 раз;
в) вероятность исчисления изменится с 0,683 до 0,997.
Решение:
Из формулы для расчета предельной ошибки выборки 
а) прямо пропорциональна корню квадратному из дисперсии. Следовательно, если дисперсия уменьшится в 4 раза, то предельная ошибка уменьшится в 2 раза;
б) обратно пропорциональна корню квадратному из численности выборки. Следовательно, если объем выборки увеличится в 9 раз, то предельная ошибка уменьшится в 3 раза;
в) прямо пропорциональна вероятности исчисления, т.е. при увеличении Р с 0,683 (t=1) до 0,997 (t=3) ошибка увеличится в 3 раза.
Статистическое изучение связи, виды и формы взаимосвязи между явлениями
Одной из важнейших задач статистики является изучение, измерение и количественное выражение взаимосвязи между явлениями общественной жизни, установленной на основе качественного анализа.
Различают два вида связей: функциональную и корреляционную, обусловленные двумя типами закономерностей: динамическими и статистическими.
Для явлений, в которых проявляются динамические закономерности, характерна жесткая, механическая причинность, которая может быть выражена в виде уравнения, четкой зависимости и т.д. Такая зависимость называется функциональной. При функциональной связи каждому значению одной величины (аргумента) соответствует одно или несколько вполне определенных значений другой величины (функции).
В общественных процессах, в которых проявляются статистические закономерности, нет строгой зависимости между причиной и результатом и обычно не представляется возможным выявить строгую зависимость.
Связь, при которой каждому значению аргумента соответствует не одно, а несколько значений функции и между аргументом и функциями нельзя установить строгой зависимости называется корреляционной. Корреляционная зависимость проявляется только в средних величинах и выражает числовое соотношение между ними в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.
По направлению различают прямую и обратную связи.
По аналитическому выражению корреляционная связь может быть прямолинейной и криволинейной.
Основные приемы изучения взаимосвязей
а) Метод параллельных рядов. Чтобы установить связь между явлениями достаточно расположить полученные в результате сводки и обработки материалы в виде параллельных рядов и сопоставить их между собой.
б) Балансовый метод. Для характеристики взаимосвязи между явлениями в статистике широко применяется балансовый метод. Сущность его заключается в том, что данные взаимосвязанных показателей изображаются в виде таблицы и располагаются таким образом, чтобы итоги между отдельными частями были равны, т.е. чтобы был баланс. Балансовый метод используется для характеристики взаимосвязи между производством и распределением продуктов, денежными доходами и расходами населения и т.д.
в) Метод аналитических группировок. При наличии массовых статистических данных для изучения и измерения взаимосвязей социально-экономических явлений широко пользуются методом аналитических группировок. Аналитические группировки позволяют установить наличие связи между двумя и более признаками и ее направление. Метод группировок сочетается с методом средних и относительных величин.
г) Дисперсионный анализ. Аналитические группировки при всей своей значимости не дают количественного выражения тесноты связи между признаками. Эта задача решается при помощи дисперсионного и корреляционного анализов.
Дисперсионный анализ дает, прежде всего, возможность определить роль систематической и случайной вариаций в общей вариации и, следовательно, установить роль изучаемого фактора в изменении результативного признака. Для этого пользуются правилом сложения дисперсий.
Корреляционный анализ. Определение формы связи
Изучение взаимосвязей между признаками статистической совокупности заключается в определении формы и количественной характеристики связи, а также степени тесноты связи. Корреляционный анализ и решает эти две основные задачи.
Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь.
Предварительный этап при установлении формы связи заключается в теоретическом анализе изучаемого явления, а также в представлении искомой связи графически. График, построенный по исходным данным, позволяет приблизительно определить: есть ли какая-то связь между явлениями; ее направление (прямая или обратная); примерную тесноту связи (естественно, что при графическом анализе используются только две переменные).
Применение методов корреляционного анализа дает возможность выражать связь между признаками аналитически — в виде уравнения — и придавать ей количественное выражение.
Другими словами необходимо найти зависимость вида y=f(x), причем в качестве функции f(x) могут быть
полином 1-го порядка —
полином 2-го порядка —
степенная функция — 
гиперболическая функция — 
(могут быть использованы и другие виды функций).
Неизвестные параметры функций (аналитических уравнений связи) находятся методом наименьших квадратов, сущность которого в следующем: сумма квадратов отклонений фактических данных от выровненных должна быть наименьшей (см. рисунок):

или

Отклонение фактических уровней от выровненных
Измерение тесноты связи
При изучении корреляционной связи важно выяснить не только форму, но и тесноту связи между факторным и результативным признаком. Для этого (при прямолинейной связи) рассчитывается показатель, называемый парным линейным коэффициентом корреляции 

Коэффициент корреляции принимает значение от -1 до +1, причем если 



где 

Зная линейный коэффициент корреляции, можно определить и параметры уравнения регрессии вида 

Коэффициент корреляции 

где y— исходные значения результативного показателя; 

Имея среднее значение дисперсий, коэффициент корреляции можно вычислить как

где 


Коэффициент корреляции по своему абсолютному значению находится в пределах от 0 до 1.
Если коэффициент корреляции возвести в квадрат и выразить в процентах, получим показатель, называемый коэффициентом детерминации

Он показывает, на сколько процентов изменение результативного фактора зависит от изменения факторного признака. Коэффициент детерминации является наиболее конкретным показателем, так как он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основании группировки.
Множественная корреляция
Определение формы и тесноты связи между тремя и более параметрами называется множественной корреляцией. При множественной корреляции определение формы связи аналогично определению формы связи при парной корреляции, а само уравнение регрессии ищется в виде (как правило)

При определении тесноты связи есть свои особенности. Теснота связи измеряется множественным коэффициентом корреляции, вид которого аналогичен коэффициенту корреляции при парной связи

Если изучается взаимодействие только трех факторов y=f(x,z), то коэффициент множественной корреляции можно определить по формуле

где 
Множественный коэффициент корреляции находится в пределах от 0 до 1.
Множественный коэффициент детерминации, равный квадрату R, выраженному в процентах, характеризует долю вариации результативного признака Y под воздействием всех изучаемых факторных признаков.
Поскольку факторные признаки действуют не изолировано, а по взаимосвязи, то может возникнуть задача определения тесноты связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов. Она решается при помощи частных коэффициентов корреляции. Например, при линейной связи y=f(x,z) частный коэффициент корреляции между x и y при постоянном z вычисляется по следующей формуле

Частный коэффициент корреляции при изучении зависимости Y от Z при постоянном Х определяется по формуле

Парные коэффициенты корреляции, как правило, выше частных. Это объясняется тем, что факторы взаимно коррелируют между собой.
При значительном количестве факторов частный коэффициент корреляции можно получить по формуле

где 

Простейшие методы измерения тесноты связи
Измерение тесноты связи между факторами с помощью корреляционно-регрессионного и дисперсионного анализов сопряжено с большими вычислительными трудностями. Для ориентировочной оценки степени тесноты связи существуют приближённые методы, не требующие трудоемких расчетов. К ним относятся: коэффициент корреляции знаков Фехнера, коэффициент корреляции рангов, коэффициент ассоциации и коэффициент взаимной сопряженности.
Коэффициент корреляции знаков
Основан на сопоставлении знаков отклонений от средней и подсчете числа случаев совпадения и несовпадения знаков Коэффициент корреляции знаков определяется по формуле

где U — число пар с одинаковыми знаками отклонений x и y от 



Коэффициент корреляции знаков колеблется от -1 до +1. Этот показатель исчисляется очень просто, но именно в силу этого он не очень точен.
Коэффициент корреляции рангов
Этот показатель вычисляется не по первичным данным, а по рангам (порядковым номерам ), которые присваиваются всем значениям изучаемых признаков,расположенным в порядке их возрастания. Если значения признака совпадают, то определяется средний ранг путем деления суммы рангов на число совпадающих значений.Коэффициент корреляции рангов определяется по формуле

где 
Коэффициент ассоциации
Коэффициент ассоциации применяется для установления меры связи между двумя качественными альтернативными признаками. Для его вычисления строится комбинационная 4-клеточная таблица:

которая выражает связь между двумя альтернативными явлениями. Коэффициент ассоциации рассчитывается по формуле

Коэффициент ассоциации тоже колеблется в пределах от -1 до +1.
Коэффициент взаимной сопряженности
В тех случаях, когда требуется установить связь между качественными признаками, каждый из которых состоит из трех и более групп, применяется коэффициент взаимной сопряженности. Для определения степени тесноты связи вычисляется специальный показатель, который называется коэффициентом взаимной сопряженности. Он определяется по формуле:

где n — число единиц совокупности; 

Методика применения всех четырех коэффициентов показана при решении типовых задач.
Пример №32.
По данным о месячной заработной плате 10 рабочих трех разных профессий (токарь, слесарь и кузнец) вычислены: общая дисперсия заработной платы 

Решение:
Корреляционное отношение вычисляется по формуле

Следовательно, сначала необходимо найти межгрупповую дисперсию

Подставляя это значение в вышеприведенную формулу, получим:

Пример №33.
Вычислено следующее уравнение множественной регрессии по сельскохозяйственным предприятиям области, характеризующее связь между размерами предприятия по посевной площади х га, числу коров z шт., доходами предприятия y млн. руб.: y=290+3,12x+0,65z. Требуется проанализировать параметры уравнения регрессии.
Решение:
Увеличение посевной площади на один гектар приводит к повышению доходов в среднем на 3,12 млн руб.; увеличение числа коров на 1 голову приводит к повышению доходов на 0,65 млн руб.
Пример №34.
По данным задачи №2 получены следующие парные коэффициенты корреляции
Вычислить коэффициент множественной корреляции и детерминации.
Решение:

Таким образом, между доходами, посевной площадью и числом коров существует тесная связь. Коэффициент детерминации в нашем случае равен

Это значит, что 70% всей вариации денежных доходов предприятий объясняется действием рассматриваемых факторов.
Пример №35.
По данным задачи №3 вычислите коэффициент корреляции между y и x и сделайте выводы.
Решение:
Частный коэффициент корреляции характеризует тесноту связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов, т. е.

где 
Подставляя в формулу их значения, получим:

Следовательно, связь между денежными доходами и посевной площадью при исключении влияния других факторов заметная.
Этот же результат можно получить, используя общую формулу коэффициента частной корреляции

Подставляя имеющиеся значения, получим:

Пример №36.
По 10 предприятиям имеются следующие данные, млн руб. (табл.7.1).
Определите коэффициент корреляции знаков и сделайте выводы о тесноте связи.
Решение:
Для вычисления коэффициента корреляции знаков составим вспомогательную таблицу (табл. 7.2), из которой получим число совпадений знаков от средней. В нашем случае оно равно 8, число несовпадений знаков отклонений от средней — 2.
Подставляя эти значения в формулу коэффициента корреляции, получим:

Связь между выпуском продукции и фондом заработной платы прямая и заметная.
Пример №37.
По 10 предприятиям имеются следующие данные (табл 7.3):
Решение:
Коэффициент корреляции рангов вычисляется по рангам (порядковым номерам), которые присваиваются всем единицам совокупности, расположенным в порядке возрастания признака. Для его вычисления составим вспомогательную таблицу (табл 7.4).
Подставляя соответствующие данные в формулу коэффициента, получим:

то есть связь между выпуском продукции и среднесписочной численностью работников весьма тесная.
Пример №38.
По данным табл. 7.5 вычислить коэффициент ассоциации.
Таблица 7.5
Решение:
Коэффициент ассоциации используется для установления степени тесноты связи между двумя качественными альтернативными признаками, состоящими из двух групп, и определяется по следующей формуле

Подставим соответствующие данные из табл. 7.5 в формулу и получим:

Как видно, между выполнением плана и наличием специальной подготовки существует прямая и заметная связь.
Ряды динамики, понятие о динамических рядах и их видах
Процессы и явления общественной жизни, которые изучаются статистикой, находятся в постоянном движении и изменении. В процессе развития меняются размеры, состав, объем, структура конкретных общественных явлений. Эти изменения статистика выражает при помощи различных статистических показателей.
Статистические данные, характеризующие изменения явлений во времени, называются динамическими (хронологическими или временными) рядами. Такие ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в явлениях общественной жизни.
Довольно часто имеющиеся динамические ряды несопоставимы в силу изменения круга объектов учета, территориальных границ, изменения масштаба единиц измерения и т.д. В этом случае для преобразования несопоставимых динамических рядов в сопоставимые используют различные приемы, основные из которых следующие: прямой пересчет данных, пересчеты при помощи ключей и смыкание рядов.
В зависимости от характера изучаемых величин различают три вида динамических рядов: моментные, интервальные и ряды средних.
Моментными рядами называются ряды статистических величин, характеризующие размеры изучаемого явления на определенные даты или моменты времени. Примером могут служить данные о среднесписочной численности работающих по состоянию на первое число каждого месяца.
Отличительной особенностью моментных рядов является то, что они не подлежат суммированию.
Интервальными рядами называются ряды статистических показателей, характеризующих размеры изучаемого явления за определенные промежутки (периоды, интервалы) времени. Интервальные ряды можно суммировать.
Ряды средних величин — это ряды, характеризующие изменения средних уровней изучаемого явления во времени. Как и моментные, ряды средних величин не подлежат суммированию.
Вычисление средней динамического ряда
Средняя, вычисленная из уровней динамического ряда, называется хронологической средней. Способы ее расчета зависят от вида динамического ряда.
a) для интервальных рядов средняя исчисляется по формуле средней арифметической, причем при равных интервалах применяется средняя арифметическая простая, а при неравных — средняя арифметическая взвешенная.
б) для моментных рядов средняя рассчитывается по формуле

т.е. средняя хронологическая моментного ряда равна сумме всех уровней ряда, поделенной на число членов ряда без одного, причем первый и последний члены ряда берутся в половинном размере.
Если интервалы между периодами неравные, то применяется средняя арифметическая взвешенная, а в качестве весов берутся отрезки времени между датами, к которым относятся парные средние смежных значений уровня.
Основные показатели, используемые при анализе динамических рядов
Динамические ряды анализируются при помощи ряда показателей, определяющих характер, направление, интенсивность количественных изменений во времени. К ним относятся: уровень ряда, средний уровень, абсолютный прирост, темп роста, коэффициент роста, темп прироста, коэффициент опережения, абсолютное значение одного процента прироста.
Уровнем ряда называется абсолютная величина каждого члена динамического ряда. Различают начальный (величина первого члена ряда), конечный (последнего), средний уровень ряда.
Средний уровень определяется в зависимости от вида динамического ряда.
Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим или начальным. Уровень, который сравнивается, называется текущим, а уровень с которым производится сравнение, называется базисным. Если каждый уровень ряда сравнивается с предыдущим, то получаются цепные показатели. Если же все уровни ряда сравниваются с одним и тем же, первоначальным уровнем, то полученные показатели называются базисными.
Абсолютный прирост определяется по формулам;
цепной: 

где 


Темпом роста называется отношение данного уровня к предыдущему или начальному, выраженному в процентах. Темпы роста бывают цепными и базисными и вычисляются по формулам
цепной:
Если темпы роста выражены в виде простых отношений (база-1), то полученные показатели называются коэффициентами роста.
Темпом прироста называется отношение абсолютного прироста к предыдущему или начальному членам ряда, выраженным в процентах;
цепной:
Темп прироста также может быть рассчитан как:
цепной: 
Для характеристики темпов роста и прироста в среднем за весь период вычисляют средний темп роста и прироста. Средний темп, коэффициент роста и прироста определяются по формулам средней геометрической.
Для определения средней из средних коэффициентов или темпов роста за неодинаковые промежутки времени применяется средняя геометрическая взвешенная

где m — продолжительность отрезков времени.
Коэффициентом опережения называется отношение базисных темпов роста двух динамических рядов за одинаковые отрезки времени

где

В тех случаях, когда темпы роста по двум сравниваемым рядам динамики неизвестны, а имеются средние темпы роста за одинаковый период времени, коэффициент опережения рассчитывается по формуле

где 

Отношение абсолютного прироста к темпу прироста представляет собой абсолютное значение одного процента прироста и определяется по формуле

где A % — абсолютный прирост; 


Из формулы видно, что абсолютное значение одного процента прироста равно одной сотой части предшествующего уровня.
Важнейшие приемы обработки и анализа динамических рядов
Существуют различные приемы обработки динамических рядов:
а) Приведение рядов к одному основанию.
Для выявления связи или различия в динамике двух или нескольких рядов их можно привести к одному основанию. Для этого показатели каждого ряда выражаются в процентах к первому или любому другому члену ряда.
б) Разбивка ряда на короткие периоды.
Для выявления тенденции данных колеблющихся рядов их разбивают на более короткие периоды, а затем определяют средний уровень по каждому периоду.
в) Сглаживание способом скользящих (подвижных) средних.
Сущность его заключается в том, что по конкретным уровням ряда рассчитываются сглаженные, скользящие средние, которые получаются из подвижных сумм путем последовательного сдвига на одну дату суммируемых показателей. Затем подвижные суммы делят на число дат, получая, таким образом, скользящие или подвижные средние. Например, складывают три первых члена ряда, а их среднюю относят ко второму периоду, затем складывают 2-й, 3-й и 4-й члены ряда, а их среднюю относят к третьему периоду и т.д.
г) Метод аналитического выравнивания динамических рядов.
Сущность метода состоит в том, что основная тенденция выражается в виде функции y=f(x), где за параметр х принимается время t .
Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.
Корреляционный анализ и сезонные колебания в рядах динамики
Для изучения связи в рядах динамики применяется и корреляционный анализ. Однако его применение связано с определенными трудностями, потому что в динамических рядах уровни независимы друг от друга.
Зависимость между каждым предыдущим и последующим членами динамического ряда называется автокорреляцией. Корреляция между уровнями динамических рядов будет правильно отражать связь между явлениями только при условии устранения автокорреляции. Для этого существует ряд способов.
Первый способ состоит в том, что ищется связь не между уровнями рядов, а между первыми, вторыми и т. д. разностями (т. е. из каждого последующего уровня ряда вычитается значение предыдущего — первые разности и т. д.). В этом случае коэффициент корреляции вычисляется по формуле

Второй способ исключения автокорреляции состоит в том, что сопоставляются отклонения от тренда (основной тенденции) по изучаемым рядам: для каждого динамического ряда проводится аналитическое выравнивание, затем находятся отклонения от найденной основной тенденции и уже потом, используя эти отклонения в качестве искомых переменных, определяют связь.
Для многих явлений общественной жизни характерны внутригодичные повторяющиеся колебания, которые называются сезонными. Они наблюдаются в различных отраслях народного хозяйства: при производстве большинства видов сельхозпродуктов, их переработки, в строительстве, транспорте, торговле и т. д.
Для выявления и измерения интенсивности сезонных колебаний пользуются индексами сезонности, причем индексы сезонности могут вычисляться по-разному.
14.Если средний годовой уровень сезонного явления остается от года к году относительно неизменным, применяется метод простых средних. Он состоит в определении простой средней за одни и те же месяцы всего изучаемого периода и в сопоставлении их со средней за весь изучаемый период.
15.Когда уровень явления проявляет тенденцию к росту или снижению, применяют метод помесячных отношений. Он заключается в том, что в начале вычисляются по каждому году процентные отношения между показателями за каждый данный и предшествующий месяцы, а затем из полученных отношений определяется среднеарифметическое.
Пример №39.
По следующим данным вычислить среднемесячные остатки материалов за полугодие (табл 8.1):
Решение:
В нашей задаче даны остатки материалов на определенные моменты в ремени (1/1, 1/2, и т.д.), промежутки между которыми равны. В этом случае средняя исчисляется по формуле средней хронологического ряда:

Пример №40.
По следующим данным определите среднее поголовье коров по совхозу за год (табл 8.2):
Решение:
В задаче дано поголовье коров за определенный момент, даты, причем интервалы между датами не равны (6, 4 и 2 месяца). В таких случаях средняя хронологическая моментного ряда рассчитывается как средняя арифметическая взвешенная, где в качестве весов применяются отрезки времени между датами, к которым относятся парные средние смежные значения уровня. Определим прежде всего средние смежные значения уровней.

Взвесим их теперь на отрезке времени между датами

Пример №41.
Производство продукции по предприятию за 1990 1994 гг. характеризуется следующими данными (табл. 8.3):
Определить:
16.начальный, конечный и средний уровни ряда;
17.абсолютные приросты по годам, к 1990 г. и среднегодовой абсолютный прирост;
18.темп роста и прироста по годам и к 1990 г.;
19.абсолютное значение одного процента прироста;
20.среднегодовой темп роста и прироста за период 1990 1994 гг.
Решение:
1. Начальный уровень (величина первого члена ряда) — 4140, конечный — 5426. Средний уровень ряда определяется по формуле простой средней арифметической, так как ряд периодический

Вычисленные основные показатели данного динамического ряда сводим в таблицу 8.4.
2. Абсолютный прирост показывает, насколько изменился текущий уровень по сравнению с предыдущим или базисным и определяется как разность двух уровней

Среднегодовой абсолютный прирост исчисляется по формуле средней арифметической простой и равен

Среднегодовой абсолютный прирост можно вычислить и таким образом:

3. Темп роста показывает, во сколько раз текущий уровень больше предыдущего или базисного, и определяется как отношение двух уровней, выраженное в процентах:

Темп прироста показывает, на сколько процентов увеличился текущий уровень по сравнению с текущим или базисным и определяется как разность соответствующего темпа роста и 100%:

Абсолютное значение 1% прироста определяется как отношение абсолютного прироста к темпу прироста:

Среднегодовой темп роста рассчитывается по формуле средней геометрической

Среднегодовой темп прироста равен среднегодовому темпу роста минус 100%, т. е. 107% — 100% = 7%

Пример №42.
Среднегодовой темп роста заработной платы рабочих завода за 1990-91 гг. составил 104%, а за 1992-1994 гг. -106%. Определить среднегодовой темп роста заработной платы на заводе за 1990 — 1994 гг.
Решение:
Средняя из средних темпов роста за неодинаковые промежутки времени рассчитывается по формуле средней геометрической взвешенной, причем весами являются сами промежутки времени, следовательно:

Задачи с решением по всем темам статистики
Статистика — отрасль общественных наук, имеющая целью сбор, упорядочение, анализ и сопоставление фактов, относящихся к самым разнообразным массовым явлениям.
Под предметом статистики понимается количественная сторона массовых общественных явлений в постоянной связи с их содержанием или количественной стороной, а также количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Каждая отрасль имеет свою статистику. Статистика развивается как отдельная наука. Отраслевая статистика дополняет теорию статистики.
Теория статистики является основополагающей дисциплиной и служит фундаментом для применения статистического метода анализа для хозяйственных субъектов. На любом уровне и в любой сфере эффективность использования статистики во многом определяется качеством исходной информации.
Демографическая статистика, показатели численности и состава населения
Для развития национальной экономики в целом и для развития ее основных отраслей необходима статистическая информация о населении. Как статистическая категория население представляет собой совокупность людей, проживающих на данной территории. Оно непрерывно изменяется за счет рождения и смертей, а также миграции.
Информация о населении включает его естественный прирост, естественное движение, его профессиональный состав, возрастной состав, численность трудоспособного населения. Единицей наблюдения или единицей учета в статистике населения может быть как отдельный человек, так и семья, а также домохозяйство и населенный пункт.
Основным источником информации о населении является перепись. Она даёт наиболее подробные сведения о населении страны, включая его экономическую активность, жилищные условия, владение языками и т.д.
Главные принципы переписей населения, которые фактически действуют уже более полутора веков:
- периодичность (переписи проводятся в строгой периодичности, чтобы было возможно выявить тенденции в народонаселении страны и мира);
- сплошной характер (переписи подлежат все лица, независимо от гражданства находящиеся на территории данной страны, а также граждане данной страны, временно проживающие за рубежом. Исключение составляют иностранные дипломаты, сотрудники международных миссий и т.д.);
- индивидуальность регистрации (наблюдению подвергается каждый человек);
- одновременность (синхронность получения информации обо всех единицах наблюдения, что достигается введением критического момента переписи – такого момента времени, по состоянию на который регистрируются сведения).
Достоинством переписей является полнота информации о населении страны, однако такая форма наблюдения весьма затратная (по финансам и по времени), а также сложно организуемая. Поэтому переписи проводятся с 10-летней периодичностью. Сроки переписей в разных странах координирует ООН, чтобы обеспечить сопоставимость статических данных о демографических процессах в мире.
Альтернативой классическим переписям являются выборочные обследования. Они охватывают малую часть жителей, проводятся в более сжатые сроки, но они не могут дать полную картину о численности и составе населения всей страны.
При переписи населения учитываются две основные категории населения:
1) постоянное население (ПН) — лица, для которых данный населённый пункт является местом постоянного проживания, включая временно отсутствующих (ВО);
2) наличное население (НН) — лица, фактически находящиеся на момент переписи в данном населенном пункте, включая временно проживающих (ВП).
Рассмотрим более подробно две дополнительные категории населения – временно отсутствующие и временно проживающие. Временно отсутствующие (ВО) — это лица, имеющие постоянное место жительства в данном населённом пункте, которые на момент учёта отсутствуют. Их отсутствие не должно превышать 6 месяцев.
Временно проживающие (ВП) — это лица, находящиеся на момент учёта в данном населённом пункте, но имеющие постоянное место жительства в другом населённом пункте.
Взаимосвязь данных категорий населения:
ПН = НН – ВП + ВО, (1.1)
НН = ПН – ВО + ВП. (1.2)
В ходе статистического обследования населения определяется численность населения на момент проведения переписи. Сведения о наличном населении очень важны для населенных пунктов, где наблюдается сильное влияние сезонного фактора (курортные районы) или где используется рабочая сила вахтовым методом.
Указанные категории населения не связаны с временной или постоянной регистрацией (с пропиской) граждан РФ по месту пребывания и по месту жительства.
Численность населения – это моментный показатель, так как он рассчитывается на определённую дату. Для того чтобы охарактеризовать демографическую ситуацию за период (год, месяц и т.д.), необходим интервальный показатель – средняя численность населения 
Формула расчёта зависит от исходных данных. Обычно Росстат публикует данные о населении на начало и конец периода. Следовательно, расчёт производится по средней арифметической простой формуле:

где 

В других случаях необходимо обратиться к рассмотренному ранее материалу темы «Ряды динамики» в курсе «Теория статистики» [1, c. 18-23], где изучаются методы расчёта среднего уровня ряда динамики. Рассмотрим пример расчёта средней численности населения.
Задача с решением №1.1
Данные по трём городам о численности наличного населения (тыс. чел.):
ГОРОД «А»
1 января 2015 г. – 230; 1 января 2016 г. – 242.
ГОРОД «Б»
1 января 2015 г. – 148; 1 февраля – 147; 1 марта – 146; 1 апреля – 142; 1 мая – 145; 1 июня – 150; 1 июля – 155; 1 августа – 162; 1 сентября – 160; 1 октября – 153; 1 ноября – 155; 1 декабря – 154; 1 января 2016 г. – 150.
ГОРОД «В»
1 января 2015 г. – 87; 1 апреля – 93; 1 сентября – 95; 1 октября – 100. Рассчитать среднюю численность населения каждого города в 2015 году.
Решение
ГОРОД «А»
Есть данные на начало и конец периода. Расчёт производится по средней арифметической простой формуле:
ГОРОД «Б»
Моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:
ГОРОД «В»
Моментный ряд динамики с неравными промежутками между датами. Расчёт ведётся по формуле средней арифметической взвешенной:
Напомним, что в числителе каждый уровень ряда (численность населения на определённую дату – Н) умножается на число месяцев, в течение которого он не менялся (t). В знаменателе — число месяцев в году.
Показатели движения населения
Движение населения – это изменение численности населения. В статистике различают:
1) естественное движение (рождаемость и смертность);
2) механическое движение (миграция).
Выделяют две группы показателей движения населения.
К первой группе относятся абсолютные показатели (единица измерения — чел.):
— число родившихся (Р), число умерших (У);
— естественный прирост (Δе) = Р – У;
— число прибывших (П), число выбывших (В);
— механический (миграционный) прирост, называемый также сальдо миграции (Δм) = П – В;
— общий прирост (Δобщ) = Δе + Δм.
Кроме того, общий прирост можно также вычислить как разность численности населения на конец и на начало периода. Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности населения под влиянием тех или иных причин.
Задача с решением №1.2
Данные о численности населения региона, тыс. чел.:
НА 1 ЯНВАРЯ
Численность наличного населения – 2050,
из них — временно проживающих 113.
Численность временно отсутствующих 125.
В ТЕЧЕНИЕ ГОДА Родилось 27; умерло 36; прибыло на постоянное жительство из других городов 15; выехало на постоянное жительство из числа постоянного населения 11.
Рассчитать:
1) численность постоянного населения на начало и конец года;
2) естественный, механический и общий прирост населения.
Решение
1) Численность постоянного населения на начало года:
Численность постоянного населения на конец года определяется, исходя из численности на начало года, а также с учётом демографических процессов в течение года:
2) Естественный прирост (Δе) = Р – У = 27-36 = — 9 тыс. чел; Механический прирост (Δм) = П – В = 15 – 11 = 4 тыс. чел.;
Общий прирост (Δобщ) = Δе + Δм = -9 + 4 = -5 тыс. чел.
Проверка: 
Вторая группа – относительные показатели (демографические коэффициенты). Традиционно большинство из них измеряется в промилле (‰). Эти показатели удобны при сравнении демографических процессов в регионах с разным числом жителей.
Общий коэффициент рождаемости (Кр) характеризует интенсивность деторождения по отношению к населению в целом (всех возрастов) и вычисляется как отношение числа родившихся живыми в течение года (Р) к среднегодовой численности населения 

Коэффициент рождаемости показывает число родившихся в расчёте на 1000 жителей (измеряется в ‰).
Общий коэффициент смертности (Кс) представляет собой отношение общего числа умерших в течение года (У) к среднегодовой численности населения:

Коэффициент смертности показывает число умерших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент естественного прироста 

Коэффициент жизненности, или Индекс Покровского (Кж) показывает, сколько родившихся приходится на 1 умершего за период:

Если данный коэффициент более 1, это говорит о положительной демографической тенденции – превышении числа родившихся над числом умерших. Специальный коэффициент рождаемости 

где 
Коэффициент прибытия (Кп) представляет собой соотношение общего числа прибывших в течение года (П) к среднегодовой численности населения:

Коэффициент прибытия показывает число прибывших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент выбытия (Кв) есть соотношение общего числа выбывших в течение года (В) к среднегодовой численности населения:

Коэффициент выбытия показывает число выбывших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент механического прироста 

Коэффициент общего прироста 

Относительные показатели естественного, механического и общего прироста 
Задача с решением №1.3
Данные о населении Самарской области (тыс. чел.) за 2014 год: численность на начало года – 3211,2, на конец года – 3212,7; родилось 40,3, умерло 45,9.
Рассчитать относительные показатели естественного движения населения Самарской области в 2014 году.
Решение
Проведём предварительный расчёт, необходимый для вычисления демографических коэффициентов – рассчитаем среднюю численность населения за год. Так как имеются данные на начало и конец года, то применяем среднюю арифметическую простую формулу:
Далее рассчитаем показатели в соответствии с заданием.
Общий коэффициент рождаемости

Общий коэффициент смертности

Коэффициент естественного прироста
Коэффициент жизненности

В отдельную группу можно выделить показатели, которые дают косвенную или дополнительную характеристику движения населения.
Средний возраст населения 
Расчет можно производить также исходя из данных о численности населения по возрастным группам; тогда значением возраста считается середина интервала. Средний возраст населения рассчитывается по формуле:

где Н – общая численность населения; 
Х – число исполнившихся лет в годах, от 0 до 168;
0,5 – const; 
Задача с решением №1.4
Численность населения Самарской области в возрасте 25 лет – 50474 чел., в возрасте 26 лет – 49910 чел., 27 лет – 49636 чел. Определить средний возраст населения в возрастной группе 25 – 27 лет.
Решение
1) Определим число человеко-лет в каждом из данных возрастов:
(25+0,5) х 50474 = 1287087,
(26+0,5) х 49910 = 1322615,
(27+0,5) х 49636 = 1364990.
2) Определим общее число человеко-лет в данной возрастной группе:
1287087 + 1322615 + 1364990 = 3974692.
3) Определим численность населения в возрастной группе 25-27 лет:
50474 + 49910 + 49636 = 150020 чел.
4) Определим средний возраст в возрастной группе 25-27 лет — число человеко-лет данной возрастной группы разделим на численность населения в этой же возрастной группе:
3974692 : 150020 = 26,49 лет.
На основе распределений родившихся по очередности рождения можно, прежде всего, определить относительные показатели структуры (долю рождений у матерей разного возраста в общей численности родившихся, долю первых, вторых и более рождений в общей численности рождений) и средние величины (средняя очередность рождения ребенка у матери).
Средняя очерёдность рождения (l) ребенка у матери характеризует интенсивность рождаемости и определяется по формуле:

l – порядковый номер родов (1, 2, 3 и более);
V – число живорожденных у матери с данным порядковым номером родов.
Задача с решением №1.5
Число родившихся у женщин, не состоящих в зарегистрированном браке, по очередности рождения первыми составляет 5701 чел., вторыми – 2026 чел., третьими – 537 чел., четвертыми – 156 чел., пятыми – 63 чел. Определить среднюю очередность рождения.
Решение
1) Найдем сумму произведений числа родившихся на очередность их рождения:
1 * 5701 + 2 * 2026 + 3 * 537 + 4 * 156 +5 * 63 = 12303.
2) Определим число родившихся всех очередностей рождения:
5701 + 2026 + 537 + 156 + 63 = 8483.
3) Определим среднюю очередность рождения – сумму произведений числа родившихся на очередность их рождения разделим на число родившихся всех очередностей рождения:
12303 : 8483 = 1,45.
Возрастные коэффициенты смертности
Эти коэффициенты рассчитываются как отношение числа умерших в данном возрасте 


Младенческая смертность – это смертность детей на первом году жизни (0-12 мес.), важный статистический показатель состояния здравоохранения в стране (регионе). Расчет коэффициента младенческой смертности 





Коэффициент перинатальной смертности рассчитывается как отношение суммы мертворожденных и умерших в возрасте 0-6 дней в данном году к числу родившихся живыми и мертвыми в этом же году, или как сумма коэффициентов мертворождаемости и ранней неонатальной смертности.
Коэффициент мертворождаемости рассчитывается как отношение числа мертворожденных в данном году к числу родившихся живыми и мертвыми в том же году.
Коэффициент ранней неонатальной смертности рассчитывается как отношение числа умерших в возрасте 0-6 дней к числу родившихся живыми и мертвыми в том же году.
Коэффициенты смертности по причинам смерти рассчитываются как отношения чисел умерших от указанных причин смерти к среднегодовой численности населения;
Коэффициент младенческой смертности по основным классам причин смерти рассчитывается для групп причин смерти, (инфекционные и паразитарные болезни, болезни органов дыхания, болезни органов пищеварения, врожденные аномалии, состояния, возникающие в перинатальном периоде, другие причины) как произведение доли умерших от данной причины среди всех умерших в возрасте до 1 года на коэффициент младенческой смертности;
Коэффициенты смертности рассчитывают на 1000 населения, коэффициенты смертности по причинам — на 100000 населения; коэффициенты младенческой смертности рассчитываются на 1000 родившихся, по причинам смерти — на 10000 родившихся.
Для оценки эффективности миграции 


Отрицательное значение говорит о том, сколько выбывших приходится на 1000 общей численности мигрантов; положительное значение — о том, сколько прибывших приходится на 1000 общей численности мигрантов.
Показатели брачности и разводимости
Семейная организация общества статистически может быть исследована показателями брачности и разводимости.
Брачность — это процесс образования супружеских пар населения. В ходе опросов и переписей состояние в браке учитывается не только на основании соотвествующего свидетельства, выданного органом ЗАГС, но и на основании собственного представления о своём брачном статусе (например, люди, совместно проживающие, но не зарегистрировавшие свои отношения официально, так же могут признать себя состоящими в браке).
Разводимость – процесс распада супружеских пар вследствие официального или неофициального расторжения брака. Прекращение брака, вызванное овдовением, не относится к понятию «разводимость», так как в данном случае причиной является смерть одного из супругов.
Брачность и разводимость являются факторами естественного движения населения (прежде всего, рождаемости).
Показатели брачности и разводимости также делятся на два вида:
1) абсолютные (измеряемые в единицах) – число браков (Бр) и число разводов (Рв);
2) относительные (измеряемые в коэффициентах или в промилле). Рассмотрим их более подробно.
Общий коэффициент брачности (Кбр) — отношение числа заключённых браков на определённой территории (Бр) за некоторый период к среднегодовой численности населения 

Общий коэффициент брачности показывает число зарегистрированных браков в расчёте на 1000 жителей (измеряется в ‰).
Общий коэффициент разводимости (Кразв) — отношение числа разводов (Рв) за данный период к средней численности населения 

Общий коэффициент разводимости показывает число разводов в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент соотношения браков и разводов (Кб/р) определяется по следующей формуле:

Этот показатель отражает число браков в расчёте на 1000 разводов. Если данный коэффициент более 1000, это говорит о превышении числа браков над числом разводов.
Обратная величина коэффициента соотношения браков и разводов — коэффициент неустойчивости браков (Кр/б). Он может быть определен на основе соотношения числа разводов и браков (или коэффициентов разводимости и брачности) и рассчитывается по формуле:

В данном случае определяется число разводов в расчёте на 1000 браков. Рост этого показателя говорит о нарастающей дезорганизации института семьи.
Задача с решением №1.6
Данные по Российской Федерации за 2014 год: среднегодовая численность населения 144 967 100 чел.; зарегистрировано браков 1225985, разводов 693730.
Рассчитать относительные показатели брачности и разводимости в РФ в 2014 году.
Решение
Общий коэффициент брачности

Общий коэффициент разводимости

Коэффициент соотношения браков и разводов:
На 1000 разводов в среднем приходится 1767 браков.
Коэффициент неустойчивости браков:
На 1000 браков в среднем приходится 570 разводов.
Коэффициенты брачности и разводимости зависят от возрастной и брачной структуры населения, так как число браков и разводов сопоставляется со всем населением, включая не состоящих в браке людей (в том числе детей). Это облегчает их расчёт и интерпретацию, однако при этом не всегда понятен экономический смысл результатов. Данный недостаток можно устранить расчётом частных коэффициентов (по отношению не к населению в целом, а к его определённой части).
Специальные коэффициенты брачности 


Эти коэффициенты отражают, соответственно, число браков и разводов в расчёте на 1000 жителей в возрасте от 15 лет (измеряются в ‰). Несмотря на то, что Семейный кодекс РФ (ст. 13) устанавливает наступление брачного возраста с 18 лет, тот же нормативный акт позволяет региональным властям разрешать снижение брачного возраста (до 16 лет) при наличии исключительных обстоятельств. Часть субъектов Федерации этим правом уже воспользовалась.
Демографические прогнозы
Для прогнозирования численности населения используются как стандартные статистические и эконометрические методы (например, прогнозирование на основе трендовых моделей), так и специфические, присущие только демографическим расчётам.
Рассмотрим два подобных метода:
1) прогнозирование на основе общего прироста;
2) возрастная передвижка (передвижка возрастов).
Прогнозирование на основе общего прироста
В основе прогнозирования лежит формула:



L – срок прогноза.
Эта формула представляет собой модификацию формулы прогнозирования на основе среднего темпа роста (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23]. Роль среднего темпа роста выполняет коэффициент общего прироста населения.
Задача с решением №1.7
Данные по региону:
Среднегодовая численность населения в 2015 году составила 2500 тыс. чел.
В последние годы в регионе смертность всего населения составила в среднем 19 ‰, рождаемость 12 ‰, прибытие 10 ‰, выбытие 8 ‰.
Вычислить перспективную численность населения региона в 2017 году.
Решение
Сделаем предварительный расчёт коэффициента общего прироста:

Нам известны: численность населения на начало прогнозного периода (2500 тыс. чел.), срок прогноза (2 года = 2017 – 2015). Рассчитаем перспективную численность населения региона в 2017 году:

Возрастная передвижка
Метод основан на данных о вероятности людей возраста i дожить до возраста i+1. Для реализации метода требуется следующая информация по каждой возрастной группе населения:
1) возрастные коэффициенты смертности
2) возрастные коэффициент дожития 
Эти показатели взаимодополняют друг друга до 1, то есть до 1000 ‰.
Задача с решением №1.7.1
Смертность 70-летних жителей региона составляет 35 ‰ (то есть вероятность умереть равна 0,035). Значит, коэффициент дожития будет равен 1000 ‰ — 
Общая формула для передвижки возрастов: 

Данные о возрастной смертности содержатся в таблицах смертности, формируемых на основе многолетних наблюдений за уровнем смертности каждой возрастной группы на конкретной территории.
При прогнозировании населения важно знать, что коэффициенты смертности различаются не только по территориям и возрастам, но и по полу (у мужчин они значительно выше, чем у женщин).
Таблицы смертности – это таблица, содержащая информацию о смертности в определённой совокупности населения, точнее, порядок вымирания поколений людей при тех или иных заданных вероятностях умереть.
Для построения таблиц смертности необходимы сведения о численности возрастно-половых групп населения, количестве умерших по возрастным группам.
Задача с решением №1.8
Данные по городу: На 1 января 2016 года проживало 1700 чел. в возрасте 44 года. Известны данные о смертности:
Определить вероятную численность 47-летних жителей на 1 января 2019 года.
Решение
Сделаем «передвижку» на один год вперёд, когда 44-летним жителям исполнится 45 лет. Для удобства и корректности расчётов коэффициенты выразим не в промилле, разделив их на 1000.
Рассчитаем численность 45-летних жителей на 1 января 2017 года:
Сделаем ещё одну «передвижку» на один год вперёд, когда 45- летним жителям исполнится 46 лет.
Рассчитаем численность 46-летних жителей на 1 января 2018 года:
В итоге делаем ещё одну «передвижку» на один год вперёд, когда 46-летним жителям исполнится 47 лет.
Рассчитаем численность 47-летних жителей на 1 января 2018 года:
Все расчёты можно свести к следующей формуле:
Информация о вероятности дожития имеет важное применение в таких сферах деятельности, как: пенсионная система, страхование жизни, оценка демографической ситуации и т.д.
Статистика рынка труда, показатели численности и состава трудовых ресурсов
Термин «трудовые ресурсы» появился в 1920-х годах в работах академика С.Г. Струмилина. Наибольшее распространение он получил именно в отечественной статистике.
Трудовые ресурсы — это часть населения, которая по возрасту и состоянию здоровья способна производить материальные и духовные блага, а также оказывать услуги [4, c. 101-102]. Трудовые ресурсы включают как занятых, так и незанятых, но способных работать. Таким образом, трудовые ресурсы состоят из населения, занятого фактически, а также потенциально занятого.
Основой для расчёта трудовых ресурсов является группировка населения по возрасту. Выделяют 3 возрастных группы населения.
1) Трудоспособный (рабочий) возраст – это женщины 16-54 лет (включительно), мужчины 16-59 лет (включительно).
2) Моложе трудоспособного возраста – лица обоего пола 0 – 15 лет.
3) Старше трудоспособного возраста (лица пенсионного возраста) — это женщины 55 лет и старше, мужчины 60 лет и старше.
Примечания:
— в зависимости от законодательно изменённых возрастных границ выхода на пенсию могут измениться и границы трудоспособного возраста;
— нижняя граница трудоспособного возраста (16 лет) не связана с законодательно разрешённым в РФ возрастом, когда подростки могут вступать в трудовые отношения (только по достижению 14 лет).
Среди лиц трудоспособного возраста по признаку состояния здоровья различают две группы населения – трудоспособные и нетрудоспособные.
В группу нетрудоспособных включаются: неработающие инвалиды I и II групп рабочего возраста, неработающие пенсионеры трудоспособного возраста, получающие пенсию на льготных условиях.
Для того чтобы рассчитать численность трудовых ресурсов, можно взять за основу общую численность населения трудоспособного возраста, к которой прибавляется число работающих пенсионеров и работающих подростков (моложе 16 лет) и исключается количество неработающих инвалидов I и II групп (рабочего возраста), а также численность пенсионеров трудоспособного возраста, получающих пенсию на льготных условиях.
Рис. 2.1. Состав трудовых ресурсов
Задача с решением №2.1
Имеются следующие данные по региону на конец года, тыс. чел.:
Трудоспособные наёмные работники рабочего возраста 2040;
Трудоспособные лица рабочего возраста, занятые собственным делом 175;
Занятые инвалиды рабочего возраста 4;
Незанятые инвалиды рабочего возраста 36;
Занятые льготные пенсионеры рабочего возраста 17;
Незанятые льготные пенсионеры рабочего возраста 98;
Незанятые трудоспособные лица рабочего возраста 604;
Занятые подростки и пенсионеры 233.
Рассчитать (на конец года):
1. численность лиц рабочего возраста;
2. численность трудоспособных лиц рабочего возраста;
3. численность трудовых ресурсов.
Решение
1) Численность лиц рабочего возраста =
2040+175+4+36+17+98+604=2974 тыс. чел.
2) Численность трудоспособных лиц рабочего возраста =
2040+175+604=2819 тыс. чел.
3) Численность трудовых ресурсов =
2040+175+4+17+604+233=2840 тыс. чел.
Средняя численность трудовых ресурсов 



по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:

n – число уровней ряда динамики (дат).
Соотношение между отельными возрастными группами в структуре трудовых ресурсов дают показатели демографической нагрузки. Они характеризуют соотношение лиц того или иного возраста и лиц трудоспособного возраста.
Коэффициент пенсионной нагрузки (нагрузки пожилыми людьми) 



Он показывает, сколько лиц пенсионного возраста приходится в среднем на 1000 лиц трудоспособного возраста.
Коэффициент замещения трудовых ресурсов (нагрузки детьми) 



Он показывает, сколько лиц в возрасте моложе 16 лет приходится в среднем на 1000 лиц трудоспособного возраста.
Коэффициент общей (демографической) нагрузки 


Результат показывает, сколько лиц нетрудоспособных возрастов приходится в среднем на 1000 лиц трудоспособного возраста.
Задача с решением №2.2
Данные о распределении населения Российской Федерации (на начало 2015 года), тыс. чел.:
Исчислить:
1) удельный вес отдельных возрастных групп в общей численности населения;
2) коэффициенты нагрузки детьми, пожилыми людьми;
3) общий коэффициент демографической нагрузки.
Решение
Сделаем предварительный расчёт – вычислим общую численность населения (Н) страны на начало 2015 года:
25689+85415+35163=146267 тыс. чел.
1) Удельный вес (доля) отдельных возрастных групп в общей численности населения – это относительная величина структуры (см. тему «Относительные величины» в курсе «Теории статистики»). Она представляет собой соотношение части и целого. При этом вся совокупность принимается равной 100 %.
Удельный вес населения моложе трудоспособного возраста = 17,6 %
Удельный вес населения трудоспособного возраста = 58,4 %
Удельный вес населения старше трудоспособного возраста = 24,0 %
Проверить правильность расчётов можно суммированием всех трёх полученных чисел. Сумма должна составить 100 %:
17,6 + 58,4 + 24 = 100 %.
2) Коэффициент нагрузки детьми = 301 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 301 чел. моложе трудоспособного возраста.
Коэффициент нагрузки пожилыми людьми = 412 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 412 чел. старше трудоспособного возраста.
3) Коэффициент общей нагрузки = 713 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 713 чел. нетрудоспособных возрастов.
Показатели движения трудовых ресурсов
Движение трудовых ресурсов – это изменение численности трудовых ресурсов. По аналогии с демографической статистикой, различают 2 формы движения:
1) естественное (не связанное с процессом миграции);
2) механическое (миграция).
Выделяют две группы показателей движения трудовых ресурсов.
К первой группе относятся абсолютные показатели (единица измерения — чел.).
— естественное пополнение (Пе) – это пополнение численности трудовых ресурсов по следующим причинам: вступление в 30 трудоспособный возраст подростков; привлечение к занятости пенсионеров, инвалидов, а также лиц моложе 16 лет;
— естественное выбытие (Ве) – это выход из числа трудовых ресурсов по следующим причинам: смертность и переход на инвалидность трудовых ресурсов, выход на пенсию; прекращение занятости лиц моложе 16 лет.
— естественный прирост (Δе) = Пе – Ве;
— механическое пополнение (Пм) – это пополнение численности трудовых ресурсов по причине миграции (приезда из других регионов);
— механическое выбытие (Вм) – это выбытие из числа трудовых ресурсов по причине миграции (отъезда в другие регионы);
— механический (миграционный) прирост (Δм) = Пм – Вм;
— общий прирост (Δобщ) = Δе + Δм.
Кроме того, общий прирост можно также вычислить как разность численности трудовых ресурсов на конец и на начало периода.
Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности трудовых ресурсов под влиянием тех или иных причин.
Для того чтобы рассчитать интенсивность изменения численности трудовых ресурсов, используются относительные показатели (коэффициенты), измеряемые в промилле (‰).
Коэффициент естественного пополнения 

Коэффициент естественного выбытия 

Коэффициент естественного прироста 

Коэффициент механического пополнения 

Коэффициент механического выбытия 

Коэффициент механического прироста 

Коэффициент общего прироста 

Относительные показатели естественного, механического и общего прироста
Задача с решением №2.3
Данные по региону, тыс. чел.:
Рассчитать:
1. численность трудовых ресурсов на начало и конец года;
2. среднегодовую численность трудовых ресурсов;
3. абсолютные показатели движения трудовых ресурсов;
4. относительные показатели движения трудовых ресурсов.
Решение
1) численность трудовых ресурсов на начало года (ТРнач):
ТРнач = 2800-480+215 = 2535 тыс. чел.
численность трудовых ресурсов на начало года (ТРкон):
ТРкон = 2535+198-252+20-16+67-47=2505 тыс. чел.
2) среднегодовая численность трудовых ресурсов
3) абсолютные показатели движения трудовых ресурсов
Естественное пополнение:
Пе = 198+20 = 218 тыс. чел.
Естественное выбытие:
Ве = 252 +16 = 268 тыс. чел.
Естественный прирост:
Δе = Пе — Ве = 218-268 = — 50 тыс. чел;
Механическое пополнение:
Пм = 67 тыс. чел.
Механическое выбытие:
Вм = 47 тыс. чел.
Механический прирост:
Δм = Пм – Вм = 67 – 47 = 20 тыс. чел.;
Общий прирост:
Δобщ = Δе + Δм = -50 + 20 = -30 тыс. чел.
Проверка: 
4) относительные показатели движения трудовых ресурсов
Коэффициент естественного пополнения:

Коэффициент естественного выбытия:

Коэффициент естественного прироста:
Коэффициент механического пополнения:

Коэффициент механического выбытия:

Коэффициент механического прироста:
Коэффициент общего прироста:
Показатели экономической активности населения
При изучении экономической активности населения статистика использует следующие источники информации:
— отчётность предприятий (о численности занятых);
— отчётность служб занятости (о численности зарегистрированных безработных);
— переписи населения;
— периодические выборочные обследования.
Отечественная статистическая методология исследования рынка труда во многом базируется на рекомендациях МОТ (Международной организации труда).
При исследовании рынка труда выделяют четыре основные категории населения: «занятые», «безработные», «экономически активное население» (ЭАН), «экономически неактивное население» (ЭНН). При этом объектом статистического наблюдения является население только в возрасте 15 – 72 лет.
С 2017 года Росстат заменяет две последние категории новыми, принятыми в международных стандартах – «рабочая сила» и «лица, не входящие в состав рабочей силы», а также планирует отменить верхнюю границу обследуемого возраста.
Занятые – это лица, которые в рассматриваемый период:
1) выполняли работу по найму за вознаграждение на условиях полного или неполного рабочего времени* (при этом не важно, присутствовал ли человек фактически на рабочем месте или находился, например, в отпуске); (*Неполное рабочее время – как минимум, один час в неделю)
2) самостоятельно обеспечивали себя работой (с использованием или без использования наёмной рабочей силы);
3) выполняли работу без оплаты на семейном предприятии.
Однако отметим, что в нашей стране не существует такой юридической формы предпринимательства, как «семейный бизнес».
К занятым также относятся:
— служители религиозных культов (духовенство),
— военнослужащие (в том числе срочной службы),
— лица, которые временно отсутствовали на работе (из-за болезни, ухода за больными, ежегодного отпуска и т.д.),
— лица, занятые в домашнем хозяйстве производством товаров и услуг для продажи или обмена.
К занятым не относятся учащиеся очных отделений трудоспособного возраста (школьники, студенты). Если данные категории населения вышли на работу, то они включаются в состав занятых.
В статистике выделяют несколько группировок занятого населения. Во-первых, оно группируется по основным социальнодемографическим характеристикам (по полу, возрасту, уровню образования и т.д.); во-вторых, по статусу занятости.
Различают два статуса занятости: наёмные работники и лица, работающие не по найму.
К наёмным работникам относятся:
а) лица, заключившие договор, контракт или устное соглашение с работодателем об условиях трудовой деятельности;
б) лица, избранные или назначенные на оплачиваемую должность.
Лица, работающие не по найму, включают следующие категории:
а) самозанятые – лица, работающие на индивидуальной основе (не использующие наёмный труд или использующие его нерегулярно);
б) работодатели (занятые на собственном предприятии и использующие труд наёмных работников на постоянной основе);
в) члены производственных кооперативов;
г) неоплачиваемые работники семейных предприятий.
В развитых странах с рыночной экономикой наёмные работники составляют в среднем более 90% всей рабочей силы.
Согласно методологии МОТ, к безработным относятся лица 15- 72 лет, которые в рассматриваемый период соответствовали трём критериям (одновременно):
а) не имели работы (доходного занятия);
б) занимались поиском работы (обращались в службу занятости, использовали или помещали объявления в печати, непосредственно обращались к работодателю, использовали личные связи, предпринимали шаги к организации собственного дела);
в) были готовы приступить к работе в настоящий момент (если появится возможность трудоустройства).
Обратим ваше внимание на то, что признание человека безработным может произойти и в случае, если он не обращался в службу занятости (государственную или коммерческую), а искал работу своими силами.
Учащиеся, студенты, пенсионеры и инвалиды учитываются в качестве безработных, если они занимались поиском работы и были готовы приступить к ней.
Таким образом, понятие «безработный» не тождественно понятию «незанятый». Первая категория является частью второй, так как не каждый незанятый человек ищет работу или готов к ней приступить.
Согласно Федеральному Закону (ФЗ) «О занятости населения РФ» (ст. 3) [2] безработными признаются трудоспособные граждане старше 15 лет, которые не имеют работы и заработка, зарегистрированы в органах службы занятости в целях поиска подходящей работы, ищут работу и готовы приступить к ней.
В отличие от методологии МОТ, Федеральный Закон позволяет признать человека безработным только после регистрации в службе занятости («зарегистрированная безработица»).
Экономически активное население (ЭАН) (Рабочая сила) – это лица, обеспечивающие предложение рабочей силы. В количественном отношении ЭАН равно сумме занятых и безработных. В ЭАН входит население, которое ведёт себя активно на рынке труда.
С 2017 года в практику статистики вводится показатель «потенциальная рабочая сила», который включает лиц, частично удовлетворяющих критериям безработных, но формально не относящимся к ним: 1) искали работу, но не были готовы приступить к ней; 2) не искали работу, однако хотели работать и были готовы приступить к работе.
Экономически неактивное население (ЭНН) (Лица, не входящие в состав рабочей силы) – это часть трудоспособного населения и лиц старших возрастов, которые в рассматриваемый период не работали по найму, не имели занятия, приносящего доход, и не были заняты поиском работы:
— учащиеся и студенты очной формы обучения;
— лица, занятые ведением домашнего хозяйства, уходом за детьми, больными и т.д.;
— лица, у которых нет необходимости работать;
— отчаявшиеся найти работу и т.д.
Рынок труда характеризуется следующими статистическими показателями.
Уровень занятости (Уз) – соотношение численности занятого населения (Зан) с той или иной численностью населения. Он может быть вычислен как на определённую дату, так и в среднем за период. Уровень занятости рассчитывается в процентах (%) и определяется в нескольких вариантах:
а) в расчёте на общую численность трудовых ресурсов:

б) в расчёте на трудоспособное население 

в) в расчёте на экономически активное население:

Уровень безработицы (Уб) показывает процент безработного населения в общей численности экономически активного населения. В то же время надо различать уровень безработицы по методологии МОТ и по методологии ФЗ «О занятости населения в Российской Федерации»:
А) по методологии МОТ:

Б) по методологии ФЗ «О занятости населения в Российской Федерации» рассчитывается уровень зарегистрированной безработицы (Уб’):

Б’ — численность безработных, зарегистрированных в государственных учреждениях службы занятости.
По своей величине уровень безработицы (МОТ) больше, чем уровень зарегистрированной безработицы, так как числитель его формулы больше числителя в формуле Уб’.
Уровень занятости (в расчёте на экономически активное население) и уровень безработицы взаимодополняют друг друга до 100 %.
Уровень экономической активности населения (Уэан) – это удельный вес (доля) численности экономически активного населения в общей численности населения (Н):

Он также может быть вычислен как на определённую дату, так и в среднем за период.
Коэффициент напряжённости на рынке труда 


В – число вакантных должностей и свободных рабочих мест.
Этот коэффициент показывает, какое число не занятых трудовой деятельностью лиц, состоящих на учёте в службе занятости, приходится на одно свободное рабочее место.
Продолжительность безработицы, или Среднее время поиска работы безработными
Безработица продолжительностью 6 – 12 месяцев называется застойной, а 12 и более месяцев – хронической. Соответственно, рассчитывается показатель «Удельный вес безработных, ищущих работу 12 месяцев и более» (соотношение хронических безработных и всей численности безработных).
Задача с решением №2.4
Результаты выборочного обследования о численности населения региона в среднем за период, тыс. чел.:
Вычислить:
1) в каждом периоде – численность занятых, безработных, экономически активного населения, уровень занятости (в расчёте на экономически активное население) и безработицы (по методологии МОТ);
2) абсолютные приросты и темпы прироста численности экономически активного населения и безработных.
Решение
1) БАЗИСНЫЙ ГОД
Численность занятых:
Зан = 354+26= 380 тыс. чел.;
Численность безработных: Б = 19 тыс. чел. (так как только эти лица соответствовали всем критериям безработного по методологии МОТ);
Численность экономически активного населения:
ЭАН = Зан + Б = 380+19 = 399 тыс. чел.
Уровень занятости (Уз):
Уровень безработицы (Уб) по методологии МОТ:
ОТЧЁТНЫЙ ГОД
Численность занятых:
Зан = 268+28= 396 тыс.чел.;
Численность безработных:
41 Б = 22тыс. чел.;
Численность экономически активного населения:
ЭАН = Зан + Б = 396+22 = 418 тыс.чел.
Уровень занятости (Уз):
Уровень безработицы (Уб) по методологии МОТ:
2) Абсолютные приросты и темпы прироста экономически активного населения и безработных (см. тему «Ряды динамики» в курсе «Теории статистики»).
Абсолютный прирост (Δ) — это разность уровней ряда динамики (в абсолютных единицах измерения). Темп прироста (Тп) показывает процентное изменение уровней ряда динамики. Он представляет собой величину, полученную соотношением абсолютного прироста и уровня базисного периода 
Абсолютный прирост численности экономически активного населения:
Δ = 417 – 399 = 18 тыс. чел.
Темп прироста численности экономически активного населения:
4,5 %.
Вывод: численность ЭАН в отчётном периоде возросла на 18 тыс. чел., то есть на 4,5 %.
Абсолютный прирост численности безработных:
Δ = 22 – 19 = 3 тыс. чел.
Темп прироста численности безработных:
15,8 %.
Вывод: численность безработных в отчётном периоде возросла на 3 тыс. чел., то есть на 15,8 %.
Статистика национального богатства, понятие и состав национального богатства
Национальное богатство (НБ) — это совокупность накопленных материальных и нематериальных активов (благ), которыми располагает общество в данный момент времени, создающих необходимые условия производства товаров, оказания услуг и обеспечения жизни людей.
Экономические активы — это находящиеся в собственности объекты, владельцы и пользователи которых могут извлекать экономические выгоды в результате их хранения или использования. Все экономические активы, включаемые в состав НБ, по рекомендации ООН подразделяются на две основные группы: нефинансовые и финансовые активы.
В свою очередь, в группе нефинансовых активов выделяют произведённые и непроизведённые активы, материальные и нематериальные активы.
Произведённые активы созданы в результате производственной деятельности; непроизведённые активы не являются результатом производственной деятельности.
Материальные активы имеют натурально-вещественную форму, соответственно, нематериальные активы её не имеют.
Финансовые активы представляют собой средства осуществления финансовых расчетов между институциональными единицами, связанными финансовыми обязательствами и финансовыми требованиями.
По источникам происхождения в составе национального богатства выделяют две основные части: природные ресурсы и национальное имущество.
Природные ресурсы (природные богатства) составляют первую важнейшую группу ресурсов, куда включаются учтенные и вовлеченные в экономический оборот как невозобновляемые природные ресурсы (земля, полезные ископаемые), так и возобновляемые природные ресурсы (вода, воздух, растительные и животные ресурсы).
Вторую важнейшую группу ресурсов составляет национальное имущество — совокупность накопленных материальных благ, созданных в ходе трудовой деятельности людей. Сюда относят материальные, нематериальные, финансовые, нефинансовые активы регионов, отраслей, секторов экономики, а также юридических и физических лиц. В отдельную группу выделяют потребительские товары длительного пользования, прямые иностранные инвестиции и золотой запас. В состав национального имущества включается и личное имущество граждан.
Рис. 3.1. Состав национального богатства
Рассмотрим отдельные элементы национального богатства.
Материальные произведённые нефинансовые активы включают в себя:
— основные фонды (более подробно будут рассмотрены в п. 3.2);
— запасы материальных оборотных средств (более подробно будут рассмотрены в п. 3.3);
— ценности (дорогостоящие предметы длительного пользования, которые приобретаются в расчёте на увеличение их реальной стоимости
— драгоценные металлы и камни, произведения искусства, антиквариат и т.д.).
Нематериальные произведённые нефинансовые активы включают в себя:
— компьютерное программное обеспечение;
— затраты на геологоразведочные работы;
— оригинальные литературные и художественные произведения (в том числе концерты, спектакли) и т. д.
Материальные непроизведённые нефинансовые активы включают в себя природные ресурсы (невыращиваемые биоресурсы). Они делятся на следующие группы: земельные ресурсы; водные ресурсы; лесные ресурсы; запасы полезных ископаемых и т.д. Важно понимать, что не все богатства природы можно отнести к национальному богатству. Как уже отмечалось выше, критерием является наличие права собственности. Исходя из этого, в состав НБ нельзя включить атмосферный воздух, нейтральные воды Мирового океана, естественные космические объекты (планеты и т.д.).
Нематериальные непроизведённые нефинансовые активы включают в себя:
— торговые марки и товарные знаки;
— авторские права;
— патенты;
— гудвилл (деловая репутация) и т.д.
Финансовые активы включают в себя:
— наличные деньги;
— депозиты (денежные средства, размещенные в банках на хранение);
— ценные бумаги (кроме акций);
— акции и прочие виды акционерного капитала;
— займы;
— страховые технические резервы (формируются страховыми организациями в ходе проведения страховых операций как обязательные накопительные суммы, выполняющие функцию финансовых гарантий);
— дебиторская и кредиторская задолженности (торговые кредиты, авансы в счет оплаты незавершенных работ и др.);
— специальные права заимствования (международные резервные и платежные средства, которые используются для безналичных международных расчетов как форма мировых денег);
— монетарное золото (золотой запас страны, хранящийся в государственных денежно-кредитных учреждениях).
Объём НБ предполагает его стоимостную оценку, однако полную стоимость НБ страны крайне сложно достоверно рассчитать, так как по многим элементам НБ нет проработанной методики их денежной оценки (например, по оценке стоимости водных и лесных ресурсов, гудвиллу и т.д.).
Статистика основных фондов
Основные фонды (основные средства) – это активы, которые длительное время (более одного года) многократно используются в экономике в неизменной натурально-вещественной форме, постепенно перенося свою стоимость на вновь создаваемые продукты или услуги в виде амортизационных отчислений [5].
Рассмотрим классификации основных фондов.
1) По видам (здания, сооружения, машины и оборудование, транспортные средства, производственный и хозяйственный инвентарь, многолетние насаждения, продуктивный и рабочий скот, передаточные устройства и т.д.);
2) По назначению:
— производственные (обеспечивающие производственный процесс);
— непроизводственные (объекты культурно-бытового назначения).
3) По степени участия в производственном процессе (классифицируются только основные производственные фонды):
— активные (непосредственное участие в производстве – станки, инструмент);
— пассивные (косвенное участие в производстве – здания, сооружения).
4) Другие классификации (по степени износа, по формам собственности, по возрасту и т.д.).
Так как основные фонды функционируют длительное время, их стоимость подвержена изменению. Исходя из этого, различают несколько видов их стоимостной оценки.
Полная первоначальная стоимость (ПС) – это стоимость основных фондов в фактических ценах на момент ввода их в эксплуатацию, включая не только цену конкретного объекта, но и затраты на его доставку и установку.
Первоначальная стоимость за вычетом износа (остаточная первоначальная стоимость, ОС) — это стоимость основных фондов за вычетом накопленного за время их функционирования износа (И) в виде амортизационных отчислений:
ОС = ПС – И. (3.1)
Полная восстановительная стоимость (ПВС) — стоимость их воспроизводства в современных ценовых условиях. Она учитывает те же самые затраты, что и первоначальная стоимость, но в современных ценах.
Восстановительная стоимость с учётом износа (остаточная восстановительная стоимость, ОВС) — стоимость, характеризующая фактическую степень изношенности объекта в новых условиях воспроизводства:
ОВС = ПВС – И. (3.2)
Восстановительная стоимость рассчитывается после проведения переоценки основных фондов.
Таким образом, полная стоимость больше остаточной стоимости на величину износа.
Для более полного отражения состояния и движения основных фондов используют балансы основных фондов. Они бывают двух видов: по полной стоимости и по остаточной стоимости – и представляют собой таблицы с информацией об изменении стоимости основных фондов за период. Сокращённые формы обоих балансов приводятся на рис. 3.2 и 3.3.
Используя введённые условные обозначения, выразим балансовое равенство:

Балансовое равенство будет иметь следующий вид:

Сумма ежегодных амортизационных отчислений (А) включается в себестоимость изготовленной продукции и определяется по формуле:



Задача с решением №3.1
Имеются следующие данные по производственному объединению за год, млн. руб.:
Основные фонды по полной стоимости на начало года 7000.
Сумма износа основных фондов на начало года 2400.
Введено в действие новых основных фондов за год 1100.
Приобретено у других предприятий основных фондов (по полной стоимости) 2300, их износ 600.
Выбыло основных фондов в течение года по полной стоимости 800.
Остаточная стоимость выбывших основных фондов 80.
Годовая сумма амортизационных отчислений 715.
Построить балансы основных фондов.
Решение
Баланс по полной стоимости
Баланс по остаточной стоимости
Баланс по полной стоимости
Балансы дают необходимую информацию для анализа основных фондов, который проводится по трём направлениям:
1) анализ состояния основных фондов;
2) анализ движения основных фондов;
3) анализ эффективности использования основных фондов.
По каждому направлению анализа вычисляется своя система показателей (коэффициентов).
К показателям состояния основных фондов относятся коэффициент годности и коэффициент (степень) износа. Они рассчитываются на начало и на конец периода и взаимно дополняют друг друга до 100 %:

Коэффициент годности 

Он показывает, какую часть своей полной стоимости основные фонды сохранили на определённый момент времени.
Коэффициент износа 

Он показывает, какую часть своей полной стоимости основные фонды уже утратили в результате их использования.
После расчётов делается вывод об изменении состояния основных фондов в конце периода по сравнению с началом.
Здесь возможны 3 ситуации:
1) улучшение состояния (рост коэффициента годности, снижение коэффициента износа);
2) ухудшение состояния (снижение коэффициента годности, рост коэффициента износа);
3) стабильное состояние (оба коэффициента не изменились).
Задача с решением №3.1 (продолжение)
Рассчитать показатели состояния основных фондов.
Решение
Коэффициент годности 
Коэффициент износа 
Коэффициент годности 
Коэффициент износа 
ВЫВОД: Состояние основных фондов к концу года улучшилось (так как коэффициент годности возрос, а коэффициент износа снизился).
К показателям движения основных фондов относятся: коэффициент поступления, коэффициент обновления и коэффициент выбытия. Они рассчитываются только по полной стоимости.
Коэффициент поступления 

Он показывает долю поступивших объектов (%) в общей стоимости на конец периода.
Коэффициент обновления 

Он показывает долю новых объектов (%) в общей стоимости на конец периода. Если введены только новые основные фонды, то коэффициенты поступления и обновления равны друг другу.
Коэффициент выбытия 

Он показывает долю выбывших объектов (%) в общей стоимости на начало периода.
Задача с решением №3.1 (продолжение)
Рассчитать показатели движения основных фондов.
Решение
Коэффициент поступления 
Коэффициент обновления 
Коэффициент выбытия 
К показателям эффективности использования основных фондов относятся: фондоотдача, фондоёмкость и фондовооружённость.
Фондоотдача 


Уровень фондоотдачи показывает, сколько рублей продукции приходится на каждый рубль, вложенный в основные фонды. Рост данного показателя свидетельствует о повышении эффективности использования основных фондов.
Дополнительным показателем выступает фондоотдача активной части основных фондов 


Между двумя показателями существует взаимосвязь: общую фондоотдачу получают как произведение отдачи активных фондов на их долю в общей стоимости основных фондов 

Фондоёмкость 

Уровень фондоёмкости характеризует размер основных фондов, затраченных предприятием для производства 1 руб. продукции. Предприятие должно стремиться к снижению данного показателя.
Фондовооружённость 


В знаменателе можно рассматривать как среднесписочную численность персонала в целом, так и численность только одной категории работников.
Результат показывает, сколько рублей основных фондов приходится на одного среднесписочного работника предприятия.
Рост или снижение данного показателя нельзя интерпретировать однозначно. Например, повышение фондовооружённости может происходить как по причине покупки дорогого современного оборудования, так и по причине сокращения персонала. Выводы можно делать только на основании ознакомления с ситуацией на конкретном предприятии.
Задача с решением №3.1 (окончание)
Дополним условие задачи: объём произведённой продукции за год 33200 млн. руб., средняя численность работников 1580 чел.
Рассчитать показатели эффективности использования основных фондов.
Решение
Сделаем предварительный расчёт – вычислим среднюю полную стоимость основных фондов за год:
Далее рассчитаем требуемые показатели.
Фондоотдача 

ВЫВОД: каждый рубль, вложенный в основные фонды, принёс 4 руб. продукции.
Фондоёмкость 

ВЫВОД: для производства 1 руб. продукции затрачено 0,25 руб. (25 коп.) основных фондов.
Фондовооружённость 

ВЫВОД: на одного работника в среднем приходится основных фондов на сумму 5,3 млн. руб.
Статистика оборотных фондов
Оборотные фонды (оборотные средства) — это наиболее мобильная и постоянно возобновляемая часть национального богатства.
В их состав входят: денежные средства, средства в расчётах, материальные оборотные средства, расходы будущих периодов и т.д.
В производственной деятельности предприятий особую роль играют материальные оборотные средства (МОС). Их основные признаки:
— участвуют в одном производственном цикле (однократно);
— сразу и полностью переносят свою стоимость на вновь созданный продукт или услугу;
— видоизменяют свою натурально-вещественную форму в процессе производства.
Состав МОС:
— производственные запасы (запасы у предприятия-производителя для обеспечения процесса производства
— сырьё, материалы и т.д.);
— незавершённое производство (продукция, производство которой начато, но не завершено к концу отчётного периода);
— готовая продукция (запасы у предприятия-производителя для реализации на сторону);
— товары для перепродажи (запасы на складах торговых организаций);
— животные на выращивании (молодняк) и на откорме;
— государственные материальные резервы (запасы, создаваемые государством на случай чрезвычайных ситуаций – вода, продовольствие, топливо и т.д.).
Показатель размера оборотных средств характеризует их состояние на определённый момент времени. Однако для проведения ряда экономических расчетов нужны, как правило, средние показатели за период времени (месяц, квартал, год). Вычисляют средний остаток оборотных средств 
а) по данным об остатке оборотных средств на начало 


б) по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:

n – число уровней (дат); 
Если же дан моментный ряд динамики с неравными промежутками между датами, то расчёт ведётся по формуле средней арифметической взвешенной (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23].
Задача с решением №3.2
Данные по предприятию об остатках оборотных средств (тыс. руб.):
на 1 января – 300, на 1 февраля – 290, на 1 марта – 350, на 1 апреля – 400.
Рассчитать средний остаток оборотных средств за первый квартал.
Решение
Первый квартал – это период времени с 1 января по 1 апреля. Дан моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:

Исходя из их названия, оборотные средства должны оборачиваться, то есть совершать обороты. Схематично оборот оборотных средств производственного предприятия представлен на рисунке 3.4.
Рис. 3.4. Схема оборота оборотных средств производственного предприятия
В других отраслях экономики схема может видоизменяться; например, у торгового предприятия оборот происходит по схеме «денежные средства – товары для перепродажи – денежные средства».
Важной задачей статистики в управлении предприятием является изучение оборачиваемости оборотных средств. Для этого вычисляются 2 вида показателей:
1) обобщающие (их можно рассчитать в целом по совокупности оборотных фондов предприятия);
2) частные (рассчитываются по отдельным видам оборотных фондов).
К обобщающим показателям оборачиваемости относятся следующие:
1) Коэффициент оборачиваемости 

Q – объём продукции; 
2) Коэффициент закрепления, или Коэффициент загрузки 

Показывает средний размер оборотных средств, приходящихся на 1 руб. продукции.
3) Длительность (продолжительность, время) оборота (t) — соотношение длительности календарного периода 


Показывает, за сколько дней в среднем совершается один оборот оборотных средств.
Длительность календарного периода может быть взята как по фактическому числу дней в периоде (май – 31 день, 2015 год – 365 дней и т.д.), так и по так называемому коммерческому (финансовому) календарю (любой месяц – 30 дней, квартал – 90, год – 360).
Задача с решением №3.3
Данные по предприятию за апрель (тыс. руб.):
остатки оборотных средств на 1 апреля – 1700, на 1 мая – 1500; стоимость реализованной продукции 8000.
Рассчитать показатели оборачиваемости оборотных средств за апрель.
Решение
Сделаем предварительный расчёт – вычислим средний остаток оборотных средств в апреле. Остатки оборотных средств даны на начало 


Коэффициент оборачиваемости 
ВЫВОД: оборотные средства в апреле совершили 5 оборотов. Коэффициент закрепления
ВЫВОД: для получения 1 руб. продукции было затрачено 0,2 руб. (20 коп.) оборотных средств.
3) Длительность оборота (t):
ВЫВОД: средняя продолжительность одного оборота 6 дней.
Изменение этих трёх показателей во времени даёт информацию об изменении эффективности использования оборотных средств. Так как они взаимосвязаны арифметически, то можно выделить 2 ситуации.
1) Снижение коэффициента оборачиваемости, рост коэффициента закрепления и длительности оборота. Такая ситуация называется замедлением оборачиваемости и приводит к тому, что в каждый оборот вовлекается большее количество оборотных средств, то есть каждый оборот становится более затратным. Такое дополнительное привлечение оборотных средств называется мобилизацией оборотных средств.
2) Рост коэффициента оборачиваемости, снижение коэффициента закрепления и длительности оборота. Такая ситуация называется ускорением оборачиваемости и приводит к тому, что каждый оборот требует меньшее количество вовлечённых оборотных средств, то есть становится более экономным. Такое высвобождение оборотных средств из оборота (точнее говоря, их экономия) называется иммобилизацией оборотных средств.
Сумма средств, высвобожденных или дополнительно вовлечённых в оборот в результате изменения скорости оборачиваемости оборотных средств (±Э) рассчитывается по формуле:

где 

Эту формулу можно адаптировать под каждый из известных нам показателей оборачиваемости:
а)
б) 
в) 
Подстрочный индекс «0» говорит о том, что показатель представляет базисный период, а «1» — отчётный период.
Если в результате расчётов полученный результат является отрицательным числом, это свидетельствует об иммобилизации (экономии) оборотных средств из-за ускорения оборачиваемости; если получено положительное число – это мобилизация оборотных средств из-за замедления оборачиваемости.
Задача с решением №3.4
Данные по предприятию:
Рассчитать сумма средств, высвобожденных или дополнительно вовлечённых в результате изменения скорости оборачиваемости оборотных средств.
Решение
Исходя из имеющихся данных, выберем следующую формулу:

ВЫВОД: произошло замедление оборачиваемости оборотных средств; дополнительно вовлечено в оборот 480 тыс. руб. (мобилизация).
К частным показателям оборачиваемости относятся следующие.
1) Материалоотдача 

где МЗ – материальные затраты (сырьё, материалы, топливо, энергия и т.д.).
Материалоотдача показывает, сколько рублей продукции принёс каждый рубль материальных затрат.
2) Материалоёмкость 

Материалоёмкость показывает стоимость материальных затрат для производства одного рубля продукции.
3) Удельный расход материала (M) — средний расход конкретного вида сырья, материалов, топлива или энергии на единицу произведенной годной продукции:

где q– физический объём продукции.
В данной формуле сумма всех затраченных материалов (топлива и т.д.) в натуральном выражении (∑ М) делится на натуральное (физическое) количество произведённой продукции (q). Этот показатель должен соответствовать утверждённым нормам, стандартам или техническим условиям для данного вида продукции.
Система частных показателей не ограничивается рассмотренными коэффициентами. В анализе деятельности предприятия могут использоваться такие показатели, как энергоёмкость, коэффициент оборачиваемости товарных запасов, обеспеченность производства запасами и т.д.
Статистика результатов экономической деятельности, понятие результатов экономической деятельности
Результатами экономической деятельности являются продукты (товары) и услуги.
Продукты – результаты труда, которые имеют материальновещественную форму.
Услуги — результаты труда, которые не воплощаются в материальной форме. Принципиальные отличия услуг от продуктов:
а) на услуги не распространяется право собственности (в Гражданском кодексе РФ услуга считается обязательством);
б) момент производства и потребления услуги совпадают;
в) услугу нельзя хранить, оставить в залог, завещать и т.д. (то есть выполнить те действия, которые возможны с продуктом).
Услуги делятся:
— на материальные и нематериальные;
— на индивидуальные и коллективные.
Материальные услуги удовлетворяют материально-бытовые потребности и связаны с изготовлением, восстановлением (ремонтом), перемещением материальных объектов. Сюда относятся коммунальные, транспортные, бытовые услуги.
Нематериальные услуги связаны с удовлетворением социальнокультурных и духовных потребностей (медицинские, туристические, образовательные услуги).
Индивидуальные услуги носят адресный платный характер: у них есть конкретный заказчик и тариф (ремонт обуви, фотоуслуги, платное образование, проезд в транспорте, кабельное телевидение).
Коллективные услуги (общественные блага) предполагают формально бесплатный характер, а в качестве потребителя выступает всё общество. Примерами являются услуги государственного управления, обеспечения обороны, охраны окружающей среды и т.д.
Снс: сущность и исходные категории
Система национальных счетов (СНС) – система взаимосвязанных показателей и таблиц, комплексно характеризующих состояние экономики страны.
Она была создана в 1950-е годы по заказу ООН и в настоящее время применяется более чем в 150 странах мира с рыночной экономикой (в том числе в России с 1992 г.). Её создание было вызвано потребностями органов государственного управления в информации, необходимой для регулирования экономики, а также для координации потоков экономической информации, которые международные организации получают из разных стран. Поэтому СНС базируется на общих методологических принципах расчёта показателей, хотя допускаются некоторые национальные особенности.
В настоящее время происходит переход от стандарта СНС 1993 года к стандарту 2008 г.
Исходные категории СНС: экономическая территория, институциональная единица, резидент, внутренняя экономика, национальная экономика.
Экономическая территория страны состоит из трёх частей:
1) территория, административно управляемая правительством данной страны, в пределах которой граждане, товары и капиталы могут свободно перемещаться;
2) воздушное пространство, территориальные воды данной страны и континентальный шельф в нейтральных водах, на котором данная страна имеет исключительное право на добычу топлива, сырья и т.д.;
3) территории в других странах (территориальные анклавы), используемые правительством данной страны для дипломатических, военных, научных или других целей (например, посольства).
Из определения следует, что, во-первых, экономическая и административная территории страны пусть незначительно, но не совпадают; во-вторых, территориальные анклавы зарубежных государств в данной стране не включаются в её общую экономическую территорию.
Институциональная единица — хозяйствующие единицы, которые могут от своего имени владеть активами, принимать обязательства, осуществлять экономическую деятельность и операции с другими единицами (юридические лица и домашние хозяйства).
Резидент – институциональная единица, имеющая центр экономических интересов на экономической территории данной страны 1 год и более.
Некоторые категории людей остаются резидентами своих стран, хотя длительное время находятся на территории других стран: дипломатические работники, студенты, лица на отдыхе и лечении и т.д.
Понятие «резидент» не совпадает с понятием гражданства, подданства, национальности.
Резиденты других стран, вступающие в экономические отношения с резидентами данной страны, относятся к экономическому сектору «остальной мир» («нерезиденты»).
Внутренняя экономика охватывает деятельность на территории данной страны как резидентов, так и нерезидентов. Главный показатель внутренней экономики – ВВП (валовой внутренний продукт).
Национальная экономика охватывает деятельность только резидентов данной страны, независимо от их местонахождения. Главный показатель национальной экономики – ВНД (валовой национальный доход). До 1993 г. он носил название «валовой национальный продукт» (ВНП).
Важным методологическим аспектом СНС является концепция границ экономического производства. Она определяет те сферы экономики, в которых создаётся ВВП. В СНС допускается, что в создании ВВП участвуют все виды экономической деятельности (в том числе теневые*), за исключением нижеследующих:
— деятельность, направленная против личности и имущества (грабеж, воровство, терроризм), так как в данном случае один из контрагентов не имеет свободы выбора, а сама экономическая операция не является равноценной для каждой из сторон;
— деятельность, результаты которой не являются её целью (загрязнение окружающей среды, образование мусора и т.д.), так как они являются побочными продуктами производственной деятельности;
— домашние услуги, оказываемые домашними хозяйствами для собственного жилья (приготовление пищи, уборка, ремонт и т.д.), так как крайне сложно вести их статистический учёт и оценивать их в стоимостных единицах.
*(расчёты показателей теневой экономики ведутся на основании косвенной информации, применения балансовых и других специфических методов и экспертных оценок)
Основные макроэкономические показатели
К основным показателям результатов экономической деятельности на макроуровне относятся валовой внутренний продукт (ВВП) и валовой национальный доход (ВНД).
Валовой внутренний продукт (Gross Domestic Product, GDP) — показатель, характеризующий конечный результат производственной деятельности экономических единиц. Он отражает стоимость всех продуктов и услуг, созданных на территории данной страны в течение определённого срока, за вычетом промежуточного потребления.
ВВП имеет 3 метода расчёта, которые в общих чертах соответствуют стадиям воспроизводственного процесса.
Первый метод – производственный. Он позволяет охарактеризовать структуру ВВП с точки зрения результатов деятельности отраслей (секторов) экономики и оценить их вклад в производство. Именно производство является начальной стадией в схеме воспроизводственного процесса, так как на этом этапе создаются продукты и услуги, которые в дальнейшем будут обмениваться и потребляться.
Формула ВВП производственным методом (в рыночных ценах):

где: ВДС – сумма валовой добавленной стоимости (ВДС) по отраслям (секторам) экономики;
ЧНП — чистые налоги на продукты.
Валовая добавленная стоимость (ВДС) определятся по формуле:

где: ВВ — валовой выпуск;
ПП – промежуточное потребление.
Валовой выпуск (Выпуск) – это стоимость всех произведённых за период материальных благ и оказанных услуг. Оценивается в текущих, т.е. рыночных ценах, действующих на момент производства товаров и оказания услуг.
Валовой выпуск (и, соответственно, валовую добавленную стоимость) чаще всего оценивают в основных ценах. Основная цена включает субсидии на продукты и не включает налоги на продукты.
Промежуточное потребление – это стоимость потреблённых в процессе производства товаров и услуг (за исключением потребления основного капитала), которые трансформируются или полностью потребляются в процессе производства в отчётном периоде.
В состав промежуточного потребления входят:
— материальные затраты (затраты сырья, материалов, топлива, энергии и т. п.);
— оплата нематериальных услуг (юридические, страховые, финансовые и т.д.);
— командировочные расходы (оплата проезда и услуг гостиниц).
Чистые налоги на продукты (ЧНП) рассчитываются по формуле:

где: НП – налоги на продукты (НДС, акцизы);
СП – субсидии на продукты.
Распределительный метод ВВП (по источникам дохода) характеризует сумму первичных доходов, распределённых между участниками производства (производителями товаров и услуг). Главными участниками производства являются: предприниматели, наёмные работники, предприятия (организации). Каждый из них получает свой вид доходов:
— оплату труда наёмных работников (ОТНР);
— валовую прибыль экономики (ВПЭ);
— валовые смешанные доходы (ВСД).
Однако в рамках выполнения своих социальных функций государство должно обеспечивать доходами (трансфертами) ту часть населения, которая не участвовала в производстве (инвалидов, пенсионеров, детей, безработных). Для этого участники производства облагаются соответствующими налогами, и рассчитывается показатель ЧНПИ – чистые налоги на производство и импорт:

где: НПИ — налоги на производство и импорт;
СПИ — субсидии на производство и импорт.
Формула ВВП распределительным методом:

Валовая прибыль экономики представляет собой ту часть добавленной стоимости, которая остаётся у производителя после вычета расходов, связанных с оплатой труда наёмных работников и чистых налогов на производство и импорт.
Валовые смешанные доходы – это доходы, в которых сложно или невозможно отделить доходы от предпринимательской деятельности, от собственности и от оплаты труда (например, доходы фермеров).
Метод конечного использования ВВП (по расходам) характеризует сумму расходов институциональных единиц на приобретение предназначенных для конечного использования товаров и услуг в ценах потребления и чистого экспорта товаров и услуг.
Формула ВВП методом конечного использования:

где: КП — конечное потребление;
ВН – валовое накопление;
ЧЭ – чистый экспорт.
Конечное потребление складывается из расходов на конечное потребление:
— домашних хозяйств;
— государственных учреждений;
— некоммерческих организаций, обслуживающих домашние хозяйства.
Валовое накопление – это вложение средств хозяйственной единицей для создания в будущем дохода в результате их использования в производстве. Оно включает в себя чистое приобретение (то есть за вычетом выбытия) объектов основного капитала, материальных оборотных средств и ценностей.
Чистый экспорт (экспортно-импортное сальдо) есть разница между экспортом (Э) и импортом (И):

Его величина может быть отрицательной в случае превышения величины импорта над величиной экспорта.
Теоретически все три метода ВВП должны дать одинаковый результат. Однако на практике между ними есть так называемое «статистическое расхождение», вызванное различными причинами: использованием различных источников информации, наличием теневой экономики, недостоверностью информации и т.д. Такие расхождения обычно не превышают 1-2 %.
Задача с решением №4.1
Имеются следующие данные по стране (тыс. усл. ед.):
Исчислить ВВП всеми методами.
Решение
ВВП производственным методом:
Сделаем предварительные расчёты – рассчитаем валовую добавленную стоимость (ВДС) и чистые налоги на продукты (ЧНП). Валовая добавленная стоимость:
ВДС = ВВ — ПП = 14800-9340=5460 тыс. усл. ед.;
Чистые налоги на продукты (ЧНП) рассчитываются по формуле:
ЧНП = НП — СП = 920-180=740 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ВДС + ЧНП= 5460+740=6200 тыс. усл. ед.
ВВП распределительным методом:
Сделаем предварительный расчёт – рассчитаем чистые налоги на производство и импорт (ЧНПИ).
ЧНПИ = НПИ — СПИ = 230-60=170 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ОТНР + ВПЭ + ВСД + ЧНПИ =2250+3780+170=6200 тыс. усл. ед.
ВВП методом конечного использования:
Сделаем предварительный расчёт – рассчитаем чистый экспорт:
ЧЭ = Э — И =2780-2830=-50 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = КП + ВН + ЧЭ =4110+2140+(-50)=6200 тыс. усл. ед.
Валовой национальный доход (Gross National Income, GNI) — сумма первичных доходов (в рыночных ценах), полученных резидентами данной страны в связи с их участием в производстве ВВП своей страны и ВВП других стран.
К первичным доходам относятся доходы, прямо или косвенно связанные с производством продуктов или услуг: оплата труда, прибыль, налоги на производство, предпринимательский доход, доходы от собственности (проценты, дивиденды, рента и т.п.).
Валовой национальный доход определяется по формуле:

где ΔД — сальдо первичных доходов, полученных от «остального мира» и выплаченных «остальному миру»:



Например, если резиденты России получили за рубежом доходов меньше, чем резиденты других стран получили доходов в России, то сальдо ΔД будет отрицательным, а величина ВВП РФ будет меньше величины ВНД РФ. На региональном уровне в Российской Федерации вычисляют показатель «валовой региональный продукт» (ВРП) — обобщающий показатель экономической деятельности региона, характеризующий процесс производства товаров и услуг для конечного использования.
ВРП по своей сути является аналогом ВВП, рассчитанным на региональном уровне. Каждый регион представляет собой самостоятельную внутреннюю экономику (см. тему 4.2). В то же время сумма валовых региональных продуктов по всем субъектам Федерации не совпадает с объёмом

ВВП больше суммарного ВРП на величину добавленной стоимости по коллективным услугам (государственное управление, оборона и т.д.), которые оказываются всему обществу в целом.
Многие макроэкономические показатели в СНС рассчитываются в двух вариантах:
1) валовые;
2) чистые.
Они отличаются между собой на величину потребления основного капитала (ПОК):
Чистый показатель = Валовой показатель – ПОК.
Потребление основного капитала представляет собой уменьшение стоимости основного капитала в течение отчётного периода в результате его морального и физического износа.
Оно включает:
— сумму амортизации основных фондов за год;
— недоамортизированную стоимость выбывших основных фондов.
Таким образом, можно рассчитать следующие макроэкономические показатели:
— чистый внутренний продукт (ЧВП):

— чистый национальный доход (ЧНД):

— чистый региональный продукт (ЧРП):

и ряд других показателей.
Задача с решением №4.2
Имеются следующие данные по стране (тыс. усл. ед.):
Валовая добавленная стоимость в основных ценах в сфере производства товаров 3050, а в сфере услуг 2360.
Потребление основного капитала в обеих сферах 1680.
Чистые налоги на продукты 450.
Сальдо доходов от экономической деятельности, полученных от «остального мира» и выплаченных «остальному миру» 170.
Рассчитать:
1) валовой и чистый внутренний продукт;
2) валовой и чистый национальный доход.
Решение
1) Исходя из исходных данных, мы рассчитаем ВВП производственным методом:
ВВП = ВДС + ЧНП= (3050+2360) + 450=5860 тыс. усл. ед.
Чистый внутренний продукт (ЧВП):
ЧВП = ВВП — ПОК = 5860-1680= 4180 тыс. усл. ед.
2) Валовой национальный доход:
ВНД = ВВП + ΔД = 5860+170= 6030 тыс. усл. ед.
Чистый национальный доход (ЧНД):
ЧНД = ВНД — ПОК = ЧВП + ΔД =6030-1680=4180+170=4350 тыс. усл. ед.
Статистика труда, понятие, состав и показатели численности персонала предприятия
Персонал предприятия – это совокупность физических лиц, которые состоят с предприятием в отношениях найма.
Персонал в зависимости от выполняемых работниками функций распределяется по категориям:
— руководители – работники, выполняющие управленческие функции;
— специалисты – работники, выполняющие технические и технологические функции (например, инженерно-технические работники);
— служащие – работники, выполняющие кадровые, учётные, аналитические и иные функции, хозяйственное обслуживание производства;
— рабочие – лица, непосредственно занятые в процессе создания материальных ценностей, оказанием услуг, а также ремонтом, перемещением грузов и т. п.;
— другие категории (младший обслуживающий персонал, охрана, ученики на производстве) [6].
Показатели численности персонала предприятия представлены в таблице 5.1.
Списочная численность – это работники, заключившие договор найма на срок не менее одного дня. Формальным основанием включения в списки (и исключения из списков) служит соответствующий приказ. Исходя из этого, списочная численность в выходной день равна списочной численности в последний рабочий день, так как в выходные дни делопроизводство на предприятии не ведётся.
В списочном составе предприятия не учитываются внешние совместители, так как они должны быть учтены по месту основной работы.
Явочная численность – это работники, явившиеся на работу. Их учёт ведётся только по рабочим дням.
Фактическая численность (Численность фактически работавших) – это работники, фактически приступившие к работе. Они также учитываются только по рабочим дням.
Нормальной считается ситуация, когда явочная и фактическая численности совпадают. Однако расхождения между ними возможны.
Такая ситуация происходит в случае целодневного простоя по объективным причинам:

где: 
Целодневный простой (по объективным причинам) – ситуация, когда работник явился на работу, но по независящим от него причинам к ней не приступил в течение дня (отсутствие материалов, электроэнергии и т.д.). Так как вины работника здесь нет, то работодатель должен оплатить ему этот простой.
Показатели средней численности персонала рассчитываются теми же методами, что и средняя численность населения или трудовых ресурсов (см. темы 1 и 2).
Однако, учитывая тот факт, что предприятие обычно располагает ежедневными данными о количестве сотрудников, применяются нижеследующие формулы.
Среднесписочная численность 

где: 
Результат показывает, сколько человек в среднем состояли в списках каждый календарный день.
Среднеявочная численность 

где: 
Результат показывает, сколько человек в среднем являлись на работу каждый рабочий день.
Среднефактическая численность 

Результат показывает, сколько человек в среднем приступали к работе каждый рабочий день.
Коэффициент использования среднесписочной численности 

Аналогично рассчитывается коэффициент использования среднеявочной численности 

Задача с решением №5.1
По организации имеются следующие данные о численности работающих за неделю, чел.:
Рассчитать:
1)среднюю численность персонала за неделю;
2)коэффициенты использования среднесписочной и среднеявочной численности за неделю.
Решение
1) Среднесписочная численность 
Среднеявочная численность
Для вычисления среднефактической численности сделаем предварительный расчёт – рассчитаем фактическую численность за каждый рабочий день, применив формулу:

где: 
Среднефактическая численность 
2) Коэффициент использования среднесписочной численности 
Вывод: из общего списочного состава фактически приступали к работе в среднем 80,9 % работников.
Коэффициент использования среднеявочной численности 
Вывод: из общего числа явившихся фактически приступали к работе в среднем 96,6 % работников.
Рассмотрим статистические особенности расчёта среднесписочной численности:
1) в среднесписочной численности не учитываются работники, которые находятся в списках, но фактически длительное время не работают на данном предприятии и не получают там заработную плату (женщины в отпуске по беременности и родам; лица в отпуске по уходу за ребёнком; работники, обучающиеся в образовательных учреждениях и находившиеся в дополнительном отпуске без сохранения заработной платы);
2) если предприятие работало неполный календарный период (например, закрылось в середине отчётного периода), расчёт средней списочной численности производится так же, то есть путём деления на полный календарный период. Данное правило не распространяется на среднеявочную и среднефактическую численность.
Задача с решением №5.2
Данные по предприятию о численности работников, чел.:
Примечание: предприятие открылось 27 октября.
Рассчитать среднесписочную и среднеявочная численность работников за октябрь.
Решение
Среднесписочная численность 
Среднеявочная численность 
Показатели движения персонала
Движение персонала – это изменение численности персонала предприятия (как в целом, так и по отдельным структурным элементам).
В статистике различают:
1) внутреннее движение (перевод работника в другую категорию, в другой отдел и т.д.);
2) внешнее движение (приём и увольнение).
На общую среднесписочную численность оказывает влияние только внешнее движение персонала.
Выделяют две группы показателей движения персонала.
К первой группе относятся абсолютные показатели (единица измерения — чел.):
— оборот по приёму (ОП) – число принятых на работу за период;
— оборот по увольнению (ОУ) – число уволенных с работы за период;
— общий оборот (ОО) = ОП + ОУ.
Оборот по увольнению делится на два вида:
1) необходимый оборот по увольнению 
2) излишний оборот по увольнению 
Излишний оборот называется также текучестью кадров. Высокий уровень текучести кадров – отрицательное явление для предприятия, так как это говорит о неудовлетворительной организации производства, вызывает экономические, психологические, кадровые трудности.
Вторая группа – относительные показатели (коэффициенты). Они измеряются в процентах (%). Эти показатели можно применять для характеристики интенсивности движения кадров нескольких предприятий с разной среднесписочной численностью.
Коэффициент оборота по приёму 

Коэффициент оборота по увольнению 


Коэффициент текучести кадров 


Коэффициент постоянства кадров 



Числитель можно рассчитать как разность между списочной численностью на начало периода 

Задача с решением №5.3
Динамика численности персонала предприятия (чел.):
Найти в каждом году (2013, 2014, 2015) относительные показатели движения персонала.
Решение
Сделаем предварительный расчёт – рассчитаем среднесписочную численность



2013 год:
2014 год:
2015 год: 
Коэффициент оборота по приёму

2013 год:
2014 год:
2015 год:
Коэффициент оборота по увольнению
2013 год:
2014 год:
2015 год: 
Коэффициент текучести кадров

В данном случае к текучести кадров можно отнести уволенных по собственному желанию.
2013 год:
2014 год:
2015 год:
Таким образом, несмотря на нестабильность числа уволенных по собственному желанию по годам, коэффициент текучести кадров неуклонно стремится к снижению, что свидетельствует об улучшении ситуации в системе управления персоналом.
Коэффициент постоянства кадров

2013 год:
2014 год: 
2015 год:
Таким образом, рост коэффициента в 2015 году говорит о стабилизации трудового коллектива предприятия.
Статистика рабочего времени
Рабочее время – это часть календарного времени, затрачиваемого на производство продукции или выполнение работ определённого вида. Оно учитывается как в стандартных единицах (часы, дни и т.д.), так и в специфических единицах: «человеко-час» (чел-ч) и «человекодень» (чел-дн). Человеко-часом отработанного или неотработанного времени считается один час пребывания работника на предприятии, а человеко-днем – один день пребывания работника на предприятии.
2 основные задачи статистического анализа рабочего времени:
1) анализ ресурсов рабочего времени;
2) анализ использования рабочего времени.
Показатели ресурсов рабочего времени обычно измеряются в человеко-днях. К ним относятся фонды рабочего времени.
Календарный фонд (КФ) — всё рабочее время предприятия за период. Он рассчитывается двумя способами: как сумма списочной численности работников за все календарные дни периода; как сумма явок (Я) и неявок (Н) на работу:
КФ = Я + Н. (5.18)
Табельный фонд (ТФ):

где: 
Максимально возможный фонд (МВФ):

где: 
Максимально возможный фонд характеризует время, которое работники предприятия должны отработать в соответствии с трудовым законодательством, так как положенное им по закону неотработанное время уже вычтено из общего календарного фонда. Соответственно, все три рассмотренных фонда (календарный, табельный и максимально возможный) можно запланировать.
В связи с тем, что существуют внеплановые неявки (по болезни, прогулам, внеочередным отпускам и т.д.), возникает необходимость рассчитывать следующие показатели:
— явочный фонд (ЯФ) = Явки (Я);
— фактический фонд (ФФ) = Фактически отработанное время, т.е. явки минус целодневные простои (ЦДП) по объективным причинам:
ФФ = Я – ЦДП. (5.21)
Соответственно, явочный фонд можно вычислить как сумму фактического фонда и целодневных простоев:
ЯФ = ФФ + ЦДП. (5.22)
Коэффициенты использования фондов рабочего времени характеризуют удельный вес фактически отработанного времени в 83 календарном, табельном или максимально возможном фонде рабочего времени. Чем ближе эти показатели к 100 %, тем полнее используется рабочее время.
Например, коэффициент использования максимально возможного фонда 

Фонды рабочего времени можно использовать для расчёта средней численности персонала. В этом случае формулы будут иметь следующий вид:
— среднесписочная численность 
— среднеявочная численность 
— среднефактическая численность 
Задача с решением №5.4
Данные по предприятию за квартал (63 рабочих дня), чел-дн:
Рассчитать за квартал:
1) фонды рабочего времени;
2) среднюю численность персонала.
Решение
1) Календарный фонд (КФ):
КФ = Я + Н = 44783+13554+ 4510 + 2466 + 294 + 1977 = 67584 чел-дн.
Табельный фонд (ТФ):
ТФ = КФ – Нвп = 67584 – 13554 = 54030 чел-дн.
где: 
Максимально возможный фонд (МВФ):
МВФ = ТФ – Нотп = 54030 – 4510 = 49520 чел-дн.
Явочный фонд (ЯФ) = Явки (Я) = 44783 чел-дн.
Фактический фонд (ФФ):
ФФ = Я – ЦДП = 44783 – 67 = 44716 чел-дн.
2) Среднесписочная численность 
Примечание: календарная длительность квартала возьмём 90 дней.
Среднеявочная численность 
Среднефактическая численность 
Анализ использования рабочего времени проводится на основе расчёта следующих показателей.
Коэффициент использования установленной продолжительности рабочего дня 



Результат показывает, на сколько процентов в среднем используется рабочий день и сколько процентов занимают внутридневные потери рабочего времени.
Коэффициент использования установленной продолжительности рабочего периода определяется отношением средней фактической продолжительности рабочего периода


Результат показывает, на сколько процентов в среднем используется рабочий период (неделя, месяц, квартал, полугодие, год) и сколько процентов занимают целодневные потери рабочего времени.
Интегральный коэффициент использования установленной продолжительности рабочего времени 

Результат показывает, на сколько процентов в среднем используется рабочее время и сколько процентов занимают его внутридневные и целодневные потери.
Для расчёта этих показателей необходимо вычислить ряд других, которые встречаются в их формулах.
Средняя фактическая продолжительность рабочего дня 



Средняя установленная продолжительность рабочего дня 
Средняя фактическая продолжительность рабочего периода 


Средняя установленная продолжительности рабочего периода 
Задача с решением №5.5
Данные по предприятию за апрель:
средняя списочная численность рабочих составляет 500 человек, в том числе работников с продолжительностью рабочего дня 6 часов – 50 человек, с продолжительностью рабочего дня 7 часов – 40 человек. Остальные рабочие имели установленную продолжительность рабочего дня 8 часов. Рабочие предприятия отработали за период 10500 человеко-дней и 79800 человеко-часов. В отчётном месяце было 22 рабочих дня.
Рассчитать показатели использования рабочего времени.
Решение
Сделаем предварительные расчёты:
Средняя фактическая продолжительность рабочего дня 
Средняя установленная продолжительность рабочего дня
Средняя фактическая продолжительность рабочего периода 
Рассчитаем показатели использования рабочего времени.
Коэффициент использования установленной продолжительности рабочего дня 
Вывод: рабочий день используется на 98,4 %, т.е. внутридневные потери времени составляют 1,6 % (100 % — 98,4%).
Коэффициент использования установленной продолжительности рабочего периода 
Вывод: рабочий период используется на 95,5 %, т.е. целодневные потери времени составляют 4,5 % (100 % — 95,5%).
Интегральный коэффициент использования установленной продолжительности рабочего времени 
Вывод: в целом рабочее время используется на 94 %, т.е. потери времени составляют 6 % (100 % — 94%).
Таким образом, табельный фонд времени недоиспользован на 6%, в том числе за счет сокращения продолжительности рабочего дня на 1,6% и за счет недоиспользования рабочего периода на 4,5%, т. е. каждым рабочим в отчетном периоде в среднем отработано меньше на один день (22 – 21) и ежедневно на 0,12 часа (7,72 – 7,6).
Статистика производительности труда
Производительность труда — это эффективность труда, то есть его способность производить то или иное количество благ в расчёте на единицу затрат труда.
Уровень производительности труда характеризуется двумя показателями:
1) выработка (прямой показатель);
2) трудоёмкость (обратный показатель).
Выработка (w) рассчитывается соотношением объёма продукции (Q) и затрат труда (T):

Выработка показывает, сколько продукции произведено в среднем за 1 единицу трудовых затрат. В экономике считается положительным явлением рост данного показателя.
Трудоёмкость (t) рассчитывается обратным соотношением:

Трудоёмкость показывает, сколько затрат труда потребовалось в среднем для производства 1 единицы продукции. Предприятие должно стремиться к снижению данного индикатора.
Объём продукции может быть выражен как натуральными, так и стоимостными единицами. Исходя из этого, различают натуральную и стоимостную выработку.
В зависимости от того, чем измеряются затраты труда (затратами рабочей силы или рабочего времени), различают следующие виды показателей производительности труда, выраженных средней выработкой.
Средняя часовая выработка 


Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 час.
Средняя дневная выработка

Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 день.
Средняя выработка одного рабочего за период 

Результат показывает, сколько продукции в среднем произвёл один рабочий за период (месяц, квартал и т.п.).
Средняя выработка одного работника персонала за период 

Результат показывает, сколько продукции в среднем произвёл один работник персонала за период (месяц, квартал и т.п.).
Между данными показателями существует следующая взаимосвязь:

где 
Для анализа динамики производительности труда применяется индексный метод. Применение того или иного индекса обусловлено как масштабом исследования, так и спецификой анализируемого показателя (см. тему «Индексы» в курсе «Теории статистики»).
Для измерения динамики производительности труда по одной изучаемой единице (например, одному виду продукции) используют индивидуальный индекс, причём он может рассчитываться как по выработке, так и по трудоёмкости.
Индивидуальный индекс производительности труда (по выработке):

где «0» и «1» обозначают, соответственно, базисный и отчётный периоды.
Индивидуальный индекс производительности труда (по трудоёмкости) является обратным предыдущему индексу:

Для измерения динамики производительности труда по совокупности объектов применяют систему общих индексов – индексы переменного состава, постоянного состава и структурных сдвигов. Так как производительность труда характеризуется разными показателями и имеет разные измерители, то используют 3 метода анализа её динамики:
1) натуральный метод (анализируется динамика средней натуральной выработки);
2) стоимостной метод (анализируется динамика средней стоимостной выработки, выраженной в сопоставимых ценах);
3) трудовой метод (анализируется динамика средней трудоемкости).
Рассмотрим натуральный метод анализа.
На динамику средней выработки влияют два фактора:
1. изменение производительности труда по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры производства (изменение доли предприятий с той или иной производительностью труда).
Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов.
Индекс переменного состава 


Индекс постоянного (фиксированного) состава 

где 
Индекс структурных сдвигов 

Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:

Задача с решением №5.6
Данные по совокупности предприятий: средняя выработка базисного периода 


Рассчитать индексы производительности труда натуральным методом.
Решение
Индекс переменного состава 
Средняя выработка снизилась на 3,2 %.
Индекс постоянного (фиксированного) состава 
За счёт изменения производительности труда по отдельным предприятиям средняя выработка снизилась на 4,8 %.
Индекс структурных сдвигов
За счёт изменения структуры производства средняя выработка возросла на 1,6 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой производительностью труда.
Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой производительностью труда.
Статистика оплаты труда
Оплата труда (заработная плата) – это материальное и натуральное вознаграждение наёмным работникам в соответствии с количеством и качеством их труда, а также с уровнем их квалификации.
Различают две основные формы оплаты труда: сдельную и повременную. При сдельной форме заработок зависит от количества произведённой продукции и сдельной расценки (размера оплаты за единицу продукции), а при повременной – от количества затраченного времени и тарифной ставки (размера оплаты за единицу продукции). В рамках этих форм различают системы (модификации) оплаты труда: сдельно-премиальную и повременно-премиальную (премии за качественную работу), сдельно-прогрессивную (дифференцированная шкала сдельных расценок), аккордную (оплата за весь комплекс работ) и т.д. К повременной форме относят также «должностной оклад» — фиксированный размер оплаты труда административно-управленческого персонала за исполнение трудовых обязанностей определённой сложности за календарный месяц.
Фонд оплаты труда (ФОТ) включает в себя сумму начисленной заработной платы всех работников предприятия. Это интервальный показатель, и он рассчитывается обычно за месяц или за год.
В состав фонда оплаты труда (ФОТ) входят следующие элементы:
1. оплата за отработанное время (зарплата, начисленная в соответствии с тарифными ставками, должностными окладами, сдельными расценками, в процентах от прибыли и т.д.);
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).
Уровень заработной платы характеризуется средней заработной платой одного работника.
Средняя заработная плата 


Динамика средней заработной платы изучается с помощью системы индексов.
По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платы



На динамику средней заработной платы влияют два фактора:
1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).
Уровень заработной платы характеризуется средней заработной платой одного работника.
Средняя заработная плата 

Динамика средней заработной платы изучается с помощью системы индексов.
По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платы 



На динамику средней заработной платы влияют два фактора:
1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).
Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов (см. тему «Индексы» в курсе «Теории статистики») [1, c. 24-34].
Индекс переменного состава 



Индекс постоянного (фиксированного) состава 

где 
Индекс структурных сдвигов 

Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:

Задача с решением №5.7
Имеются следующие данные по двум предприятиям о заработной плате работников:
Определите индексы заработной платы:
1) индивидуальные;
2) по двум участкам вместе (переменного, постоянного состава и структурных сдвигов). Проверить взаимосвязь индексов.
Решение
1) индивидуальный индекс заработной платы 
— по предприятию 1:
— по предприятию 2:
Вывод: уровень заработной платы на предприятии 1 возрос на 8 %, а на предприятии 2 возрос на 5,3 %.
2) сделаем предварительные расчёты – рассчитаем среднюю зарплату по совокупности предприятий:
Индекс переменного состава 
Средняя заработная плата возросла на 8,6 %.
Индекс постоянного (фиксированного) состава 
За счёт изменения уровня заработной платы по отдельным предприятиям средняя заработная плата возросла на 7,7 %.
Индекс структурных сдвигов 
За счёт изменения структуры работников средняя заработная плата возросла на 0,9 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой заработной платой.
Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой заработной платой.
Взаимосвязь индексов:
Статистика уровня жизни, понятие уровня жизни
Уровень жизни – это комплексная социально-экономическая категория, включающая в себя различные стороны жизнедеятельности населения.
Современная наука рассматривает категорию «уровень жизни» как сочетание трёх компонентов:
1) благосостояние населения;
2) накопление человеческого капитала;
3) уровень человеческого развития.
Благосостояние населения можно рассматривать с двух сторон – как абсолютное и относительное.
Абсолютное благосостояние характеризуется размером полученных доходов (заработной платы, пенсий, пособий и других), потреблением благ, услуг и продуктов питания, наличием жилья и предметов длительного пользования (телефонов, бытовой техники, автомобилей). Относительное благосостояние предполагает сравнение абсолютных показателей со средними, с нормативными или с показателями прошлых периодов. Например, размер дохода, наличия тех или иных благ, потребления продуктов питания может сравниваться со стандартами данной социальной группы, с физиологическим минимумом, со среднедушевыми показателями данного региона или Российской Федерации в целом.
Накопление человеческого капитала характеризует экономическую сторону воспроизводства рабочей силы. Оно тесно связано с экономическим определением капитала как совокупности активов, приносящих (в данный момент или в перспективе) определённые экономические выгоды. В этом компоненте уровня жизни можно выделить макро- и микроуровень.
На макроуровне предполагается расчёт таких показателей, как «доля расходов государственного бюджета на образование, здравоохранение, культуру и т.д.», в том числе в процентах к ВВП.
На микроуровне накопление человеческого капитала учитывает затраты работодателя и самого человека на повышение образовательного, профессионального, культурного уровня, сохранение и приумножение здоровья. Эти затраты рассматриваются с точки зрения сохранения работоспособности индивида, его конкурентоспособности на рынке труда, что в конечном итоге отражается на его уровне жизни.
Уровень человеческого развития характеризует не столько материальные, сколько духовные, гражданские, правовые и прочие нематериальные аспекты жизнедеятельности людей. Одним из ключевых понятий в оценке уровня человеческого развития является «качество жизни», которое учитывает экологические, демографические, криминогенные, природно-климатические и другие условия жизни. Термин «качество жизни» имеет вполне определённые количественные характеристики, например, уровень преступности, продолжительность жизни, объём выбросов вредных веществ в атмосферу и т.д., которые можно использовать в анализе уровня жизни населения.
Ещё одним аспектом уровня человеческого развития выступает «интеграция человека в общество», которая учитывает наличие демократических прав и свобод, отсутствие дискриминации по различным признакам (расовым, национальным, гендерным и т.д.), наличие доступа к общественным благам. В этом аспекте человек рассматривается не просто как член общества, а как гражданин, обладающий полным комплексом прав и обязанностей.
В статистической практике выделяют следующие виды уровня жизни:
— достаток (пользование благами и услугами, которые обеспечивают всестороннее развитие человека);
— нормальный уровень (потребление благ и услуг по научно обоснованным нормам, которые достаточны для полноценного восстановления физических и интеллектуальных сил человека);
— бедность (потребление благ и услуг на уровне возможности сохранения работоспособности человека);
— нищета (минимальное потребление благ и услуг на уровне биологического выживания человека).
Система показателей уровня жизни
Учитывая сложность и многоплановость понятия «уровень жизни», для его измерения не существует единого показателя, а используется система статистических показателей.
Первый блок – это обобщающие показатели. Они комплексно характеризуют уровень жизни населения, ориентируясь на основные макроэкономические индикаторы. С их помощью международные организации проводят межстрановые сопоставления. К ним относятся:
1) ВВП (или национальный доход) на душу населения (руб./чел) – соотношение величины ВВП и среднегодовой численности населения;
2) индекс стоимости жизни 

где «0» — базисный период, «1» — отчётный период;
3) индекс развития человеческого потенциала ИРЧП (с 2013 года «Индекс человеческого развития» ИЧР — «Human Development Index») — это комбинированный показатель, разработанный ООН. Он включает в себя три компонента.
1) Индекс ожидаемой продолжительности жизни: здоровье и долголетие, измеряемые показателем средней ожидаемой продолжительности жизни при рождении.
2) Индекс образования: доступ к образованию, измеряемый средней ожидаемой продолжительностью обучения детей школьного возраста и средней продолжительностью обучения взрослого населения.
3) Индекс валового национального дохода: достойный уровень жизни, измеряемый величиной валового национального дохода (ВНД) на душу населения в долларах США по паритету покупательной способности (ППС).
Эти три измерения стандартизируются в виде числовых значений от 0 до 1, среднее геометрическое которых представляет собой совокупный показатель ИЧР в диапазоне от 0 до 1.
Второй блок – показатели доходов населения. Это базовая группа, так как именно величина доходов обуславливает уровень потребления и обеспеченности благами (услугами), формирует образ и уклад жизни. Так, рост доходов способствует расширению структуры расходов, в которой доля продуктов питания будет неуклонно уменьшаться за счёт включения таких статей, как приобретение одежды, предметов роскоши, затраты на отдых, культурные мероприятия и т.д.
Доходы структурируются по группам: «Оплата труда», «Доходы от предпринимательской деятельности», «Социальные выплаты», «Доходы от собственности», «Другие доходы».
В СНС существует следующая трактовка понятия «доход», которая базируется на общей концепции английского экономиста Дж. Хикса.
Доход – это максимальная сумма денег, которую субъект может потратить за период, не становясь при этом беднее (то есть, не принимая на себя финансовых обязательств и не уменьшая своего накопленного богатства).
Из данного определения следует, что доходом не считается, например, получение кредита в банке.
Доходы классифицируются по следующим признакам:
— с учётом инфляции (номинальные, реальные);
— по стадии воспроизводства (первичные, располагаемые).
Первичные доходы (ПД) – это доходы, получаемые в результате первичного распределения добавленной стоимости (оплата труда, предпринимательские доходы, доходы от собственности).
Располагаемые доходы (РД) включают в себя первичные доходы и сальдо текущих трансфертов (ΔТТ):
РД = ПД + ΔТТ. (6.2)
Трансфертом называется безвозмездный платёж (то есть поток денег, товаров и услуг, который не вызывает встречный поток денег, товаров и услуг). Сальдо рассчитывается как разность полученных трансфертов (например, пенсий, стипендий, пособий) и выплаченных трансфертов (например, налогов). Его величина может быть отрицательной.
Номинальные доходы (НД) – это первичные и располагаемые доходы, которые рассчитываются в ценах текущего периода.
Реальные доходы (РеалД) – это номинальные доходы, скорректированные на изменение цен, то есть рассчитанные в сопоставимых (постоянных) ценах:

где 

Сопоставляя реальные доходы отчётного периода с номинальными доходами базисного периода, можно сделать вывод об изменении физического объёма потребления благ населением.
Например, если величина данного индекса больше 1, значит, в натуральном выражении потребление благ возросло по сравнению с базисным периодом.
Расчёт реальных доходов имеет смысл только в динамике. Любой доход, полученный за год, является номинальным. Реальным он станет только после корректировки на индекс цен и сравнения с доходом прошлого периода.
Задача с решением №6.1
Данные по области на душу населения в текущих ценах (руб.):
Рассчитать:
1) номинальные располагаемые доходы населения в каждом году;
2) индекс номинальных располагаемых доходов населения;
3) реальные располагаемые доходы населения в 2015 году.
Решение
1) Номинальные располагаемые доходы населения в 2014 году:
14157+6657+16079-1271=35622 руб.
Номинальные располагаемые доходы населения в 2015 году:
15092+7226+19126-1675=39769 руб.
2) Индекс номинальных располагаемых доходов населения:
Вывод: номинальные располагаемые доходы населения в 2015 году возросли на 11,6 % (по сравнению с 2014 годом).
3) Реальные располагаемые доходы населения в 2015 году:
Вывод: реальные располагаемые доходы населения в 2015 году снизились по сравнению с номинальными доходами 2014 года, значит, физический объём потребления благ населением области сократился.
Блок показателей доходов населения дополняется показателями дифференциации доходов. Наибольшее распространение имеют следующие:
1) децильный коэффициент дифференциации доходов – отношение совокупного дохода 10% богатейшего населения к совокупному доходу 10 % беднейшего населения;
2) коэффициент фондов, с помощью которого измеряют различие между суммарными (средними) значениями доходов 10% наиболее обеспеченной и 10% наименее обеспеченной части населения;
3) коэффициент Джини – показатель отклонения фактических доходов населения от абсолютного равенства в распределении доходов. Чем выше его значение, тем выше степень неравенства.
Третий блок – показатели расходов населения. В практической деятельности имеет значение не столько абсолютная величина расходов, сколько их структура, то есть направления затрат. Росстат выделяет следующие градации расходов: «Покупка товаров и оплата услуг», «Обязательные платежи и разнообразные взносы», «Сбережения во вкладах и ценных бумагах», «Расходы на покупку недвижимости», «Приобретение иностранной валюты» и другие расходы.
Четвёртый блок – показатели потребления продуктов питания и обеспеченности благами. В основе расчётов лежит набор из 10 групп продуктов питания продовольственной корзины (см. п. 13.3). Рассчитываются показатели:
— уровень потребления мяса и мясопродуктов (кг на 1 человека в год); — уровень потребления молока и молочных продуктов (кг на 1 человека в год);
— уровень потребления картофеля (кг на 1 человека в год) и т.д.
В качестве наиболее важных благ для населения Росстат рассматривает жильё, автомобили, потребительские товары длительного пользования (телевизоры, персональные компьютеры, стиральные машины и т.д.). Обеспеченность этими благами вычисляется соотношением их общего объёма и численности населения (или домашних хозяйств).
Рассчитываются показатели:
— число собственных легковых автомобилей (штук на 1000 человек населения);
— общая площадь жилых помещений, приходящаяся в среднем на одного жителя (м2 /чел.);
— число телевизоров (штук на 100 домохозяйств) и т.д.
Обобщающую оценку изменения потребления благ дают следующие показатели.
Индивидуальный индекс физического объёма потребления благ 

где 

Общий индекс физического объёма потребления благ 

где 
Индивидуальный индекс уровня потребления благ 

где 

Общий индекс уровня потребления благ 

Задача с решением №6.2
Данные по региону:
Определите:
1) общий индекс физического объема потребления товаров и услуг;
2) общий индекс уровня потребления товаров и услуг.
Решение
1) сделаем предварительный расчёт – переведём объём потребления благ 2016 года в сопоставимые цены, то есть в данном случае в цены базисного, 2015 года (аналогично задаче 13.1):

Таким образом, объём потребления благ 2015 года можно обозначить как
Общий индекс физического объёма потребления благ
Вывод: физический объём потребления благ в отчётном периоде повысился на 1,2 % (по сравнению с базисным периодом).
2) Общий индекс уровня потребления благ
Вывод: уровень потребления благ в отчётном периоде повысился на 3,1 % (по сравнению с базисным периодом).
Таким образом, за счёт роста численности населения региона потребление благ в расчёте на одного человека возросло больше, чем в целом по населению.
В системе показателей уровня жизни можно выделить ещё ряд блоков (демографические, социальные, экологические и другие показатели), однако они традиционно рассматриваются как косвенные по отношению к характеристике уровня жизни населения.
Прожиточный минимум
Прожиточный минимум представляет собой стоимостную оценку потребительской корзины, а также включает в себя обязательные платежи и сборы [3].
Он состоит из потребительской корзины и обязательных платежей и сборов.
Величина прожиточного минимума — это стоимостная оценка потребительской корзины, включающей минимальные наборы продуктов питания, непродовольственных товаров и услуг, необходимых для сохранения здоровья человека и обеспечения его жизнедеятельности, а также обязательные платежи и сборы (в этот пункт включается НДФЛ – налог на доходы физических лиц).
Потребительская корзина в субъектах Российской Федерации устанавливается законодательными органами субъектов Федерации. Её размер – это эталон для мониторинга уровня бедности и решения макроэкономических задач.
Так, прожиточный минимум в целом по Российской Федерации предназначается для решения следующих управленческих задач на государственном уровне:
— оценка уровня жизни населения страны при разработке и реализации социальной политики и федеральных социальных программ;
— обоснование устанавливаемых на федеральном уровне минимального размера оплаты труда, а также для определения устанавливаемых на федеральном уровне размеров стипендий, пособий и других социальных выплат;
-формирование федерального бюджета. Прожиточный минимум в субъектах Российской Федерации предназначается для решения следующих управленческих задач на региональном уровне:
— оценка уровня жизни населения соответствующего субъекта Российской Федерации при разработке и реализации региональных социальных программ;
— оказание необходимой государственной социальной помощи малоимущим гражданам;
— формирование бюджетов субъектов Российской Федерации.
Величина прожиточного минимума на душу населения в целом по Российской Федерации и в субъектах Федерации определяется ежеквартально на основании потребительской корзины и данных об уровне потребительских цен на продукты питания, непродовольственные товары и услуги и расходов по обязательным платежам и сборам. Кроме того, она дифференцирована по возрасту – прожиточный минимум устанавливается не только в среднем на душу населения, но и отдельно для трудоспособного населения, для пенсионеров и для детей.
Величина прожиточного минимума используется в следующих статистических показателях.
Доля населения с доходами ниже прожиточного минимума

где 
Соотношение среднедушевых денежных доходов с величиной прожиточного минимума

где НД – среднедушевые номинальные доходы населения (руб.), ПМ – величина прожиточного минимума (руб.).
Аналогичным образом с величиной прожиточного минимума сопоставляются среднемесячная начисленная заработная плата и средний размер назначенных пенсий.
Задача с решением №6.3
Величина прожиточного минимума в регионе в базисном периоде составляла 8500 руб., из них 60 % приходилось на приобретение продуктов питания, 8 % — на оплату услуг, 6 % — на оплату налогов. В отчётном периоде цены на продовольственные товары возросли на 12 %, на непродовольственные товары — на 15 %, на услуги – на 10 %. Величина налогов и сборов осталась на уровне базисного периода.
Рассчитать:
1) стоимость каждого элемента прожиточного минимума в базисном периоде;
2) величину прожиточного минимума в отчётном периоде;
3) индекс стоимости жизни.
Решение
1) стоимость каждого элемента прожиточного минимума в базисном периоде.
Приобретение продуктов питания
60 % * 8500 = 0,60 * 8500 = 5100 руб.;
оплата услуг
8 % * 8500 = 0,08 * 8500 = 680 руб.;
обязательные платежи и сборы
6 % * 8500 = 0,06 * 8500 = 510 руб.;
приобретение непродовольственных товаров
8500 – 5100 – 680 – 510 = 2210 руб.
2) величина прожиточного минимума в отчётном периоде 
Приобретение продуктов питания:
5100 руб. + 12 % = 5100 * 1,12 = 5712 руб.;
оплата услуг:
680 руб. + 10 % = 680 * 1,10 = 748 руб.;
обязательные платежи и сборы – стоимость не изменилась (510 руб.);
приобретение непродовольственных товаров:
2210 руб. + 15 % = 2210 * 1,15 = 2541,5 руб.
Итого:

3) индекс стоимости жизни
Вывод: стоимость жизни в отчётном периоде повысилась на 11,9 % (по сравнению с базисным периодом).
C 1 января 2013 года в потребительскую корзину России включены следующие продукты и услуги:
Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.
Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.
Статистическое исследование может проводиться посредством следующих методик:
- Статистическое наблюдение;
- Сводка и группировка материалов статистического наблюдения;
- Абсолютные и относительные статистические величины;
- Вариационные ряды;
- Выборка;
- Корреляционный и регрессионный анализ;
- Ряды динамики.
Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.
Статистическое наблюдение
Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.
Статистическое наблюдение должно выполняться с учетом некоторых важных требований:
- Оно должно полностью охватывать изучаемые явления;
- Получаемые данные должны быть точными и достоверными;
- Получаемые данные должны быть однообразными и легкосопоставимыми.
Также статистическое наблюдение может иметь две формы:
- Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
- Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.
Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.
Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.
Сводка и группировка материалов статистического наблюдения
Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.
С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:
- Выбирается группировочный признак;
- Определяется порядок формирования групп;
- Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
- Разрабатываются макеты таблиц, где будут представлены результаты сводки.
Важно заметить, что есть и разные формы сводки:
- Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
- Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.
Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.
Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.
Абсолютные и относительные статистические величины
Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.
Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.
А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.
Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.
Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.
Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.
Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.
Вариационные ряды
В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.
На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.
Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.
Выборка
Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.
Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.
Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.
Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.
Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.
Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.
Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.
Корреляционный и регрессионный анализ
Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.
В случае с корреляционным анализом задачами являются:
- Измерить тесноту имеющейся связи дифференцирующихся признаков;
- Определить неизвестные причинные связи;
- Оценить факторы, в наибольшей степени воздействующие на окончательный признак.
А в случае с регрессионным анализом задачи следующие:
- Определить форму связи;
- Установить степень воздействия независимых показателей на зависимый;
- Определить расчетные значения зависимого показателя.
Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.
Ряды динамики
Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.
Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.
Ряд динамики включает в себя два компонента:
- Период или момент времени, связанный с имеющимися данными;
- Уровень или статистический показатель.
В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».
Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.
Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.
Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.
В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.
До сих пор мы исходили из того, что наши данные, например, о росте тысячи мужчин-респондентов в России полностью отражают реальные показатели роста всех россиян. На самом деле мы не знаем, так это или нет.
Мы сможем об этом говорить только, если получим измерения каждого человека. Эта задача представляется нереализуемой.
Те же, кого нам всё-таки удалось измерить, называются выборкой (sample). А вот все мужчины в России — это генеральная совокупность (population).
Существует ли вообще возможность сказать что-либо определенное про генеральную совокупность по ограниченному набору данных?
На самом деле существует. Теоретическое обоснование этой возможности называется Центральной предельной теоремой.
Центральная предельная теорема (Central Limit Theorem) гласит, что если мы будем много раз выборочно собирать данные, то среднее средних всех выборок (распределение средних) будет стремится к среднему генеральной совокупности. Рассмотрим этот процесс подробнее.
Для начала возьмем несколько выборок из одной генеральной совокупности и выясним среднее каждой выборки.
Затем посчитаем среднее арифметическое средних этих выборок. Это новое среднее будет стремиться к среднему генеральной совокупности (обозначается греческой буквой μ, мю).
Этот вывод чрезвычайно важен, потому что мы наконец-то получаем инструменты, позволяющие сказать что-то определенное про величину, которую мы в принципе не можем охватить измерением.
Теперь рассмотрим статистический вывод на практике. Центральная предельная теорема является обоснованием для двух важных инструментов изучения генеральной совокупности.
С одной стороны, даже предполагая, что выборочное среднее стремится к истинному среднему, мы не можем быть на 100 процентов уверены, что знаем этот параметр генеральной совокупности. С другой, теорема позволяет задать доверительный интервал (Confidence Interval) для среднего (и на самом деле любого другого параметра, например, пропорции).
Другими словами, мы можем утверждать, что, например, в 90 процентах случаев, наш доверительный интервал будет включать истинный параметр генеральной совокупности.
На графике греческой буквой μ (мю) как раз обозначено среднее генеральной совокупности, которое попадает в наш доверительный интервал только в 9 случаях из 10 (то есть в 90 процентах случаев).
Например, мы можем найти доверительный интервал для среднего роста всех мужчин в России. Сделаем это с помощью Питона.
|
# вначале вновь подгрузим данные [185.0, 179.0, 186.0, 195.0, 178.0, 178.0, 196.0, 188.0, 175.0, 185.0, 175.0, 175.0, 182.0, 161.0, 163.0, 174.0, 170.0, 183.0, 171.0, 166.0, 195.0, 178.0, 181.0, 166.0, 175.0, 181.0, 168.0, 184.0, 174.0, 177.0, 174.0, 199.0, 180.0, 169.0, 188.0, 168.0, 182.0, 160.0, 167.0, 182.0, 187.0, 182.0, 179.0, 177.0, 165.0, 173.0, 175.0, 191.0, 183.0, 162.0, 183.0, 176.0, 173.0, 186.0, 190.0, 189.0, 172.0, 177.0, 183.0, 190.0, 175.0, 178.0, 169.0, 168.0, 188.0, 194.0, 179.0, 190.0, 184.0, 174.0, 184.0, 195.0, 180.0, 196.0, 154.0, 188.0, 181.0, 177.0, 181.0, 160.0, 178.0, 184.0, 195.0, 175.0, 172.0, 175.0, 189.0, 183.0, 175.0, 185.0, 181.0, 190.0, 173.0, 177.0, 176.0, 165.0, 183.0, 183.0, 180.0, 178.0, 166.0, 176.0, 177.0, 172.0, 178.0, 184.0, 199.0, 182.0, 183.0, 179.0, 161.0, 180.0, 181.0, 205.0, 178.0, 183.0, 180.0, 168.0, 191.0, 188.0, 188.0, 171.0, 194.0, 166.0, 186.0, 202.0, 170.0, 174.0, 181.0, 175.0, 164.0, 181.0, 169.0, 185.0, 171.0, 195.0, 172.0, 177.0, 188.0, 168.0, 182.0, 193.0, 164.0, 182.0, 183.0, 188.0, 168.0, 167.0, 185.0, 183.0, 183.0, 183.0, 173.0, 182.0, 183.0, 173.0, 199.0, 185.0, 168.0, 187.0, 170.0, 188.0, 192.0, 172.0, 190.0, 184.0, 188.0, 199.0, 178.0, 172.0, 171.0, 172.0, 179.0, 183.0, 183.0, 188.0, 180.0, 195.0, 177.0, 207.0, 186.0, 171.0, 169.0, 185.0, 178.0, 187.0, 185.0, 179.0, 172.0, 165.0, 176.0, 189.0, 182.0, 168.0, 182.0, 184.0, 171.0, 182.0, 181.0, 169.0, 184.0, 186.0, 191.0, 191.0, 166.0, 171.0, 185.0, 185.0, 185.0, 219.0, 186.0, 191.0, 190.0, 187.0, 177.0, 188.0, 172.0, 178.0, 175.0, 181.0, 203.0, 161.0, 187.0, 164.0, 175.0, 191.0, 181.0, 169.0, 173.0, 187.0, 173.0, 182.0, 180.0, 173.0, 201.0, 186.0, 160.0, 182.0, 173.0, 189.0, 172.0, 179.0, 185.0, 189.0, 168.0, 177.0, 175.0, 173.0, 198.0, 184.0, 167.0, 189.0, 201.0, 190.0, 165.0, 175.0, 193.0, 173.0, 184.0, 188.0, 171.0, 179.0, 148.0, 170.0, 177.0, 168.0, 196.0, 166.0, 176.0, 181.0, 194.0, 166.0, 192.0, 180.0, 170.0, 185.0, 182.0, 174.0, 181.0, 176.0, 181.0, 187.0, 196.0, 168.0, 201.0, 160.0, 178.0, 186.0, 183.0, 174.0, 178.0, 175.0, 174.0, 188.0, 184.0, 173.0, 189.0, 183.0, 188.0, 186.0, 172.0, 174.0, 187.0, 186.0, 180.0, 181.0, 193.0, 174.0, 185.0, 178.0, 178.0, 191.0, 188.0, 188.0, 193.0, 180.0, 187.0, 177.0, 183.0, 179.0, 181.0, 186.0, 172.0, 201.0, 170.0, 168.0, 192.0, 188.0, 186.0, 186.0, 180.0, 171.0, 181.0, 173.0, 190.0, 179.0, 172.0, 177.0, 184.0, 174.0, 172.0, 182.0, 182.0, 175.0, 175.0, 182.0, 166.0, 166.0, 173.0, 178.0, 183.0, 195.0, 189.0, 178.0, 180.0, 170.0, 180.0, 177.0, 183.0, 172.0, 185.0, 195.0, 179.0, 184.0, 187.0, 176.0, 182.0, 180.0, 181.0, 172.0, 180.0, 185.0, 195.0, 190.0, 202.0, 172.0, 189.0, 182.0, 202.0, 172.0, 172.0, 174.0, 159.0, 175.0, 172.0, 182.0, 183.0, 199.0, 190.0, 174.0, 171.0, 185.0, 167.0, 198.0, 192.0, 175.0, 163.0, 194.0, 179.0, 192.0, 164.0, 174.0, 180.0, 180.0, 175.0, 186.0, 169.0, 179.0, 181.0, 185.0, 187.0, 169.0, 165.0, 193.0, 183.0, 173.0, 196.0, 181.0, 192.0, 181.0, 201.0, 198.0, 178.0, 190.0, 186.0, 194.0, 170.0, 187.0, 191.0, 162.0, 168.0, 160.0, 177.0, 187.0, 195.0, 181.0, 196.0, 166.0, 163.0, 179.0, 184.0, 180.0, 159.0, 179.0, 167.0, 187.0, 184.0, 171.0, 175.0, 169.0, 179.0, 190.0, 170.0, 185.0, 175.0, 172.0, 179.0, 170.0, 174.0, 168.0, 200.0, 180.0, 173.0, 182.0, 179.0, 178.0, 186.0, 188.0, 175.0, 174.0, 177.0, 157.0, 165.0, 194.0, 196.0, 178.0, 186.0, 183.0, 211.0, 191.0, 179.0, 170.0, 164.0, 182.0, 172.0, 166.0, 174.0, 169.0, 197.0, 189.0, 180.0, 195.0, 181.0, 171.0, 195.0, 185.0, 170.0, 178.0, 171.0, 166.0, 189.0, 199.0, 166.0, 186.0, 173.0, 175.0, 174.0, 171.0, 180.0, 172.0, 183.0, 179.0, 178.0, 171.0, 174.0, 188.0, 185.0, 170.0, 181.0, 188.0, 163.0, 185.0, 173.0, 186.0, 172.0, 162.0, 164.0, 180.0, 183.0, 171.0, 186.0, 163.0, 179.0, 168.0, 173.0, 180.0, 171.0, 176.0, 190.0, 174.0, 188.0, 169.0, 185.0, 194.0, 155.0, 172.0, 186.0, 178.0, 184.0, 174.0, 181.0, 178.0, 192.0, 183.0, 183.0, 176.0, 175.0, 176.0, 184.0, 176.0, 183.0, 201.0, 189.0, 177.0, 192.0, 176.0, 160.0, 170.0, 161.0, 176.0, 180.0, 197.0, 183.0, 178.0, 188.0, 158.0, 182.0, 188.0, 165.0, 191.0, 183.0, 176.0, 186.0, 203.0, 182.0, 182.0, 175.0, 172.0, 188.0, 171.0, 181.0, 175.0, 185.0, 183.0, 190.0, 175.0, 177.0, 170.0, 176.0, 184.0, 188.0, 171.0, 189.0, 194.0, 184.0, 199.0, 172.0, 168.0, 162.0, 195.0, 187.0, 179.0, 183.0, 169.0, 204.0, 181.0, 181.0, 187.0, 185.0, 182.0, 172.0, 185.0, 199.0, 193.0, 196.0, 175.0, 170.0, 179.0, 181.0, 191.0, 163.0, 195.0, 178.0, 176.0, 170.0, 163.0, 188.0, 181.0, 167.0, 167.0, 177.0, 197.0, 177.0, 165.0, 178.0, 177.0, 153.0, 179.0, 178.0, 187.0, 198.0, 191.0, 177.0, 169.0, 206.0, 181.0, 180.0, 180.0, 182.0, 179.0, 174.0, 175.0, 180.0, 175.0, 173.0, 181.0, 177.0, 195.0, 153.0, 191.0, 192.0, 159.0, 177.0, 176.0, 166.0, 172.0, 169.0, 198.0, 189.0, 193.0, 187.0, 169.0, 175.0, 185.0, 168.0, 187.0, 178.0, 176.0, 187.0, 184.0, 176.0, 192.0, 169.0, 186.0, 186.0, 177.0, 183.0, 167.0, 189.0, 178.0, 175.0, 190.0, 173.0, 166.0, 164.0, 186.0, 167.0, 198.0, 159.0, 197.0, 182.0, 179.0, 175.0, 184.0, 180.0, 191.0, 181.0, 182.0, 176.0, 179.0, 183.0, 163.0, 167.0, 187.0, 182.0, 178.0, 180.0, 183.0, 175.0, 172.0, 182.0, 170.0, 184.0, 163.0, 190.0, 185.0, 183.0, 190.0, 197.0, 190.0, 162.0, 167.0, 174.0, 180.0, 185.0, 173.0, 182.0, 172.0, 174.0, 166.0, 171.0, 166.0, 170.0, 191.0, 171.0, 206.0, 185.0, 182.0, 171.0, 187.0, 174.0, 181.0, 206.0, 179.0, 191.0, 173.0, 180.0, 198.0, 174.0, 198.0, 187.0, 174.0, 186.0, 190.0, 186.0, 164.0, 173.0, 178.0, 179.0, 186.0, 182.0, 167.0, 184.0, 186.0, 186.0, 191.0, 188.0, 185.0, 179.0, 163.0, 184.0, 182.0, 183.0, 167.0, 169.0, 191.0, 180.0, 187.0, 180.0, 180.0, 189.0, 175.0, 181.0, 175.0, 176.0, 177.0, 182.0, 175.0, 193.0, 171.0, 178.0, 176.0, 194.0, 182.0, 190.0, 165.0, 183.0, 189.0, 181.0, 191.0, 175.0, 194.0, 203.0, 176.0, 176.0, 195.0, 196.0, 175.0, 176.0, 177.0, 167.0, 171.0, 170.0, 172.0, 180.0, 182.0, 196.0, 170.0, 190.0, 178.0, 180.0, 187.0, 169.0, 184.0, 182.0, 185.0, 183.0, 205.0, 174.0, 175.0, 174.0, 174.0, 174.0, 192.0, 194.0, 174.0, 172.0, 185.0, 174.0, 186.0, 182.0, 165.0, 195.0, 198.0, 174.0, 176.0, 183.0, 183.0, 187.0, 200.0, 178.0, 172.0, 166.0, 173.0, 180.0, 198.0, 175.0, 182.0, 180.0, 192.0, 205.0, 175.0, 175.0, 190.0, 187.0, 198.0, 186.0, 176.0, 186.0, 191.0, 188.0, 185.0, 191.0, 192.0, 194.0, 186.0, 178.0, 181.0, 192.0, 172.0, 184.0, 176.0, 180.0, 193.0, 182.0, 180.0, 166.0, 187.0, 186.0, 202.0, 177.0, 182.0, 182.0, 196.0, 179.0, 183.0, 186.0, 182.0, 176.0, 182.0, 191.0, 170.0, 181.0, 173.0, 192.0, 165.0, 174.0, 184.0, 196.0, 179.0, 174.0, 199.0, 166.0, 158.0, 184.0, 175.0, 170.0, 187.0, 182.0, 174.0, 167.0, 189.0, 187.0, 179.0, 198.0, 169.0, 165.0, 173.0, 180.0, 182.0, 178.0, 184.0, 167.0, 194.0, 179.0, 191.0, 183.0, 185.0, 186.0, 184.0, 186.0, 193.0, 182.0, 187.0, 179.0, 194.0, 173.0, 198.0, 180.0, 166.0, 181.0, 173.0, 188.0, 173.0, 176.0, 161.0, 175.0, 156.0, 164.0, 188.0, 188.0, 184.0, 170.0, 180.0, 180.0, 168.0, 195.0, 189.0, 178.0, 180.0, 182.0, 160.0, 178.0, 173.0, 170.0, 177.0, 198.0, 186.0, 174.0, 186.0] |
Теперь импортируем новый для нас модуль stats библиотеки SciPy (Scientific Python) и построим доверительный интервал.
В данном случае мы передаем функции interval три параметра: уровень точности alpha, среднее выборки mean (используем библиотеку numpy для расчета) и стандартную ошибку среднего (пока отложим объяснение этого параметра).
Уже не так плохо, мы стали хоть что-то знать про реальную картину мира. Но какие еще применения можно найти для Центральной предельной теоремы?
Вторым применением статистического вывода является построение гипотез и их проверка.
Например, мы можем попытаться понять на основе выборки, правда ли, что средний рост всех мужчин в России составляет 182 см (предположим, так утверждает Минздрав).
По сути нам нужно ответить на вопрос, какова вероятность получить среднее выборки 180.2 см (мы его рассчитали на прошлом занятии), если истинное среднее генеральной совокупности действительно равно 182 см.
Если вероятность (probability value или p-value) окажется ниже определенного порога, мы отвергнем нашу нулевую гипотезу и скажем, что для альтернативной гипотезы есть основания. Если выше, мы будем считать нулевую гипотезу обоснованной.
Пороговое значение часто выбирают на уровне одного, пяти или десяти процентов.
Проверим наше гипотезу с помощью Питона. Для этого снова воспользуемся библиотекой SciPy.
Получилась крошечная вероятность. Около 0.000000009. Она гораздо меньше порога в пять и даже один процент, поэтому мы можем отвергнуть нашу нулевую гипотезу о том, что истинное среднее равно 182 сантиметрам.
Может показаться, что достижения не слишком велики. Мы ведь так и не выяснили, каким является среднее генеральной совокупности. Но взгляните на это иначе. Что если речь идет о невиновности человека или безвредности медицинского препарата? Проверка нулевой гипотезы уже будет иметь важные последствия.
Вы собрали данные по 1000 пациентов для того, чтобы оценить эффективность нового лекарства. Это выборка или генеральная совокупность?
Посмотреть правильный ответ
Ответ: выборка
Посмотреть правильный ответ
Ответ: доверительный интервал и проверка гипотезы
Итак, мы изучили описательную статистику и познакомились со статистическим выводом. На следующем занятии, вооружившись этими знаниями, мы перейдем к вопросу взаимосвязи переменных и построению первой модели.
Вопрос. Никак не могу понять разницу между правильной и неправильной интерпретацией:
Буду благодарен, если поясните этот момент.
Ответ. Начну немного издалека. Смотрите, когда мы не можем (но очень хотим) измерить какой-либо истинный параметр генеральной совокупности, то возникает неопределенность.
Для оценки истинного параметра и степени неопределенности можно использовать два подхода:
На занятии в примере с ростом мужчин в России мы использовали первый, частотный подход. Давайте еще раз повторим его основные тезисы.
У нас есть генеральная совокупность — все мужчины в России. У этой генеральной совокупности есть неизвестный нам параметр — средний рост (истинное среднее). Провести измерения этого параметра не представляется возможным.
При этом мы можем делать выборки из генеральной совокупности (например, опрашивать людей на улице) и без особых усилий вычислять средний рост внутри каждой выборки (выборочное среднее).
К сожалению, мы не можем быть уверены, что выборочное среднее адекватно отражает истинное среднее. Однако, полагаясь на Центральную предельную теорему, для каждой выборки мы можем построить доверительный интервал (confidence interval), который очень важно правильно интерпретировать.
Предположим, мы провели десять опросов, собрали десять выборок и для каждой выборки мы рассчитали 90-процентные интервалы. У нас получилось десять доверительных интервалов.
Так вот, следуя частотному подходу, девять из этих десяти интервалов будут включать истинное среднее, а один — нет. Приведу картинку с занятия еще раз.
Каждая черная горизонтальная черта — это выборка, кружок — выборочное среднее, а вертикальная пунктирная линия — истинное среднее. Третья сверху (и одна из 10) выборка не включает истинное значение генеральной совокупности.
Повторю сделанный вывод, но немного другими словами. Мы по-прежнему ничего не знаем о значении истинного среднего, однако в 90% случаев наш доверительный интервал его «захватит».
Это та самая «правильная» интерпретация, о которой я говорил.
Байесовский метод в корне отличается от частотного. В не слишком формальном ключе его можно выразить следующим образом.
У нас есть некоторое изначальное представление о мире и его свойствах. Например, о среднем росте мужчин в России, мы можем достаточно уверенно сказать, что человека с ростом 180 см встретить довольно легко, а человека с ростом 210 см — гораздо сложнее.
Предположим, что 180 см и есть наш изначальный средний рост.
Далее, получая данные (опрашивая людей на улице), мы будем модифицировать наше изначальное представление, исходя из того, кто нам встретится. Если вдруг окажется, что людей с ростом 210 см очень много, мы скорректируем наше изначальное представление о среднем росте в сторону повышения. Например, со 180 до 190 см.
При этом, мы разумеется понимаем, что в таких расчетах также присутствует неопределенность, поэтому мы не будем говорить, что средний рост мужчин в России составляет ровно 190 см. Мы скажем, например, что с вероятностью 90% он находится в диапазоне от 187 до 193 см (цифры, конечно, приведены для примера).
Такой интервал по-английски называется credible interval. По-русски его называют байесовским доверительным интервалом, хотя, наверное, credible можно перевести как достоверный интервал, что лучше отразит его суть.
Это та «неправильная интерпретация», про которую я говорил. Конечно, неправильной я назвал ее только потому, что она относится к байесовскому методу, который на занятии рассмотрен не был.
Еще одна причина, почему я решил заострить на этом внимание, байесовской интерпретацией интервала часто подменяют частотную.
Это связано с тем, что интерпретация байесовского доверительного интервала (credible interval) более интуитивно понятна, здесь мы напрямую делаем предположение о значении истинного параметра.
Интерпретация частотного доверительного интервала (confidence interval) лишь указывает, как часто мы «захватим» истинный параметр, но ничего не говорит о его значении.
Вопрос.
(1) Поясните пожалуйста, как из вот этой цифры 9.035492171563733e−09 получилась вот такая вероятность 0.000000009?
(2) В строчке кода
t_statistic, p_value = st.ttest_1samp(height, 182). Что это за переменная t_statistic? Хотелось бы понять откуда она взялась. Я прорешал в Google Colab, t_statistic равен -5.797229652505048. Но что это за цифра и откуда берется абсолютно не ясно.
(3) И еще одно. Загнал данные в словарь, просто посчитать количество разных значений.
Получил, что 182 встречается аж 50 раз, в то время как 180 только 45 раз. Я правильно понял, что чем объем выборки больше, тем пиковые значения в выборке меньше влияют на все средние величины?
Ответ.
1) 9.035492171563733e-09 — это так называемая экспоненциальная запись (scientific notation). С ее помощью удобно записывать очень большие и очень малые числа. Для того чтобы преобразовать экспоненциальную запись в обычную, вы умножаете число до буквы e на 10 в степени числа после буквы e.
В данном случае $9.035492171563733 times 10^{-9}$. Так как число и так чрезвычайно мало, цифры после девяти можно отбросить. Получается 0.000000009.
2) Про t-statistic я планировал подробно рассказать на курсе по статистике вывода, так как тема довольно обширная, но попробую в общих чертах объяснить суть этого показателя.
Когда мы проводим статистический тест, нам нужно выбрать критерий (распределение), относительно которого мы будем тестировать нашу гипотезу. Опуская некоторые детали, скажу, что в данном случае мы выбрали распределение Стьюдента (его еще называют t-распределением). Это распределение в целом похоже на нормальное распределение Гаусса. Ниже привожу график функции плотности (probability density function) этого распределения. Обратите внимание, оно стандартизировано, чтобы иметь среднее арифметическое 0 и СКО 1.
Значения по оси x — t-критерий (t-statistic), площадь под кривой слева (или справа) от t-statistic — вероятность (p-value).
Так вот, проводя тест (в данном случае с помощью функции ttest_1samp()), мы получаем два значения, t-statistic и p-value, которые и показывают насколько на стандартизированном t-распределении встретившееся нам среднее значение выборки 180,2 см отличается от предполагаемого истинного среднего в 182 см.
Получившийся t-критерий равен −5.797229652505048. Отложите его по оси x. Как вы видите, показатель находится очень далеко от среднего и площадь под кривой слева от этого значения чрезвычайно мала. Отсюда и такое крошечное значение p-value.
Дополню, что так как в данном случае нулевая гипотеза утверждает, что рост составляет именно 182 см (а не меньше или больше 182 см), то нам нужно посчитать площадь слева от −5.797229652505048 и справа от 5.797229652505048 (то есть как бы два хвоста по краям симметричного распределения). Такой тест называется двусторонним (two-sided).
Для наглядности можно взять функцию распределения cdf() объекта t (t-распределение) библиотеки scipy (см. в конце ноутбука), которой мы передадим наше значение t-statistic и степени свободы (рассчитываются как количество наблюдений − 1). Эта функция посчитает площадь слева от −5.797229652505048. Умножив на два (чтобы учесть оба хвоста), мы как раз получим площадь (p-value) 9.035492171563733e-09.
Возможно, если вы в первый раз сталкиваетесь с частотной статистикой вывода (frequentist inferencial statistics), тема может показаться сложной. На самом деле все довольно интуитивно и логично. Опять же постараюсь пошагово разобрать это на курсе по статистике вывода.
3) Не уверен, что до конца понял ваши вопросы. Отвечу на них в соответствии со своим пониманием того, что вы спрашиваете.
Когда вы считаете количество каждого из значений распределения, то по большому счету ищете моду (наиболее часто встречающееся значение). И мода в выборке действительно равна 182 см. Она отличается от среднего арифметического (180,2 см), потому что распределение сгенерировано псевдослучайным образом, и это расхождение — элемент случайности. В теоретическом нормальном несмещенном распределении мода, медиана и среднее арифметическое конечно совпадают.
В том что касается размера выборки и выбросов, если вы спрашиваете в целом, то конечно, по мере того как размер выборки стремится к размеру генсовокупности, показатели выборки стремятся к истинным показателям. Сложность в том, что в большинстве случаев собрать выборку больше определенного размера не представляется возможным, и насколько репрезентативны имеющиеся данные наверняка мы не знаем.
Для того чтобы преодолеть это ограничение и нужна Центральная предельная теорема. Она утверждает, что если брать выборки из одной и той же генеральной совокупности, то показатели этих выборок (например, выборочные средние) будут нормально распределены и их среднее (то есть среднее средних) будет приближаться к истинному среднему показателю генеральной совокупности. В этом смысле, действительно, мы будем получать все менее смещенную оценку истинного показателя.
При этом опять же, и это важно, мы продолжаем оставаться в неведении относительно истинного распределения (то есть генеральной совокупности).
P.S. Помимо метода .get() для подсчета частоты элементов может быть удобно использовать модуль collections, привел пример в конце ноутбука.
Математическая статистика — это раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.
Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.
Методы анализа массовых явлений — предмет многих научных дисциплин; но только в том случае, когда для анализа привлекаются формальные (абстрактные) математические модели, эти методы становятся статистическими.
Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику. Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.
Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности. Теория статистических выводов тесно связана с другой математической наукой — теорией вероятностей и базируется на ее математическом аппарату.
Содержание:
Введение в математическую статистику
Трудно найти современную область научных исследований, где бы не использовались методы математической статистики. В последнее время они нашли широкое применение в медицине, биологии, социологии, и спорте, т. е. в областях, сравнительно недавно считавшихся далекими от математики.
Чтобы понять роль математической статистики, достаточно рассмотреть типичную схему эксперимента. Специалист, занимающийся исследованиями в конкретной области (воспользуемся здесь термином «исследователь», обращаясь к деятельности научного работника), который предложил новый подход к решению определенной задачи, например новую методику, должен доказать справедливость своей рабочей гипотезы. Чаще всего единственное, что он может сделать для этой цели, — провести хорошо организованный эксперимент, результаты которого убедительно доказывают его предположения.
Традиционная схема эксперимента заключается в том, что набираются две группы испытуемых: контрольная и экспериментальная, примерно одинаковые по всем факторам, имеющим важное значение для цели исследования (пол, возраст, квалификация и т. п.). Контрольная группа подготавливается по традиционной методике, а экспериментальная — с применением предлагаемых нововведений. После определенного этапа подготовки проводится контрольное обследование и по его результатам судят об эффективности предлагаемой методики.
Конечно, на этапе формирования конкретных целей и задач эксперимента исследователь не нуждается в методах математической статистики. Здесь он является специалистом в своей области и оперирует принятыми там понятиями. Но уже на этапе отбора в контрольную и экспериментальную группы ему приходится сталкиваться с целым рядом новых для него вопросов. Какова должна быть численность групп и как должны отбираться кандидаты в эти группы? Можно ли утверждать, что по уровню подготовленности спортсмены в обеих группах одинаковы или уже на этапе отбора одна из групп существенно отличается от другой?
Дело в том, что исследователь обычно хочет знать, насколько достоверно результаты эксперимента, полученные им на группах ограниченного объема, можно обобщить для всех спортсменов данной квалификации. Интуитивно он понимает, что чем больше численность групп, тем убедительнее должны быть результаты эксперимента. Но увеличение численности групп связано с возрастанием организационных, материальных, временных и других затрат, поэтому понятно стремление уменьшить эти затраты. В общем виде ответить на вопрос о достаточности групп нельзя без анализа целей эксперимента, но, как правило, в каждом конкретном случае найти решение этой задачи можно с помощью формальных методов математической статистики. При отборе претендентов в контрольную и экспериментальную группы также применяются статистические методы, позволяющие исключить предвзятость и произвол и тем самым повысить достоверность результатов.
После проведения контрольных наблюдений исследователь получает фактический материал, представляющий собой, как правило, большой объем чистовых данных. Массив этих чисел трудно обозрим, и сделать какие-то конкретные выводы непосредственно по ним невозможно. Здесь используются методы описательной статистики, позволяющие провести классификацию первичных данных, представить их в наиболее наглядной форме и получить некоторые обобщающие показатели, которые дают возможность сравнивать между собой различные данные и делать определенные выводы.
В качестве обобщающих числовых показателей используются средние значения и характеристики варьирования (рассеяния) экспериментальных данных. Получив эти показатели для контрольной и экспериментальной групп, исследователь видит, что они различаются. Но возникает следующий вопрос: насколько достоверны эти различия? Можно ли объяснить наблюдаемое различие действием предложенных нововведений или это различие — случайность, обусловленная малым объемом фактических данных и сильной вариативностью испытуемых? Здесь не обойтись без применения математических методов проверки статистических гипотез..
Перечисленными вопросами не исчерпывается круг задач, решаемых при конкретных исследованиях с использованием методов математической статистики. Очень часто целью исследования является установление наличия и степени связи между спортивным результатом и определенными показателями тренированности, между силой мышц и скоростью их сокращения, между спортивным достижением в одном и другом видах спорта и т. п. Подобные задачи решаются методами корреляционного и регрессионного анализа.
Генеральная совокупность и выборка
Экспериментальные данные обычно представляют собой результаты измерения некоторых признаков (спортивный результат. и пр.) объектов, выбранных из большой совокупности объектов.
Часть объектов исследования, определенным образом выбранная из более обширной совокупности, называется выборкой, а исходная совокупность, из которой взята выборка, — генеральной (основной) совокупностью.
Всегда необходимо четко определять, что понимается под генеральной совокупностью. Ее состав и численность зависят от объектов и целей проводимого исследования. Объектами исследования, составляющими генеральную совокупность, являются в спорте обычно отдельные спортсмены. Если, например, самостоятельной задачей является обследование лиц, поступающих в данный институт в текущем году, то генеральная совокупность — все абитуриенты института этого года. Если мы хотим получить подобные данные для всех институтов страны, то абитуриенты данного института — уже выборка из более широкой генеральной совокупности — всех абитуриентов физкультурных вузов этого года.
Исследования, в которых участвуют все без исключения объекты, составляющие генеральную совокупность, называются сплошными исследованиями. Такие исследования нетипичны для спорта, где обычно используется выборочный метод. Суть его в том, что для обследования привлекается лишь выборка из генеральной совокупности, но по результатам этого обследования судят о свойствах всей генеральной совокупности. Конечно, для этого к выборке должны предъявляться определенные требования. Эти требования, а также правила отбора объектов генеральной совокупности в выборку обсуждаются в гл. 5.
Статистическая совокупность и статистические признаки
Все объекты (элементы), составляющие генеральную совокупность, должны иметь хотя бы один общий признак, позволяющий классифицировать объекты, сравнивать их друг с другом (пол, возраст, спортивная квалификация и т. п.). Наличие общего признака является основой для образования статистической совокупности. Таким образом, статистическая совокупность представляет собой результаты описания или измерения общих признаков объектов исследования.
Если статистическая совокупность получена в результате выборочного исследования, то она называется выборочной совокупностью, или просто выборкой. Под генеральной (статистической) совокупностью тогда подразумевается совокупность всех возможных значений признака в данном исследовании.
Важнейшая характеристика выборки — объем выборки, т. е. число элементов в ней. Объем выборки принято обозначать символом n. Относительно объема генеральной совокупности, обозначаемого N, как правило, делается предположение, что он бесконечно велик, т. е. выборка получается из бесконечной генеральной совокупности.
По одним признакам элементы генеральной совокупности могут полностью совпадать, значения же других признаков изменяются от одного элемента к другому. Например, объектами исследования могут быть представители одного вида спорта, одинаковой квалификации, одного пола и возраста, но различающиеся по силе мышц, быстроте реакции, показателям систем дыхания и кровообращения и т. д. Предметом изучения в статистике являются именно изменяющиеся (варьирующие) признаки, которые иногда называют статистическими признаками. Они делятся на качественные и количественные.
Качественные признаки — это признаки, которыми объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).
Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.
Дискретные признаки могут принимать лишь отдельные значения из некоторого ряда чисел, например число подтягиваний на перекладине, число попаданий и промахов при серии выстрелов и т. п.
Непрерывные признаки могут принимать любые значения в определенном интервале. Например, время прохождения дистанции, скорость движения, угол в суставе.
Отдельные числовые значения варьирующего признака называются вариантами. Варианты принято обозначать строчными латинскими буквами из конца алфавита: х, у, z.
Причины варьирования признаков
Признаки варьируют под воздействием большого числа различных факторов. Лишь небольшую часть этих факторов удается контролировать в процессе исследования. Пусть, например, изучаемым признаком в нашем исследовании является спортивный результат в каком-либо виде спорта. Основные факторы, определяющие спортивный результат испытуемых, нам известны (контролируются), в противном случае наше исследование лишено смысла. К числу контролируемых факторов относятся пол, возраст, спортивная квалификация, программа специальной подготовки и ряд других. Но всегда остается большое число факторов, не поддающихся контролю (влияние погодных условий, эмоциональное состояние испытуемых, мотивация и т. п.). Предсказать влияние таких неучтенных факторов на спортивный результат невозможно, поэтому наблюдаемые значения результатов оказываются случайными, а факторы, обусловливающие случайное поведение изучаемого признака, называются случайными факторами. Все перечисленные факторы (контролируемые и случайные) естественным образом определяют значение спортивного результата, поэтому их можно назвать естественными причинами варьирования результатов.
Помимо естественных причин варьирования результатов на их значения оказывают влияние ошибки измерения, которые складываются из систематических погрешностей измерительных приборов, личных ошибок исследователя (описки, пропуски и т. п.) и случайных ошибок измерения. Природа и величина случайных ошибок могут быть различными в зависимости от физических принципов, используемых в измерительных приборах. Систематические приборные погрешности могут быть в принципе уменьшены до пренебрежимо малого уровня с помощью совершенных измерительных средств. Личные ошибки исследователя зависят от его опыта и внимания и принципиально также могут быть исключены.
Случайные ошибки остаются и вместе с естественными факторами варьирования сказываются на значениях признака.
Однако, как правило, в практике спортивных измерений случайные ошибки измерения существенно меньше величины естественного варьирования признака, поэтому будем считать, что варьирование результатов измерения признака обусловлено только естественным варьированием изучаемого признака.
Эмпирические распределения
В этой лекции рассматриваются методы построения эмпирических распределений, т. е. распределений элементов выборки по значениям изучаемого признака. Построение эмпирических распределений — необходимый этап применения статистических методов.
Здесь и далее выборочные исследования будем называть «эксперимент». При рассмотрении конкретных примеров суть эксперимента будет поясняться. Выборочные данные, полученные в ходе эксперимента, будут соответственно экспериментальными (эмпирическими) данными.
По эмпирическим данным, представляющим собой выборку из некоторой генеральной совокупности, оцениваются параметры, позволяющие описать всю генеральную совокупность, определяется интервал, в котором с заданным уровнем доверия находится истинное значение оцениваемого параметра, а затем проверяются те или иные утверждения и делаются выводы о свойствах всей генеральной совокупности.
Эти методы будут рассмотрены в последующих лекциях, и, как мы увидим, их применение всегда связано с выбором подходящей математической модели для описания свойств генеральной совокупности. Правомерность использования любого статистического метода основана на предположении, что генеральная совокупность соответствует выбранной математической модели. Это предположение должно быть сделано до проведения эксперимента, однако, как правило, для обоснованного предположения не хватает информации, и тогда выбор математической модели производится на основе построения и анализа эмпирических распределений. Поэтому необходимо прежде всего уметь строить эмпирические распределения, чтобы правильно применять методы математической статистики.
Табличное представление экспериментальных данных. Вариационные ряды
Как правило, необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных исследователем в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.
Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки), но наиболее часто группировка сводится к представлению данных в виде статистических таблиц.
Рассмотрим группировку на конкретном примере.
В табл. 2.1 приведены экспериментальные данные, представляющие собой результаты в беге на 100 м, показанные группой школьников — юношей IX классов (50 человек).
В этом примере выборка представляет собой 50 измеренных значений признака (результатов в беге на 100 м), т.е. объем выборки n =50. Как видим, уже при таком сравнительно небольшом объеме выборки таблица исходных данных становится трудно обозримой, поэтому и используется группировка как прием систематизации экспериментальных данных.
Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака.
Первая задача, которую необходимо решить при группировке, состоит в том, чтобы разбить весь диапазон варьирования признака в выборке (между минимальной й максимальной вариантами выборки) на интервалы группировки. Эта задача требует определения числа интервалов группировки и ширины каждого из них. Обычно предпочтительны интервалы одинаковой ширины, а при выборе числа интервалов исходят из следующих соображений.
Группировка производится для того, чтобы построить эмпирическое распределение и сформировать с его помощью предположения о форме распределения изучаемого признака в генеральной совокупности, из которой взята выборка.
При увеличении числа интервалов группировки и, следовательно, при сужении каждого из них уменьшается число экспериментальных данных, попадающих в каждый интервал. Поскольку выборочные значения случайны, они случайным образом распределяются по интервалам группировки, поэтому картина эмпирического распределения будет содержать много случайных деталей, что мешает установить общие закономерности варьирования признака.
И наоборот, при чрезмерно широких интервалах группировки нельзя получить детальной картины распределения, поэтому возникает опасность упустить важные закономерные подробности формы распределения.
Поэтому вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке. Однако приближенно число интервалов k можно оценить исходя только из объема выборки n. Делается это одним из следующих способов:
1) по формуле Стерджеса:
2) с помощью табл. 2.2.
Вернемся к нашему примеру и воспользуемся рекомендациями табл. 2.2 для выбора числа интервалов группировки. Для объема выборки n = 50 принимаем k — 7. Заметим, что расчет по формуле Стерджеса дает k = 6,6.
Если число интервалов выбрано, то ширина каждого из них определяется по следующей формуле:
где h — ширина интервалов;

Для рассматриваемого примера
Поскольку исходные данные определены с точностью 0,1 с, то нет никакого смысла в более точном вычислении h, поэтому округлим найденное значение ширины интервалов с учетом требуемой точности. Обычно округление производится в сторону увеличения, чтобы не уменьшать общий диапазон варьирования признака. С учетом этих замечаний принимаем h = 0,8 с.
Теперь остается наметить границы интервалов группировки. Нижняя граница первого интервала выбирается так, чтобы минимальная варианта выборки 
О 8
Для нашего примера
Прибавив к этой величине ширину интервала, найдем нижнюю границу второго интервала

Аналогично находим 
После того как намечены границы всех интервалов, остается распределить по этим интервалам выборочные варианты. Однако при этом возникает следующий вопрос: как поступать в тех случаях, если какая-либо из вариант попадает точно на границу соседних интервалов группировки, т. е. варианта совпадает с нижней границей одного и верхней границей соседнего с ним интервала? Такие варианты могут быть с одинаковыми основаниями отнесены к любому из соседних интервалов, и, чтобы исключить неопределенность такой ситуации, уменьшим верхние границы всех интервалов на величину, равную точности измерения признака (в нашем примере на 0,1 с).
Для удобства последующей обработки сгруппированных данных вычислим срединные значения интервалов группировки 
где 

Теперь можно приступать к заполнению статистической таблицы. Для этого заготовим таблицу, состоящую из 8 столбцов, назначение которых поясним по ходу изложения (табл. 2.3).
Заполняем вначале 3 первых столбца таблицы. В первом столбце содержится номер интервала группировки, во втором —.границы, а в третьем — срединные значения интервалов.
Далее на основании таблицы первичных данных (см. табл. 2.1) заполняем четвертый столбец. Этот столбец необязателен, но он обеспечивает удобство составления статистической таблицы и позволяет избежать возникающих при этом ошибок. Его назначение в том, чтобы упростить распределение вариант выборки по интервалам группировки. Имея перед собой таблицу исходных данных (табл. 2.1), условными значками, например черточками, отмечаем повторяемость вариант в каждом интервале, т. е. по порядку для каждого из чисел, представленных в таблице исходных данных, ставим условный значок в строке табл. 2.3, соответствующей интервалу группировки, в который это число попадает. Для удобства последующего подсчета условные значки по мере накопления объединяем в группы (в табл. 2.3 принято объединение в группы по 5).
После того как исходные данные будут исчерпаны, остается подсчитать число условных значков в каждой строке табл. 2.3. Получившиеся числа записываем в пятый столбец таблицы. Они имеют в статистике определенное название. Числа, показывающие, сколько раз варианты, относящиеся к каждому интервалу группировки, встречаются в выборке, называются частотами интервалов.
Обозначим частоты символом 
Прежде чем продолжить заполнение статистической таблицы, дадим ряд определений.
Накопленная частота интервала — это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота. Накопленные частоты обозначим
Частостью (относительной частотой) называется отношение частоты к объему выборки. Обозначим частости символом
Накопленной частостью называется отношение накопленной частоты к объему выборки.
Обозначив накопленную частность как 
Сумма всех частостей всегда равна 1.
Накопленные частоты для рассматриваемого примера приведены в столбце 6 табл. 2.3, частости — в столбце 7, а накопленные частости — в столбце 8.
Следует отметить, что в таком полном виде статистическая таблица необходима далеко не всегда. Часто бывает достаточным ограничиться подсчетом частот. Но остальные данные 
Табличное представление данных о результатах в беге на 100 м
В заключение этого раздела дадим очень важное определение вариационного ряда.
Вариационным рядом называется двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака.
Вариационные ряды бывают интервальными и безынтервальными.
В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки. В рассмотренном выше примере интервальный вариационный ряд представлен столбцами 3 и 5 (или 3 и 7) табл. 2.3. Интервальный вариационный ряд строится, если изучаемый признак варьирует непрерывно, но используется и для дискретно варьирующих признаков в тех случаях, когда признак варьирует в широких пределах.
В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака. Для построения безынтервального вариационного ряда необходимо варианты выборки расположить в порядке возрастания или убывания (проранжировать) и затем подсчитать, сколько раз каждая из них встречается в выборке. Безынтервальный вариационный ряд применяется в тех случаях, когда исследуемый признак варьирует дискретно и слабо.
Пусть, например, при подсчете количества подтягиваний на перекладине для группы испытуемых получены данные, значения которых лежат в диапазоне от 10 до 15. Таким образом, данная выборка содержит всего шесть вариант: 10, 11, 12, 13, 14, 15. В этом случае сами варианты играют роль интервалов группировки и остается только подсчитать, сколько раз каждая из них встречается в выборке.
Графическое представление экспериментальных данных
Для повышения наглядности эмпирических распределений используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).
Гистограмма
Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Таким образом, высоты прямоугольников должны быть пропорциональны величинам
где 


На графике гистограммы основание прямоугольников откладывается по оси абсцисс (х), а высота — по оси ординат (у) прямоугольной системы координат.
Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины 
На рис. 2.1, а представлена гистограмма распределения результатов в беге на 100 м, построенная по данным табл. 2.3. При группировке в табл. 2.3 были приняты интервалы одинаковой ширины, поэтому на гистограмме по оси ординат отложены частоты интервалов 
Продемонстрируем построение гистограммы для случаев, когда ширина некоторых интервалов группировки неодинакова. Объединим в табл. 2.3 два интервала, имеющих границы (14,8—15,6) и (15,6—16,4). Ширина такого объединенного интервала будет вдвое больше ширины остальных интервалов. Поэтому, чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а высоты прямоугольников должны быть пропорциональны отношениям
Полигон частот
Другим распространенным способом графического представления является полигон частот.
Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов,
Срединные значения откладываются по оси х, а частоты — по оси у.
Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Полигон частот для рассмотренного выше примера с результатами в беге на 100 м (данные табл. 2.3) представлен на рис. 2.2.
Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.
Полигон накопленных частот
Полигон накопленных частот (к у м у-л я т а) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частости, то полученный график называется полигоном на. полигон накопленных частот результатов в беге на 100 м (данные табл. 2.3) приведен на рис. 2.3.
На практике полигон накопленных частот используется в основном для представления дискретных данных. Ему свойственна более плавная форма, чем у гистограммы или полигона частот.
Данное свойство и позволяет иногда отдавать предпочтение этому способу графического представления эмпирических распределений.
Числовые характеристики выборки
Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.
В этой лекции рассматриваются характеристики положения и рассеяния, а также практические методы их вычисления. Характеристики асимметрии будут рассмотрены в гл. 6 применительно к проверке гипотез о виде распределения генеральной совокупности.
Характеристики положения
В этом разделе рассмотрены характеристики положения, определяющие положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода.
Среднее арифметическое
Среднее арифметическое, или просто среднее, — одна из основных характеристик выборки. Оно представляет собой такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения).
Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.
Среднее принято обозначать той же буквой, что и варианты выборки, с той лишь разницей, что над буквой ставится символ усреднения — черта. Например, если обозначить исследуемый признак через X, а его числовые значения — через 
Среднее арифметическое, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных. Точность вычисления по необработанным данным всегда выше, но процесс вычисления оказывается трудоемким при большом объеме выборки.
Для несгруппированных данных среднее арифметическое определяется по следующей формуле:
где n — объем выборки; 


Если данные сгруппированы, то
где n — объем выборки; k — число интервалов группировки;

Среднее арифметическое, вычисленное по формуле (3.2), называют также взвешенным средним, подчеркивая этим, что в формуле (3.2) 
Пример 3.1.
В качестве одного из тестов для оценки уровня физической подготовленности студентов 1-го курса технического вуза были выбраны прыжки в длину с места. Результаты контрольной группы студентов в количестве 15 человек оказались следующими (в см):
- 212 223 225 208 230 216 241 202
- 235 225 228 252 237 246 219
Требуется определить средний результат в контрольной группе.
По формуле (3.1) находим
В приведенном примере значение среднего арифметического вычислено приближенно, с округлением до значащей цифры, соответствующей точности измерения признака. Вопрос о том, с какой же точностью необходимо вычислять среднее, здесь подробно рассматривать не будем.).
Пример 3.2.
Вычислим среднее арифметическое результатов в беге на 100 м для экспериментальных данных, сгруппированных в табл. 2.3. Для наглядности промежуточные результаты расчетов приведены в табл. 3.1.
Среднее, рассчитанное по формуле (3.2), оказывается равным
Медиана
Медианой (Me) называется такое значение признака X, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Собственно, этим и ограничивается смысловое значение медианы. Широкое использование этой характеристики на практике объясняется простотой ее вычисления и независимостью от формы распределения эмпирических данных.
Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как
Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы и медиана, обозначаемая символом Me, совпадает с пятым членом ряда: Me = 20.
Если выборка содержит четное число членов, то медиана не может быть определена столь однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.
Ранг медианы оказывается равным
Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.
Если необходимо найти медиану для сгруппированных данных, то поступают следующим образом.
Вначале находят интервал группировки, в котором содержится медиана, путем подсчета накопленных частот или накопленных частостей. Медианным будет тот интервал, в котором накопленная частота впервые окажется больше n/2 (n — объем выборки) или накопленная частость — больше 0,5. Внутри медианного интервала медиана определяется по следующей формуле:
где 



В качестве примера найдем медиану для экспериментальных данных, представленных в табл. 2.3. Медиана содержится в интервале (14,8; 15,6), которому соответствует накопленная частота 27 n/2 = 25. По формуле (3.3) находим
Определив медиану, мы тем самым нашли, что в группе испытуемых одна половина бегунов показала результат лучше 15,5 с, а другая — хуже.
Как видим, медиана несколько отличается от ранее найденного среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.
Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.
Мода
Мода (Мо) представляет собой значение признака, встречающееся в выборке наиболее часто.
Интервал группировки с наибольшей частотой называется модальным.
Для определения моды используется следующая формула:
где 



Для данных табл. 2.3 имеем:

На рис. 3.1 представлена гистограмма распределения результатов в беге на 100 м с нанесенными на нее средним арифметическим, медианой и модой. Из приведенного графика видно, что указанные характеристики положения отличаются друг от друга. Это свидетельствует об асимметрии эмпирического распределения. Вообще, среднее, медиана и мода совпадают только в том случае, если распределение унимодальное (с одним максимумом) и симметричное. Чем больше распределение отличается от симметричного, тем сильнее различие между этими характеристиками.
Характеристики рассеяния
Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого — в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них.
Размах вариации
Размах вариации вычисляется как разность между максимальной и минимальной вариантами выборки:
Как видим, размах вычисляется очень просто, и в этом его главное и единственное достоинство. Информативность этого показателя невелика. Можно привести очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Не будем здесь подробно останавливаться на особенностях применения данного показателя, укажем лишь, что размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки. Например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.
Дисперсия и стандартное отклонение
Дисперсия и стандартное отклонение являются важнейшими характеристиками рассеяния.
Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обознача-ется
Выборочную дисперсию вычисляют по приведенным ниже формулам:
Для несгруппированных даных:
В этой формуле 
Для сгруппированных в интервальный вариационный ряд данных:
Здесь 
а

На практике выборочная дисперсия в виде (3.5) или (3.6) вычисляется редко, а вместо этих формул используются следующие.
Для несгруппированных данных:
Для данных, сгруппированных в интервалы:
Различие этих формул лишь в том, что в последних деление сумм квадратов отклонений производится не на объем выборки п, как того требует вычисление среднего квадрата, а на n — 1. Смысл этого уточнения будет ясен из гл. 5 (см. замечание 1 к гл. 5).
Стандартным отклонением (или средним квадратическим отклонением) называется положительный корень квадратный из дисперсии:
Размерность стандартного отклонения в отличие от размерности дисперсии совпадает с единицами измерения варьирующего признака, поэтому в практической статистике для характеристики рассеяния используют обычно стандартное отклонение, а не дисперсию.
Вычисление дисперсии и стандартного отклонения непосредственно по формулам (3.7) — (3.9) неудобно по следующим причинам:
- При вычислении суммы квадратов отклонений приходится каждый раз вычитать из значений признака (или срединных значений интервалов)
предварительно вычисленное х, а затем возводить полученные разности в квадрат. При ручных методах вычислений это вызывает трудности, особенно в случаях многоразрядных значений xi.
- Среднее арифметическое
, входящее в эти формулы, обычно вычисляется с некоторой погрешностью округления. Она приводит к накоплению ошибки округления результатов (дисперсии и стандартного отклонения). Опасность существенных ошибок округления увеличивается с увеличением объема выборки.
Поэтому на практике используют другие расчетные формулы, более удобные как для ручных расчетов, так и для вычислений на ЭВМ.
Для несгруппированных данных
или
Соответственно, если данные сгруппированы
Приведенные формулы легко получаются из исходных выражений (3.7), (3.8), если в последних раскрыть квадрат разности под знаком суммы. Читателю предлагается проверить справедливость формул (3.10) — (3.13) самостоятельно.
Формулы (3.10) и (3.12) применяются для определения дисперсии, если среднее арифметическое уже вычислено. При этом следует иметь в виду, что при подстановке х в эти формулы его значение не следует округлять, иначе результат может получиться с большой ошибкой.
Формулы (3.11) и (3.13) используются в тех случаях, когда среднее и дисперсия вычисляются одновременно.
Пример 3.3.
Рассмотрим вначале пример вычисления характеристик рассеяния по несгруппированным первичным данным. Воспользуемся данными примера 3.1 и найдем дисперсию и стандартное отклонение результатов в прыжках в длину с места для контрольной группы студентов.
Таблица 3.3
По формуле (3.11) получаем:
Стандартное отклонение составит:
Промежуточные расчеты приведены в табл. 3.3.
Пример3.4
В качестве примера расчета для сгруппированных данных найдем дисперсию и стандартное отклонение результатов в беге на 100 м по данным табл. 2.3.
Взвешенная сумма квадратов срединных значений интервалов группировки на основании расчетов в табл. 3.4 составит:
Взвешенная сумма срединных значений 

Коэффициент вариации
Стандартное отклонение выражается в тех же единицах измерения, что и характеризуемый им признак. Если требуется сравнить между собой степень варьирования признаков, выраженных в разных единицах измерения, возникают определенные неудобства. Пусть, например, результаты в беге на 100 м, показанные группой IX классов, имеют стандартное отклонение 0,9 с (данные примера 3.4), а исследование роста тех же учащихся показывает, что его стандартное отклонение составляет 6 см (при среднем росте 168 см). Какой из признаков варьирует сильнее? Очевидно, что только на основании сравнения стандартных отклонений на этот вопрос ответить нельзя. Требуется сопоставить стандартные отклонении со средними арифметическими этих признаков. Поэтому вводится относительный показатель называемый коэффициентом вариации.
Обычно он выражается в процентном отношении:
Коэффициент вариации является относительной мерой рассеяния признака.
Для рассматриваемых примеров:
Как видим, результаты в беге на основании полученных выборочных данных варьируют сильнее, чем рост учащихся.
Коэффициент вариации используется и как показатель однородности выборочных наблюдений. По данным 18], считается, что если коэффициент вариации не превышает 10%, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.
Однако к использованию коэффициента вариации нужно подходить с осторожностью. Продемонстрируем возможные ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой-либо местности 0°С, то по формуле (3.14) получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение S.
Коэффициент вариации можно использовать как относительную меру рассеяния только в тех случаях, когда значения признака измерены в шкале с абсолютным нулем.
Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей.
Упрощенные методы вычисления среднего арифметического, дисперсии и стандартного отклонения
В тех случаях, когда экспериментальные данные х, представлены большим числом значащих цифр, вычисление среднего арифметического, и особенно дисперсии и стандартного отклонения, усложняется наличием громоздких операций над многоразрядными числами (см. примеры 3.3 и 3.4). Конечно, эти трудности становятся несущественными, если для статистических расчетов применяются ЭВМ. Но в тех случаях, когда возникает необходимость в ручных вычислениях, полезно помнить элементарные правила, позволяющие существенно упростить расчеты. Кроме того, рассмотренные ниже методы позволяют упростить обработку данных и при использовании вычислительных средств за счет упрощения процедуры ввода данных с клавиатуры ЭВМ или калькулятора. Это уменьшает затраты времени и число допускаемых при вводе ошибок.
Эти методы основаны на следующих математических свойствах среднего арифметического и дисперсии.
1. Если вычесть из всех выборочных значений 


и найти среднее арифметическое 



Следовательно, можно вместо непосредственного определения выборочных характеристик х и 






Смысл предварительного преобразования исходных данных



2. Если разделить выборочные значения х-, на постоянный коэффициент С, т. е. использовать преобразование



Этот прием во многих случаях позволяет упростить вычисления, если удается путем деления на постоянный коэффициент преобразовать исходные данные в целые числа или уменьшить разрядность исходных данных. Пусть, например, исходные данные измерены с точностью 0,5 единицы (…11,5, 12,0, 12,5 13,5…). Тогда естественным упрощением будет деление этих значений на С = = 0,5, в результате чего получим преобразованные данные (… 23 24 25 27…), оперировать которыми проще.
3. Иногда полезным оказывается совместное использование двух рассмотренных выше приемов, например, преобразование вида: В этом случае
Такое преобразование исходных данных всегда позволяет достичь существенного упрощения, если выборочные среднее арифметическое и дисперсия вычисляются по сгруппированным в интервальный вариационный ряд данным. В качестве условного среднего 

где


Пример 3.5.
Определим методом условного среднего среднее арифметическое и стандартное отклонение результатов в прыжках в длину с места, показанных контрольной группой студентов I курса (данные примера 3.1). Для этого ранжируем исходные данные, располагая их в порядке возрастания (столбец 2 табл. 3.5).
Та6лица 3.5 Вычисление среднего арифметического и дисперсии результатов в прыжках в длину с места методом условного среднего
Расчет среднего арифметического и дисперсии результатов в беге на 100 м методом условного среднего
В качестве условного среднего выбираем значение 
По формулам (3.15) и (3.16) находим:
Отсюда стандартное отклонение
Промежуточные расчеты приведены в табл. 3.5. Разумеется, получены те же значения выборочных характеристик, что и в примерах 3.1 и 3.3 при вычислении прямым методом, но сравнение табл. 3.5 с табл. 3.3 показывает, что промежуточные вычисления упростились.
Пример 3.6.
Продемонстрируем применение упрощенных методов для сгруппированных в интервальный вариационный ряд данных. Воспользуемся приведенными выше в примерах 3.2 и 3.4 данными о результатах в беге на 100 м группы школьников.
На основании приведенных в п. 3 настоящего раздела рекомендаций выбираем условное среднее 
По формулам (3.21) и (3.22) находим:
Промежуточные расчеты приведены в табл. 3.6 и наглядно демонстрируют упрощение, достигаемое при использовании метода условного среднего (сравните с табл. 3.2 и 3.4).
Задачи к гл. 2.3
1. Ниже приведены результаты (в см), показанные группой школьников (70 человек) в тесте «Прыжок в высоту с места».
A. Выполните группировку данных при числе интервалов группировки к = 8, используя рекомендации гл. 2; для исключения неопределенности при распределении вариант, приходящихся на границы интервалов группировки, верхние границы интервалов уменьшаются на величину, равную точности измерения признака.
Б. Сгруппируйте данные, увеличив для исключения указанной неопределенности нижние границы интервалов группировки на величину, равную точности измерения.
B. Постройте для обоих методов группировки гистограмму, полигон частот и полигон накопленных частот. Наблюдается ли различие в форме распределений?
Г. Определите для двух случаев группировки среднее арифметическое и стандартное отклонение. Прокомментируйте результаты, полученные в п.п. «А», и «Г».
2. Ниже приведены результаты (в см) измерения длины бегового шага для 43 спринтеров в зоне 20 м от линии финиша на дистанции 100 м:
А. Составьте интервальный вариационный ряд, постройте гистограмму, полигон частот и полигон накопленных частот.
Б. Найдите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования исходных данных: 
3. Группа юных спортсменов в количестве 50 человек для оценки уровня общефизической подготовки тестировалась но числу подтягиваний на перекладине. Результаты распределились следующим образом:
А. Постройте полигон частот и полигон накопленных частот.
Б. Определите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования:
4. Ниже приведены результаты (в мл) исследования жизненной емкости легких (ЖЕЛ) 20 школьников:
Определите среднее арифметическое и стандартное отклонение результатов прямым методом и методом условного среднего.
5. Найдите Me и Мо по данным задач 2 и 3.
6. Ниже приведены результаты (в кГ), показанные группой студентов (65 человек), динамометрии правой руки.
А. Найдите среднее арифметическое и медиану для представленных данных. Какие выводы о форме распределения можно сделать из сопоставления среднего и медианы?
Б. Постройте гистограмму распределения. Рассчитайте коэффициент вариации. Какие предположения можно сделать относительно однородности выборки (однородности состава обследуемой группы студентов)?
Элементы теории вероятностей
В предыдущих двух лекциях были рассмотрены эмпирические распределения и методы вычисления их числовых характеристик. Но обработка экспериментальных данных не ограничивается рассмотренными методами. Обычно исследователь, получив данные эксперимента на одной или нескольких группах испытуемых и определив по ним некоторые обобщающие числовые характеристики (среднее, стандартное отклонение и др.), пытается найти ответ на следующие вопросы: насколько точно полученные результаты можно обобщить для более широкой совокупности (например, на всех спортсменов данного возраста и квалификации)? Как хорошо его данные согласуются с данными других исследователей? Насколько достоверно различие экспериментальных данных, полученных в разных группах испытуемых или в одной и той же группе, но в разные промежутки времени? Существует ли связь между различными признаками, изучаемыми в проводимом исследовании, и если да, то насколько она сильна?
В ряде случаев исследователь пытается установить некую экспериментальную зависимость между изучаемыми признаками, чтобы по значениям одного из них, легко поддающегося измерению, установить значение другого, измерить который трудно или невозможно.
Конечно, в зависимости от целей конкретного исследования задачи могут быть различными и не ограничиваются приведенным перечнем.
Методы математической статистики, с помощью которых можно получить ответы на поставленные выше вопросы, рассматриваются в гл. 5—7. Чаще всего эти методы основаны на использовании тех или иных согласующихся с условиями проводимого эксперимента математических моделей, разработанных теорией вероятностей.
В данной лекции рассматриваются некоторые ее элементарные. положения в том минимальном объеме, который необходим для дальнейшего изложения.
Статистический подход к определению вероятности
Испытание, событие, случайная величина
Под испытанием (случайным испытанием) в теории вероятностей принято понимать наблюдение какого-либо явления при соблюдении определенного комплекса условий, который должен каждый раз строго выполняться при повторении данного испытания. Если то же самое явление наблюдается при другом комплексе условий, то это уже другое испытание.
Результаты испытаний можно охарактеризовать качественно и количественно.
Качественная характеристика заключается в регистрации какого-либо явления, которое может наблюдаться или не наблюдаться при данном испытании. Любое из этих явлений называется в теории вероятностей событием.
Когда речь идет о соблюдении комплекса условий данного испытания, имеется в виду постоянство значений всех факторов, контролируемых в данном испытании. Но при этом, как правило, имеет место большое число неконтролируемых факторов, которые трудно или невозможно учесть. Значения неконтролируемых факторов могут быть различными при каждом повторении испытания, поэтому результаты испытания оказываются случайными. Событие может произойти или не произойти.
Теория вероятностей рассматривает именно такие случайные события. При этом предполагается, что испытание может быть повторено неограниченное (по крайней мере, теоретически) число раз. Например, выполнение штрафного броска в баскетболе есть испытание, а попадание в кольцо — событие.
Другим примером события, часто приводимым в учебниках по теории вероятностей, является выпадение определенного числа очков (от 1 до 6) при бросании игральной кости.
События в теории вероятностей принято обозначать начальными прописными латинскими буквами А, В, С, …
Количественная характеристика испытания состоит в определении значений некоторых величин, которыми интересуются при данном испытании (например, число подтягиваний на перекладине или время на беговой дистанции). В силу действия большого числа неконтролируемых факторов эти величины могут принимать различные значения в результате испытания. Причем до испытания невозможно предсказать значение величины, поэтому она называется случайной величиной.
Вероятность событий
Будем фиксировать число испытаний, в результате которых появилось некоторое событие А. Пусть было проведено N испытаний, в результате которых событие А появилось ровно 


Замечательным экспериментальным фактом является то, что частость события при большом числе повторений испытания начинает мало изменяться и стабилизируется около некоторого определенного значения, в то время как при малом числе повторений она принимает различные, совершенно случайные значения. Поэтому интуитивно ясно, что если при неограниченном повторении испытания частость события будет стремиться к вполне определенному числовому значению, то это значение можно принять в качестве объективной характеристики события А. Такое число Р(A), связанное с событием А, называется вероятностью события А.
Математически неограниченное число повторений испытания записывается в виде предела

Поскольку
Следует отметить, что приведенное определение вероятности является абстрактным, оно не может быть экспериментально проверено, так как на практике нельзя реализовать бесконечно большое число повторений испытания.
Действия над событиями
В этом разделе приводятся основные правила операций над событиями с использованием для наглядности их графического изображения в виде диаграмм.
Вначале введем понятие «поле событий» как совокупности всех случайных событий данного испытания, для которых определены вероятности. На рис. 4.1 поле событий изображено в виде заштрихованного прямоугольника.
1. Сумма (объединение) событий (рис. 4.2) представляет собой сложное событие, состоящее в появлении хотя бы одного из событий A и B. Объединение событий обозначается как
2. Произведением (пересечением) событий А и В называется их совместное появление (рис. 4.3). Обозначается произведение событий как 
3. Достоверным событием называется событие, которое обязательно происходит в результате данного испытания (рис. 4.4). Оно обозначается обычно как Е.
4. Невозможное событие — событие, которое не может произойти в результате данного испытания. Принятое обозначение — 
5. Несовместными называются события, которые в результате данного испытания не могут произойти вместе (рис. 4.5). Примеры несовместных событий: попадание и промах при выстреле, выпадение двух и трех очков при бросании игральной кости. Рис. 4.5 наглядно показывает, что для несовместных событий АВ=- 
6. Противоположным к А событием называется событие, состоящее в непоявлении события А (рис. 4.6). Обозначается противоположное событие символом А. Примеры противоположных событий: промах и попадание при выстреле, выпадение герба или цифры при одном подбрасывании монеты.
Исчисление вероятностей
Непосредственное определение вероятностей
В некоторых простейших случаях вероятности событий могут быть легко определены непосредственно исходя из условий испытаний.
Представим себе общую схему таких испытаний.
Пусть испытание имеет n возможных исходов, т. е. отдельных событий, могущих появиться в результате данного испытания; причем при каждом повторении испытания возможен один и только один из этих исходов. Таким образом, все n исходов испытания несовместны. Кроме того, по условиям испытания нет никаких оснований предполагать, что один из исходов появляется чаще других, т. е. все исходы являются равновозможными.
Допустим теперь, что при п равновозможных исходах интерес представляет некоторое событие А, появляющееся при каждом из т исходов и не появляющееся при остальных n —m исходах. Тогда принято говорить, что в данном испытании имеется п случаев, из которых m благоприятствуют появлению события А.
Вероятность события А в такой схеме равна отношению числа случаев, благоприятствующих событию А, к общему числу всех равновозможных несовместных случаев:
Формула (4.1) представляет собой так называемое классическое определение вероятности по Лапласу, пришедшее из области азартных игр, где теория вероятностей применялась для определения перспективы выигрыша.
Рассмотрим несколько примеров на вычисление вероятностей по формуле (4.1).
Пример 4.1
Испытание состоит в подбрасывании игральной кости, на каждой из граней которой проставлено число очков (от 1 до 6). Какова вероятность того, что: 1) выпадает 2 очка? 2) выпадает нечетное число очков?
В данном испытании имеется 6 равновозможных случаев (выпадение 1, 2, 3, 4, 5, 6 очков), так как нет оснований предполагать, что появление какого-то определенного числа очков более вероятно (если, конечно, кость симметрична). Поэтому вероятность выпадения любого числа очков, в том числе и 2, при одном подбрасывании 1 равна —
Событию А, заключающемуся в появлении нечетного числа очков, благоприятствуют три случая (выпадение 1, 3 и 5), поэтому по формуле (4.1) получаем
Пример 4.2
В урне 5 белых и 10 черных шаров. Шары тщательно перемешивают и затем наугад вынимают 1 шар. Какова вероятность того, что вынутый шар окажется белым?
В этом примере имеется 15 случаев, причем ожидаемому событию (появлению белого шара) благоприятствуют 5 из них, поэтому искомая вероятность составит
Основные правила вычисления вероятностей сложных событий
Ниже приведены основные правила, позволяющие определить вероятность появления сложного события на основании известных вероятностей составляющих его более простых событий.
1. Вероятность достоверного события равна единице:
2. Вероятность объединения (суммы) несовместных событий равна сумме их вероятностей:
Эти два равенства являются аксиомами теории вероятностей, т. е. принимаются в качестве исходных, но требующих доказательства свойств вероятностей. На их основе строится вся теория вероятностей.
Все остальные, приведенные ниже без доказательств формулы могут быть выведены из принятых аксиом.
3. Вероятность невозможного события равна нулю:
4. Вероятность события, противоположного событию А, равна
Формула (4.5) оказывается полезной на практике в тех случаях, когда вычисление вероятности непосредственно события А затруднительно, в то время как вероятность противоположного события находится просто.
5. Теорема сложения вероятностей. Вероятность объединения произвольных событий равна сумме их вероятностей за вычетом вероятности произведения событий:
Для несовместных событий Р(АВ) = 0 и формула (4.6) переходит в (4.2).
6. Условная вероятность. Если требуется найти вероятность события В при условии, что произошло некоторое другое событие А, то такую ситуацию характеризуют с помощью условной вероятности 
В тех случаях, когда события А и В несовместны, Р(АВ) = 0 и соответственно
Определение условной вероятности в виде (4.7) дает возможность записать следующую формулу для вычисления вероятности произведения событий:
Последняя формула носит название теоремы умножения вероятностей.
7. Вероятности для независимых событий. Два события называются независимыми, если появление одного из них не изменяет вероятности другого, иначе говоря, появление одного из них не содержит никакой информации о другом.
Для независимых событий A и В:
Поскольку вероятность события Л (или В) для независимых событий по определению не изменяется при появлении другого события, то условная вероятность Р(А В) совпадает с вероятностью события Л, а условная вероятность 
Теорема умножения вероятностей для независимых событий записывается следующим образом:
т. е. вероятность произведения независимых событий равна произведению их вероятностей.
Пример 4.3
В урне 5 белых, 4 черных и 8 красных шаров. Какова вероятность того, что первый наугад вынутый шар окажется черным или красным?
Здесь имеется всего 17 случаев, из которых появлению черного шара благоприятствует 4, а появлению красного — 8. Поэтому вероятность события Л — появление черного шара:
а вероятность события В — появление красного шара:
Поскольку события A и В несовместны (вынимается всего один шар), то по формуле (4.2) сложения вероятностей несовместных событий получаем:
Пример 4.4
В студенческой группе 25 человек. Какова вероятность того, что дни рождения хотя бы у двоих совпадают?
Вероятность того, что дни рождения у двух произвольно взятых людей совпадают, равна .


Теперь найдем вероятность того, что дни рождения всех 25 членов группы не совпадают. Поскольку все эти события (несовпадение дня рождения каждого очередного члена группы с днями рождения предыдущих) независимы, то по формуле (4.10) умножения вероятностей независимых событий получаем: 
Определяем ее по формуле
Пример 4.5
В урне 3 белых и 7 черных шаров. Какова вероятность того, что два подряд наугад вытянутых шара окажутся белыми?
Нас интересует вероятность произведения двух событий: 





Отсюда искомая вероятность равна:
Случайные величины
Выше мы уже дали интуитивное определение случайной величины, характеризующей количественные результаты испытания и способной в одних и тех же условиях испытания под воздействием случайных причин принимать различные значения.
Изучение случайных величин в теории вероятностей требует связи этих величин с определенными событиями, которые заключаются в попадании случайной величины в некоторый интервал и для которых определены вероятности. Иначе говоря, необходимо связать случайную величину с полем событий данного испытания (см. определение поля событий в разделе 4.3).
Для формального определения случайной величины можно поступить следующим образом: пусть при измерении определенного признака объекта получается некоторая величина X, выражаемая действительными числами. Определим событие А как событие, состоящее в том, что величина X меньше или равна заданному числовому значению 

Обычно рассматриваются два типа случайных величин: дискретные и непрерывные.
Дискретные случайные величины принимают в результате испытания одно из дискретного множества значений. Они хорошо подходят для описания результатов измерений, связанных с подсчетом и выражаемых целыми числами.
Примеры дискретных случайных величин: число подтягиваний на перекладине, число попаданий в кольцо в серии из 10 штрафных бросков и т. п.
Вероятность принятия дискретной случайной величиной каждого из возможных ее значений больше нуля. Эта вероятность может быть записана как
Здесь X — обозначение случайной величины; 

Индекс i может в общем случае пробегать значения от —
Функция 
Непрерывные случайные величины в результате испытания могут принимать любые значения из некоторого интервала.
Примеры непрерывных случайных величин: спортивный результат в беге или прыжках, рост и масса тела человека, сила мышц и др.
Строго говоря, при практических измерениях результаты всегда получаются с точностью до некоторого значения (например, 0, 01 с при измерении времени на беговой дистанции), поэтому их можно было бы описывать, пользуясь моделью дискретных случайных величин, так как они принимают дискретные значения из некоторого интервала: результат в беге—10,12; 10,13; 10,14; …. рост человека —171, 172, 173 Но число возможных значений, как правило, настолько велико, что гораздо удобнее оказывается модель непрерывных случайных величин, хотя она и является в данном случае математической идеализацией.
Поскольку число возможных значений непрерывной случайной величины бесконечно велико и чаще всего нет оснований предположить, что одни значения появляются существенно чаще других, то вероятность принятия непрерывной случайной величиной каждого отдельного значения оказывается равной нулю. По этой причине нельзя описать распределение непрерывной случайной величины в виде вероятностей ее отдельных значений, как в случае дискретных случайных величин. Здесь необходимы другие подходы, которые будут рассмотрены в разделах 4.6 и 4.7.
Функция распределения
Рассмотрим вероятность того, что случайная величина X окажется меньше или равной некоторому заданному числу х, т. е.
Эта вероятность, рассматриваемая как функция переменной х, называется функцией распределения случайной величины X. Она используется для записи распределений как дискретных, так и непрерывных случайных величин.
Обратимся вначале к дискретной случайной величине и поясним построение функции распределения на конкретном примере.
Пусть баскетболист выполняет серию из 10 штрафных бросков, причем вероятность попадания в кольцо для каждой из попыток равна 0,5. Определим вероятность того, что в данной серии баскетболист поразит кольцо ровно 0; 1; 2; …; 10 раз.
Вероятность попадания с одной попытки обозначим как Р = 0,5. Тогда вероятность промаха составит q = 1—Р = 0,5.
Этот пример подходит под общую схему, известную в теории вероятностей как схема Бернулли, описываемая биномиальным распределением: если р — вероятность «успеха» в данном испытании, a q— 1 — р — вероятность «неуспеха», тогда вероятность того, что в п испытаниях «успех» наступит ровно х раз, определяется следующим выражением:
где
Биномиальное распределение широко используется в математической статистике, таблицы биномиальных вероятностей 
Для нашего примера вероятности попадания в кольцо ровно 0; 1; 2; …; 10 раз равны:
Случайная величина (число попаданий в серии из 10 бросков) обозначается через X. События, состоящие в том, что случайная величина X принимает каждое из возможных значений X = 0, X = 1, …, X = 10, являются несовместными, так как случайная величина X может принимать в данной серии испытаний только одно значение.
Определим теперь функцию распределения 
Рис. 4.7 Функция распределения дискретной случайной величины При 

В интервале от 0 до 
Рассмотрим интервал 

Аналогично для интервала



Таким образом, функция распределения 



Если известна функция распределения, легко найти вероятность показания случайной величины в заданный интервал:
т. e. вероятность того, что случайная величина X окажется меньше или равной 

Например, нужно найти для рассматриваемого примера вероятность того, что баскетболист в серии из 10 штрафных бросков наберет число очков меньше 8, но больше 3. По формуле (4.13) получаем:
Перейдем теперь к непрерывным случайным величинам. Как было сказано ранее, вероятность принятия непрерывной случайной величиной какого-либо конкретного значения равна 0. Следовательно, функция распределения не может иметь скачков, как для дискретной случайной величины. Функция распределения непрерывной случайной величины будет гладкой (непрерывной) функцией (рис. 4.8).
Для непрерывной случайной величины важную роль играет вероятность попадания ее в заданный интервал, которая по известной функции распределения находится как

Функция распределения представляет собой теоретический аналог полигона накопленных частот, рассмотренного в разделе 2.3.
Плотность распределения вероятностей
Для непрерывных случайных величин вводится понятие «плотность распределения вероятное-т е й», или «плотность вероятностей», играющее исключительно важную роль при их описании.
Плотность вероятностей — это производная от функции распределения непрерывной случайной величины, т. е.
Более подробно при рассмотрении конкретных непрерывных распределений об этой функции рассказано в разделе 4.9. Вид плотности вероятностей показан на рис. 4.9.
Рис. 4.9. Вид плотности распределения вероятностей Вероятность попадания непрерывной случайной величины в интервал между значениями Х и х2 пропорциональная площади под кривой плотности вероятностей, заключенной между точками 


Плотность вероятностей является теоретическим аналогом гистограммы, рассмотренной в разделе 2.3 гл. 2.
Числовые характеристики случайных величин
Распределение случайной величины, заданное в виде функции распределения или плотности вероятностей, полностью ее характеризует. Однако такая исчерпывающая характеристика случайной величины сложна и далеко не всегда необходима. Для решения многих практических задач не нужно знать распределение случайной величины, а достаточно иметь лишь некоторые обобщающие числовые характеристики этого распределения.
Математическое ожидание
Для более наглядного определения математического ожидания (среднего значения) случайной величины рассмотрим подход к этому понятию на конкретном примере.
Пусть имеется дискретная случайная величина X с возможными значениями 




Таким образом, имеем n наблюдений случайной величины X, т. е. выборку объема n. Определим по формуле (3.2) выборочное среднее арифметическое:
Здесь индекс n при x обозначает, что среднее арифметическое вычислено по п наблюдениям.
Теперь представим, что испытание, состоящее в серии из 10 бросков, повторяется неограниченное число раз. Здесь, абстрагируясь от физической реализуемости такого эксперимента, будем считать, что наблюдению доступна вся теоретически бесконечная генеральная совокупность значений случайной величины X.
Согласно первоначальному определению вероятности, данному в разделе 4.2.2, относительные частоты событий стремятся к их вероятностям при неограниченном повторении испытания.
Поэтому в пределе при
Таким образом, выборочное среднее арифметическое случайной величины X стремится при неограниченном повторении испытания (при неограниченном увеличении объема выборки) к некоторому постоянному числу, так как в последней сумме 
Математическое ожидание обозначает как М (X) или
Математическое ожидание дискретной случайной величины равно сумме всех ее возможных значений, умноженных на вероятности этих значений:
В этой записи 
Только что рассмотренный пример показывает, что математическое ожидание — абстрактное понятие. Оно является теоретическим аналогом выборочного среднего арифметического.
Математическое ожидание равно среднему значению генеральной совокупности.
Для непрерывных случайных величин математическое ожидание определяется с помощью плотности вероятностей по формуле:
Дисперсия и стандартное отклонение
Точно так же, как математическое ожидание, являющееся теоретическим аналогом среднего арифметического, можно ввести теоретические аналоги всех числовых характеристик выборки, рассмотренных в гл. 3. Для этого нужно в соответствующих формулах для выборочных характеристик заменить все средние арифметические на математические ожидания.
Дисперсией случайной величины X называется математическое ожидание квадрата отклонений случайной величины от ее математического ожидания (сравните с определением п. 3.4.2). Дисперсия обозначается как
Для дискретных случайных величин
т. е. дисперсия дискретной случайной величины равна сумме квадратов отклонений отдельных значений случайной величины от ее математического ожидания, умноженных на вероятности этих значений.
Для непрерывных случайных величин
Положительный корень квадратный из дисперсии называется средним квадратическим (стандартным) отклонением случайной величины.
Эта величина обозначается, как ах
Дисперсия и стандартное отклонение характеризуют изменчивость (вариативность) случайной величины. Чем сильнее случайная величина отклоняется от своего математического ожидания, тем больше величины 


Пример 4.6
Определим в качестве примера математическое ожидание и стандартное отклонение случайной величины X, представляющей собой число попаданий в серии из 10 штрафных бросков в баскетболе при вероятности попадания с одного броска р — 0,5.
Как мы уже знаем, наша случайная величина имеет биномиальное распределение (4.12). Если подставить значения биномиальных вероятностей (4.12) в формулы (4.16) и (4.18), то после соответствующих преобразований, которые здесь не приводятся, получим:
В этих выражениях п — число повторений испытания в серии испытаний, т. е. в этом примере число бросков в серии
Моменты
Математическое ожидание и дисперсия представляют собой частные случаи общих числовых характеристик случайной величины, называемых моментами.
Ниже кратко рассматриваются лишь так называемые центральные моменты случайной величины.
K-м центральным моментом случайной величины X называется математическое ожидание k-й степени отклонения случайной величины от ее математического ожидания: 
На практике часто используются также третий и четвертый центральные моменты, позволяющие судить о симметричности и остроте вершины кривой распределения случайной величины.
Если 








Нормальное распределение
Большинство экспериментальных исследований, в том числе и в области спорта, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале и, как уже было отмечено, описываются моделью непрерывных случайных величин. Поэтому в дальнейшем будут рассматриваться в основном непрерывные случайные величины и связанные с ними непрерывные распределения.
Одним из непрерывных распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово*, распределение.
Нормальное распределение является самым важным в статистике. Это объясняется целым рядом причин.
1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку (как будет показано ниже) нормально распределенная случайная величина находится в пределах от —

Проводятся ли измерения роста, силы мышц, спортивного результата в беге, прыжках, метаниях, ряда физиологических параметров — везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.
2. Нормальное распределение хорошо подходит в качестве аппроксимации (приближенного описания) других распределений (например, биномиального).
3. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.
4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.
В то же время следует отметить, что в природе встречается много экспериментальных распределений, для описания которых модель нормального распределения малопригодна. Для этого в математической статистике разработан ряд методов, некоторые из которых приводятся в следующих лекциях.
Плотность вероятностей нормально распределенной случайной величины записывается следующим образом:
График плотности (нормальная кривая) представлен на рис. 4.10.
Укажем основные свойства нормального распределения.
1. Нормальная кривая имеет колоколообразную форму, симметричную относительно точки х —
2. Для нормального распределения математическое ожидание 

3. Как видно из выражения (4.23), нормальное распределение полностью определяется двумя параметрами: р и 0— математическим ожиданием и стандартным отклонением.
График плотности вероятности нормального распределения показывает, что для нормально распределенной случайной величины вероятность отклонения от среднего значения 
4. Медиана и мода нормального распределения совпадают и равны математическому ожиданию р.
5. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю
Последнее свойство (5) используется для проверки предположения о нормальности распределения генеральной совокупности (гл. 6).
Нормированное нормальное распределение
Формула (4.23) описывает целое семейство нормальных кривых, зависящих, как было сказано выше, от двух параметров — 
Чтобы избежать неудобств, связанных с расчетами для каждого конкретного случая по достаточно сложной формуле (4.23), используют так называемое нормированное (или’стандартное) нормальное распределение, для которого составлены подробные таблицы.
Нормированное нормальное распределение имеет параметры
Плотность распределения вероятностей нормированного нормального распределения записывается в виде:
На кривой нормированного нормального распределения (рис. 4.11) указаны в процентах доли площадей, соответствующих отмеченным значениям нормированного отклонения и, по отношению 
Таблица значений 

Вероятность попадания в заданный интервал
Очень часто исследователя интересует вопрос: какова вероятность того, что изучаемый признак генеральной совокупности находится в заданных границах (например, вероятность того, что результат в беге на 100 м для группы испытуемых окажется в пределах 11,5—12,5 с)? Если предполагается нормальное распределение признака в генеральной совокупности, то получить ответ на этот вопрос очень просто. Как говорилось ранее, вероятность попадания нормально распределенной случайной величины в заданный интервал 
Если использовать функцию нормированного нормального распределения, эту вероятность можно записать следующим образом:

где Ф — принятое обозначение для функции нормированного нормального распределения; 
Функция нормированного нормального распределения имеет следующий вид:
Интеграл, входящий в это выражение, не выражается в элементарных функциях, поэтому для вычисления функции Ф(и) используют вспомогательную функцию — функцию Лапласа (интеграл вероятностей):
В Приложении приведена табл. 1 удвоенных значений функции Лапласа
Чтобы найти вероятность попадания нормально распределенной случайной величины в заданный интервал 
Функция Лапласа является нечетной, т. е. 
Часто представляет интерес вероятность попадания в симметричный относительно среднего значения р, интервал. При этом
Учитывая нечетность функции Лапласа, получаем:
Отсюда ясен смысл того, что в табл. 1 Приложения приведены удвоенные значения функции Лапласа.
В табл. 4.2 приведены полученные по формуле (4.28) вероятности того, что нормально распределенная случайная величина отклонится от своего среднего значения 
Таблица 4.2 Вероятности попадания нормально распределенной случайной величины в заданный интервал
Из табл. 4.2 следует, что
Это выражение известно в статистике как «правило трех сигм». Оно означает, что с вероятностью 0,9973 (практически с единичной) нормально распределенная случайная величина окажется в пределах 

Некоторые специальные непрерывные распределения
Нормальное распределение широко применяется как математическая модель для описания экспериментальных данных. В этом разделе будут рассмотрены три распределения, которые играют очень важную роль при обработке результатов, связанных со случайной выборкой объема n, и составляют основу применения критериев значимости и проверки статистических гипотез. Примеры использования этих распределений приводятся в гл. б, посвященной указанным статистическим методам.
X распределение
Если 


Его плотность вероятностей представлена на рис. 4.12 и зависит от единственного параметра — числа степеней свободы V.
Кривая 

Таблицы 
t-распределение Стьюдента
Вторым из широко используемых специальных распределений является t-распределение Стьюдента, или просто t-распределение. Это распределение случайной величины:
где U — случайная величина, имеющая нормированное нормальное распределение; V — случайная величина с распределением 
Вид кривой плотности t-распределения показан на рис. 4.13. /-распределение симметрично при любом v и
при 

F-распределение
Если случайные величины U и V независимы и каждая из них распределена как 



Оценка генеральных параметров
Материал, содержащийся в предыдущих лекциях, можно рассматривать как минимальный набор сведений, необходимых для использования основных статистических методов, объединенных в теории статистических выводов.
Перейдем теперь к рассмотрению этих методов. Для этого необходимо определить их место в рамках единого подхода к решению конкретных задач статистических исследований в области спорта.
Основная задача, решаемая с помощью методов математической статистики, — получение информации о закономерностях изменения изучаемого признака для большой совокупности объектов исследования, объединенных по этому признаку. В терминах математической статистики это означает, что делаются выводы о свойствах генеральной совокупности.
Для описания генеральной совокупности используются математические модели теории вероятностей. Исчерпывающую информацию о генеральной совокупности дает распределение вероятностей. Чаще всего используется модель нормально распределенной генеральной совокупности. И в этом случае распределение полностью определено всего двумя параметрами:
- средним значением (математическим ожиданием) и стандартным отклонением.
Следовательно, чтобы полностью описать нормальную генеральную совокупность, нужно знать значения двух генеральных параметров: среднего значения и стандартного отклонения. Так, если интерес вызывают спортивные результаты, то это средний результат всех спортсменов данной категории и стандартное отклонение результата. Эти параметры неизвестны и предположительно находятся в каких-то пределах. Единственное, что можно сделать, чтобы их определить — это провести эксперимент. Эксперимент для всей генеральной совокупности нереализуем или неоправдан, поэтому применяется выборочный метод.
На основании данных, полученных по выборке, делается вывод относительно всей генеральной совокупности. Используемые для этого методы теории статистических выводов обычно подразделяются на два класса: оценка параметров и проверка гипотез.
Задача оценки параметров состоит в получении наилучших в определенном смысле оценок параметров распределения генеральной совокупности на основании выборочных данных.
Проверка гипотез охватывает методы использования выборочных данных для проверки предположений относительно распределения и параметров распределения генеральной совокупности, которые делаются до получения выборочных данных.
В данной лекции будут рассмотрены основные положения теории оценок.
Случайная выборка из генеральной совокупности
Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования: 1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке; 2) все п измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.
Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бес-повторный.
При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.
При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся к спортсменам, выборка составляется таким образом, что после того, как очередной спортсмен принял участие в измерениях, он уже не участвует в следующих измерениях.
Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.
На практике используется несколько способов получении случайных выборок.
1. Истинно случайной будет выборка, полученная способом жеребьевки. Если, например, нужно отобрать группу в 20 человек из генеральной совокупности, включающей 500 человек, то можно заготовить карточки, из которых 20 определенным образом пометить, а остальные оставить пустыми. Затем всем предлагается вытянуть карточку, и таким образом получается необходимая выборка.
Организационно проще случайная выборка получается методом случайных чисел. Суть этого метода заключается в использовании таблицы случайных чисел. Последние располагаются в таблице в случайном порядке, и вероятности появления цифр от 0 до 9 в каждом разряде чисел одинаковы. Фрагмент таблицы случайных чисел представлен в табл. 5.1. Более подробные таблицы можно найти в [3, 4, 7, 13].
Все объекты генеральной совокупности нумеруются. Если объектов 500, то им присваиваются номера от 001 до 500. Затем в таблице случайных чисел произвольным образом выбирается любое число. Например, первое число второго столбца в табл. 5.1 33 834. Это число пятиразрядное, а нам нужны трехразрядные номера, поэтому отбрасываем два любых разряда числа, например последние. Получим 338, и объект с таким номером включаем в выборку. Далее берем следующее число из таблицы, двигаясь слева направо. Поступая аналогичным образом, получаем число 542. Это число больше 500, поэтому оно пропускается. Далее двигаемся по таблице до числа меньше 500, еще не встречавшегося ранее. Это будет 344, затем 448 и т. д. до тех пор, пока не наберем нужное количество номеров. Объекты с полученными номерами включаем в выборку.
Принцип случайности выборки не исключает плановости отбора объектов в нее. При этом планируется отбор по тем признакам объектов, которые не подлежат измерению в проводимом эксперименте. Существуют следующие виды планового отбора.
2. Механический отбор. Генеральная совокупность делится на группы, число которых равно объему выборки, а затем из каждой группы случайным образом выбирается один объект. В других случаях отбирается каждый 10-й, каждый 100-й и т. д. экземпляр генеральной совокупности или ее представительной части. -Например, в группу включается каждый 10-й юный спортсмен ДЮСШ.
3. Типический отбор. Генеральная совокупность делится на типические участки, например по районному принципу, и в каждой из полученных групп случайным образом отбирается одинаковое число объектов.
4. Серийный отбор. Генеральная совокупность делится на группы, называемые сериями, а затем из общего числа серий отбирается нужное число для сплошного исследования. Например, предполагается получить данные о физическом развитии младших школьников города. Если имеется 50 начальных классов средних школ, то при планируемом обследовании шести классов эти классы отбираются случайным образом.
При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные представляют собой результаты измерений для спортсменов одного возраста, квалификации, спортивной специализации и т, п.
Точечные оценки
Под термином «о ц е н к а» в теории оценок понимаются как сами значения параметров генеральной совокупности, полученные по выборке, так и процесс получения этих значений, т. е. правило, по которому они получены.
Определения и требования к оценкам
Оценки подразделяются на два класса: точечные и интервальные.
Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров.
При формировании интервальных оценок определяют границы интервалов, между которыми с большой вероятностью находятся истинные значения параметров.
Начнем с точечных оценок и рассмотрим оценку произвольного параметра (среднего, дисперсии или какого-то другого) генеральной совокупности, который обозначим 



1. Состоятельность. Точечная оценка 


В математической статистике показывается, что состоятельной оценкой генерального среднего значения 


2. Несмещенность. Оценка называется несмещенной, если она не содержит систематической ошибки, т. е. среднее значение оценки, определенное по многократно повторенной выборке объема n из одной и той же генеральной совокупности, стремится к истинному значению соответствующего генерального параметра.
Выборочное среднее арифметическое 

Несмещенной оценкой генеральной дисперсии 
Замечание 1
При определении выборочной дисперсии как среднего квадрата отклонений значений признака от среднего арифметического была приведена ее формула:
Было отмечено, что эта формула редко используется, а вместо нее применяется выражение
Теперь поясним смысл такого изменения формулы.
Одним из свойств выборочного среднего арифметического является то, что сумма квадратов отклонений значений признака от среднего арифметического меньше, чем сумма квадратов отклонений от любой другой величины (в том числе и от генерального среднего 



Можно показать, что если использовать оценку 
3. Эффективность. Несмещенная оценка является эффективной, если она имеет наименьшую дисперсию по сравнению с другими несмещенными оценками того же параметра генеральной совокупности.
Это надо понимать так: полученные по выборке оценки 


Итак, наилучшими в указанном смысле оценками генерального среднего значения и генеральной дисперсии являются выборочные характеристики:
Стандартная ошибка среднего арифметического
Оценки 


Отклонения оценок генеральных параметров от истинных значений этих параметров называются статистическими ошибками, или ошибками репрезентативности. Их происхождение не имеет ничего общего с ошибками измерения, а возникают они только потому, что не все объекты генеральной совокупности представлены в выборке.
Величины статистических ошибок оценивают по среднему квадратическому (стандартному) отклонению выборочных характеристик. Здесь рассматривается только стандартное отклонение выборочного среднего арифметического.
Если взять очень много независимых выборок объема n из одной и той же генеральной совокупности и определить для каждой из них среднее арифметическое, то окажется, что полученные средние арифметические варьируют вокруг своего среднего значения (равного 



В качестве оценки стандартного отклонения выборочного среднего используется величина 
Величина Si показывает, какая ошибка в среднем допускается, если использовать вместо генерального среднего 

чтобы оценить точность оценки
Из формулы (5.1) видно, как зависит стандартная ошибка 

Пример 5.1
Найдем стандартную ошибку среднего арифметического результатов в беге на 100 м для данных примера 3.4. Рассчитанные в примере_3.4 значения выборочных характеристик составляют: 


Замечание 2
Теперь можно вернуться к вопросу, который был оставлен открытым при вычислении выборочных характеристик в гл. 3: с такой точностью нужно вычислять выборочные характеристики?
Как мы только что убедились, при ограниченном объеме выборки п истинное значение генерального среднего р, не может быть определено сколь угодно точно, поэтому при вычислении 

Для рассмотренного выше примера 

В этом примере значения признака измерены с точностью до десятых долей секунды, поэтому в более точном вычислении 

Интервальные оценки
По известной величине выборочной характеристики 
Вероятности, признанные достаточными для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называются доверительными.
Обычно в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999 (их принято выражать в процентах). Перечисленным значениям соответствуют 95, 99 и 99,9 %. Выбор той или иной доверительной вероятности производится исследователем исходя из практических соображений о той ответственности, с какой делаются выводы о генеральных параметрах.
Замечание 3
Как правило, в научных исследованиях в области спорта считается достаточной доверительная вероятность 0,95 (95 %). В некоторых случаях, когда уточняются результаты предыдущих исследований или когда выводы, сделанные в данном исследовании, связаны с большой ответственностью (например, предлагается в корне пересмотреть программу тренировок или рацион питания сборной команды), применяются более высокие уровни доверительной вероятности: 99 или 99,9%.
Интервал, в котором с заданной доверительной вероятностью находится оцениваемый генеральный параметр, называется доверительным интервалом.
В соответствии с доверительными вероятностями на практике используются 95-, 99-, 99,9-процентные доверительные интервалы.
В литературе по математической статистике обычно говорят о 100 (1 —а)-процентном доверительном интервале, где (1 — а) — доверительная вероятность, а а — некоторое малое число (а — 0,05; 0,01; 0,001), задающее вероятность того, что оцениваемый генеральный параметр выходит за границы доверительного интервала.
Теперь рассмотрим формирование доверительного интервала для среднего (математического ожидания) 




Величина t имеет t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.
Необходимо определить доверительный интервал, в котором с доверительной вероятностью 100(1 —а) % находится истинное значение оцениваемого параметра ц. Для этого задается значение а (например, 0,05). Доверительная вероятность будет соответствовать площади под кривой t-распределения Стьюдента, заключенной между точками — 


Учитывая формулу (5.1) приходим к окончательному выражению:
т. е. истинное значение 


Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, действуем в следующем порядке:
- по полученной выборке объема n вычисляем среднее арифметическое
и стандартное отклонение S. Методы вычислений рассмотрены в гл. 3;
- задаемся доверительной вероятностью 1 — а (например, 0,95) исходя из целей исследования;
- по таблице t-распределения Стьюдента находим граничные значения
В силу симметричности t-распределения достаточно знать только положительное значение
. Например, если объем выборки п — 12, то число степеней свободы t-распределения v = 12— 1 = 11, и по табл. 4 Приложения определяем для а = 0,05:
= 2,20;
- находим границы доверительного интервала по формуле (5.3). Для а= 0,05 и n = 12:
Как было отмечено в гл. 4, при больших объемах выборки (практически при n > 30) t-распределение Стьюдента переходит в нормальное. Поэтому для определения границ доверительного интервала для 
Доверительный интервал для 
где ua — процентные точки нормированного нормального распределения, определяемые по табл. 1 Приложения.
Для стандартных доверительных вероятностей (95, 99, 99,9%) значения
Чтобы найти доверительный интервал для среднего значения генеральной совокупности при больших объемах выборки (n >30), поступаем следующим образом:
- По выборочным данным находим среднее арифметическое
и стандартное отклонение S, как показано в гл. 3.
- Задаемся доверительной вероятностью I—а (например, 0,95).
- По табл. 5.2 находим значение
соответствующее заданной доверительной вероятности
= 1,96).
- Определяем границы доверительного интервала по формуле (5.4). Для а = 0,05 получаем:
Как видно из сравнения найденного доверительного интервала с доверительным интервалом, полученный выше по t-распределению, при малых объемах выборки границы первого интервала шире 
Пример 5.2
Определим границы 95 %-ного доверительного интервала для среднего результата в беге на 100 м по данным обследования группы из 50 школьников, приведенным в табл. 2.1.
Объем выборки n= 50, т. е. для определения доверительного интервала можно использовать рекомендации для большого объема выборки. Действуем в указанном выше порядке:
- Среднее арифметическое и стандартное отклонение для рассматриваемого примера вычислены в примере 3:4:
— 15,4 с, S = 0,94 с.
- Задаемся доверительной вероятностью 95%.
- Из табл. 5.2 находим
— 1,96.
- По формуле (5.4) определяем границы доверительного интервала:
Таким образом, истинное значение среднего времени на дистанции 100 м для школьников этой группы находится в интервале (15,1 с, 15,7 с) с вероятностью 0,95 (95%).
Сделаем еще одно замечание по поводу доверительных интервалов.
Среднее значение р генеральной совокупности является хотя и неизвестным, но фиксированным параметром, а границы доверительного интервала, полученные по случайной выборке объема n, будут также случайными величинами. Когда говорится о 95-процентной доверительной вероятности, это означает, что примерно в 95 % случаев фиксированное, но неизвестное значение 
Образная трактовка доверительных интервалов приведена в книге «Статистика и планирование эксперимента в технике и науке»*. «Доверительный интервал и связанные с ним понятия похожи на то, с чем мы сталкиваемся при игре с набрасыванием подковы на кол. Кол здесь играет роль оцениваемого параметра (его положение никогда не изменяется)… Подкова выступает в роли доверительного интервала. Если при 100 набрасываниях подковы удается в среднем 90 раз набросить ее на кол, то имеется 90 %-ная гарантия (или уровень доверия) набросить подкову на кол. Доверительный интервал, подобно подкове, меняет свое положение. При любом броске (или при построении некоторой интервальной оценки) кол (или параметр) может как попасть внутрь подковы (интервала), так и оказаться вне ее. Таким образом, делается вероятностное утверждение относительно переменных величин, характеризующих положение подковы».
Оценку параметра 


Определение необходимого объема выборки для получения оценок заданной точности
Обычно исследователя интересует вопрос: какой минимальный объем выборки необходим для того, чтобы оценка (чаще всего выборочное среднее арифметическое
Ответить на этот вопрос можно, если ввести доверительную вероятность и выбрать объем выборки n таким образом, чтобы доверительный интервал имел заданный размер.
Если генеральная совокупность предполагается нормально распределенной и ее дисперсия 
где «а для стандартных доверительных вероятностей определены в табл. 5.2.
Пусть требуется, чтобы выборочное среднее 



Истинное значение параметра о генеральной совокупности обычно неизвестно, но при больших объемах выборки 
В качестве примера найдем минимальный объем выборки, необходимый для того, чтобы выборочное среднее значение результата в беге на 100 м, определяемое для группы школьников, отличалось от истинного значения среднего результата не более чем на d = 0,1 с.
По результатам выборочного исследования (пример 5.2) выборочное стандартное отклонение, определенное при n = 50, составляет 0,94 с. Задаемся доверительной вероятностью 95% 

Критерии значимости и проверка гипотез
В этой лекции рассматривается группа статистических методов, которые получили наибольшее распространение в статистических исследованиях, связанных с практикой спорта. Эти методы применяются всегда, когда предстоит проверить какие-то теоретические предположения, связанные с эффективностью мероприятий, направленных на совершенствование тренировочного процесса. Исследователь выдвигает предположения исходя из анализа конкретного явления с позиций спортивной педагогики, физиологии, медицины, психологии или другой области знаний, представителем которой он является. Затем справедливость предположений проверяется на основании данных соответствующего эксперимента, условия, которого контролируются.
Нулевая гипотеза (нуль-гипотеза) и альтернатива (альтернативная гипотеза)
Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметров
Предположим, что в эксперименте участвуют две группы юных спортсменов — прыгунов в высоту. Одна из них (контрольная) тренируется по традиционной программе, а для второй (экспериментальная) используется новый комплекс специальных упражнений. Действенность нового комплекса оценивается по различию результатов, показанных в этих группах после определенного тренировочного цикла. По полученным данным необходимо проверить следующие утверждения:
- 1. Среднее значение результатов не изменилось, т. е.
Здесь
— средние значения соответствующих генеральных совокупностей (результатов всех прыгунов данного класса, которые могли бы тренироваться по традиционной
и новой
программам).
- Вариативность результатов возросла: Z
Здесь
— так же, как и в п. 1, значения соответствующих генеральных параметров.
- Средний результат возрос на 3 см:
Это три различные статистические гипотезы. Конечно, возможные утверждения не ограничиваются приведенным списком. Гипотезы предстоит проверить с помощью какого-то метода — критерия.
Статистические гипотезы обычно рассматривают две генеральные совокупности, одна из которых может представлять собой теоретическую модель (например, нормальное распределение), а о второй судят по выборке из нее. В других случаях обе генеральные совокупности представлены выборками.
При проверке статистических гипотез принят следующий подход. Считается, что получение в результате эксперимента любых новых данных об изучаемом явлении, не согласующихся с данными, имеющимися до проведения эксперимента,— маловероятное событие. В то же время, если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия. Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.
Итак, вначале выдвигается нулевая гипотеза о том, что различие между генеральными совокупностями равно нулю. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Если же полученные результаты не удается объяснить только действием случайных факторов, то нулевая гипотеза отвергается, а принимается альтернативная гипотеза.
Нулевую гипотезу принято обозначать, как 
Пусть, например, оценивается эффективность нового комплекса упражнений для юных спортсменов — прыгунов в высоту по среднему значению спортивного результата в контрольной и экспериментальной группах. Тогда нулевую гипотезу 


Если заранее нельзя сказать, к чему приведет новый комплекс упражнений — к увеличению или уменьшению результатов, то альтернативная гипотеза 
Ошибки при проверке гипотез
Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: L) отклонение гипотезы 

Вероятность ошибки первого рода обозначается а. Величина а называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Но.
Вероятность ошибки второго рода обозначается 


Вероятности а и 
Наглядным способом интерпретации ошибок является их графическое представление.
Предположим, что проверяется гипотеза 

Для этого берется выборка объема b, находится ее среднее арифметическое 

Распределение среднего арифметического 


Распределение среднего арифметического х при условии, что верна альтернативная гипотеза 
Будем считать, что гипотеза 


Область непринятия гипотезы 
Вероятность ошибки второго рода 

Величина 1—
Следует особо подчеркнуть, что любая гипотеза должка формулироваться, а уровень значимости а задаваться исследователем всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.
При выборе уровня значимости а исследователь исходит из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой для его конкретной задачи?
Обычно считают достаточным а =0,05 (5%), иногда а =0,01, редко а= 0,001. Здесь можно руководствоваться соображениями, изложенными в замечании 3 гл. 5 при выборе доверительной вероятности.
Между стандартными статистическими критериями и стандартными доверительными интервалами существует тесная связь: если принимается гипотеза о том, что значение параметра (р,, с?) нормально распределенной генеральной совокупности равно фиксированному значению (ро, ао) с уровнем значимости а, то это эквивалентно заданию 100 (1—а%-ного доверительного интервала для данного параметра нормального распределения. Поэтому оба подхода — доверительные интервалы и критерии значимости — в данном случае равноценны. Преимущество доверительных интервалов в том, что они дают представление об истинном значении параметра генеральной совокупности, а недостаток в том, что их трудно построить в более сложных случаях, например при анализе дисперсий (стандартных отклонений).
Критерии значимости
В рассмотренном выше примере (см. п. 6.2.2) при проверке гипотезы об отсутствии различия среднего результата спортсменов в контрольной и экспериментальной группах можно было бы поступить следующим образом:
вычислить средние арифметические результаты в группах после этапа тренировки и сравнить их между собой. Если окажется, что различие средних арифметических больше, например, 5 см, то можно утверждать, что новый комплекс упражнений оказался эффективным. Но при этом неизвестно, какие ошибки допускаются при таком утверждении, поэтому невозможно точно доказать наличие или отсутствие различий.
Методы, которые для каждой выборки формально точно определяются, удовлетворяют выборочные данные нулевой гипотезы или нет, называются критериями значимости.
Процедура проверки гипотез обычно сводится к тому, что по выборочным данным вычисляется значение некоторой величины, называемой статистикой критерия, или просто критерием, который имеет известное стандартное распределение (нормальное, t-распределение Стьюдента и т. п.), поэтому вычислительная работа упрощается. Найденное значение критерия сравнивается с критическим (граничным) значением крите-терия, взятым из соответствующих таблиц, и по результатам сравнения делается вывод: принять гипотезу или отвергнуть.
Если вычисленное по выборке значение критерия не превосходит граничного значения, то гипотеза 
Когда вычисленное значение критерия оказывается больше граничного (критического) значения при заданном уровне значимости а, то наблюдаемое различие генеральных совокупностей уже нельзя объяснить только случайностями. В этом случае гипотеза 

Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости — лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.
Замечание 1
Ранее уже подчеркивалось, что уровень значимости ос должен выбираться исследователем до получения экспериментальных данных, по которым будет проверяться гипотеза. Но часто с предварительным выбором возникают затруднения. Обычно говорят, что для научных исследований (в том числе и в спорте) достаточен уровень значимости а = 0,05, но если выводы, которые предстоит сделать по результатам проверки гипотез, связаны с большой ответственностью, то рекомендуется выбирать а = 0,01 или а =0,001.
Как установить ответственность в трактовке результатов эксперимента и тот риск, который связан с выбором уровня значимости а? Чтобы не давать прямых ответов на эти непростые вопросы, часто поступают следующим образом: уровень значимости до эксперимента точно не устанавливается, а по экспериментальным данным вычисляется вероятность Р того, что критерий (статистика критерия) выйдет за пределы значения, рассчитанного по выборке. Таким образом, Р — это экспериментальный уровень значимости. Точное значение Р обычно не указывают, а окончательные результаты приводят в следующем виде: 1) если вычисленное значение критерия не превосходит критического значения на уровне значимости а =0,05, то различие считается статистически незначимым; 2) если вычисленное по выборке значение критерия превышает критические значения при а=0,05, а=0,01 или а= 0,001, то записывают Р<0,05, Р<0,01 или Р<0,001. Это означает, что наблюдаемые различия статистически значимы на уровнях значимости 0,05, 0,01 или 0,001.
Критерии значимости подразделяются на три типа:
- Критерии значимости, которые служат для проверки гипотез о параметрах распределений генеральной совокупности (чаще всего нормального распределения). Эти критерии называются параметрическими.
- Критерии, которые для проверки гипотез не используют предположений о распределении генеральной совокупности. Эти критерии не требуют знания параметров распределений, поэтому называются непараметрически м и.
- Особую группу критериев составляют критерии согласия, служащие для проверки гипотез о согласии распределения генеральной совокупности, из которой получена выборка, с ранее принятой теоретической моделью (чаще всего нормальным распределением).
Односторонние и двусторонние критерии
Остановимся на одном важном обстоятельстве, которое часто не учитывается в спортивных приложениях математической статистики. Если цель исследования в том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным естественным условиям (условия тренировки, возраст испытуемых и т.п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше. Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой 

Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем в контрольной. При этом уже не допускается, что различие может быть другого знака. Тогда альтернативная гипотеза 


Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних — односторонними.
Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Когда имеются основания дли применения одностороннего критерия, его следует предпочесть двустороннему, потому что односторонний критерий полнее использует информацию об изучаемом явлении и поэтому чаще дает правильные результаты.
Например, необходимо доказать различие средних значений генеральных совокупностей (средних значений спортивного результата) при двух различных методиках тренировки по результатам в контрольной и экспериментальной группах. Если есть данные, что экспериментальная группа покажет в среднем лучший результат, то нужно выдвинуть нулевую гипотезу 




Решение об отклонении гипотезы 


Рис. 6.2. Уровни значимости при двустороннем (а) и одностороннем (б) критериях стороны от нуля). Ошибка, которая при этом допускается, равна, как известно, уровню значимости а. Но поскольку отклонения возможны в обе стороны, то при симметричном распределении вероятности отклонении, больших 

Нели предположить, что в экспериментальной группе будут показаны в среднем более высокие результаты, то можно выдвинуть одностороннюю альтернативу 









Таким образом, двусторонние критерии оказываются более консервативными, чем односторонние.
Критерии, основанные на нормальном распределении
Если необходимо проверить гипотезу о том, что две независимые выборки получены из генеральных совокупностей X и У с одинаковыми дисперсиями

Сравнение двух выборочных дисперсий из нормальных совокупностей
Условия применения F-критерия: обе выборки независимы и получены из нормально распределенных генеральных совокупностей с параметрами
Известно, что это двусторонняя гипотеза, поэтому следует применять двусторонний критерий. Если же предположить, что одна из генеральных совокупностей имеет большую дисперсию (обозначим ее 


Уровень значимости критерия задается а.
Порядок применения F-критерия следующий:
1. Принимается предположение о нормальности распределения генеральных совокупностей, формулируется гипотеза и альтернатива, назначается уровень значимости а, как указано выше.
2. Получают две независимые выборки из совокупностей X и У объемом 
3. Рассчитываются значения выборочных дисперсий


4. Вычисляется значение F-критерия по формуле:
5. Сравнивается вычисленное значение F с критическим значением F-критерия при заданном уровне значимости а и числе степеней свободы 

Отметим, что в табл. 3 Приложения приведены критические значения одностороннего F-критерия. Поэтому если цель исследования доказать, что одна дисперсия больше другой 

6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому, то дисперсии различаются значимо на заданном уровне значимости. В противном случае нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.
Пример 6.1
Одна группа школьников 

Действуем в порядке, указанном выше.
1. Гипотеза 

Задаемся уровнем значимости а = 0,02 (такой «нестандартный» уровень значимости выбран из желания воспользоваться данными табл. 3 Приложения). Критические значения для двустороннего F-критерия содержатся в [8].
Принимаем предположение о нормальности распределения обеих генеральных совокупностей. Вопросы, связанные с тем, чем можно обосновать такое предположение, рассмотрены ниже в п. 6.4.
2—3. Пусть рассчитанные выборочные стандартные отклонения результатов составили: 
4. Вычисляем значение F-критерия по формуле (6.1):
5. Из табл. 3 Приложения при а= 0,02; 


6. Вывод: поскольку
Хотя наблюдаемое в эксперименте различие выборочных стандартных отклонений и кажется большим, но имеющиеся статистические данные не дают оснований для отклонения гипотезы о том, что для генеральных совокупностей (всех школьников шестых классов обычных школ и школ со спортивной подготовкой) дисперсии (а значит, и стандартное отклонение) различаются на уровне значимости 0,02.
Следует отметить, что F-критерий очень чувствителен к отклонениям от нормальности распределения генеральной совокупности. Если предположение о нормальном распределении не может быть принято (см. п.п. 6.4), то F-критерий применять не следует. В этом случае используются непараметрические методы, рассмотренные в [3, 4).
F-критерий используется для малых и средних объемов выборки (n < 100). Для больших объемов выборки (n > 100) при проверке гипотезы о равенстве дисперсий применяется «-критерий. В этом случае вычисляется величина
и сравнивается с критическими значениями 

Сравнение выборочного среднего арифметического со средним значением генеральной совокупности
Рассмотрим, как с помощью статистических критериев решить вопрос: значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным? Такая постановка вопроса типична для выборочного контроля качества продукции в промышленности, но и в спортивных исследованиях такой вопрос часто возникает, когда предстоит решить, значимо ли отличается среднее значение признака, полученное по выборке, от среднего значения, известного по результатам многочисленных предыдущих экспериментов.
Применяемый для этих целей t-критерий Стьюдента также основан на предположении о нормальности распределения генеральной совокупности, но результаты проверки гипотез удовлетворяют по точности и при небольших отклонениях от нормальности распределения (см. п. 6.4).
Условия применения t-критерия: выборка получена из генеральной совокупности, имеющей приближенно нормальное распределение с параметрами
Гипотеза 

Альтернатива

Уровень значимости: а.
Порядок применения T-критерия:
1. Принимается предположение о нормальности, формулируются гипотезы
2. Получают выборку объема n.
3. Вычисляется выборочное среднее арифметическое 

4. Определяется значение t-критерия по формуле: 


Величина t имеет при справедливости гипотезы 
5. По табл. 4 Приложения находится критическое значение t-критерия при уровне значимости а и числе степеней свободы v = n — 1. Табл. 4 Приложения содержит критические значения 
6. Делается вывод: если 




Пример 6.2
Цель исследования — проверить на основании результатов соревнований по спринтерскому бегу известное утверждение о том, что среднее различие между показаниями ручного и электронного хронометража составляет 0,25 с. На соревнованиях результаты фиксировались одновременно системой электронного хронометража и бригадой судей-хронометристов. Допустим, что есть результаты 30 спринтеров, пришедших на финиш первыми в своих забегах (для них, как правило, обеспечена наивысшая точность ручного хронометража, поскольку их результаты фиксируются несколькими хронометристами).
Используем t-критерий и действуем в указанном выше порядке.
1. Предполагаем, что распределение результатов в спринте приближенно нормальное (можно отметить, что справедливость этого предположения подтверждена исследованиями, проведенными в лаборатории спортивной радиоэлектроники ЛЭТИ им. В. И. Ульянова (Ленина) на большом статистическом материале).
Гипотеза
Альтернатива
Уровень значимости а= 0,01 (задается такой малый уровень значимости, поскольку цель — уточнить результаты, являющиеся общепринятыми).
2. Мы получили выборку объема n — 30 (разности
30 результатов по ручному и электронному хронометражу).
3. Допустим, например, что вычисленные выборочные характеристики оказались равными: х = 0,48 с, S = 0,39 с.
4. Вычисляем значение t-критерия по формуле (6.2):
5. По табл. 4 Приложения при а = 0,01 и v = 30 — 1 = 29 находим критическое значение /-критерия: /о,о! = 2,756.
6. Вывод. Поскольку

Значит ли это, что значение 0,25 с вообще неверно? Конечно, нет. Основываясь только на полученных результатах, мы не должны даже подозревать этого. Скорее всего наши данные получены из какой-то менее обширной генеральной совокупности, в которой среднее значение отличается от 0,25 с. 
При больших объемах выборки 
В этом случае вычисляют величину
и сравнивают ее с критическими значениями иа нормированного нормального распределения. Для стандартных уровней значимости значения иа приведены в табл. 6.2.

Сравнение двух выборочных средних значений для независимых выборок
В этом разделе рассматривается очень важный для практики спорта критерий математической статистики, позволяющий получить ответ на вопрос: значимо ли различаются средние значения, полученные по двум независимым выборкам (например, по результатам в контрольной и экспериментальной группах)? Здесь также применяется t-критерий Стьюдента, основанный на предположении, что выборки получены из генеральных совокупностей, имеющих приближенно нормальное распределение. Кроме того, применение t-критерия отличается при различных предположениях относительно дисперсий этих генеральных совокупностей. В математической статистике обычно рассматриваются случаи известных и неизвестных генеральных дисперсий, но, поскольку на практике генеральные дисперсии, как правило, неизвестны, здесь описывается только случай неизвестных дисперсий. При этом возможны следующие варианты предположений: 1) обе дисперсии неизвестны, но предполагается, что они равны между собой; 2) обе дисперсии неизвестны, и предположение о их равенстве не делается.
Как выбрать подходящий вариант? Конечно, если нет уверенности в равенстве дисперсий, нужно использовать второй вариант, потому что в этом случае требуется меньше знаний о распределении генеральных совокупностей, но всегда платой за это является меньшая точность выводов.
Поэтому обычно поступают следующим образом: вначале по имеющимся выборочным данным проверяют гипотезу о равенстве дисперсий, используя F-критерий, а затем уже выбирают тот или иной вариант t-критерия. Строго говоря, это некорректно с точки зрения математической статистики, поскольку, как уже неоднократно подчеркивалось, критерий должен выбираться до получения экспериментальных данных, и правильнее было бы выбрать предположение о равенстве или неравенстве дисперсий по другим, предварительно полученным экспериментальным данным.
При описанном выше подходе t-критерий применяется следующим образом.
Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами
Гипотеза
Альтернатива 
Уровень значимости: а.
Порядок применения:
1. Принимается предположение о нормальности, формулируются гипотеза 

2. Получают две независимые выборки из совокупностей X и Y объемом
3. Вычисляются выборочные характеристики 
4. Используется F-критерий для проверки гипотезы о равенстве генеральных дисперсий, как показано в разделе 6.3.1.
5. По результатам применения F-критерия принимается или не принимается предположение о равенстве дисперсий.
6. Вычисляются значение t-критерия и число степеней свободы v. Применяемые для этого формулы приведены в табл. 6.3, они различаются в зависимости от предположения о дисперсиях и соотношения между объемами выборок
7. Из табл. 4 Приложения находится критическое значение t-критерия при заданном уровне значимости а и числе степеней свободы v.
8. Делается вывод: если

Пример 6.3
Две группы юных баскетболистов, занимающихся на базе одной ДЮСШ, в течение годичного цикла тренировки занимались но разным программам специальной подготовки (традиционной и новой). Эффективность новой программы оценивалась по уровню общефизической подготовки в конце цикла, и одним из контрольных упражнений был бег на 100 м. Численность групп одинакова и составляет n — 10.
Результаты на дистанции 100 м (в с):
Используем t-критерий Стьюдента в указанной выше последовательности:
1. Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены результаты.
Гипотеза
Альтернатива 
Выбираем уровень значимости а — 0,05.
2. Получаем две выборки, независимость которых обеспечивается планированием эксперимента (результаты, показанные в одной группе, не зависят от результатов другой).
3. Рассчитываем выборочные характеристики по формулам (3.1) и (3.11) гл. 3. Расчеты дают:





5. Поскольку
6. Вычисляем значение t-критерия: нашему случаю соответствует формула (1) из табл. 6.3. Поэтому 



Примечание. Если бы до проведения эксперимента было принято предположение, что новая программа обеспечивает прирост результатов в беге на 100 м, и нужно было бы доказать это, мы выдвинули бы одностороннюю альтернативу 
Последовательность действий точно такая же, за исключением того, что на этапе 7 при использовании табл. 4 Приложения нужно иметь в виду, что в ней содержатся критические значения двустороннего критерия. В случае одностороннего критерия данные табл. 4 соответствуют удвоенным уровням значимости. Таким образом, если для одностороннего критерия устанавливается уровень значимости а = 0,05, то в табл. 4 Приложения находим значение для а = 0,1.
Для этого примера имеем
Теперь уже результат проверки гипотезы будет противоположным. Поскольку
В этом нет никакого противоречия или доказательства несостоятельности статистических методов. Просто в первом случае, используя двустороннюю гипотезу, мы допускали и отрицательный эффект новой программы. В такой ситуации выводы должны быть более осторожными, чем в случае односторонней гипотезы, когда имеется дополнительная информация, позволяющая сделaть предположeние о положительном эффекте новой программы, что, естественно, дает возможность сделать более точный вывод. Правда, следует отметить, что превышение критического значения в рассмотренном примере столь незначительно, что в достоверности вывода о наличии положительного эффекта можно усомниться. В такой ситуации следует провести дополнительные исследования.
Сравнение двух выборочных средних значений для связанных выборок
Существует много практических задач, в которых две сравниваемые выборки взаимосвязаны в силу особенностей организации эксперимента или просто потому, что этой взаимосвязи нельзя избежать.
В практике медицинских, биологических и педагогических исследований часто используются так называемые парные сравнения. Один из методов таких сравнений заключается в том, что измерения проводятся для одной и той же группы испытуемых до и после применения интересующих исследователя воздействий. Результаты парных сравнений всегда точнее, чем сравнения на независимых группах, и объясняется это тем, что разброс результатов внутри группы испытуемых всегда больше, чем разброс разностей результатов, полученных при повторных измерениях для одних и тех же индивидуумов. Это можно пояснить на следующем простом примере. Допустим, необходимо но частоте сердечных сокращений (ЧСС) установить влияние на спортсменов какого-то вида тренировочной нагрузки. Конечно, можно было бы провести такой эксперимент на двух независимых однородных группах: в одной из них определить среднее значение ЧСС в покое, а в другой после тренировочной нагрузки. 
При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам.
Для сравнения средних значений здесь используется модификация t-критерия для связанных выборок. Особенность его в том, что гипотеза формулируется в отношении разностей 
Условия применения: 
Гипотеза
Альтернатива 
Уровень значимости: а.
Порядок применения:
1. Делается предположение о нормальном распределении разностей d


2. Получают две выборки объема n, представляющие собой ряды связанных пар наблюдений.
3. Вычисляются среднее арифметическое 

4. Определяется значение t-критерия: 

6. Делается вывод: если 
Пример 6.4
Группа школьников (n = 10) в течение летних каникул находилась в спортивном лагере. До и после сезона у них измерили жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, значимо ли изменился этот показатель под влиянием интенсивных физических упражнений.
До эксперимента
3400 3600 3000 3500 2900 3100 3200 3400 3200 3400
После эксперимента
3800 3700 3300 3600 3100 3200 3200 3300 3500 3600
Действуем в указанном выше порядке:
1. Принимаем предположение о нормальности распределения разностей
Г ипотеза
Альтернатива
Выбираем уровень значимости: а = 0,05.
2. Имеем две связанные выборки объема n =10.
3. Вычисляем выборочные характеристики: значения разностей: 
4. Значение t-критерия, определяемое по формуле (6.3), равно 

6. Вывод: поскольку 
При больших выборках (для п

Критерии согласия
Все рассмотренные выше критерии значимости являются оптимальными, т. е. обеспечивают наивысшую достоверность статистических выводов только в тех случаях, когда выборки получены из нормально распределенной генеральной совокупности. При отклонениях от нормального распределения точность оптимальных критериев существенно падает, поэтому, чтобы уверенно применять оптимальные критерии, необходимо проверить предположение о нормальном распределении генеральной совокупности. Для этого используются критерии согласия. Здесь нулевая гипотеза 
Предварительная проверка соответствия нормальному распределению
Критерии согласия требуют достаточно большой вычислительной работы, поэтому целесообразно перед тем, как их использовать, проверить с помощью более простых методов соответствие имеющихся экспериментальных данных нормальному распределению. Эти методы, естественно, обладают меньшей мощностью и позволяют установить только значительные расхождения с нормальным распределением, но если такие расхождения будут установлены, то необходимость в применении более точных, но более сложных критериев, как правило, отпадает.
Для предварительной проверки эмпирического распределения на нормальность можно использовать основные свойства нормального распределения, изложенные в гл. 4. При этом эмпирическое распределение представляется в виде вариационного ряда или гистограммы (см. гл. 2). Если в качестве параметров 




Для проверки по этому свойству необходимо вычислить выборочные оценки этих параметров по формулам: 

Значения коэффициентов As и Ех сравниваются с критическими значениями на уровне значимости а, и если критические значения превышены, то делается вывод о том, что распределение генеральной совокупности, из которой получена выборка, не согласуется с нормальным. В противном случае модель нормального распределения может быть принята. Таблица критических значений 
Критерий согласия x2 (хи-квадрат)
Критерий согласия 
Условия применения: объем выборки 
Гипотеза 


Альтернатива
Уровень значимости: а.
Порядок применения:
1. Формулируется гипотеза, выбирается уровень значимости а.
2. Получается выборка объема 
3. Рассчитываются выборочные характеристики 


4. Вычисляются значения теоретических частот
где 


Если окажется, что вычисленные ожидаемые частоты п’ некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.
5. Значение 



6. Из табл. 5 Приложения находится критическое значение 
7. Вывод: если 
Пример 6.5
Воспользуемся данными табл. 2.3, где представлены результаты в беге на 100 м группы школьников (n = 50) для проверки соответствия эмпирического распределения нормальному распределению.
Исходные данные помещены в графы 2, 3 табл. 6.4 (графа 2 — границы интервалов группировки, графа 3 — эмпирические частоты интервалов). В табл. 2.3 верхние границы были уменьшены на 0,1 с для удобства подсчета частот. В табл. 6.4 верхние границы оставлены без изменений.
1. Формулируем гипотезу
2. Получаем выборку объема n = 50, строим интервальный вариационный ряд с числом интервалов к— 7 (см. табл. 2.3).
3. Выборочные характеристики по этим данным рассчитаны в примере 3.6:
х — 15,4 с, S — 0,9 с.
4. Вычисляем значения теоретических частот по формуле (6.4) с использованием табл. 1 Приложения. Предварительно нормируем границы интервалов группировки:
Нормированные границы занесены в графу 4, а вычисленные теоретические частоты — в графу 5 табл. 6.4.
Поскольку для интервалов с номерами 1, 2, 7 теоретические частоты оказались меньше 5, объединяем интервалы 1 и 2 с 3-м, а интервал 7 с 6-м интервалами. Суммируем эмпирические и ожидаемые частоты интервалов, которые мы объединили. После объединения получилось k = 4 интервала. Таблица 6.4 

Промежуточные расчеты отражены в графах 6 и 7 табл. 6.4.
6. Из табл. 5 Приложения находим для уровня значимости а = 0,05 и числа степеней свободы v = 4— 3= 1:
7. Вывод: поскольку 
Критерий X (лямбда)
Другим критерием, часто используемым для проверки гипотезы о нормальности распределения, является критерий 


Колмогорова — Смирнова
Условия применения: объем выборки 
Гипотеза
Альтернатива
Уровень значимости: а.
Порядок применения:
1. Формулируется гипотеза 
2. Получают выборку объема 
3. Вычисляются выборочные характеристики 
4. Рассчитываются значения эмпирических накопленных частот 

где n — объем выборки; 

5. Вычисляются значения критерия
где 


6. Определяется критическое значение 
Они соответствуют рассматриваемому варианту применения критерия Колмогорова — Смирнова, когда для вычисления теоретических накопленных частот используются выборочные характеристики 

7. Вывод: если 
Пример 6.6
Воспользуемся данными предыдущего примера (6.5) для проверки их соответствия нормальному распределению по критерию Колмогорова — Смирнова.
В табл. 6.5 в столбцах 2, 3 приведены срединные значения интервалов группировки и эмпирические накопленные частоты, взятые из табл. 2.3.
1. Формулируем гипотезу 
2. Имеем выборку объема n — 50, сгруппированную в интервальный вариационный ряд с семью интервалами.
3. Выборочные характеристики рассчитаны в предыдущем примере:
4. Эмпирические накопленные частоты приведены в графе 3, а теоретические, рассчитанные по формуле (6.6) — в графе 5.
5. Значение критерия 


7. Вывод: поскольку 
Оба рассмотренных критерия — 




Критерий W Шапиро — Уилки
Два рассмотренных выше критерия применяются при больших выборках 

Пример 6.7
Проверим на соответствие нормальному распределению данные примера 6.3 — результаты в беге на 100 м одной из групп (например, контрольной) юных баскетболистов.
Эти результаты представлены в графе 2 табл. 6.6.
Порядок применения:
1. Формулируем гипотезу 
2. Получаем выборку объема n = 10 независимых измерений.
3. Рассчитываем значение выборочной дисперсии. Из примера 6.З: 
Таблица 6.6
4. Ранжируем выборку, т. е. располагаем выборочные значения в возрастающем порядке, как показано в графе 2 табл. 6.6.
5. Образуем разности 




k = n/2, если n— нечетное, то 
центральная варианта выборки в образовании разностей не участвует.
Номера разностей k приведены в графе 3, а значения разностей 
6. По табл. 6 Приложения находим значение коэффициентов 
7. Находим произведения 
занесены в графу 6 табл. 6.6. . 8. Вычисляем величину 
10. Из табл. 7 Приложения находим критическое значение критерия Шапиро — Уилки для уровня значимости а = 0,05:
11. Вывод: поскольку
Заметим, что критерий W Шапиро — Уилки строится таким образом, что гипотеза 


Непараметрические критерии
Применение рассмотренных в разделе 6.3 параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.
На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В последнее время в математической статистике по этой причине интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.
Отметим в связи с этим еще одно важное обстоятельство. Параметрические критерии значимости применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженные в единицах метрических шкал (метры, килограммы, секунды и т. п.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах наименований или порядка, например произвольная нумерация игроков футбольной команды, места, запятые спортсменами на соревнованиях и т. д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.
Если рассматривать только те случаи, когда выборки можно считать полученными ид нормально распределенных совокупностей, непараметрические критерии всегда проигрывают соответствующим параметрическим критериям, оптимальным в этих случаях, потому что применение непараметрических критериев обычно связано с потерей части информации об измеренных значениях признаков. Поэтому вводится показатель эффективности критерия (E). Он представляет собой отношение объема выборки параметрического критерия к объему выборки непараметрического критерия при одинаковой мощности критериев в условиях нормального распределения генеральной совокупности. Этим показателем и принято оценивать эффективность непараметрических критериев.
Важную группу непараметрических критериев составляют ранговые критерии. Они хорошо разработаны, и эффективность их оказывается очень высокой (для большинства из них при больших объемах выборки эффективность близка к единице). В то же время они очень просты в пользовании и не требуют сложных математических вычислений.
Ниже рассматриваются некоторые из ранговых критериев. 
Ранги
Если расположить выборочные данные в порядке возрастания или убывания (точнее, в неубывающем или невозрастающем порядке, потому что некоторые данные могут совпадать), то получается ранжированная выборка. Порядковый номер выборочного значения в ней называется рангом этого значения.
Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Пусть, например, получена выборка объема n — 10, которая после ранжирования выглядит следующим образом:
Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как
Таким образом, ранг не обязательно будет целым числом.
Для остальных, не совпадающих элементов выборки их ранги равны порядковым номерам. Ранги R, представленных выборочных значений равны:
В ранговых критериях точные значения признаков заменяются их рангами, поэтому информация о них теряется.
Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше— меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, отметки за экзамен и т. п.).
Сравнение двух независимых выборок
К сравнению двух независимых выборок сводится очень широкий круг практических задач, которые в математической статистике часто называются задачами об эффекте обработки. Под «обработкой» здесь понимается любой процесс из конкретной области исследования, например методика или программа тренировки, тактические приемы соревновательной деятельности и др. Об эффекте обработки судят по результатам выборочных исследований. Если эксперимент организован так, что экспериментальный способ обработки сравнивается со стандартным (контрольным), то сопоставляются данные, представляющие собой две независимые выборки: одна получена из контрольной генеральной совокупности (результаты контрольной группы), а вторая — из экспериментальной (результаты экспериментальной группы).
Нулевая гипотеза 
Для таких случаев разработано несколько параметрических критериев. Рассмотрим один из них — критерий Вилкоксона для независимых выборок (критерий иногда называют также критерием Уайта). Это самый простой ранговый критерий.
Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть ыриннто, когда исследуемый признак имеет большое число возможных градаций.
Гипотеза 
Поясним это более подробно. Поскольку функции распределения F (х) и F {у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде 
Одним из ценных свойств ранговых критериев является и то, что они могут применяться к данным, выраженным в шкале порядков или в шкале наименований. Для таких данных вычисление среднего арифметического не имеет смысла, а в качестве характеристики положения также используется 

Эта запись относится к медианам генеральных совокупностей, хотя здесь используется тот же символ Me, что и для выборочной медианы. В частном случае, когда распределение симметричное (нормальное), эта запись эквивалентна 
Альтернатива— 

Ниже рассматривается применение критерия Вилкок-сона на конкретном примере.
Пример 6.8
Воспользуемся данными примера 6.3, где приведены результаты в беге на 100 м контрольной и экспериментальной групп юных баскетболистов. В примере 6.3 принималось предположение о нормальном распределении совокупностей, из которых получены выборки. Здесь такого предположения не делается.
Объем выборки для контрольной группы —

Проверим гипотезу 

Порядок применения критерия Вилкоксона:
1. Объединяем обе выборки в одну. Объем объединенной выборки будет 
2. Находим ранги 
3. Суммируем по отдельности ранги, относящиеся к первой и второй выборкам, т. е. находим суммы:
Суммы рангов:
Контроль:
Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов
4. Меньшую из сумм рангов 
Для нашего примера W = 
5. Из табл. 8 Приложения находим критическое значение 



6. Вывод: если 
Для нашего примера 

Как видно из примера 6,8, применение критерия Вил-коксона основано на очень простых вычислениях сумм рангов. Это характерно для всех ранговых критериев. В то же время эффективность этого критерия довольно высока. Если он применяется для сравнения выборок из нормальных генеральных совокупностей, то при неограниченном увели-нении объема выборок эффективность его равна 0,95. Это означает, что при n = 1000 критерий Вилкоксона имеет такую же мощность (т. е. с такой же вероятностью правильно обнаруживает различие), как и оптимальный для этого случая t-критерий при пn— 950. Если же распределения несимметричны, то эффективность критерия Вилкоксона может быть и значительно больше 1.
В табл. 8 Приложения критические значения 



где 

Удобнее пользоваться выражением
Вычисленное по этой формуле значение w сравнивается с критическим значением 



Сравнение двух связанных выборок
Здесь будет рассмотрено применение непараметрических методов в тех случаях, когда требуется доказать различие двух связанных выборок, т. е. выборок, полученных при парных сравнениях (например, при повторных измерениях на одной и той же группе испытуемых спортсменов). В предположении нормальности распределения разностей результатов парных измерений используется t-критерий для связанных выборок (см. раздел G.3.4). Теперь же предположение о нормальности не делается.
Наиболее часто применяемый непараметрический критерий в таких случаях — критерий Вилкоксона для связанных выборок, являющийся непараметрическим аналогом упомянутого t-критерия.
Нулевая гипотеза 





Альтернатива 
Ниже приводится пример использования критерия Вилкоксона.
Пример 6.9
Воспользуемся данными примера 6.4, в котором представлены результаты измерения ЖЕЛ У школьников до и после пребывания в спортивном лагере. Применим непараметрический критерий Вилкоксона для доказательства различия связанных пар наблюдений
Зададимся уровнем значимости а = 0,05.
Исходные данные х: и У( помещены в столбцах 2 и 3 табл. 6.9.
Порядок применения:
1. Отбрасываем пары с одинаковыми значениями 

В нашем примере отбрасывается пара 3200, 3200, и объем выборки будет n = 10 — 1 
2. Из оставшихся пар образуем разности 
3. Находим ранги

4. Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.
В графе 5 ранги обозначены (+) и (—).
5. Находим по отдельности суммы рангов отрицательных^ положительных разностей R(—) и R(+).
6. Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примера
7. Из табл. 9 Приложения находим критическое значение 
В табл. 9 Приложения приведены критические значения двустороннего критерия Вилкоксоиа. Если используется односторонний критерий, то значения этой таблицы соответствуют удвоенным уровням значимости, т. е.
8. Вывод: если 
Для рассматриваемого примера 
К такому же выводу мы пришли и в примере 6.4 при использовании t-критерия для нормального распределения разностей
Если объем выборок достаточно велик

где W — значение критерия Вилкоксона, определяемое как указано выше.
Вычисленное по этой формуле значение и сравнивается с критическим




Регрессионный и корреляционный анализ
В предыдущих лекциях были рассмотрены простейшие ситуации, когда в ходе исследования измерялись значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считались постоянными для данной совокупности, либо относились к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.).
При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной ‘ деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.
Иногда значение одной величины однозначно определяет значение другой, связанной с ней величины. В этих случаях имеет место функциональная зависимость между величинами. Например, средняя скорость 



Но чаще исследователя интересуют зависимости другого рода, когда при фиксированном значении одной величины другая величина имеет некоторую свободу и
может принимать различные значения. Так, средняя скорость на фиксированном отрезке пути будет различной для разных спортсменов, пульсовая стоимость 1 м пути при одной и той же скорости отличается для разных испытуемых.
Если в такой ситуации рассматривать одну величину как независимую (контролируемую), а вторую — как зависимую от первой, то зависимая величина ведет себя как случайная и ее можно описать некоторым вероятностным распределением. В то же время интерес вызывает то, что это распределение (или его параметры: среднее значение, стандартное отклонение) закономерно изменяется при изменении значений независимой величины. Например, среднее значение пульсовой стоимости 1 м пути для группы испытуемых будет закономерно изменяться при изменении скорости движения. В таких ситуациях говорят о стохастической (или вероятностной) зависимости между величинами.
При изучении стохастических зависимостей различают регрессию и корреляцию.
Регрессия — это зависимость среднего значения (точнее, математического ожидания) случайной величины Y от величины х. При этом принято говорить: «регрессия Y на х». Независимая величина х может быть не обязательно случайной, поэтому она обозначается здесь строчной буквой, прописные буквы используются обычно для случайных величин.
Корреляция — это зависимость между двумя случайными величинами Y и X, характеризуемая с помощью коэффициентов корреляции.
В соответствии с этим различают регрессионный и корреляционный анализы.
Регрессионный анализ устанавливает формы зависимости между случайной величиной Y и значениями одной или нескольких переменных величин, причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. Вначале на основании выборочных данных находят оценки этих параметров. Далее определяются статистические ошибки оценок или границы доверительных интервалов И проверяется соответствие (адекватность) примятой математической модели экспериментальным данным.
Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема n связанных пар наблюдений
Теперь перейдем к более подробному рассмотрению методов регрессионного и корреляционного анализа.
Регрессионные модели
Самый важный этап регрессионного анализа — это выбор подходящей регрессионной модели, т. е. математического выражения, связывающего значения зависимой случайной величины Y и значения независимой величины х. Так же как и в рассмотренных выше статистических методах, мы относим эту абстрактную математическую модель к некоторой генеральной совокупности, в которой между значениями Y и х действительно существует зависимость, определенная выбранной моделью, и считаем, что экспериментальные данные получены именно из такой генеральной совокупности.
В простейшем случае предполагается линейная зависимость, выраженная уравнением:
Запись 
Это уравнение задает прямую линию в прямоугольной системе координат 

Регрессия, выраженная таким уравнением, называется простой линейной регрессией, потому что она учитывает зависимость только от одной контролируемой переменной х.
Иногда не удается объяснить поведение зависимой случайной величины Y влиянием только одной независи-
мой переменной х. Тогда часто используется модель множественной линейной регрессии:
Здесь среднее значение случайной величины У определяется уже значениями k независимых переменных:
Величины 

Частным случаем множественной линейной регрессии является полиномиальная регрессия, выражаемая полиномом степени k:
Рассмотренные уравнения регрессии определяют функциональную зависимость среднего значения




В этом выражении 

Во всех регрессионных моделях на случайные величины
Итак, регрессионная модель описывает зависимость случайной величины Y от независимой величины х в генеральной совокупности Y. Но поскольку вся генеральная совокупность У недоступна для наблюдений, то истинное уравнение регрессии неизвестно, и любая регрессионная модель будет лишь приближением к действительности.
Как выбрать наилучщую регрессионную модель? Математическая статистика по этому поводу говорит, что выбор модели — искусство и правильность выбора целиком зависит от опыта и интуиции исследователя. Обычно при выборе модели исходят из предметного анализа явления (какую форму связи можно ожидать?), и если имеющейся информации недостаточно, то, как правило, помогает графическое представление экспериментальных данных в виде диаграммы рассеяния (этот график называют также корреляционным полем, потому что при корреляционном анализе применяется точно такое же графическое представление данных). Для каждого значения х; независимой переменной измеренные значения 
Если удается «на глазок» провести прямую линию так, что все значения 
Примеры регрессионных задач в спорте
Рассмотрим несколько простых примеров, цель которых — показать, почему регрессионный анализ находит широкое применение а статистических исследованиях в области спорта.
Пример 7.1
В табл. 7.1 приведены данные о мировых рекордах в прыжках с шестом за период с 1957 по 1981 г.*.
Нанесем эти данные на график (рис. 7.3), где по оси х отложим годы, а по оси у — рекордные результаты.
График демонстрирует тенденцию к возрастанию рекордных результатов по годам. Более тонкий анализ позволяет сделать предположения, что начиная с 1965 г. наблюдалось приблизительное линейное возрастание результатов, а в более ранний период зависимость имеет, по-видимому, и более сложный характер. Для первой грубой оценки общей картины можно попытаться представить зависимость в виде прямой линии (ее примерный ход намечен на графике), и тогда имеется заманчивая возможность прогнозировать рекордные результаты на какой-то период времени вперед. (Интересно нанести на этот график более свежие данные и посмотреть, как они вписываются в наш «прямолинейный» прогноз).
Рис. 7.3. График зависимости мировых рекордов в прыжках с шестом от времени установления
Спортивное прогнозирование — одна из важных областей применения регрессионного анализа в спортивных исследованиях*.
Пример 7.2
Другая важная область применения регрессионного анализа в спортивных исследованиях также связана с прогнозированием, но в несколько другом понимании этого термина. Очень часто предметом исследования является такой признак, который непосредственно измерить затруднительно или невозможно. Это особенно характерно для исследований в области спортивной физиологии, медицины, психологии. В то же время известно, что изучаемый признак связан с другими признаками, которые измеряются сравнительно просто. Тогда пытаются подобрать модель предполагаемой зависимости и по этой модели прогнозировать значения неизмеряемого зависимого признака, основываясь на значениях других, легко измеряемых признаков. Прогнозируемые таким образом значения неизмеряемых признаков называются в статистике предикторами. Здесь также используются регрессионные модели, потому что оцениваемая величина является случайной: помимо контролируемых факторов, влияние которых учитывается значениями измеряемых признаков, она зависит и от множества других случайных факторов, которые контролировать не удается.
Например, часто интересуются энергозатратами организма человека при выполнении той или иной фиксированной физической нагрузки. Известно (опять же на основании регрессионного анализа!), что энергозатраты закономерно связаны с потреблением кислорода 
Предположим, что цель исследований состоит в оценке энергозатрат организма спортсмена при выполнении стандартной нагрузки: бег на тредбане в течение определенного времени с заданной скоростью.
Энергозатраты оцениваются по ЧСС, и далее определяется пульсовая стоимость 1 м пути (ПС — ЧСС/
Анализ графика (см. рис. 7.4) показывает, что в эксперименте также наблюдается некоторая закономерная связь скорости и ПС, но в этом случае зависимость является уже более сложной и не может быть описана уравнением прямой линии. Можно попытаться использовать полиномиальную модель регрессии (более подробно эти вопросы рассмотрены в специальной литературе). Если в результате регрессионного анализа окажется, что выбранная модель хорошо согласуется с экспериментальными данными, то можно использовать ее для прогнозирования энергозатрат по скорости бега, не прибегая каждый раз к достаточно сложным измерениям ЧСС.
Пример 7.3
Довольно часто интерес вызывает связь между двигательными достижениями в различных видах спортивных упражнений. Это особенно важно при подборе тестов, по результатам которых судят о возможных достижениях в том или ином виде спорта. Как правило, при этом пытаются установить просто наличие достоверной взаимосвязи между результатами теста и результатами в том упражнении, которое по общему признанию объективно отражает возможности человека в конкретном виде спорта. Это делается с помощью корреляционного анализа, но, как мы скоро увидим, чтобы корректно использовать коэффициент корреляции, также необходимо знать предполагаемую форму связи между результатами в двух видах спортивных упражнений.
Рассмотрим следующий пример. В табл. 7.2 приведены результаты, показанные группой школьников (n = 10) в беге на дистанциях 30 и 100 м.
На рис. 7.5 эти данные представлены в графической форме. Результаты в беге на 100 м

Отметим существенное отличие этого примера от двух предыдущих. В первых двух примерах независимая величина (время и скорость) не является случайной, а ее значения произвольно устанавливаются исследователем в определенном диапазоне. В последнем примере обе величины (и зависимая, и независимая) являются случайными, а их значения получаются по случайной выборке из генеральной совокупности. Исследователь по своему усмотрению вправе считать одну из этих величин зависимой, а другую — независимой.
Это две различные ситуации, рассматриваемые в регрессионном анализе. Методы его одинаковы в обоих случаях, а различие состоит в том, что в ситуациях, описываемых в первых двух примерах, нельзя оценить значимость корреляции между двумя величинами методами корреляционного анализа, рассмотренными ниже (хотя формально вычислить коэффициент корреляции можно и здесь).
Простая линейная регрессия
Из-за ограниченности объема книги мы не сможем рассмотреть многие вопросы регрессионного анализа, и для углубленного знакомства с ним следует обратиться к специальной литературе. В этом разделе излагается простейший, но очень важный для практики спорта случай — простая линейная регрессия.
Предположения регрессионного анализа
Выше было показано, что модель простой линейной регрессии, отражающая зависимость значений 

В этом уравнении 


Применение модели линейной регрессии основано на следующих предположениях:
1. В генеральной совокупности, из которой получены экспериментальные данные, действительно существует линейная регрессия, т. е. среднее значение 
2. Нет никаких факторов, существенно влияющих на
связь между величинами У и х. Это два самых важных предположения, определяющих практическую полезность линейного регрессионного анализа.
3. В генеральной совокупности все остатки



Если это предположение не выполняется, то невозможно оценить точность приближенного описания экспериментально наблюдаемых зависимостей с помощью регрессии. Это предположение обычно справедливо в тех случаях, когда выборочные данные, по которым строится линия регрессии, представляют собой результаты измерения для разных индивидов. Поэтому эти результаты можно считать независимыми друг от друга.
4. В генеральной совокупности, из которой получены выборочные данные, при любом значении независимой переменной х случайные величины 

Это предположение является необходимым при проверке значимости линейной регрессии и определении границ доверительных интервалов для параметров а и
Оценка параметров уравнения регрессии
Истинное уравнение регрессии



Оценки параметров а и 

Таким образом, по методу наименьших квадратов получаем эмпирическое уравнение некоторой прямой:
Здесь 
Оценка по методу наименьших квадратов является наилучшей в том смысле, что она дает уравнение такой прямой, для которой ошибка (сумма квадратов отклонений измеренных значений у; от этой прямой) будет наименьшей по сравнению с любой другой прямой линией (в том числе и с неизвестной истинной линией регрессии). В то же время, если каждому значению


Значения а и b по методу наименьших квадратов находятся из решения системы так называемых нормальных уравнений:
Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:
где 
Обычно b называют коэффициентом регрессии, a — свободным членом уравнения регрессии.
Пример 7.4
Найдем значения коэффициента регрессии (b) и свободного члена уравнения регрессии (а) для данных примера 7.3, т. е. построим прямую линию, устанавливающую приближенную зависимость результатов в беге на 100 м от результатов в беге на 30 м.
1. По данным табл. 7.2 находим значения промежуточных сумм, входящих в формулу (7.4):
2. Определим значения средних арифметических:
3. По формуле (7.4) вычисляем коэффициент регрессии: 
Таким образом, уравнение регрессии имеет вид:
Прямая, построенная по этому уравнению, показана на рис. 7.6 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия.
Полученное эмпирическое уравнение регрессии можно использовать для прогнозирования результатов на дистанции 100 м по результатам дистанции 30 м. Например, если в группе школьников, которая участвовала в эксперименте, будет показан результат 5,2 с на дистанции 30 м, то можно ожидать, что результат на дистанции 100 м будет:
И это будет наилучшим прогнозом, который можно сделать, используя модель линейной регрессии.
Стандартная ошибка предсказания
Мерой качества приближенного описания реальной зависимости между величинами Y и х с помощью уравнения линейной регрессии является стандартное отклонение значений 


Пример 7.4 (продолжение)
Определим стандартную ошибку предсказания для данных примера с результатами в беге на 100 и 30 м. Для этого найдем значение промежуточной суммы 
Подставив эти значения в формулу (7.6) и используя найденные ранее значения остальных составляющих формулы (7.6), получим:
Две прямые линии, отстоящие от прямой регрессии на


Зона, определяемая стандартной ошибкой предсказания, показана на рис. 7.6 штриховыми линиями.
Проверка адекватности линейной модели
Проверка адекватности линейной модели может быть произведена с помощью стандартного F-критерия. Гипотеза 



Проверка адекватности линейной модели производится по графику остатков: 




Если остатки 

Следует отметить, что регрессионный анализ в полном объеме достаточно сложен даже для простой линейной модели. Здесь не обойтись без помощи ЭВМ. Для универсальных ЭВМ существуют стандартные программы регрессионного анализа*.
Здесь нет возможности уделить этому внимание, поэтому рассматриваются лишь простейшие методы, при которых для расчетов вполне достаточно обычных микрокалькуляторов.
В заключение построим график остатков для примера 7.4. Этот график приведен на рис. 7.7.
Как следует из рис. 7.7, остатки 
Проверка значимости коэффициента регрессии
Если в результате проведенной проверки нет оснований сомневаться в адекватности линейной модели, то необходимо проверить гипотезу о том, что в действительности в генеральной совокупности отсутствует линейная регрессия, а то, что полученный коэффициент регрессии b отличен от нуля,, объясняется только случайностью выборки.
Если данных много, то необходимость в такой проверке, как правило, отпадает, потому что зависимость явно прослеживается при графическом представлении данных (см., например, рис. 7.3). Но если выборка невелика, то такaя проверка полезна.
Гипотеза 
где 

t-критерий применяется обычным образом, как показано в гл. 6. Вычисленное по формуле (7.7) значение критерия сравнивается с критическим значением 
Заметим, что здесь a-уровень значимости, его не следует путать со свободным членом уравнения регрессии 
Если значение критерия

Пример 7.4 (продолжение)
Оценим значимость коэффициента регрессии b = 3,0, рассчитанного для данных нашего примера. Зададимся уровнем значимости а=0,05.
Подставим найденные ранее значения в формулу
(7.7) и определим значение t-критерия:
Из табл. 4 Приложения находим при а = 0,05 и v = 10-2 = 8:
Поскольку 

Полиномиальная регрессия
Часто зависимость между двумя величинами, которую можно предположить, анализируя графическое представление экспериментальных данных или опираясь на предметный анализ явлений, оказывается достаточно сложной, и модель линейной регрессии плохо подходит. Тогда прибегают к более сложным моделям, начиная обычно с самой простой из них — полиномиальной регрессии. Эти модели описываются выражением, содержащим, кроме линейного члена (1-й степени х) более высокие степени переменной х
Все предположения, которые принимаются при регрессионном анализе с использованием такой модели, полностью соответствуют предположениям, которые были сделаны в случае простой линейной регрессии.
Оценка параметров полиномиальной модели 


Решая совместно эти уравнения, находим коэффициенты 
Можно получить эти решения в готовом виде, и они приведены в
Коэффициент корреляции
Как уже отмечалось в начале этой лекции, при исследовании корреляции двух признаков обе величины X и Y, описывающие поведение этих признаков, рассматриваются как случайные величины, которые представлены совместным вероятностным распределением. Для двух случайных величин совместное распределение называется двумерным.
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (



Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения
Когда исследуется корреляция между количественными признаками, значение которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т. п.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Плотность вероятностей двумерного нормального распределения имеет вид
где
Это распределение зависит от пяти параметров, четыре из которых нам уже знакомы:

Модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию коэффициента корреляции.
Если р — 0, то значения 
Если р= I или р= — 1, то между случайными величинами X и У существует линейная функциональная зависимость (У = с + dX). В этом случае говорят о полной корреляции. При р = 1 значения 


В промежуточных случаях 



Таким образом, коэффициент корреляции является мерой линейной связи между случайными величинами.
В двумерном нормальном распределении существуют две линии регрессии: регрессия У на X и регрессия X на У (в зависимости от того, какую из величин X или У считать независимой, а какую — зависимой). Причем для нормального распределения регрессия всегда линейна, т. е. среднее значение одной случайной величины линейно зависит от значений другой случайной величины. Поэтому для двумерного нормального распределения коэффициент корреляции является мерой взаимосвязи двух случайных величин.
Это справедливо только для двумерного нормального распределения. При произвольном распределении корреляция является мерой только линейной связи. Пусть, например, две случайные величины связаны функциональной квадратичной зависимостью 
Если нет оснований предполагать двумерное нормальное распределение, в качестве меры связи часто используется коэффициент ранговой корреляции Спирмена, для которого вид распределения случайных величин X и Y не имеет значения. Коэффициент ранговой корреляции является мерой любой монотонной (неубывающей или невозрастаюшей) зависимости между случайными величинами. Его применение рассмотрено в разделе 7.7
Если исследуется корреляционная зависимость между качественными признаками, которые не поддаются непосредственному измерению, то такая зависимость называется сопряженностью. В качестве меры зависимости используются коэффициенты сопряженности, рассмотренные в разделе 7.8.
Оценка коэффициента корреляции
Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений 
В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Бра-ве — Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений 
Коэффициент корреляции r Браве — Пирсона вычис ляется по формуле:
где 
Для практических расчетов более удобна следующая формула:
В этой формуле все суммы также вычисляются для i от 1 до n. Удобство формулы (7.9) в том, что она оперирует непосредственно с исходными данными 

Важным свойством коэффициента корреляции является то, что он не изменяет своего значения при любом линейном преобразовании исходных данных 

то значение 

Это свойство позволяет существенно упростить вычисление коэффициента корреляции в тех случаях, когда значения 
Между коэффициентом корреляции r и коэффициентами регрессии 
Зная коэффициент корреляции, можно легко определить коэффициент регрессии:
где 
Квадрат коэффициента корреляции называется коэффициентом детерминации (d):
Коэффициент детерминации является мерой определенности линейной регрессии. Чем больше коэффициент детерминации, тем меньше наблюдаемые значения



Пример 7.5
Определим, существует ли связь между результатами в беге на 30 и на 100 м для данных примера 7.4, полученных для группы школьников.
Исходные данные 

1. Наносим исходные данные


Анализ графика позволяет сделать предположение о линейной связи между результатами в беге на 30 и 100 м для данной категории испытуемых. Силу этой связи можно оценить по коэффициенту корреляции r Браве — Пирсона.
2. Вычисляем значения промежуточных сумм, входящих в формулу (7.9), для коэффициента корреляции:
Промежуточные расчеты приведены в столбцах 2—6 табл. 7.3.
3. По формуле (7.9) вычисляем коэффициент корреляции:
Такое значение коэффициента корреляции свидетельствует о наличии сильной положительной корреляции между результатами в беге на 30 и 100 м.
4, Находим коэффициент детерминации
93,5% рассеяния результатов в беге на 100 м может быть объяснено изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака (результаты в беге на 30 и 100 м) действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 93,5 %. Остальные 6,5 % приходятся на долю факторов, действующих на исследуемые признаки избирательно.
Пример 7.6
Исследовалась группа спортсменок I разряда, специализирующихся в беге на 400 м. Цель исследования состояла в том, чтобы выявить влияние времени на первой половине дистанции на время пробегания последних 200 м. На соревнованиях для 20 спортсменок измерены результаты на обеих половинах дистанции 400 м. Эти данные приведены в столбцах 2 и 3 табл. 7.4: 

Проведем корреляционный анализ экспериментальных данных.
1. Построим график корреляционного поля (рис. 7.9). Анализ графика показывает, что в данном случае можно предположить существование линейной корреляции между исследуемыми признаками, причем здесь корреляция отрицательная для данной категории испытуемых, т. е. при более быстром пробегании первой половины дистанции время на последних 200 м имеет тенденцию к возрастанию.
Вычислим коэффициент корреляции 
Как показал предыдущий пример 7.5, расчет коэффициента корреляции достаточно громоздкий. Можно ожидать, что в данном примере расчеты будут еще сложнее, потому что данных вдвое больше. Чтобы упростить вычисления, воспользуемся линейным преобразованием исходных данных (7.10). Это не изменит значения коэффициента корреляции, но позволит существенно упростить расчеты при правильном выборе линейного преобразования. Применим следующие преобразования:
Значения 


Преобразованные данные приведены в столбцах-4 и
5 табл. 7.4. Далее порядок вычислений ничем не отличается от рассмотренного в примере 7.5.
2. Находим значения промежуточных сумм:
По формуле (7.9) определяем:
Полученный результат говорит о наличии сильной отрицательной корреляции.
4. Коэффициент детерминации равен
В данном случае 64 % рассеяния результатов на последних 200 м объясняется изменением результатов на первой половине дистанции.
Критерий значимости и доверительные интервалы для коэффициента корреляции
Основываясь только на значении выборочного коэффициента корреляции, особенно если это значение не очень близко к ±1, нельзя сделать вывод о достоверности корреляции между признаками. Этот вывод может быть сделан с помощью соответствующих критериев значимости корреляции. Такие критерии служат для проверки гипотезы 



Применение стандартных критериев значимости корреляции основано на предположении о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные.
Если принять предположение о наличии линейной связи между исследуемыми признаками, то гипотезу о двумерном нормальном распределении можно проверить с помощью стандартных критериев согласия (см. раздел 6.4), примененных к одномерным эмпирическим распределениям признаков X и Y.
Если предположение о двумерном нормальном распределении принимается, то могут быть использованы следующие критерии значимости корреляции:
t-критерий. При использовании t-критерия Стыодента-вычисляется значение критерия по формуле:
где r — выборочный коэффициент корреляции; n — объем выборки.
Вычисленное по формуле (7.13) значение t-критерия сравнивается с критическим значением

Чтобы упростить применение t-критерия, составлена таблица критических значений 
коэффициент корреляции r с критическим значением 






Величина Z имеет приближенно нормальное распределение со средним значением
и стандартным отклонением
Z-преобразование можно применять при
1. Вычисляем значение 



3. Если



отличается от 0. Для одностороннего критерия отклонение
Доверительный интервал для коэффициента корреляции
Z-преобразование удобно тем, что с его помощью можно определить границы доверительного интервала для генерального коэффициента корреляции p. Доверительный интервал строится следующим образом:
1. Вычисляем значение Z по формуле (7.14) или с помощью табл. 11 Приложения и стандартное отклонение 
2. Задаемся доверительной вероятностью 1 — а и определяем граничные значения 


3. Находим границы доверительного интервала для среднего значения 
4. С помощью обратного преобразования Фишера переходим к доверительному интервалу для коэффициента корреляции р. Для этого по табл. 12 Приложения’ находим значения r, соответствующие значениям Z 
Пример 7.6 (продолжение)
Оценим значимость корреляции на уровне значимости a = 0,05 и границы 95 %-ного доверительного интервалу для коэффициента корреляции для данных примера 7.6, представляющих собой результаты на первой и второй половине дистанции 400 м для спортсменок I разряда.
Действуем в таком порядке:
1. Вначале проверим гипотезу о том, что экспериментальные данные получены из двумерной нормальной совокупности.
Значения критерия W Шапиро — Уилки (см. раздел 6.4.4) для рядов 

Критическое значение 
Поскольку 


2. Оценим значимость корреляции путем сравнения с критическим значением коэффициента корреляции. Ранее вычисленный выборочный коэффициент корреляции


Поскольку 

Воспользуемся Z-преобразованием для проверки значимости корреляции. Отметим, что для рассматриваемого примера данный критерий можно не применять, так как выборочный коэффициент корреляции значительно превышает критическое значение, и использование еще одного критерия вряд ли изменит в такой ситуации вывод о значимости корреляции. Но Z-преобразование потребуется нам для определения доверительного интервала для коэффициента корреляции.
По табл. 11 Приложения при r =0,802 находим Z = 1,099.
Стандартное отклонение
Значение ц-критерия по формуле (7.15) составляет:
При уровне значимости а — 0,05 по табл. 6.2 находим критическое значение 

Поскольку 
4. Определим границы доверительного интервала для генерального коэффициента корреляции р.
Границы 95 %-ного доверительного интервала для 
По табл. 12 Приложения находим значения r, соответствующие границам доверительного интервала для р: 0,558 и 0,917.
Следовательно, 95 %-ный доверительный интервал для р будет: —0,917<р<—0,558.
Здесь мы учли, что выборочный коэффициент корреляции отрицательный.
Коэффициент ранговой корреляции Спирмена
Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка





Формула (7.17) получается непосредственно из формулы (7.8) для коэффициента корреляции Браве — Пирсона, если в последнюю вместо
Коэффициент ранговой корреляции также имеет пределы 1 и —1. Если ранги одинаковы для всех значений 




Когда ранги всех значений
или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений 


В тех случаях, когда в рядах 



При небольшом числе совпадающих значений формула (7.17)обеспечивает практически приемлемую точность и можно не усложнять расчеты вычислением
Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве — Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.
Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:
1. Если экспериментальные данные представляют собой точно измеренные значения признаков X и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве — Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента 
2. Когда значения 

Пример 7.7.
Воспользуемся данными примера 7.5 и определим коэффициент ранговой корреляции между результатами школьников в беге на 30 и 100 м. Исходные данные приведены в столбцах 2 и 3 табл. 7.5.
Расчет производится в следующем порядке:
1. Находим ранги 

Ранги приведены в столбцах 4 и 5 табл. 7.5. 2 3 4
2. Вычисляем разности рангов 



Предварительно найдем значения 

В ряду 
5. По формуле (7.18) находим 

Как видим, коэффициент ранговой корреляции
Пример 7.8
Выясним, существует ли связь между результатами в
прыжках в длину с места и местами, занятыми на соревнованиях, для гимнастов 11—12 лет. Данные, полученные по наблюдениям за 10 гимнастами этой возрастной категории, приведены в столбцах 2 и 3 табл. 7.6.
Данный пример соответствует второму случаю применения коэффициента ранговой корреляции Спирмена. Здесь значения 
Порядок расчета полностью соответствует рассмотренному выше в примере 7.7, за исключением того, что в данном примере отсутствуют совпадающие значения 

Коэффициент ранговой корреляции по формуле (7.17) составляет
Значимость коэффициента ранговой корреляции
Гипотеза 




Если 

Табл. 13 Приложения содержит критические значения для объемов выборки 

приближенно воспользоваться t-критерием, значение которого вычисляется следующим образом:
Это значение сравнивается с критическим значением 

Пример 7.7 (продолжение)
Выборочный коэффициент ранговой корреляции, определенный для данных примера7.7, составляет 
Поскольку



Пример 7.8 (продолжение)
Для данных примера 7.8 выборочный коэффициент ранговой корреляции 



Сопряженность качественных признаков
Если требуется выявить связь (сопряженность) между качественными признаками, которые не поддаются непосредственному измерению, для этого используются коэффициенты сопряженности.
Здесь рассматривается только простейший случай: связь между двумя альтернативными признаками. Мерой альтернативных признаков является наличие или отсутствие их у объектов исследования. Например, человек может заниматься или не заниматься спортом, заболеть или не заболеть простудным заболеванием, сдать или не сдать зачет по математической статистике, установить или не установить мировой рекорд в плавании, легкой атлетике и т. д.
При исследовании сопряженности двух альтернативных признаков исходные экспериментальные данные представляют в виде четырехклеточной таблицы сопряженности признаков (табл. 7.7). В этой таблице содержатся частоты а, b, с и d, соответствующие для выборки объема n наличию (+) или отсутствию (—) каждого из признаков «1» или «2» у испытуемых.
Взаимосвязь между двумя альтернативными признаками устанавливается с помощью тетрахорического коэффициента сопряженности (или коэффициента ассоциации) Пирсона
Рассмотрим его применение на примере.
Пример 7.9
Пусть, например, было проведено исследование влияния занятий спортом на утомляемость в течение рабочего дня у молодых выпускников технического вуза. Обследование проводилось с помощью анкетного опроса, и 200 ответов на вопросы анкеты «Занимаетесь ли вы спортом систематически?», «Чувствуете ли вы состояние психического или физического утомления к концу рабочего дня?» распределились, как показано в табл. 7.8.
Тетрахорический коэффициент сопряженности 

Для данных рассматриваемого примера 
Для проверки нулевой гипотезы о независимости признаков (об отсутствии сопряженности) используется 






Для рассматриваемого примера значение 
Зададимся уровнем значимости а =0,05 и по табл. 5 Приложения находим критические значения 
Поскольку 


Приложение
Удвоенные значения функции Лапласа
Удвоенные значения функции Лапласа:
(площадь под кривой нормального распределения между точками —u, u)
Ординаты нормальной кривой
Ординаты нормальной кривой
Критические значения одностороннего F-критерия Фишера
Критические значения одностороннего F-критерия Фишера (верхние числа в строке соответствуют уровню значимости 0,05; средние — 0,01; нижние — 0,001) Таблица 3
Критические значения двустороннего t-критерия Стьюдента
Критические значения двустороннего t-критерия Стьюдента
(v — число степеней свободы)
Вспомогательные коэффициенты для проверки нормальности
Вспомогательные коэффициенты 
Лекции по предметам:
- Математика
- Алгебра
- Линейная алгебра
- Векторная алгебра
- Геометрия
- Аналитическая геометрия
- Высшая математика
- Дискретная математика
- Математический анализ
- Теория вероятностей
- Математическая логика
Учебник онлайн:
- Точечные оценки, свойства оценок
- Доверительный интервал для вероятности события
- Проверка гипотезы о равенстве вероятностей
- Доверительный интервал для математического ожидания
- Доверительный интервал для дисперсии
- Проверка статистических гипотез
- Регрессионный анализ
- Корреляционный анализ
- Статистические решающие функции
- Случайные процессы
- Выборочный метод
- Статистическая проверка гипотез
- Статистические оценки
- Теория статистической проверки гипотез
- Линейный регрессионный анализ
- Вариационный ряд
- Законы распределения случайных величин
- Дисперсионный анализ
- Математическая обработка динамических рядов
- Корреляция — определение и вычисление
- Элементы теории ошибок
- Методы математической статистики
Основы статистики: просто о сложных формулах
Время на прочтение
6 мин
Количество просмотров 270K
Статистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
И, отчаявшись досконально разобраться с происхождением этих сумм и квадратных корней, студент может начать воспринимать статистику следующим образом: «если r > 0, то положительная связь, а если меньше 0, то отрицательная»; «если p уровень значимости меньше 0.05 — то хорошо, если от 0.05 до 0.1 — то не очень хорошо, а если больше 0.1 — то плохо». Помогая студентам готовиться к экзамену, не раз сталкивался с такими заклинаниями! Также, разумеется, никто не рассчитывает все эти показатели вручную, и используя, например, SPSS, можно за секунду загуглить пошаговую инструкцию «как сравнить два средних».
- Жмем сюда
- Снимаем/ставим галочки тут
- p < 0.05 —> profit
Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value), который и расставит все точки над i.
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верноеутверждение:
- Компьютерные игры — причина агрессивного поведения с вероятностью 96%.
- Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.
- Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
- Вероятность случайно получить такие различия равняется 0.04.
- Все утверждения неверны.
Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value (например, можно посмотреть эту интересную статью).
Давайте разберем все ответы по порядку:
- Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
- Это уже более интересное утверждение. Все дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
- А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
- Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или еще более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!
Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.
Онлайн-курс по основам статистики: сложные формулы несложным языком
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
Полезные материалы
Если вы знаете какие-либо полезные курсы или материалы по введению в статистику — делитесь в комментариях!











































































































































































































































предварительно вычисленное х, а затем возводить полученные разности в квадрат. При ручных методах вычислений это вызывает трудности, особенно в случаях многоразрядных значений xi.
, входящее в эти формулы, обычно вычисляется с некоторой погрешностью округления. Она приводит к накоплению ошибки округления результатов (дисперсии и стандартного отклонения). Опасность существенных ошибок округления увеличивается с увеличением объема выборки.






























































































































и стандартное отклонение S. Методы вычислений рассмотрены в гл. 3;
В силу симметричности t-распределения достаточно знать только положительное значение
. Например, если объем выборки п — 12, то число степеней свободы t-распределения v = 12— 1 = 11, и по табл. 4 Приложения определяем для а = 0,05:
= 2,20;


и стандартное отклонение S, как показано в гл. 3.
соответствующее заданной доверительной вероятности
= 1,96).
— 15,4 с, S = 0,94 с.
— 1,96.



Здесь
— средние значения соответствующих генеральных совокупностей (результатов всех прыгунов данного класса, которые могли бы тренироваться по традиционной
и новой
программам).
Здесь
— так же, как и в п. 1, значения соответствующих генеральных параметров.








































































































































































































