Введение в математическую статистику. Основные понятия математической статистики По математической статистике

Введение

2. Основные понятия математической статистики

2.1 Основные понятия выборочного метода

2.2 Выборочное распределение

2.3 Эмпирическая функция распределения, гистограмма

Заключение

Список литературы

Введение

Математическая статистика - наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей - свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину - как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.

Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе, направленной на глубокое и всестороннее изучение основных понятий математической статистики.

В связи с этим целью данной работы является систематизация, накопление и закрепление знаний о понятиях математической статистики.

1. Предмет и методы математической статистики

Математическая статистика - наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Основные понятия математической статистики

2.1 Основные понятия выборочного метода

Пусть - случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано (и не будет нас интересовать).

Будем считать, что, проведя раз этот эксперимент в одинаковых условиях, мы получили числа , , , - значения этой случайной величины в первом, втором, и т.д. экспериментах. Случайная величина имеет некоторое распределение , которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор , называемый выборкой .

В серии уже произведенных экспериментов выборка - это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число - одно из значений случайной величины . То есть (и , и , и т.д.) - переменная величина, которая может принимать те же значения, что и случайная величина , и так же часто (с теми же вероятностями). Поэтому до опыта - случайная величина, одинаково распределенная с , а после опыта - число, которое мы наблюдаем в данном первом эксперименте, т.е. одно из возможных значений случайной величины .

Выборка объема - это набор из независимых и одинаково распределенных случайных величин («копий »), имеющих, как и , распределение .

Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функцией распределения, плотностью или таблицей, набором числовых характеристик - , , и т.д. По выборке нужно уметь строить приближения для всех этих характеристик.

.2 Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе - набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку , , набором случайных величин, то и сами эти характеристики - , , , , - станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или ) - в близости этих распределений при больших .

Рассмотрим, для примера, подбрасываний правильного кубика. Пусть - количество очков, выпавших при -м броске, . Предположим, что единица в выборке встретится раз, двойка - раз и т.д. Тогда случайная величина будет принимать значения 1 , , 6 с вероятностями , , соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков, выпадающих при подбрасывании правильного кубика.

Мы не станем уточнять, что имеется в виду под близостью выборочного и истинного распределений. В следующих параграфах мы подробнее познакомимся с каждой из введенных выше характеристик и исследуем ее свойства, в том числе ее поведение с ростом объема выборки.

.3 Эмпирическая функция распределения, гистограмма

Поскольку неизвестное распределение можно описать, например, его функцией распределения , построим по выборке «оценку» для этой функции.

Определение 1.

Эмпирической функцией распределения, построенной по выборке объема , называется случайная функция , при каждом равная

Напоминание: Случайная функция

называется индикатором события . При каждом это - случайная величина, имеющая распределение Бернулли с параметром . почему?

Иначе говоря, при любом значение , равное истинной вероятности случайной величине быть меньше , оценивается долей элементов выборки, меньших .

Если элементы выборки , , упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом :

Элемент , , называется -м членом вариационного ряда или -й порядковой статистикой .

Пример 1.

Выборка:

Вариационный ряд:

Рис. 1. Пример 1

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где - количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма .

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть , , - интервалы на прямой, называемые интервалами группировки . Обозначим для через число элементов выборки, попавших в интервал :

(1)

На каждом из интервалов строят прямоугольник, площадь которого пропорциональна . Общая площадь всех прямоугольников должна равняться единице. Пусть - длина интервала . Высота прямоугольника над равна

Полученная фигура называется гистограммой.

Пример 2.

Имеется вариационный ряд (см. пример 1):

Здесь - десятичный логарифм, поэтому , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так, что , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Заключение

Математическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин - что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Наиболее благоприятной для исследования оказывается ситуация, когда можно уверенно утверждать о некоторых свойствах наблюдаемого эксперимента - например, о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере, и т.д.

Итак, о (математической) статистике имеет смысл вспоминать, если

· имеется случайный эксперимент, свойства которого частично или полностью неизвестны,

· мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше - какое угодно) число раз.

Список литературы

1. Баумоль У. Экономическая теория и исследование операций. – М.; Наука, 1999.

2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1995.

3. Боровков А.А. Математическая статистика. М.: Наука, 1994.

4. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. - СПБ: Издательство «Лань», 2003.

5. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Изд-во Института математики им. С.Л.Соболева СО РАН, 2001.

6. Пехелецкий И.Д. Математика: учебник для студентов. - М.: Академия, 2003.

7. Суходольский В.Г. Лекции по высшей математике для гуманитариев. - СПБ Издательство Санкт-петербургского государственного университета. 2003

8. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, Т.2, 1984.

9. Харман Г., Современный факторный анализ. - М.: Статистика, 1972.

Харман Г., Современный факторный анализ. - М.: Статистика, 1972.

Каждое исследование в области случайных явлений своими корнями всегда уходит в эксперимент, в опытные данные. Числовые данные, которые собирают при изучении какого-либо признака некоторого объекта, называются статистическими . Статистические данные являются первоначальным материалом исследования. Для того, чтобы они представляли научную или практическую ценность, их надо обработать методами математической статистики.

Математическая статистика - это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

Основными задачами математической статистики являются:

определение закона распределения случайной величины или системы случайных величин;

проверка правдоподобия гипотез;

определение неизвестных параметров распределения.

Все методы математической статистики основаны на теории вероятностей. Однако в силу специфичности решаемых задач математическая статистика выделяется из теории вероятностей в самостоятельную область. Если в теории вероятностей считается заданной модель явления и производится расчет возможного реального течения этого явления (рис.1), то в математической статистике подбирается подходящая теоретико-вероятностная модель, исходя из статистических данных (рис.2).

Рис.1. Общая задача теории вероятностей

Рис.2. Общая задача математической статистики

Как научная дисциплина математическая статистика развивалась вместе с теорией вероятностей. Математический аппарат этой науки построен во второй половине XIX века.

2. Генеральная совокупность и выборка.

Для изучения статистических методов вводятся понятия генеральной и выборочной совокупностей. В общем случае под генеральной совокупностью понимается случайная величина X с функцией распределения
. Выборочной совокупностью или выборкой объемаn для данной случайной величины X называется набор
независимых наблюдений этой величины, гденосит название выборочного значения или реализации случайной величиныX. Таким образом, можно рассматривать как числа (если эксперимент проведен и выборка состоялась) и как случайные величины (до проведения эксперимента), поскольку они меняются от выборки к выборке.

Пример 1 . Для определения зависимости толщины ствола дерева от его высоты было отобрано 200 деревьев. В данном случае объем выборки n=200.

Пример 2. В результате распиловки древесностружечных плит на круглопильном станке было получено 15 значений удельной работы резания. В этом случае n=15.

Д
ля того чтобы по данным выборки уверенно судить об интересующем нас признаке генеральной совокупности, объекты выборки должны правильно ее представлять, то есть выборка должна бытьрепрезентативной (представительной). Репрезентативность выборки обычно достигается случайностью отбора объектов: каждому объекту генеральной совокупности обеспечивается равная со всеми остальными вероятность попадания в выборку.

Рис.3. Демонстация репрезентативности выборки

Математическая статистика

Предмет и методы

Математическая статистика - раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений . В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Примечания

Литература

Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. - М.: Изд-во «Большая Российская Энциклопедия», 1999.
Вальд А. Последовательный анализ, пер. с англ.- М.: Физматгиз, 1960.
Ширяев А. Н. Статистический последовательный анализ. Оптимальные правила остановки - М.: Наука, 1976

См. также

Ссылки

Wikimedia Foundation . 2010 .

Линейная алгебра
Математическая физика

Смотреть что такое "Математическая статистика" в других словарях:

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Современная энциклопедия

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА - наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность … Большой Энциклопедический словарь

Математическая статистика - МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Истоки математической статистики можно найти в сочинениях ученых конца 17 начала 19 вв. Во многих… … Иллюстрированный энциклопедический словарь

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА - наука, занимающаяся описанием и анализом результатов наблюдений массовых явлений методами теории вероятностей. Типичные задачи М. с. определение типов распределений случайной величины, проверка статистических гипотез, оценивание параметров и т. п … Геологическая энциклопедия

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА - (от лат. status – состояние). Смежная для методики обучения языкам наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Законы М. с. широко используются в организации… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)

Математическая статистика - раздел математики, посвященный методам и правилам обработки и анализа статистических данных (т.е. сведений о числе объектов, обладающих определенными признаками, в какой либо более или менее обширной совокупности). Сами… … Экономико-математический словарь

математическая статистика - Раздел математики, посвященный методам и правилам обработки и анализа статистических данных (т.е. сведений о числе объектов, обладающих определенными признаками, в какой либо более или менее обширной совокупности). Сами методы и правила строятся… … Справочник технического переводчика

Математическая статистика - раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой либо… … Большая советская энциклопедия

математическая статистика - наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность … Энциклопедический словарь

«Некоторые люди думают, что они всегда правы. Такие люди не могли бы ни быть хорошими учёными, ни иметь какой – либо интерес к статистике… Случай был с неба спущен на землю, где он стал частью мира науки». (Дайменд С.)

«Случай - только мера нашего невежества. Случайными явлениями, если дать им определение, будут те, законов которых мы не знаем». (А. Пуанкаре «Наука и гипотеза»)

«Слава случаю. Разве не случай
С непреложным всегда наравне…
Случай часто событием правит,
Порождает и радость, и боль.
И задачу пред нами жизнь ставит:
Как постигнуть случайности роль»
(из книги Б.А. Кордемского «Математика изучает случайности»)

Сам мир закономерен – так мы часто считаем и изучаем законы физики, химии и т.д., и всё же ничто не происходит без вмешательства случайности, возникающей под воздействием непостоянных, побочных причинных связей, изменяющих ход явления или опыта при его повторении. Создаётся «эффект случайности» с присущей закономерностью «скрытой предопределённости», т.е. у случайности появляется необходимость закономерного исхода.

Математики случайные события рассматривают лишь в дилемме « быть или не быть» - наступит или не наступит.

Определение. Раздел прикладной математики, в котором исследуются количественные характеристики массовых случайных событий или явлений, называется математической статистикой.

Определение. Соединение элементов теории вероятностей и математической статистики называют стохастикой.

Определение. Стохастика - это тот раздел математики, который возник и развивается в тесной связи с практической деятельностью человека. Сегодня элементы стохастики входят в математику для всех, становятся новым, важным аспектом математического и общего образования.

Определение. Математическая статистика – наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.

Поговорим об этом подробнее.

Общепринятой сейчас является точка зрения на математическую статистику как на науку об общих способах обработки результатов эксперимента. Решая эти проблемы, каким должен обладать эксперимент, чтобы сделанные на его основании суждения были правильными. Математическая статистика отчасти становится наукой о планировании эксперимента.

Значение слова «статистика» за последние два столетия претерпело значительные изменения, - пишут известные современные учёные Ходжес и Леман, - слово «статистика» имеет один корень со словом «государство» (state) и первоначально означало искусство и науку управления: первые преподаватели статистики университетов Германии 18-го века сегодня назывались бы специалистами по общественным наукам. Поскольку решения правительства до некоторой степени основываются на данных о населении, промышленности и т.д. статистики, естественно, стали интересоваться и такими данными, и постепенно слово «статистика» стало означать сбор данных о населении, о государстве, а затем вообще сбор и обработку данных. Нет смысла извлекать данные, если из этого не извлекается какая-то польза, и статистики, естественно, начинают заниматься интерпретацией данных.

Современный статистик изучает методы, при помощи которых можно сделать выводы о популяции на основе данных, которые обычно получают из выборки «популяции».

Определение. Статистик – человек, который занимается наукой о математических методах систематизации, обработке и использования статистических данных для научных и практических выводов.

Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина 19 начало 20-ых веков) обязано в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, К. Гауссу, А. Кетле, Ф.Гальтону, К Пирсону, и др. В 20 –ом наиболее существенный вклад в математическую статистику был сделан А.Н. Колмогоровым, В.И. Романовским, Е.Е. Слуцким, Н.В. Смирновым, Б.В. Гнеденко, а также английскими Стъюдентом, Р. Фишером, Э. Пурсоном и американскими (Ю. Нейман, А Вальд) учёными.

Задачи математической статистики и значение ошибки в мире науки

Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении методами теории вероятностей статистических данных результатов наблюдений.

Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирования эксперимента), в ходе исследования (последовательный анализ). Её можно определить как науку о принятии решений в условии неопределённости.

Кратко, можно сказать, задача математической статистики состоит в создании методов сбора и обработки статистических данных.

При изучении массового случайного явления предполагается, что все испытания производятся при одинаковых условиях, т.е. группа основных факторов, поддающихся учёту (измерению) и оказывающих существенное влияние на результат испытания, сохраняет по возможности одинаковые значения.

Случайные факторы искажают результат, который получился бы при наличии только основных факторов, делают его случайным. Отклонение результата каждого испытания от истинного называется ошибкой наблюдения, которая представляет собой случайную величину. Необходимо различать систематические ошибки и случайные.

Научный эксперимент немыслим без ошибки как океан, без соли. Любой поток фактов, пополняющий наше знание, приносит какую-то ошибку. Согласно известной поговорке в жизни у большинства людей ни в чём нельзя быть уверенным, кроме смерти и налогов, а учёный добавляет: “И ошибок опыта”.

Статистик- это “ищейка”, которая охотится за ошибкой. Статистика инструмент для обнаружения ошибки.

Слово “ошибка” не означает простой “просчёт”. Последствия просчёта – это небольшой и сравнительно неинтересный источник ошибки эксперимента.

Действительно, наши инструменты ломаются; наши глаза и уши могут обмануть нас; наши измерения никогда не бывают совершенно точными, иногда даже наши арифметические подсчёты бывают ошибочными. Ошибка эксперимента есть нечто более существенное, чем неточная рулетка или обман зрения. И так как важнейшее дело статистики помочь учёным проанализировать ошибку эксперимента, то мы должны попытаться понять, что же такое ошибка в действительности.

Над какой бы проблемой учёный не работал, она, безусловно, окажется более сложной, чем ему бы хотелось. Предположим, он измеряет выпадение радиоактивных осадков в разных широтах. Результаты будут зависеть от высоты над уровнем моря тех мест, где собраны образцы, от количества местных осадков и от высотных циклонов на более широких пространствах.

Экспериментальная ошибка - это неотъемлемая часть всякого подлинно научного опыта.

Один и тот же результат может быть ошибкой и информацией в зависимости от проблемы и точки зрения. Если биолог желает исследовать, как изменение в питании влияют на рост, то наличие родственной конституции являются источником ошибки; если же он изучает зависимость между наследственностью и ростом, источником ошибки будут различия в питании. Если физик хочет исследовать зависимость между электропроводностью и температурой, различия в плотности, служащего проводником материала, являются источником ошибки; если же он изучает зависимость между этой плотностью и электропроводностью, температурные изменения будут источником ошибки.

Это употребление слова ошибка может показаться сомнительным, и, возможно, предпочтительным было бы сказать, что полученные эффекты искажены “непредполагаемыми” или “нежелательными” воздействиями. Мы планируем эксперимент для изучения известных влияний, но случайные факторы, которые мы не в состоянии предвидеть или проанализировать, искажают результаты, добавляя к ним свои собственные эффекты.

Различия между запланированными эффектами и эффектами, обусловленными случайными причинами, подобно различию между движениями судна в море, плывущего по определённому курсу, и судна, дрейфующего бесцельно по воле изменчивых ветров и течений. Движение второго судна можно назвать движением случайным. Не исключено, что это судно может прийти в какой - либо порт, но более вероятно, что оно, ни в какое определённое место не придёт.

Статистики употребляют слово “случайный” для обозначения явления, исход которого в предстоящий момент времени совершенно невозможно предсказать.

Ошибка, обусловленная предусмотренными в опыте эффектами, бывает иногда скорее систематической, нежели случайной.

Систематическая ошибка вводит в заблуждение больше, чем случайная. Помехи, идущие от другой радиостанции, могут создать систематический музыкальный аккомпанемент, который вы иногда можете предсказать, если вы знаете мелодию. Но этот “аккомпанемент” может быть причиной того, что мы можем составить неправильное суждение о словах или о музыке программы, которую мы пытаемся услышать.

Однако обнаружение систематической ошибки часто наводит нас на след нового открытия. Знания, каким образом появляются случайные ошибки, помогают нам обнаружить систематические ошибки и, следовательно, исключить их.

Тот же характер рассуждений обычен и в наших житейских делах. Как часто мы замечаем: “Это не случайность!”. Всякий раз, когда мы можем это сказать – мы находимся на пути к открытию.

Например, А.Л. Чижевский, анализируя исторические процессы: увеличение смертности, эпидемии, начала войн, великие перемещения народов, резкие изменения климата и т.д. открыл зависимость между этими, не связанными между собой процессами и периодами солнечной активности, которые имеют циклы: 11 лет, 33 года.

Определение. Под систематической ошибкой понимается ошибка, повторяющаяся и одинаковая для всех испытаний. Она обычно связана с неправильным ведением эксперимента.

Определение. Под случайными ошибками понимаются ошибки, возникающие под влиянием случайных факторов и меняющихся случайным образом от опыта к опыту.

Обычно распределение случайных ошибок симметрично относительно нуля, откуда вытекает важный вывод: при отсутствии систематических ошибок истинный результат испытаний есть математическое ожидание случайной величины, конкретное значение которой фиксируется в каждом испытании.

Объектами изучения в математической статистике могут быть качественные или количественные признаки изучаемого явления или процесса.

В случае качественного признака подсчитывается число появлений этого признака в рассматриваемой серии опытов; это число и представляет собой изучаемую (дискретную) случайную величину. Примерами качественных признаков могут служить дефекты на готовой детали, демографические данные и т.д. Если признак является количественным, то в опыте производится прямое или косвенное измерения путём сравнения с некоторым эталоном - единицей измерения – с помощью различных измерительных приборов. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали.

Основные определения

Значительная часть математической статистики связана с необходимостью описать большую совокупность объектов.

Определение. Всю совокупность объектов, подлежащих изучению, называют генеральной совокупностью.

Генеральной совокупностью могут быть всё население страны, месячная продукция завода, популяция рыб, живущих в данном водоёме и т.д.

Но генеральная совокупность - это не просто множество. Если интересующая нас совокупность объектов слишком многочисленна, или объекты труднодоступны, или имеются другие причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов.

Определение. Та часть объектов, которая попала на проверку, исследование и т.п., называется выборочной совокупностью или просто выборкой.

Определение. Число элементов в генеральной совокупности и выборке называется их объёмами .

Как добиться, чтобы выборка наилучшим образом представляло целое, т.е. была бы репрезентативной?

Если целое, т.е. если генеральная совокупность нам мало известна или совсем неизвестна, не удаётся предложить ничего лучшего, чем чисто случайный выбор. Большая осведомлённость позволяет действовать лучше, но всё равно на некоторой стадии наступает незнание и, как результат – случайный выбор.

Но как осуществить чисто случайный выбор? Как правило, отбор идёт по легко наблюдаемым признакам, ради изучения которого ведётся исследование.

Нарушение же принципов случайного выбора приводило к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведённый американским журналом “Литературное обозрение” относительно исхода президентских выборов в 1936 году. Кандидатами на этих выборах были Ф.Д. Рузвельт и А.М. Ландон.

Кто победил?

В качестве генеральной совокупности редакция использовала телефонные книги. Отобрав случайно 4 миллиона адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты по всей стране. Затратив большую сумму на рассылки и обработку открыток, журнал объявил, что на предстоящих выборах в президенты с большим перевесом победит Ландон. Результат выборов оказался противоположенным этому прогнозу.

Здесь были совершенны сразу две ошибки. Во-первых, телефонные книги не дают репрезентативную выборку из населения США – в основном зажиточные главы семейств. Во-вторых, прислали ответы не все люди, а в значительной части представители делового мира, которые и поддерживали Ландона.

В то же время социологи Дж. Гэллан и Э. Уорнер правильно предсказали победу Ф.Д. Рузвельта, основываясь только на четырёх тысячах анкетах. Причиной этого успеха было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Поэтому выборка из слоя может быть относительно малочисленной с тем же результатом точности. Победил в итоге Рузвельт, который был сторонником реформ для менее богатых слоёв населения.

Имея результаты обследования по слоям, можно характеризовать общество в целом.

Что представляют собой выборки?

Это ряды чисел.

Более подробно остановимся на основных понятиях, характеризующих ряд выборки.

Из генеральной совокупности извлечена выборка объёмом n> n 1 , где n 1 – столько раз наблюдалось появление x 1 , n 2 - x 2 и т.д.

Наблюдаемые значения х i называют вариантами, а последовательность вариантов, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений n i называют частотами и n i /n - относительными частотами (или частостями).

Определение. Различные значения случайной величины называются вариантами.

Определение. Вариационным рядом называется ряд, расположенный в порядке возрастания (или убывания) вариантов с соответствующими им частотами (частостями).

При изучении вариационных рядов наряду с понятиями частоты используется понятие накопленной частоты. Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот всех предшествующих интервалов.

Определение. Накопление частот или частостей называют кумуляцией . Кумулировать можно частоты вариант и интервалов.

Характеристики ряда могут быть количественные и качественные.

Количественные (вариационные) характеристики – это характеристики, которые можно выразить числами. Их подразделяются на дискретные и непрерывные.

Качественные (атрибутивные) характеристики – это характеристики, которые не выражаются числами.

Непрерывные переменные – это переменные, которые выражаются действительными числами.

Дискретные переменные – это переменные, которые выражаются только целыми числами.

Выборки характеризуются центральными тенденциями : средним значением, модой и медианой. Средним значением выборки называют среднее арифметическое всех её значений. Мода выборки – те её значения, которые встречаются чаще всего. Медиана выборки – это число, “разделяющее” пополам упорядоченную совокупность всех значений выборки.

Вариационный ряд может быть дискретным или непрерывным.

Задача

Дана выборка: 1,3; 1,8; 1,2; 3,0; 2,1; 5; 2,4; 1,2; 3,2;1,2; 4; 2,4.

Это ряд вариантов. Расположив эти варианты в возрастающем порядке, мы получим вариационный ряд: 1,2; 1,2; 1,2; 1,3; 1,8; 2,1; 2,4; 2,4; 3,0; 3,2; 4; 5.

Среднее значение этого ряда равно 2,4.

Медиана ряда 2,25.

Мода ряда –1,2.

Дадим определения этим понятиям.

Определение. Медианой вариационного ряда называется то значение случайной величины, которое приходится на средину вариационного ряда (Ме).

Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине. Медианой произвольного ряда чисел называется медиана соответствующего упорядоченного ряда.

Определение. Модой вариационного ряда называют вариант (значение случайной величины), которому соответствует наибольшая частота (Мо), т.е. которая встречается чаще других.

Определение. Среднеарифметическим значением вариационного ряда называется результат деления суммы значений статистической переменной на число этих значений, то есть на число слагаемых.

Правило нахождения среднеарифметического значения выборки:

каждую варианту умножить на её частоту (кратность);
сложить все полученные произведения;
поделить найденную сумму на сумму всех частот.

Определение. Размахом ряда называется разность между R=x max -x min , т.е. наибольшим и наименьшим значениями этих вариантов.

Проверим, правильно ли мы нашли среднее значение этого ряда, медиану и моду, опираясь на определения.

Сосчитали число членов, их 12 - чётное число членов, значит надо найти среднее арифметическое двух чисел записанных посередине, то есть 6 и 7-ой варианты. (2,1+2,4)\2=2.25 – медиана.

Мода. Модой является 1.2, т.к. только это число встречается 3 раза, а остальные встречаются меньше, чем 3 раза.

Среднеарифметическое значение находим так:

(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4

Составим таблицу

Такие таблицы называют частотными. В них числа второй строки – частоты; они показывают, как часто встречаются в выборке те или другие её значения.

Определение. Относительной частотой значений выборки называют отношение её частоты к числу всех значений выборки.

Относительные частоты иначе называют частостями. Частоты и частости называют весами. Найдём размах ряда: R=5-1,2=3,8; Размах ряда равен 3,8.

Информация к размышлению

Среднее арифметическое – это условная величина. Реально она не существует. Реально существует общая сумма. Поэтому среднее арифметическое не есть характеристика одного наблюдения; она характеризует ряд в целом.

Среднее значение можно трактовать как центр рассеивания значений наблюдаемого признака, т.е. значения, около которого колеблются все наблюдаемые значения, причём алгебраическая сумма отклонений от среднего, всегда равна нулю, т.е. сумма отклонений от среднего в большую или меньшую сторону равны между собой.

Среднее арифметическое является абстрактной (обобщающей) величиной. Даже при задании ряда только из натуральных чисел, среднее значение может выражаться дробным числом. Пример: средний балл контрольной работы 3,81.

Среднее значение находится не только для однородных величин. Средняя урожайность зерновых по всей стране (кукуруза-50-60 ц. с га. и гречиха-по5-6 ц. с га, рожь, пшеница и т.д.), среднее потребление продуктов питания, средняя величина национального дохода на душу населения, средний показатель обеспеченности жильём, средний взвешенный показатель стоимости жилья, средняя трудоёмкость возведения здания и т.д. – это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.

В статистике широкое применение находят такие характеристики, как мода и медиана . Их называют структурными средними, т.к. значения этих характеристик определяются общей структурой ряда данных.

Иногда ряд может иметь две моды, иногда ряд может не иметь моды.

Мода является наиболее приемлемым показателем при выявлении расфасовки некоторого товара, которой отдают предпочтение покупатели; цены на товар данного вида, распространённый на рынке; как размер обуви, одежды, пользующийся наибольшим спросом; вид спорта, которым предпочитают заниматься большинство населения страны, города, посёлка школы и т.д.

В строительстве существует 8 вариантов плит по ширине, и более часто применяются 3 вида:1 м. 1,2 м. и 1,5 м. По длине 33 варианта плит, но чаще других применяются плиты длиной 4,8 м.; 5,7 м. и 6,0 м., мода на плиты чаще всего встречается среди этих 3-х размеров. Аналогично можно рассуждать и с марками окон.

Моду ряда данных находят тогда, когда хотят выявить некоторый типичный показатель.

Мода может быть выражена числом и словами, с точки зрения статистики мода – это экстремум частоты.

Медиана позволяет учитывать информацию о ряде данных, которую даёт среднее арифметическое и наоборот.

Математическая статистика – это раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических целей .

Статистическими данными называются сведения о числе и характере объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными свойствами.

Метод исследования, опирающийся на рассмотрение статистических данных от тех или иных совокупностей объектов, называется статистическим.

Формальная математическая сторона статистических методов исследования безразлична к природе исследуемых объектов и составляет предмет математической статистики.

Основная задача математической статистики состоит в получении выводов о массовых явлениях и процессах по данным наблюдений над ними или экспериментов.

Статистика – наука, которая позволяет увидеть закономерности в хаосе случайных данных, выделить установившиеся связи в них и определить наши действия, чтобы увеличить долю правильно принятых решений.

Многие известные сейчас зависимости между различными аспектами окружающего нас мира получены путем анализа накопленных человечеством данных. После статистического обнаружения зависимостей человек уже находит то или иное рациональное объяснение обнаруженным закономерностям.

Для изложения начальных определений статистики обратимся к примеру.

Пример . Предположим, необходимо оценить степень изменения коэффициента интеллектуальности за 3 года обучения у 100 студентов. В качестве показателя рассмотрим отношение нынешнего коэффициента к ранее измеренному коэффициенту (три года назад), умноженному на 100 %.

Получим последовательность 100 случайных величин: 97,8; 97,0; 101,7; 132,5; 142; …; 122. Обозначим ее через Х .

Определение 1. Последовательность наблюдаемых в результате исследования случайных величин Х в статистике называется признаком.

Определение 2. Различные значения признака называются вариантами.

Из приведенных значений вариант трудно получить некоторую информацию о динамике изменения коэффициента интеллектуальности в процессе обучения. Упорядочим данную последовательность по возрастанию: 94; 97,0; 97,8; …142. Из полученной последовательности уже можно извлечь некоторую полезную информацию – например, легко определить минимальное и максимальное значения признака. Но не видно, как распределен признак среди всей совокупности обследуемых студентов. Разобьем варианты на интервалы. Согласно формуле Стерджеса, рекомендуемое число интервалов

m = 1+3,32lg(n) ≈ 7,6, а величина интервала .

Диапазоны полученных интервалов приведены в столбце 1 таблицы.

Посчитаем, сколько значений признака попало в каждый интервал, и запишем в столбец 3.

Определение 3. Число, показывающее, сколько вариант попало в данный i-й интервал, называется частотой и обозначается n i .

Определение 4. Отношение частоты к общему числу наблюдений называется относительной частотой (w i) или весом.

Определение 5. Вариационным рядом называется расположенный в порядке возрастания или убывания ряд вариантов с соответствующими им весами.

Для данного примера вариантами являются середины интервалов.

Определение 6. Накопленной частотой ( ) называется число вариант со значением признака меньшим, чем х (хÎR).