Лежит статистическая модель с применением. Математическая статистика. Виды статистических и эконометрических моделей

Идея случайного выбора. Прежде чем приступить к описанию статистических гипотез, обсудим еще раз понятие случайного выбора.

Если опустить детали и некоторые (хотя и важные) исключения, можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко - воображаемой. Обычно мы полагаем, что этот случайный выбор произведен природой. Впрочем, во многих задачах эта генеральная совокупность вполне реальна, и выбор из нее произведен активным наблюдателем.

Для краткости будем говорить, что все данные, которые мы собираемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самой разнообразной. Это может быть одно число, последовательность чисел, последовательность символов, числовая таблица и т.д. Обозначим на время это собирательное наблюдение через х. Раз мы считаем х результатом случайного выбора, мы должны указать и ту генеральную совокупность, из которой х был выбран. Это значит, что мы должны указать те значения, которые могли бы появиться вместо реального х. Обозначим эту совокупность через X. Множество Х называют также выборочным пространством, или пространством выборок.

Мы предполагаем далее, что указанный выбор произошел в соответствии с неким распределением вероятностей на множестве X, согласно которому каждый элемент из Х имеет определенные шансы быть выбранным. Если Х - конечное множество, то у каждого его элемента x ; есть положительная вероятность р (х ) быть выбранным. Случайный выбор по такому вероятностному закону легко понимать буквально. Для более сложно устроенных бесконечных множеств Х приходится определять вероятность не для отдельных его точек, а для подмножеств. Случайный выбор одной из бесконечного множества возможностей вообразить труднее, он похож на выбор точки х из отрезка или пространственной области X.

Соотношение между наблюдением х и выборочным пространством X, между элементами которого распределена вероятность, - в точности такое же, как между элементарными исходами и пространством элементарных исходов, с которым имеет дело теория вероятностей. Благодаря этому теория вероятностей становится основой математической статистики, и поэтому, в частности, мы можем применять вероятностные соображения к задаче проверки статистических гипотез.

Прагматическое правило. Ясно, что раз мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), то все дальнейшие суждения, основанные на этих данных, будут иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, а с некоторой тоже положительной вероятностью оно может оказаться неверным. Будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результаты?



На оба эти вопроса следует ответить положительно. Во-первых, знание вероятностей событий полезно, так как у исследователя быстро вырабатывается вероятностная интуиция, позволяющая ему оперировать вероятностями, распределениями, математическими ожиданиями и т.п., извлекая из этого пользу. Во-вторых, и чисто вероятностные результаты могут быть вполне убедительными: вывод можно считать практически достоверным, если его вероятность близка к единице.

Можно высказать следующее прагматическое правило, которым руководствуются люди и которое соединяет теорию вероятностей с нашей деятельностью.

Мы считаем практически достоверным событие, вероятность которого близка к 1;

Мы считаем практически невозможным событие, вероятность которого близка к 0.

И мы не только так думаем, но и поступаем в соответствии с этим!

Изложенное прагматическое правило, в строгом смысле, конечно, неверно, поскольку оно не защищает полностью от ошибок. Но ошибки при его использовании будут редки. Правило полезно тем, что дает возможность практически применять вероятностные выводы.

Иногда то же правило высказывают чуть по-другому: в однократном испытании маловероятное событие не происходит (и наоборот - обязательно происходит событие, вероятность которого близка к 1). Слово «однократный» вставлено ради уточнения, ибо в достаточно длинной последовательности независимых повторений опыта упомянутое маловероятное (в одном опыте!) событие встретится почти обязательно. Но это уже совсем другая ситуация.

Остается еще не разъясненным, какую вероятность следует считать малой. На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто - при проверке статистических гипотез, например, о чем см. ниже - полагают малыми вероятности, начиная с 0.01 ¸ 0.05. Другое дело - надежность технических устройств, например, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем, 0.001, так как выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероятность безотказной работы была бы порядка 1-10 -6 . Мы не будем обсуждать здесь, насколько реалистичны подобные требования: может ли обеспечить такую точность в расчете вероятности неизбежно приближенная математическая модель и как затем сопоставить расчетные и реальные результаты.

Предупреждения. 1. Следует дать несколько советов, как надо строить статистические модели, притом зачастую в задачах, не имеющих явного статистического характера. Для этого надо присущие обсуждаемой проблеме черты выразить в терминах, относящихся к выборочному пространству и распределению вероятностей. К сожалению, в общих словах этот процесс описать невозможно. Более того, этот процесс является творческим, и его невозможно заучить как, скажем, таблицу умножения. Но ему можно научиться, изучая образцы и примеры и следуя их духу. Мы разберем несколько таких примеров. В дальнейшем мы также будем уделять особое внимание этой стадии статистических исследований.

2. При формализации реальных задач могут возникать весьма разнообразные статистические модели. Однако математической теорией подготовлены средства для исследования лишь ограниченного числа моделей. Для ряда типовых моделей теория разработана очень подробно, и там можно получить ответы на основные вопросы, интересующие исследователя. Некоторую часть таких стандартных моделей, с которыми на практике приходится иметь дело чаще всего, мы обсудим в данной книге. Другие можно найти в более специальных и подробных руководствах и справочниках.

3. Об ограниченности математических средств стоит помнить и при математической формализации эксперимента. Если возможно, надо свести дело к типовой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речь идет о статистическом обследовании; при постановке опытов, если мы говорим об активном эксперименте.

Допущения, воплощенные в статистическом моделировании, описывают набор вероятностных распределений, некоторые из которых, как предполагается, адекватно приближают распределение. Из определения отбирается конкретный набор данных. Распределения вероятностей, присущие статистическому моделированию, - это то, что отличает статистические модели от других, не статистических, математических моделей.

Связь с математикой

Этот научный метод коренится, прежде всего, в математике. Статистическое моделирование систем обычно задается математическими уравнениями, которые связывают одну или несколько случайных величин и, возможно, других неслучайных переменных. Таким образом, статистическая модель является «формальным представлением теории» (Герман Адер, цитируя Кеннета Боллена).

Все статистические проверки гипотез и все статистические оценки получены из статистических моделей. В более общем смысле, статистические модели являются частью основы статистического вывода.

Методы статистического моделирования

Неформально статистическая модель может рассматриваться как статистическое допущение (или набор статистических допущений) с определенным свойством: это допущение позволяет нам вычислять вероятность любого события. В качестве примера рассмотрим пару обычных шестигранных кубиков. Мы будем изучать два различных статистических предположения о кости.

Первое статистическое предположение составляет статистическую модель, потому что только с одним допущением мы можем вычислить вероятность любого события. Альтернативное статистическое допущение не составляет статистической модели, потому что только с одним допущением мы не можем рассчитать вероятность каждого события.

В приведенном выше примере с первым допущением вычислить вероятность события легко. Однако в некоторых других примерах расчет может быть сложным или даже непрактичным (например, это может потребовать миллионов лет вычислений). Для предположения, составляющего статистическую модель, такая трудность является приемлемой: выполнение вычисления не должно быть практически осуществимым, просто теоретически возможным.

Примеры моделей

Предположим, что у нас есть популяция школьников с равномерно распределенными по возрасту детьми. Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 5 футов (примерно 152 см). Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии, например: рост = b0 + b1agei + εi, где b0 - пересечение, b1 - параметр, на который умножается возраст при получении прогноза роста, εi - термин ошибки. Это подразумевает, что рост предсказывается возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (heighti = b0 + b1agei) не может быть уравнением для модели данных - если только она точно не соответствует всем точкам данных, то есть все точки данных идеально лежат на линии. Член ошибки εi должен быть включен в уравнение, чтобы модель соответствовала всем точкам данных.

Чтобы сделать статистический вывод, нам сначала необходимо принять некоторые вероятностные распределения для εi. Например, мы можем предположить, что распределения εi являются Гауссовскими, с нулевым средним параметром. В этом случае модель будет иметь 3 параметра: b0, b1 и дисперсию распределения Гаусса.

Общее описание

Это особый класс математической модели. Что отличает статистическую модель от других математических моделей, так это то, что она недетерминирована. С ее помощью осуществляется моделирование статистических данных. Таким образом, в статистической модели, определенной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; то есть некоторые переменные являются стохастическими. В приведенном выше примере ε является стохастической переменной; без этой переменной модель была бы детерминированной.

Статистические модели часто используются в статистическом анализе и моделировании, даже если моделируемый физический процесс является детерминированным. Например, подбрасывание монет в принципе является детерминированным процессом; все же это обычно моделируется как стохастический (через процесс Бернулли).

Параметрические модели

Являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Как правило, они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». Как и все прочие упомянутые модели, также часто используются в статистическом методе математического моделирования.

Многоуровневые модели

Многоуровневые модели (так же известные, как иерархические линейные модели, модели с вложенными данными, смешанные модели, случайные коэффициенты, модели со случайными эффектами, модели со случайными параметрами или модели с разделением на участки) являются статистическими моделями параметров, которые варьируются на более чем одном уровне. Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учащихся, а также показатели для классных комнат, в которые сгруппированы студенты. Эти модели можно рассматривать как обобщения линейных моделей (в частности, линейной регрессии), хотя они также могут распространяться на нелинейные модели. Эти модели стали намного популярнее после того, как стали доступны достаточные вычислительные мощности и программное обеспечение.

Многоуровневые модели особенно подходят для исследовательских проектов, где данные для участников организованы на более чем одном уровне (то есть, вложенные данные). Единицами анализа обычно являются отдельные лица (на более низком уровне), которые вложены в контекстные / совокупные единицы (на более высоком уровне). В то время как самый низкий уровень данных в многоуровневых моделях, как правило, индивидуальный, повторные измерения отдельных лиц также могут быть рассмотрены. Таким образом, многоуровневые модели предоставляют альтернативный тип анализа для одномерного или многомерного анализа повторных измерений. Индивидуальные различия в кривых роста могут быть рассмотрены. Кроме того, многоуровневые модели могут использоваться в качестве альтернативы ANCOVA, где баллы по зависимой переменной корректируются для ковариат (например, индивидуальных различий) перед тестированием различий в лечении. Многоуровневые модели способны анализировать эти эксперименты без предположения об однородности наклонов регрессии, что требуется ANCOVA.

Многоуровневые модели можно использовать для данных со многими уровнями, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только этим. Зависимая переменная должна быть исследована на самом низком уровне анализа.

Выбор модели

Выбор модели - это задача выбора из набора моделей-кандидатов с учетом данных, осуществляемая в рамках статистического моделирования. В простейших случаях рассматривается уже существующий набор данных. Тем не менее задача может также включать планирование экспериментов таким образом, чтобы собранные данные хорошо подходили для задачи выбора модели. Учитывая модели-кандидаты с аналогичной предсказательной или объяснительной силой, простейшая модель, скорее всего, будет лучшим выбором (бритва Оккама).

Представители компании Konishi & Kitagawa заявляют: «Большинство проблем статистического вывода можно считать проблемами, связанными со статистическим моделированием». Аналогичным образом, Кокс сказал: «Как осуществляется перевод предметной проблемы в статистическую модель, часто является наиболее важной частью анализа».

Выбор модели может также относиться к проблеме выбора нескольких репрезентативных моделей из большого набора вычислительных моделей для целей принятия решений или оптимизации в условиях неопределенности.

Графические модели

Графическая модель, или вероятностная графическая модель, (PGM) или структурированная вероятностная модель, - это вероятностная модель, для которой график выражает структуру условной зависимости между случайными величинами. Они обычно используются в теории вероятностей, статистике (особенно в байесовской статистике), и в машинном обучении.

Эконометрические модели

Эконометрические модели - это статистические модели, используемые в эконометрике. Эконометрическая модель определяет статистические отношения, которые, как полагают, существуют между различными экономическими величинами, относящимися к конкретному экономическому явлению. Эконометрическая модель может быть получена из детерминированной экономической модели, учитывающей неопределенность, или из экономической модели, которая сама является стохастической. Тем не менее также можно использовать эконометрические модели, которые не привязаны к какой-либо конкретной экономической теории.

Математическая статистика - раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей случайных явлений и процессов. В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Математическая статистика объединяет различные методы статистического анализа, базирующиеся на использовании статистических закономерностей или их характеристик.

Историю статистики обычно рассматривают начиная с задачи восстановления зависимостей, с момента разработки К. Гауссом в 1794 г. (по другим данным - в 1795 г.) метода наименьших квадратов. Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ, различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) и др. В начале XX в. теорию математической статистики развивал А. А. Чупров. В теорию случайных процессов значительный вклад внесли А. А. Марков, Е. Е. Слуцкий, А. Н. Колмогоров, А. Я. Хинчин и др. Разработанную в первой трети XX в. теорию анализа данных называют параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: "Статистика состоит из трех разделов:

  • 1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
  • 2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
  • 3) разработка приемов статистического наблюдения и анализа статистических данных.

Последний раздел, собственно, и составляет содержание математической статистики".

По степени специфичности методов, сопряженной с погруженностью в конкретные проблемы, выделяют три вида научной и прикладной деятельности в области статистических методов анализа данных:

  • а) разработка и исследование методов общего назначения, без учета специфики области применения;
  • б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
  • в) применение статистических методов и моделей для статистического анализа конкретных данных.

Наиболее распространенными методами статистического анализа являются:

  • регрессионный анализ (основан на сравнении математических ожиданий);
  • дисперсионный анализ (основан на сравнении дисперсий);
  • корреляционный анализ (учитывает математические ожидания, дисперсии и характеристики связей между событиями или процессами);
  • факторный анализ (статистическая обработка многофакторного эксперимента);
  • ранговая корреляция (сочетание корреляционного и факторного анализов).

При применении различных методов математической статистики статистические закономерности или их характеристики получают различными способами: путем наблюдения и исследования выборок, с помощью приближенных методов, основанных на различных способах преобразования или разбиения выборки в форму вариационного ряда, разбиения выборок на потоки, разрезы, случайные интервалы времени и т.д.

Математическая статистика используется в различных сферах управления.

Термин "статистика" первоначально использовался для описания экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: "статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом". И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение. Статистику определяли как отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.

Слово "статистика" происходит от латинского status - состояние дел. В науку термин "статистика" ввел немецкий ученый Готфрид Ахенвалль в 1746 г., предложив заменить название курса "Государствоведение", преподававшегося в университетах Германии, на "Статистика", положив тем самым начало развитию статистики как науки и учебной дисциплины.

В статистике применяется специальная методология исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Развитие вычислительной техники оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужили причиной повышенного интереса к нелинейным моделям, таким как искусственные нейронные сети, и привели к разработке сложных статистических моделей, например обобщенной линейной модели и иерархической модели. Получили широкое распространение вычислительные методы, основанные на повторной выборке. В настоящее время развивается вычислительная статистика, существует разнообразное статистическое программное обеспечение общего и специализированного назначения. Статистические методы используются в направлении, называемом "Интеллектуальный анализ данных" (см. гл. 8).

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНОБРНАУКИ РОССИИ

Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Южный федеральный университет»

Кафедра «Информационно- измерительная техника и технология»

Специальность

230201 Информационные системы и технологии

РЕФЕРАТ

По предмету: «Организация исследований и разработок»

На тему: «Методы математического моделирования в статистике»

Выполнил студент: Строцев Василий Андреевич

Преподаватель: Гусенко Тамара Григорьевна

1. Элементы математической статистики

Математической статистикой называют раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. Статистические данные здесь понимаются как сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Главная цель математической статистики - получение осмысленных, научно обоснованных выводов из подверженных случайному разбросу данных. При этом само изучаемое явление, генерирующее эти данные, чаще всего слишком сложно, чтобы можно было составить его полное описание, отражающее все детали. Поэтому статистические выводы делаются на основе некоторой математической вероятностной модели реального случайного явления, которая должна воспроизводить его существенные черты и исключать те, которые предполагаются несущественными. Методы математической статистики позволяют по наблюдениям над изучаемым явлением определить вероятностные характеристики случайных величин, участвующих в математической модели, описывающей это явление.

Задача математической статистики - установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных- результатов наблюдений. Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.

Первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования, в ходе исследования и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Здача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

1.1 Генеральная и выборочная совокупность статистических данных

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.

Качественными признаками объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Иногда проводиться сплошное обследование, т.е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности.

Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.

Генеральной (основной) совокупностью называют совокупность, объектов из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n =100. Число объектов генеральной совокупности N значительно превосходит объем выборки n.

1.2 Способы выборки

При составлении выборки можно поступать двумя способами: после того как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В соответствии со сказанным выборки подразделяют на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли (выборка должна правильно представлять пропорции генеральной совокупности) - выборка должна быть репрезентативной (представительной).

Выборка будет репрезентативной, если:

· каждый объект выборки отобран случайно из генеральной совокупности;

· все объекты имеют одинаковую вероятность попасть в выборку.

1.3 Способы группировки статистических данных

1.3.1 Дискретный вариационный ряд

Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке.

Пример 1. Проводились наблюдения над числом Х оценок полученных студентами ВУЗа на экзаменах. Наблюдения в течение часа дали следующие результаты: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5. Здесь число Х является дискретной случайной величиной, а полученные о ней сведения представляют собой статистические (наблюдаемые) данные.

Расположив приведенные выше данные в порядке неубывания и сгруппировав их так, что в каждой отдельной группе значения случайной величины будут одинаковы, получают ранжированный ряд данных наблюдения.

В примере 1 имеем четыре группы со следующими значениями случайной величины: 2; 3; 4; 5. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называют вариантом, а изменение этого значения варьированием.

Варианты обозначают малыми буквами латинского алфавита с соответствующими порядковому номеру группы индексами - xi . Число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений называют частотой варианта и обозначают соответственно - ni .

Сумма всех частот ряда - объем выборки. Отношение частоты варианта к объему выборки ni / n = wi называют относительной частотой.

Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (табл. 1, табл. 2).

Пример 2. Задано распределение частот выборки объема n = 20 :

Таблица 1

Контроль : 0,15 + 0,50 + 0, 35 = 1.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Дискретным вариационным рядом распределения называют ранжированную совокупность вариантов xi с соответствующими им частотами ni или относительными частотами wi .

Для рассмотренного выше примера 1 дискретный вариационный ряд имеет вид:

Таблица 3

Контроль : сумма всех частот вариационного ряда (сумма значений второй строки таблицы 3) есть объем выборки (в примере 1 n = 60 ); сумма относительных частот вариационного ряда должна быть равна 1 (сумма значений третьей строки таблицы 3)

1.3.2 Интервальный вариационный ряд

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует строить интервальный вариационный ряд распределения.

Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называют упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

Для построения интервального ряда необходимо:

1. определить величину частичных интервалов;

2. определить ширину интервалов;

3. установить для каждого интервала его верхнюю и нижнюю границы;

4. сгруппировать результаты наблюдении.

1. Вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке.

Приблизительно число интервалов k можно оценить исходя только из объема выборки n одним из следующих способов:

· по формуле Стержеса : k = 1 + 3,32·lg n ;

· с помощью таблицы 1.

Таблица 1

2. Обычно предпочтительны интервалы одинаковой ширины. Для определения ширины интервалов h вычисляют:

· размах варьирования R - значений выборки: R = xmax - xmin , где xmax и xmin - максимальная и минимальная варианты выборки;

· ширину каждого из интервалов h определяют по следующей формуле: h = R/k .

3. Нижняя граница первого интервала xh1 выбирается так, чтобы минимальная варианта выборки xmin попадала примерно в середину этого интервала: xh1 = xmin - 0,5·h .

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h :

xhi = xhi-1 +h .

Построение шкалы интервалов на основе вычисления границ интервалов продолжается до тех пор, пока величина xhi удовлетворяет соотношению:

xhi < xmax + 0,5·h .

4. В соответствии со шкалой интервалов производится группирование значений признака - для каждого частичного интервала вычисляется сумма частот ni вариант, попавших в i -й интервал. При этом в интервал включают значения случайной величины, большие или равные нижней границе и меньшие верхней границы интервала.

1.4 Полигон и гистограмма

Для наглядности строят различные графики статистического распределения. По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот называют ломанную, отрезки которой соединяют точки (x1 ; n1 ), (x2 ; n2 ),..., (xk ; nk ). Для построения полигона частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им частоты ni . Точки (xi ; ni ) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x1 ; W1 ), (x2 ; W2 ),..., (xk ; Wk ). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им относительные частоты Wi . Точки (xi ; Wi ) соединяют отрезками прямых и получают полигон относительных частот. В случае непрерывного признака целесообразно строить гистограмму.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению ni / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni / h .

Площадь i hni / h = ni - сумме частот вариант i - го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частотназывают ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению Wi / h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Wi / h (Рис. 2).

Площадьi - го частичного прямоугольника равна hWi / h = Wi - относительной частоте вариант попавших в i - й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

1.5 Оценка параметров генеральной совокупности

Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) М(Х) и среднее квадратическое отклонение s . Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.

Точечной оценкой генеральной средней является выборочное среднее.

Выборочным средним называется среднее арифметическое значение признака выборочной совокупности.

Если все значения x1, x2,..., xn признака выборки различны (или если данные не сгруппированы), то:

x1, x2,..., xn n1, n2,..., nk , причем n1 + n2 +...+ nk = n (или если выборочное среднее вычисляется по вариационному ряду), то

В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).

Для оценки с тепени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) - это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году.

Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения x1, x2,..., xn признака выборки объема n различны, то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk , причем n1 + n2 +...+ nk = n , то

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Среднее квадратическое отклонение (стандартное отклонение), (от английского standard deviation) вычисляется как корень квадратный из дисперсии.

Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Непараметрическими характеристиками положения являются мода и медиана.

Модой Mo называется варианта, имеющая наибольшую частоту или относительную частоту.

Медианой Me называется варианта, которая делит вариационный ряд на две части, равные по числу вариант.

При нечетном числе вариант (n=2k+1)

Me = xk+1 ,

а при четном числе вариант (n=2k)

Me = (xk + xk+1)/2 .

2. Корреляционный и регрессионный анализ

2.1 Корреляционный анализ

математический статистический группировка корреляционный

Корреляционный анализ предусматривает установление статистической связи между случайными величинами. Он может быть использован в педагогических исследованиях для оценки влияния одних факторов на другие и установления связи между ними в совокупности с другими параметрами - математическими ожиданиями и среднеквадратическими отклонениями. Корреляционный анализ непосредственно не может быть применен к выявлению причинно-следственных связей между случайными процессами. Он только устанавливает связь статистических характеристик связанных случайных процессов.

Пусть имеется две случайные величины X и Y c математическими ожиданиями mx и my соответственно. Корреляционный момент

Kxy =M((X-mx)(Y-my))

будет характеризовать связь между величинами X и Y. Для удобства использования корреляционные моменты нормируют по формуле

где уx и уy - среднеквадратические отклонения величин X и Y. Величина Kk - называется коэффициентом корреляции величин X и Y.

Для дискретных случайных величин, с которыми мы имеем дело, оценка коэффициента корреляции вычисляется по формуле

Формула для вычисления коэффициента корреляции справедлива при условии, что связь между случайными величинами линейна и каждая из этих величин подчинена нормальному закону.

Оценить статистическую связь между уровнем школьной подготовки и успеваемостью студентов первого курса по дисциплине «Информатика» Школьная подготовка оценивается путем тестирования при поступлении в вуз (величина X). Успеваемость студентов оценивается по результатам экзамена после первого семестра (величина Y). Номер студента обозначен N.

Исходные данные для расчета сведены в таблицу

Подставив данные из таблицы в выражение (1), получаем Kk=0,78.

Видим, что статистические характеристики величин X и Y близки друг к другу.

2.2 Регрессионный анализ

Регрессионный анализ ставит перед собой задачу статистического исследования зависимости между зависимой переменной и независимой переменной (регрессором или предикатором). В простейшем случае предполагается, что эта зависимость является линейной. Решается задача построения линейной зависимости вида y=ax+b, где хi и yi независимая и зависимая переменный соответственно (i=1,2,3,…). Решение находится методом наименьших квадратов. Минимизируется величина

min находятся коэффициенты a и b.

Расчетные формулы имеют следующий вид:

По существу, совокупность экспериментально полученных точек приближенно заменяется аналитической зависимостью y=ax+b. Такая замена существенно упрощает математические преобразования и может быть использована при построении аналитических моделей. В общем случае для построения регрессионной зависимости может быть выбрана не только линейная, но и любая другая функция. Естественно, формулы вычисления искомых параметров усложняются.

3. Математические методы оптимизации экспериментов

3.1 Симплексный метод оптимизации

Симплексом называется правильный многогранник, имеющий п+1 вершину, где п - число факторов, влияющих на процесс. Так, например, если факторов два, то симплексом является правильный треугольник.

Рис. 1 Оптимизация по симплексному методу

Начальная серия опытов соответствует вершинам исходного симплекса (точки 1, 2 и 3). Условия этих первых опытов берутся из области значений факторов, соответствующих наиболее благоприятным из известных режимов оптимизируемого процесса. Сравнивая между собой результаты опытов в точках 1, 2 и 3, находят среди них самый «плохой», с точки зрения выбранного критерия оптимальности. Пусть, например, самым «неудачным» оказался опыт в точке 1. Этот опыт исключают из рассмотрения, а вместо него в состав симплекса вводят опыт в точке 4, которая симметрична точке 1 относительно противоположной стороны треугольника, соединяющей точки 2 и 3.

Далее сравнивают между собой результаты опытов в вершинах нового симплекса, отбрасывают самый «неудачный» из них и переносят соответствующую вершину симплекса в точку 5. Затем рассмотренная процедура повторяется в течение всего процесса оптимизации.

Если экстремум критерия оптимальности достигнут, то дальнейшее движение симплекса прекращается. Это значит, что новый шаг возвращает исследователя в предыдущую точку факторного пространства.

Если существует несколько экстремумов критерия оптимальности, то этот метод позволяет найти тот из них, который расположен ближе к точкам исходного симплекса. Поэтому, если есть подозрение о существовании нескольких экстремумов критерия оптимальности, нужно осуществить их поиск, каждый раз начиная оптимизацию из новой области факторного пространства. Затем следует сравнить между собой найденные оптимальные условия и из всех вариантов выбрать наилучший.

При оптимизации необходимо принимать во внимание ограничения, наложенные на влияющие факторы и функции отклика.

Важно отметить, что при пользовании симплексным методом не обязательно дублировать опыты. Дело в том, что ошибка в отдельном опыте может только несколько замедлить оптимизацию. Если же последующие опыты выполняются безупречно, то движение к оптимуму продолжается.

Матрица опытов исходного симплекса в кодированных переменных приведена в табл.11.

Величины, входящие в эту таблицу, рассчитываются по следующим формулам:

Здесь i--номер фактора в матрице планирования. Символом 0 обозначены координаты центра плана, т. е. основной уровень.

Таблица 11

Матрица исходного симплекса

Номер опыта

X 2

Функция отклика

K 2

K 2

Опыты, представленные в табл. 11, соответствуют вершинам симплекса, сторона которого равна единице, а центр совпадает с началом координат (в кодированных переменных).

Результаты расчетов, выполненных на основании табл. 11 и формул (*).приведены в табл. 12.

Таблица 12

Условия начальной серии опытов

Номер опыта

Очевидно, наибольшее количество опытов приходится ставить в начале эксперимента. Затем на каждом шаге оптимизации выполняется только один опыт.

Приступая к оптимизации, необходимо с помощью табл. 11 или 12 рассчитать матрицу исходной серии опытов в физических переменных, пользуясь формулой

В дальнейшем все операции производятся только с физическими1. переменными.

Условия каждого нового опыта рассчитываются по формуле:

где п-- число факторов в матрице планирования;

j -- номер опыта;

i--номер фактора;

Значение i-го фактора в самом «неудачном» опыте предыдущего симплекса.

Следует отметить, что на любом шаге оптимизации, осуществляемой симплексным методом, можно включить в программу исследований новый фактор, который до тех пор не принимался во внимание, но оставался на постоянном уровне.

При этом значения всех ранее рассматриваемых факторов рассчитываются по формуле:

где 1= 1, 2,..., п, то есть являются средними арифметическими значениями соответствующих координат предыдущего симплекса.

Значение вновь вводимого фактора определяется по формуле:

где x0(n+1)--основной уровень этого фактора;

Дxn+1--выбранный шаг варьирования для данного фактора;

Rn +1, kn +1 --величины, рассчитываемые по формулам (*).

Отметим, что добавление нового фактора в состав полного «факторного эксперимента сопровождается увеличением количества опытов вдвое. В этом смысле симплексный метод имеет очевидное преимущество.

Пример 3.2. Пусть требуется с помощью симплексного метода оптимизировать выход целевого продукта у (%), который получается при взаимодействии двух реагентов с концентрациями x1 и x2 () при температуре x3 (°С).

Выберем основные уровни и шаги варьирования факторов и сведем их в табл. 13.

Таблица 13

Значения уровней факторов и шагов варьирования

Основной уровень

Шаг варьирования

Пользуясь формулой (3.5) и табл. 12, рассчитаем условия проведения первых четырех опытов и полученные результаты сведем в табл. 14. Так, например, для третьего опыта

x31=1+0,1*0==1; x32== 1,50 +0,2 (--0,578) ==1,38; x33=60+5*0,204==61.

Таблица 14

Оптимизация симплексным методом

Номер опыта

Функция отклика

Сравнивая между собой результаты первых четырех опытов, видим, что самый низкий выход целевого продукта получился в третьем опыте. Этот опыт следует исключить из дальнейшего рассмотрения.

Заменим его опытом 5, условия проведения которого рассчитаем по формуле (**):

В новом симплексе, образованном опытами 1, 2, 4 и 5, самым «неудачным» является опыт 4. Его заменим опытом 6, условия которого найдем, пользуясь той же формулой (**).

Рассмотрим теперь вопрос о том, как включить в программу исследований еще один фактор, например скорость вращения мешалки. Пусть до этих пор она была постоянной и равной 500 об/мин. Теперь будем считать эту величину фактором x4 и примем для нее шаг варьирования Дx4==100 об/мин.

Предыдущий симплекс для трех факторов (см. табл. 14) состоит из опытов 1, 2, 5 и 6. Чтобы из него получить новый симплекс для четырех факторов, введем опыт 7 (табл. 15).

Таблица 15

Добавление нового фактора в программу оптимизации

Номер опыта

Функция отклика

Условия проведения 7-го опыта найдем по формулам (3.7) и (3.8):

Размещено на Allbest.ru

...

Подобные документы

    Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат , добавлен 10.12.2010

    Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа , добавлен 13.12.2014

    Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа , добавлен 10.04.2011

    Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа , добавлен 18.01.2016

    Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.

    презентация , добавлен 19.12.2012

    Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа , добавлен 21.09.2009

    Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат , добавлен 12.11.2009

    Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа , добавлен 01.04.2014

    Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа , добавлен 29.03.2013

    Первичная обработка статистических данных по количеству зарегистрированных абонентских терминалов сотовой связи за 2008 год на 1000 населения в регионах России. Интервальное оценивание параметров. Гипотеза о виде распределения. Регрессионный анализ.

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS . СПб: Издательский дом СПб МАПО.- 2005

При проведении любого научного исследования достоверности выводов угрожают три основных причины:

1. Систематические ошибки

2. Случайные ошибки

3. Влияние третьих переменных (конфаундинг)

Воздействие систематических ошибок минимизируется на этапе выбора дизайна исследования, статистическая обработка, направленная на тестирование статистических гипотез пытается устранить влияние случайных ошибок (минимизация случайных ошибок - соответствующий объем выборки), а вот попытка описания влияния третьих переменных часто является причиной для работы со статистическими моделями.

Статистические модели построены на том, что вначале делается предположение о характере связей между анализируемыми переменными, затем проверяется соответствие данных модели и в зависимости от степени этого соответствия делаются определенные выводы.

Простейшей формой статистической модели является линейная регрессия. При ее использовании делается предположение о том, что два показателя связаны друг с другом линейно и именно эта гипотеза и проверяется (кроме того делается предположение о том, что одна переменная зависит от другой). Таким образом, статистические модели базируются на двух типах допущений - как и методы тестирования статистических гипотез они предполагают, что данные распределены определенным образом (чаще всего по нормальному закону распределения), и в дополнение к этому делается предположение о характере связи. Поэтому сделать ошибку при использовании статистических моделей в два раза легче и они обычно рассматриваются как инструментарий требующий дополнительной подготовки в области статистики.

Точно также, как и в случае с тестированием гипотез, для простоты понимания нам следует рассмотреть отдельно модели для качественных и количественных переменных. Хотя медицинские исследователи сейчас чаще работают с качественными показателями, статистические модели лучше разработаны для количественных переменных.

В принципе возможны следующие варианты при которых мы можем захотеть использовать статистические модели:

1. Зависимая переменная количественная, независимые переменные тоже количественные - основной тип модели - множественная (линейная) регрессия

2. Зависимая переменная количественная, независимые переменные качественные - основной тип модели - многофакторный дисперсионный анализ

3. Зависимая переменная количественная, независимые переменные как количественные, так и качественные - основной тип модели - общая линейная модель

4. Зависимая переменная качественная, независимые переменные тоже качественные - основной тип модели - логлинейный анализ

5. Зависимая переменная качественная, независимые переменные количественные - основной тип модели - дискриминантный анализ

6. Зависимая переменная качественная, независимые переменные как качественные, так и количественные - основной тип модели - логистическая регрессия.

Как видно из приведенного выше списка, в целом существуют две наиболее общие процедуры - общая линейная модель для зависимых количественных переменных и логистическая регрессия для зависимых качественных переменных, а все остальные модели являются частными случаями этих двух.

Для ряда приложений, например анализа выживаемости пациентов в проспективном исследовании, описанные выше методики оказались недостаточно приемлемыми, поскольку в этом случае имеется более одной зависимой переменной (одна - что произошло с пациентом, вторая - когда это произошло). Поэтому для анализа выживаемости были разработаны специальные формы статистических моделей, наиболее известными из них являются параметрические регрессионные методы (Вейбулла) и непараметрические регрессионные модели (модель Кокса).

Существуют еще специальные формы статистических моделей, которые пытаются найти скрытые связи между включенными в анализ переменными и наблюдениями. Эти методики пришли в биостатистику из психометрии и к ним относятся:

1. Факторный анализ - методика обнаружения ненаблюдаемых напрямую факторов, отвечающих за связи между количественными переменными

2. Кластерный анализ - методика объединения наблюдений или переменных в группы на основании "одинаковости" измеренных количественных характеристик

3. Корреспондентский анализ - аналог факторного анализа для многомерных таблиц

4. Многомерное шкалирование - методика, пытающаяся расположить переменные друг относительно друга в пространстве меньшей размерности (создать аналог географической карты)

В последнее время, в связи с переходом в хранении данных на компьютерные носители и, в связи с этим, с резким увеличением рутинно собираемых данных, появились новые статистические модели, направленные на выявление закономерностей в крупных и плохоструктурированных базах данных. К ним относятся:

1. Древовидное моделирование (regression trees) - методика сегментирования данных, нахождения точек, которые наилучшим образом разделяют наблюдения на группы в зависимости от значения итоговой переменной (например, определение группы риска больничной летальности в зависимости от большого набора биохимических показателей, измеренных при госпитализации)

2. Нейросетевое моделирование (neural networks) - методика определения связей между набором входных параметров и зависимой переменной, которая не делает предположений об истинной форме этих связей (как, например, линейная регрессия). Для статистиков нейросетевое моделирование - это множественная нелинейная регрессия. Программы нейросетевого моделирования формируют структуру, которая, работая по принципу "черного ящика" может достаточно точно предсказать выходные параметры на основании набора входных величин.

Надо заметить, что эти методики, особенно нейросетевого моделирования, нашли широкое применение в технических приложениях. Системы машинного видения, оптического распознавания символов, биометрические системы безопасности, почти все они используют алгоритмы нейросетевого моделирования. Однако в медицинских исследованиях использование этих методов, после короткого периода увлечения, широко не распространилось. Причиной тому является необходимость наличия огромных массивов данных если есть желание получить реальную, работающую модель. Обычно для нейросетевой и древовидной моделей требуются тысячи наблюдений, причем наблюдения должны быть достаточно гомогенными. В случае небольших групп, часто возникает т.н. Подгонка модели под данные (overfitting), когда модель прекрасно описывает данный набор результатов, но абсолютно неприменима на людом другом наборе данных.

Очень легко представить себе, почему это происходит. Нейросетевое моделирование базируется на попытке разделить данные на группы при условии наличия большого количества входных параметров. Предположим, что мы хотим научить компьютер отличать мужчин от женщин, и представляем ему группу, состоящую из преподавателя биостатистики и трех аспиранток. Тогда, проанализировав данные, компьютер легко найдет правило, дифференцирующее мужчин и женщин: если некто преподаватель, то он мужчина. В данной группе разделение будет лучшим, нежели по любым другим параметрам, таким как тембр голоса, охват талии и бедер, длина волос и т.п. Однако будет ли подобный результат генерализуем?

Именно по причине зависимости от большого количества наблюдений, методы нейросетевого и древовидного моделирования не находят большого распространения в медицинской науки, а учитывая тот грустный факт, что отечественная наука в последнее время вообще предпочитает работать с небольшими выборками, до широкого применения их еще можно ждать достаточно долго (возможно, ситуация изменится с повсеместным внедрением компьютеризированных регистров заболеваний, например раковых регистров).