Методы обработки выборки исходных данных

Способы первичной обработки выборки

Пусть интересующая нас случайная величина Х принимает в выборке значение х1 п1 раз, х2 – п2 раз, …, хк – пк раз, причемгде п – объем выборки.

Тогда наблюдаемые значения случайной величины х1, х2,…, хк называют вариантами, а п1, п2,…, пкчастотами.

Отношение частоты данного варианта к общей сумме частот называется частностью (или относительной частотой) и обозначается,, т.е.или Разность между максимальным и минимальным элементами выборки называетсяразмахом выборки.

Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:

xi x1 x2 xk
ni n1 n2 nk
wi w1 w2 wk

Вариационный ряд, заданный в таком виде, называют дискретным

Пример 2.1. На телефонной станции проводились наблюдения над числом Х неправильных соединений в минуту. Наблюдения в течение часа дали следующие 60 значений:

3; 1; 3; 1; 4; ï 1; 2; 4; 0; 3; ï 0; 2; 2; 0; 1; ï1; 4; 3; 1; 1;

4; 2; 2; 1; 1; ï 2; 1; 0; 3; 4; ï 1; 3; 2; 7; 2; ï0; 0; 1; 3; 3;

1; 2; 1; 2; 0; ï 2; 3; 1; 2; 5; ï 1; 2; 4; 2; 0; ï 2; 3; 1; 2; 5.

Выполним операции ранжирования (операция – ранжирование опытных данных, результатом которого являются значения, расположенные в порядке неубывания) и группировки.

В результате были получены семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7.

При этом значение 0 в этой группе встречается 8 раз, значение 1 – 17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, значение 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения частот и частностей приведены в табл. 2.1.

Таблица 2.1

Индекс 1, 2, 3, 4, 5, 6, 7
Вариант 0, 1, 2, 3, 4, 5, 7
Частота 8, 17, 16, 10, 6, 2, 1
Частность

Таким образом, получен дискретный ряд:

,

где в скобках указаны соответствующие частоты. В отличие от исходных данных, этот ряд позволяет делать некоторые выводы о статистических закономерностях.

Пример.При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.Составим вариационный ряд: 0,1,2,3,4,5. Размах выборки равен 5. Статистический ряд для абсолютных и относительных частот имеет вид:

xi
ni
wi 0,15 0,3 0,25 0,15 0,1 0,05

Пример.Дана выборка, состоящая из чисел: 3.2, 4.1, 8.1, 8.1, 6.7, 4.4, 4.4, 3.2, 5.0, 6.7, 6.7, 7.5, 3.2, 4.4, 6.7, 6.7, 5.0, 5.0, 4.4, 8.1. Составить статистический ряд распределения абсолютных и относительных частот.

Объем выборки п = 20. Перепишем варианты в порядке возрастания:

3.2, 3.2, 3.2, 4.4, 4.4, 4.4, 4.4, 4.4, 5.0, 5.0, 5.0, 6.7, 6.7, 6.7, 6.7, 6.7, 7.5, 8.1, 8.1, 8.1. Составлен так называемый вариационный ряд, который показывает, что выборка состоит из шести вариант. Составим статистический ряд:

xi 3.2 4.4 5.0 6.7 7.5 8.1
ni
wi 0,15 0,25 0,15 0,25 0,05 0,15

(относительная частота). ◄

Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд, под которым понимают упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частностями попаданий в каждый из них значений случайной величины.

Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде

,

где- число интервалов. Количество интервалов рассчитывают по эмпирической формуле Старджеса:, где n – объем выборки

Обратите внимание

Длинуследует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Для вычислениярекомендуется использовать следующую формулу:

,

где– наибольшее и наименьшее значения случайной величины. Если окажется, что– дробное число, то за длину интервала следует принять либо ближайшую простую дробь, либо ближайшую целую величину. При этом необходимо выполнение условий:

.

После нахождения частных интервалов определяется, сколько значений случайной величины попало в каждый конкретный интервал. Для определенности считают левый конец интервала закрытым, а правый – открытым. В интервал включают значения, большие или равные нижней границе и меньшие верхней границы.

¨ Пример 2.3.При изменении диаметра валика после шлифовки была получена следующая выборка (объемом):

20.3 15.4 17.2 19.2 23.3 18.1 21.9
15.3 16.8 13.2 20.4 16.5 19.7 20.5
14.3 20.1 16.8 14.7 20.8 19.5 15.3
19.3 17.8 16.2 15.7 22.8 21.9 12.5
10.1 21.1 18.3 14.7 14.5 18.1 18.4
13.9 19.8 18.5 20.2 23.8 16.7 20.4
19.5 17.2 19.6 17.8 21.3 17.5 19.4
17.8 13.5 17.8 11.8 18.6 19.1

Необходимо построить интервальный вариационный ряд, состоящий из семи интервалов.

Решение. Так как наибольшая варианта равна 23.8, а наименьшая 10.1, то вся выборка попадает в интервал (10,24). Мы расширили интервал (10.1,23.8) для удобства вычислений. Длина каждого частичного интервала равна. Получаем следующие семь интервалов:

а соответствующий интервальный вариационный ряд представлен в табл. 2.2.

Таблица 2.2

Х 10–12 12–14 14–16 16–18 18–20 20–22 22–24

От интервального ряда можно перейти к дискретному статистическому ряду, взяв на каждом интервале (хi, xi+1) за отдельное значение хi* величину

являющуюся серединой этого интервала.

Приемы обработки выборок

1. Ранжирование– упорядочение элементов выборки в порядке возрастания. Одинаковые значения повторно включаются в ранжированный ряд.

2. Чтобы избежать дальнейших громоздких действий с выборкой, строится группированный статистический ряд:

– определяется диапазон выборки

[xmin, xmax];

– находится шаг разбиения

;

– вычисляются границы интервалов (с точностью не менее трех знаков после запятой):

z0= xmin, z1 = z + h, z2= z1 + h, z3= z2+ h; z4 = z3 + h, z5 = z4 + h; и т.д.

– находятся значения середин интервалов, i = 1, …, 5, :

,,,,и т.д.

– вычисляются частоты попадания значений в интервалы: n1, n2, n3, n4, n5…, при этом должна выполняться контрольная сумма:.

– находятся относительные частоты попадания значений в интервалы:

w1 = n1/n, w2 = n2/n, w3 = n3/n, w4 = n4/n, w5 = n5/n, и т.д. Здесь контролируется выполнение суммы:.

– вычисляются высоты ступеней гистограммы:,,,

,ит.д. Проверка:.

В результате получаем таблицу группированного статистического ряда:

Номер интервала, i
Границы интервалов, [zi–1, zi] [z, z1] [z1, z2] [z2, z3] [z3, z4] [z4, z5]
Середины интервалов,
Частоты попадания в интервалы, ni n1 n2 n3 n4 n5
Относительные частоты попадания, wi w1 w2 w3 w4 w5
Высоты ступеней гистограммы, 1/h

Группированный статистический ряд, включая в себя строкии wi, является аналогом закона распределения дискретной модели исследуемой нами генеральной совокупности.



Источник: https://infopedia.su/17x1360b.html

Статистические методы обработки данных

Лабораторная работа №1

СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ОПЫТНЫХ ДАННЫХ. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВБОРКИ

Цель: Научиться основным методам обработки данных, представленных выборкой. Изучить графические представления данных. Овладеть навыками расчета с помощью ЭВМ основных числовых характеристик выборки.

Основным объектом исследования в эконометрике является выборка. Выборкой объема n называются числа х1.х2….хn получаемые на практике при n – кратком повторении эксперимента в неизменных условиях. На практике выборку чаще всего представляют статистическим рядом.

Для этого вся числовая ось, на которой лежат значения выборки, разбивается на kинтервалов ( это число выбирается произвольно от 5 до 10), которые обычно равны, вычисляются середины интервалов zn и считается число элементов выборки, попадающих в каждый интервал n1. статистическим рядом называется последовательность пар (z1.n1).

Рассмотрим решение задачи на ЭВМ и ППП EXCEL на следующей примере.

ПРИМЕР. Дана выборка чисел выручки магазина за 30 дней:

72 74 69 71 73 68 73 77 76 77 76 76 76 64 65
75 70 75 71 69 72 69 78 72 67 72 81 75 72 69

Построим статистический ряд, полигон, гистограмму и кумулятивную кривую.

Откроем книгу программы EXCEL. Введем в первый столбец (ячейки А1-А30) исходные данные. Определим область чисел, на какой лежат данные. Для этого найдем максимальный и минимальный элементы выборки.

Читайте также:  Роботы проявили альтруизм в процессе эволюции

Введем в В1 «Максимум», а в В2 «Минимум», а в соседних ячейках С1 и С2 определим функции «МАХ» и «МIN», в качестве аргументов которых (в графе «число») обведем область данных (ячейки А1-А30). Результатом будут 64 и 81.

видно, что все данные укладываются на отрезке [64;81]. Разделим его на 9 (выбирается произвольно от 5 до 10) интервалов:

64-66; 66-68: 68-70: 70-72: 72-74, 74-76, 76-78, 78-80, 80-82. в ячейке D1-D10 вводим верхние границы интегралов группировки – числа 66, 68, 70, 72, 74, 76, 78, 80, 82. Для вычисления частот n1 используют функцию ЧАСТОТА, находящуюся в категории «Статистические». Введем ее в ячейку Е1. в строке «Массив данных» введем диапазон выборки (ячейки А1-А30).

В строке «Двоичный массив» введем диапазон верхних границ интервалов группировки (ячейки D1-D9). Результат функции является массивом и выводится в ячейках Е1-Е9. для полного выбора (не только первого числа в Е1) нужно выделить ячейки Е1-Е9, обведя их мышью, и нажать F2, а далее одновременно CTRL+SHIFT+ENTER. Результат – частоты интервалов 2,2,5,7,3,7,3,0,1.

Для построения гистограммы нужно выбрать ВСТАВКА/ДИАГРАММА или нажать на соответствующий значок на основной панели (при этом курсор должен стоять в свободной ячейке) далее выбрать тип: ГИСТОГРАММА, вид по выборке, нажать «ДАЛЕЕ», в строке «ПОДПИСИ ОСИ Х» ввести интервалы ячейках D1-D5, нажать «ДАЛЕЕ» ввести название «ГИСТОГРАММА», подписи осей «ИНТЕВАЛЫ» и «ЧАСТОТА», нажать «ГОТОВО». Для создания полигона сделать то же самое, только вместо типа диаграммы «ГИСТОГРАММА», выбрать «ГРАФИК». Для построения кумулятивной кривой нужно посчитать накопленные частоты. Для этого в ячейку F1 вводим «=Е1», в F2 – вводим «=F1+Е2» и автозаполнением перетаскиваем эту ячейку до F9. далее строим график как и в случае полигона, но в строке «ДИАПАЗОН» вводим накопленные частоты, ссылаясь на          F1- F9, а на вкладке «РЯД», в строке «ПОДПИСИ ОСИ Х» вводим интервалы в ячейках D1-D9.

Находим основные числовые характеристики выборки. Для их ввода выделяем два столбца, например G и H, в первом вводим название характеристики, во втором – функцию, в которой в качестве массива данных (строка»ЧИСЛО1»), указать ссылку на А1-А30

Характеристика Функция
Объем выборки 30
Выборочное среднее 72,46666667
Дисперсия 15,63678161
Стандартное отклонение 3,954337063
Медиана 72
Мода 72
Коэффициент эксцесса -0,214617804
Коэффициент асимметрии -0,154098799
Персентиль 40% 72
Персентиль 80% 76

Существует другой способ вычисления числовых характеристик выборки. Для этого ставим курсор в свободную ячейку (например D11). Затем вызываем в меню «Сервис» подменю «Анализ данных».

Если в меню «Сервис» отсутствует этот пункт, то в меню «Сервис» нужно выбрать пункт «Надстройки» м в нем поставить флажок напротив пункта «Пакет анализа». В окне «Анализ данных» нужно выбрать пункт «Описательная статистика».

В появившемся окне в поле «Входной интервал» делаем ссылку на выборку А1-А23.

Оставляем группирование «По столбцам» в разделе «Параметры вывода» ставим флажок на «Выходной интервал» и в соседнем поле создаем ссылку на верхнюю левую ячейку области вывода (например D11), ставим флажок напротив «Описательная статистика», нажимаем «ОК». результат – основные характеристики выборки (сделайте шире столбцов D, переместив его границу в заголовок).

Лабораторная работа № 2

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Цель: Ознакомиться с методом проверки основных статистических гипотез, используемых в экономике, с помощью ЭВМ.

1. ПРОВЕРКА ГИПОТЕЗЫ О СООТВЕТСТВИИ (КРИТЕРИЙ СОГЛАСИЯ)

Важно

Используется для проверки предположения о том, что полученные в результате наблюдений данные соответствуют нормам. Рассматривается гипотеза о том, что отклонения от норм невелики, и ими можно пренебречь. При этом задается доверительная вероятность p которая имеет смысл вероятности не ошибиться при принятии гипотезы. Рассмотрим проверку на примере.

ПРИМЕР: 1. при производстве микросхем процессоров используются кристаллы кварца.

Стандартом предусмотрено, чтобы 50% образцов не было обнаружено ни одного дефекта кристаллической структуры, у 15% – один дефект, у 13% – 2 дефекта, у 12% – 3 дефекта, у 10% более 3 дефектов.

При анализе выборочной партии оказалось, что из 100 экземпляров распределение по дефектам партии оказалось, что из 1000 экземпляров распределение по дефектам следующего (вариант соответствует ЭВМ): Можно ли с вероятностью 0,99 считать, что партия соответствует стандарту?

Введем в А1 заголовок «НОРМА» и ниже в А2-А6 показатели – числа 500, 150, 130, 120, 100. в ячейку В1 введем заголовок «НАБЛЮДЕНИЯ» и ниже в В2-В6 наблюдаемые показатели 516, 148, 131, 110, 95. в третьем столбце вводятся формулы для критерия: С1 заголовок «КРИТЕРИЙ», в С2 формулу «=(А2-В2)*(А2-В2)/А2». Автозаполнением размножим эту формулу на С3-С6.

в ячейку С7 запишем общее значение критерия – сумму столбца С2-С6. для этого поставим курсор в С6 и вызвав функцию в категории «Математический» найдем СУММ и в аргументе «Число 1» укажем ссылку на С2-С6. получиться результат критерия Z= 1,629692308. Для ответа на вопрос, соответствуют ли опытные показатели нормам, Z сравнивают с критическим значением Zkp.

Вводим в D1 текст “критическое значение» в Е1 вводим функцию ХИ2ОБР (категория «Статистические») у которой два аргумента: «Вероятность» – вводим уровень значимости α =1-p и «Степени свободы» – вводят число n-1, где n – число норм). Результат 13,27670414.

видно, что критическое значение больше критерия, следовательно опытные данные соответствуют стандартным и партия с заданной вероятностью можно отнести как соответствующую стандарту.

Норма Наблюдения Критерий Критическое значение 13,27670414
500 516 0,512
150 148 0,026666667
130 131 0,007692308
120 110 0,833333333
100 95 0,25
1000 1,629692308

2. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ ДИСПЕРСИЙ

Используется в случае, если нужно проверить различается ли разброс данных (дисперсии) у двух выборов. Это может использоваться при сравнении точностей обработки деталей на двух станках, равномерности продаж товара в течении некоторого периода в двух городах и т.д. Для проверки статистической гипотезы, о равенстве дисперсий служит F – критерий Фишера.

Основной характеристикой критерия является уровень значимости α, которой имеет смысла вероятности ошибиться, предполагая, что дисперсии и, следовательно, точность, различаются. Вместо α в задачах так же иногда задают доверительную вероятность p=1- α, имеющую смысл вероятности того, что дисперсии и в самом деле равны.

Обычно выбирают критическое значение уровня значимости, например 0,05 или 0,1, и если α больше критического значения, то дисперсии считаются равными, в противном случае, различны.

Совет

При этом критерий может быть односторонним, когда нужно проверить, что дисперсия конкретной выделенной выборки больше, чем у другой, и двусторонним, когда просто нужно показать, что дисперсии не равны. Существует два способа проверки таких гипотез. Рассмотрим их на примерах.

ПРИМЕР 2. четыре станка в цеху обрабатывают детали. Для проверки точности обработки, взяли выборку размеров деталей у каждого станка.

Необходимо сравнить с помощью F-теста попарно точности обработки всех станков (рассмотреть пары 1-2, 1-3, 1-4, 2-3, 2-4, 3-4) и сделать вывод, для каких станков точности обработки (дисперсии) равны, для каких нет. Взять уровень значимости α=0,02.

1 станок 29,1 26,2 30,7 33,8 33,6 35,2 23,4 29,3 33,3 26,7
2 станок 29,0 28,9 34,0 29,7 39,4 28,5 35,9 32,6 37,1 28,0
3 станок 25,7 27,5 25,4 28,9 29,9 30,1 29,0 36,6 24,8 27,8
4 станок 32,1 31,0 27,2 29,3 30,4 31,7 30,4 27,3 35,7 31,5

Уровень значимости α=0,02. вводим данные выборок (без подписей) в 4 строчки в ячейки А1-J1 и А2-J2 и т.д. соответственно. Для вычисления ФТЕСТ (массив1; массив2).

Вводим А5 подпись А5 «Уровень значимости», а в В5 функцию, ФТЕСТ, аргументами которой должны быть ссылки на ячейку А1-J1 и А2-J2 соответственно.

Результат 0,873340161 говорит о том, что вероятность ошибиться, приняв гипотезу о различии дисперсий, около 0,9, что больше критического значения, заданного в условии задачи 0,02.

следовательно, можно говорить что опытные данные с большей вероятностью подтверждают предположения о том, что дисперсии одинаковы и точность обработки станков одинакова, такие же результаты показало сравнение остальных пар. Следует отметить, что функции ФТЕСТ выходит уровень значимости двустороннего критерия и если нужно использовать односторонний, то результат необходимо уменьшить вдвое.

29,1 26,2 30,7 33,8 33,6 35,2 23,4 29,3 33,3 26,7
29 28,9 34 29,7 39,4 28,5 35,9 32,6 37,1 28
25,7 27,5 25,4 28,9 29,9 30,1 29 36,6 24,8 27,8
32,1 31 27,2 29,3 30,4 31,7 30,4 27,3 35,7 31,5
Уровень значимости
1 – 2 0,873340161
1 – 3 0,688084317
1 – 4 0,190932274
2 – 3 0,575576041
2 – 4 0,144572063
3 – 4 0,357739717
Читайте также:  Самолетом удалось управлять даже парализованной женщине

3. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ СРЕДНИХ

Используется для проверки предложения о том, что среднее значения двух показателей, представленных выборками, значимо различаются.

Существует три разновидности критерия: один – для связанных выборок, и два для несвязных выборок (с одинаковыми и разными дисперсиями).

Если выборки не связны, то предварительно нужно проверить гипотезу о равенстве дисперсий, чтобы определить, какой из критериев использовать. Так же как и в случае сравнения дисперсий имеются 2 способа решения задачи, которые рассмотрим на примере.

ПРИМЕР 3. имеются данные о количестве продаж товара в двух городах. Проверить на уровне значимости 0,01 статистическую гипотезу о том, что среднее число продаж товара в городах различно.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Используем пакет «Анализ данных». В зависимости от типа критерия выбирается один из трех: «Парный двухвыборочный t-тест для средних» – для связных выборок, и «Двухвыборочных t-тест с одинаковыми дисперсиями» или «Двухвыборочных t-тест с разными дисперсиями» – для несвязных выборок.

Вызовите тест с одинаковыми дисперсиями, в открывшемся окне в полях «Интервал переменной 1» и «Интервал переменной 2» вводят ссылки на данные (А1-N1 и А2-L2, соответственно), если имеются подписи данных, то ставят флажок у надписи «Метки» (у нас их нет, поэтому флажок не ставится).

Далее вводят уровень значимости в поле «Альфа» – 0,01. Поле «Гипотетическая средняя разность» оставляют пустыми. В разделе «Параметры вывода» ставят метку около «Выходной интервал» и поместив курсор в появившемся поле напротив надписи, щелкают левой кнопкой в ячейке В7.

Обратите внимание

вывод результата будет осуществляться начиная с этой ячейки. Нажав на «ОК» появляется таблица результата. Сдвиньте границу между столбцами В и С, С и D, D и Е увеличив ширину столбцов В, С и D так, чтобы умещались все надписи.

Процедура выводит основные характеристики выборки, t-статистику, критические значения этих статистик и критические уровни значимости «Р(Т

Источник: http://diplomba.ru/work/65795

Непараметрические робастные алгоритмы обработки данных



Ключевые слова:робастная статистика, непараметрическая статистика, регрессионный анализ, обработка данных

В современном мире все большую роль в промышленности приобретают автоматизированные системы. Для качественного управления технологическим процессом необходимо предварительное построение математической модели или идентификация и глубокое исследование процесса. Модели позволяют проводить качественный и количественный анализ объекта, а также прогнозировать его дальнейшее поведение.

Огромное влияние на адекватность будущей модели оказывают исходные данные, поэтому предварительная обработка данных приобретает особую значимость. Основная задача данного этапа — обработка аномальных измерений, выбросов (промахов), в исходной выборке. Причины появления аномальных наблюдений на практике очень разнообразны:

– сбой измерительной аппаратуры;

– искажение данных при их регистрации, передаче и хранении.

Присутствие нескольких выбросов может негативно отразиться на вычислении оценок параметров распределений и различных статистических характеристик.

Проблема обработки данных, содержащих резко выделяющиеся значения, давно известна. Даже одно такое незамеченное значение может значительно снизить точность анализа данных, а иногда и совсем его обесценить.

Представление о том, какие значения считать резко выделяющимися, в большинстве случаев носят субъективный характер, так как оно основано на личном опыте исследователя. Исключение «плохих» данных по существу представляет «чистку» первичных данных перед обработкой и в ряде случаев является вполне допустимым.

Однако, такая процедура тщательного просмотра данных возможна только для небольших выборок. Если объем данных велик, то их просмотр потребует столько времени и усилий, что вряд ли окажется реальным.

Вместе с тем, практика обработки данных показывает, что появление резко выделяющихся значений в результатах наблюдений является скорее правилом, чем исключением. Таким образом, особое значение принимает возможность автоматизированной обработки резко выделяющихся наблюдений для больших объемов выборок.

Важно

Борьба с выбросами актуальна не только в идентификации, но и в любых вопросах, связанных со статистической обработкой данных.

Проблемами определения выбросов и получения методов, устойчивых к выбросам, занимается раздел статистики называемый робастной статистикой.

В статистике под робастностью понимают нечувствительность к малым отклонениям от предположений [1]. При обработке аномальных измерений были выработаны два подхода:

– исключение промахов из выборки;

– использование робастных методов обработки.

Термин «робастный» введен Джорджем Боксом в 1953 году для обозначения методов, устойчивых к малым отклонениям от предположений. Основы математической теории робастных оценок заложены Питером Хьюбером.

Выбросы (резко выделяющиеся наблюдения) — наблюдения, сильно отличающиеся от основной массы элементов выборки. Они обычно трактуются как грубые ошибки, возникающие в результате случайного просчета или неправильного чтения показаний измерительного прибора.

Робастная оценка — статистическая оценка, нечувствительная к малым изменениям исходной статистической модели. Также термин робастный переводится, как устойчивый, стабильный, помехоустойчивый.

Статистическая модель является приближением реальных процессов, если модель успешно описывает исследуемый объект, то говорят, что она адекватна, в противном случае неадекватна.

Непараметрическая статистика в самой исходной модели предполагает, что функциональный вид распределений, участвующих в задаче не известен. Приведем основные определения данного раздела статистики.

Совет

Непараметрическая задача — статистическая задача, в которой указываются только различия между классами распределений. По крайней мере, один из этих классов состоит из подчиняющихся некоторым довольно общим ограничениям, а в остальном неизвестных распределений. Такой класс распределений называется непараметрической гипотезой [3].

Непараметрическая статистика — ветвь математической статистики, занимающаяся рассмотрением непараметрических задач и связанных с ними теоретических проблем.

Непараметрические процедуры — алгоритмы решения непараметрических задач.

В непараметрическом случае оценка «параметров» возможна, если параметр есть известный функционал от неизвестного распределения. Оценка этого функционала, полученная без предположения о типе распределения, называется непараметрической.

Непараметрический факт — свойство выборки (или ее преобразований), которое не зависит от функционального вида распределения генеральной совокупности.

Методы непараметрической регрессии интенсивно развиваются в последние десятилетия. Повышенный интерес к сглаживанию обусловлен двумя причинами: статистики осознали, что параметрический подход не обладает необходимой гибкостью при оценивании, развитие вычислительной техники породило потребность в создании теории вычислительных методов непараметрического оценивания.

Регрессия описывает усредненную количественную связь между выходом и входом объекта. Методы непараметрической обработки информации работают при минимуме априорной информации, таким образом, иногда методы непараметрической регрессии применяют на начальной стадии анализа объекта для угадывания параметрического семейства зависимостей.

Однако, универсальность методов компенсируется сложностью обработки исходной выборки, которую приходится хранить на протяжении всех вычислений. Вид функции регрессии может показать, для каких значений аргумента следует ожидать наибольшие значения наблюдений, также большой интерес представляют монотонность или унимодальность функции.

Более того, иногда необходимо получить не функцию регрессии, а ее производные или другие функционалы.

При наличии наблюденийрегрессионное соотношение может задаваться следующим образом:

(1)

где– неизвестная функция регрессии, а— ошибки наблюдения.

Цель регрессионного анализа состоит в осуществлении разумной аппроксимации неизвестной функции отклика. За счет уменьшения ошибок наблюдения становится возможным сконцентрировать внимание на важных деталях средней зависимостиотпри ее интерпретации. Эта процедура аппроксимации обычно называется «сглаживанием».

Главным вопросом, возникающим при построении непараметрической оценки, является степень сглаживания, которая определяется параметром сглаживания. Этот параметр управляет размером окрестности точки. Локальное усреднение по слишком большой окрестности не приводит к хорошим результатам.

Обратите внимание

В этом случае происходит «чрезмерное сглаживание» кривой, приводящее к смещению оценки. Если определить параметр сглаживания так, что он будет соответствовать слишком малой окрестности, то в оценку регрессии будет вносить лишь небольшое количество точек, и мы получим грубое приближение.

Читайте также:  Роботы научатся выполнять задачи, также как алекса

Представим, что имеется процесс, общая схема которого изображена на рисунке 1.

Рис. 1.

Общая схема процесса, принятая в теории идентификации: А — неизвестный оператор объекта;— выходная переменная процесса;— векторное управляющее воздействие;— векторное случайное воздействие; () — непрерывное время;— означают измерения,в дискретное время;— объем выборки;,— каналы связи, соответствующие различным переменным;,— случайные помехи измерений соответствующих переменных процесса

На вход объекта подается контролируемое воздействие, затем с помощью некоторого оператора преобразования получаем выходную переменную. Контроль переменныхосуществляется через интервал временичерез каналы связии, то есть— выборка измерений переменных процесса.

Случайные воздействия могут наблюдаться как в каналах связи, так и воздействовать на сам объект, поэтому аномальные измерения могут быть обнаружены, как при измерении входных, так и выходных данных. Таким образом, при исследовании объекта мы располагаем текущей информацией в виде выборки измерений, а также априорной информации о нем.

В дальнейшем будем считать, что имеется объект с аддитивным шумом, помехи в каналах связи отсутствуют.

Пусть даны наблюденияслучайных величин,распределенных с неизвестными плотностями вероятности(— область значений), тогда непараметрическая оценка регрессии будет иметь следующий вид [2]:

(2)

где— точка, в которой восстанавливается функция регрессииили, при расчете не используется точка,— коэффициент размытости, главным образом определяющий степень сглаживания весовой функции, удовлетворяет некоторым условиям сходимости:

(3)

На рисунке 2 приведены наиболее распространенные ядерные функции [2].

Рис. 2. Виды ядерных функций

(4)

(5)

(6)

В классическую непараметрическую регрессию 2 добавим весовую функцию, которая будет выполнять сглаживание по выходу.

Полученная робастная регрессия будет выглядеть следующим образом:

(7)

Важно

Таким образом, оценка регрессии в точке будет строиться с учетом значений выходов соседних точек. Если точка, в которой восстанавливается значение, будет сильно отличаться от соседних, то такая точка является аномальной, и ядробудет равняться нулю.

Рис. 3. Принцип работы алгоритма

На рисунке 3 красная точка является аномальной, значениесильно превосходит соседние точки в интервале, поэтому ни одна точка не попадает под весовую функцию, из чего следует, что оценка регрессиив точкебудет равна нулю.

Параметр размытостиопределяется путем решения задачи минимизации квадратичного показателя соответствия выхода объекта и выхода модели, основанного на «методе скользящего экзамена», когда при построении модели не учитывается i-я пара измерений:

(8)

В многомерном случае, если каждой компоненте векторасоответствует компонента вектора, то во многих практических задачахможно принять скалярной величиной, если предварительно привести компоненты вектора, по выборке наблюдений, к одному и тому же интервалу, например, использовать операции центрирования и нормирования.

Настройку коэффициента размытостиможно выполнять методом скользящего экзамена для обратной оценки регрессии.

В данной статье представлен алгоритм полного исключения выброса из исходной выборки. Если при изучении процесса имеется необходимое количество измерений, то при полном исключении точки из исходной выборки возможно более точное исследование.

Литература:

  1. Хьюбер П. Робастность в статистике. — М.: Мир, 1984. — 303 с.
  2. Рубан А. И. Методы анализа данных: учебное пособие. — 2-е изд. — Красноярск: ИПЦ КГТУ, 2004. — 319 с.
  3. Тарасенко Ф. П. Непараметрическая статистика. — Томск: изд. ТГУ, 1976. — 294 с.

Основные термины (генерируются автоматически): исходная выборка, канал связи, компонент вектора, весовая функция, оценка регрессии, непараметрическая статистика, непараметрическая регрессия, априорная информация, класс распределений, регрессионный анализ.

Источник: https://moluch.ru/archive/114/29667/

Первичная обработка выборки и интервальное оценивание

Занятие 15-16.

ПЕРВИЧНАЯ ОБРАБОТКА ВЫБОРКИ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

Основные определения и формулы

Под генеральной совокупностью с функцией распределения Fξ(x) будем понимать гипотетическую совокупность всех возможных значений случайной величины ξ. Вместо функции распределения Fξ(x) может использоваться плотность распределения fξ(x), либо закон распределения ξ, заданный в виде таблицы.

Набор n значений случайной величины, полученных в результате эксперимента, называется выборкой объема n из генеральной совокупности, а числа х1, х2, …, хn – выборочными значениями случайной величины ξ.

Выборке {х1, х2, …, хn} поставим в соответствие случайную величину, принимающую эти значения с вероятностями 1/n:

и будем называть ее выборочным распределением.

Первичная обработка выборки включает следующие операции:

  1. упорядочение по возрастанию х1 < х2 < ... < хn, приводит исходные данные к выборке, которая называется вариационным рядом;
  2. вычисление частоты ni элемента zi в том случае, когда z1, …, zk представляют разные (не равные между собой) числа в исходной выборке {х1, х2, …, хn} так, что ni равно числу повторяющихся элементов, соответствующих zi(i = 1, …, k); полученная таким образом новая выборка {zi, ni} называется статистическим рядом;
  3. вычисление относительной частоты νi = ni/n и последовательных сумм ν1+ ν2 + …+ νi, которые представляют накопленные частоты элемента zi.

Для получения статистического ряда {zi, ni} может использоваться и более общий механизм, когда zi представляет не просто равные элементы, а близкие в определенном смысле. Например, это могут быть элементы, попадающие в i-й полуинтервал вида [xi, xi+1).

Если функция распределения зависит то некоторого параметра θ, то есть Fξ(x) = Fξ(x, θ), то можно рассмотреть задачу оценивания этого параметра по n значениям выборочных данных {х1, х2, …, хn}. Функцию θn от этих значений будем называть оценкой параметра θ.

Если в качестве оценок используются выборочные характеристики случайной величины, оценки называются точечными. Такими оценками являются:

,

для нахождения которого в Excel используется функция СРЗНАЧ (x1;x2;…,xn);

для нахождения которой в Excel используется функция ДИСП (x1; x2; …, xn).

Если для параметра θ можно указать некоторый интервал (θ1, θ2), для которого

p (θ1 < θ< θ2) = 1 – α,

Совет

где α – малое число, называемое уровнем значимости, то говорят об интервальных оценках. Интервал (θ1, θ2) называется доверительным интервалом для параметра θ с доверительной вероятностью 1 – α.

В рассматриваемых упражнениях будем строить симметричные интервалы вида (θ1, θ2) = (θn– Δ, θn+ Δ) для точечной оценки θnпараметра θ.

При известной дисперсии σ2 нормальной генеральной совокупности значение Δ для математического ожидания задается формулой

,

где z1-α/2вычисляется c помощью функции Excel НОРМСТОБР(вероятность).

Пример 1

В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей двадцати случайно отобранных человек, имевших в прошлом одну или более судимостей.

Число повторных судимостей приведено в таблице:

1 1 1 2 3 1 1 1 1 2
2 2 1 1 1 1 1 2 2 1

Задача:

  • Провести первичную обработку рассматриваемых данных, построить график накопленных относительных частот и найти доверительный интервал с уровнем значимости α = 0,05

^

1) В ячейку [B2] введем Выборка. Укажем в массиве ячеек [B3:B22] выборку (n = 20): 1, 1, 1, 2, 3, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 1.

2) Для формирования вариационного ряда (упорядочения) необходимо в ячейку [С2] ввести Вариационный ряд, затем скопировать содержимое ячеек [В3:B22] в диапазон [С3:С22] и сортировать по возрастанию.

Выделить диапазон [С3:С22] Данные  Сортировка по возрастанию  Сортировать в пределах указанного диапазона

3) В ячейку [B24] введем Размах (разность между наибольшим и наименьшим значением выборки).В ячейке [С24]:= [С22]- [С3].

4) В ячейку [B25] введем Объем выборки (набор n значений случайной величины). В ячейке [С25]:=СЧЕТ(С3:С22).

5) В ячейке [D2] введем Интервалы. Укажем в массиве ячеек [D3:D5] значения интервалов по разным значениям вариационного ряда: 1, 2, 3, которые обозначают число повторных судимостей.

6) Для нахождения частоты повторений значений (количества человек с повторными судимостями) в пределах интервалов необходимо в ячейке [Е2] ввести Частота.

Выделить диапазон [E3:E5]  Вставка функции Статистические ЧАСТОТА  Массив_данных: С3:С22, Массив_интервалов: D3:D5  нажать

Источник: http://shkolnie.ru/informatika/107957/index.html

Ссылка на основную публикацию