Top Banner
ЗМІСТ Лекція 4. Статистичний дисперсійний аналіз........1 4.1. Два види дисперсійного аналізу робочих процесів АПК.......................................... 1 4.2. Задачі дисперсійного аналізу.................2 4.3. Розкладання дисперсії на складові............4 4.4. Однофакторний дисперсійний аналіз............8 4.5. Двофакторний дисперсійний аналіз............18 4.6. Аналіз ієрархічних комплексів...............22 4.7. Застосування латинських і греко-латинських квадратів при дисперсійному аналізі..................25 4.8. Ранговий дисперсійний аналіз................33 Висновки......................................... 35 Перелік використаних джерел і літератури.........36 Додатки.......................................... 36 Лекція 4. Статистичний дисперсійний аналіз 4.1. Два види дисперсійного аналізу робочих процесів АПК Самостійний розвиток експериментальних і статистичних методів у сільськогосподарських та переробних галузях привів до того, що деякі різні поняття дістали однакові назви. Прикладом такої роз’єднаності є дисперсійний аналіз. З одного боку, таку назву має група експериментальних методів, з іншого – один із статистичних методів. До експериментальних методів дисперсійного аналізу належить сукупність способів вимірювання розмірів 1
55

DOE Lekcia04

Nov 03, 2014

Download

Documents

Oleg Nazarevych

Планування експерименту
Лекція 4
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: DOE Lekcia04

ЗМІСТ

Лекція 4. Статистичний дисперсійний аналіз............................................1

4.1. Два види дисперсійного аналізу робочих процесів АПК...................1

4.2. Задачі дисперсійного аналізу................................................................2

4.3. Розкладання дисперсії на складові.......................................................4

4.4. Однофакторний дисперсійний аналіз...................................................8

4.5. Двофакторний дисперсійний аналіз...................................................18

4.6. Аналіз ієрархічних комплексів...........................................................22

4.7. Застосування латинських і греко-латинських квадратів при дисперсійному аналізі...........................................................................................25

4.8. Ранговий дисперсійний аналіз............................................................33

Висновки......................................................................................................35

Перелік використаних джерел і літератури..............................................36

Додатки.........................................................................................................36

4. Лекція Статистичний дисперсійний аналіз

4.1. Два види дисперсійного аналізу робочих процесів АПК

Самостійний розвиток експериментальних і статистичних методів у сільськогосподарських та переробних галузях привів до того, що деякі різні поняття дістали однакові назви. Прикладом такої роз’єднаності є дисперсійний аналіз. З одного боку, таку назву має група експериментальних методів, з іншого – один із статистичних методів.

До експериментальних методів дисперсійного аналізу належить сукупність способів вимірювання розмірів частинок у дисперсійних середовищах (емульсіях, суспензіях, золях, порошках тощо). Крім розмірів окремих частинок, цими методами визначають їхню поверхню, а також розміри пop у пористих тілах. В останньому випадку замість дисперсності користуються поняттям пористості.

Перелічимо різні методи експериментального дисперсійного аналізу в

порядку спадання розмірів досліджуваних частинок від 10 до мм: ситовий аналіз, седиментаційний аналіз (за швидкістю осідання частинок), кондуктометричний метод (за зміною електричного опору провідного

1

Page 2: DOE Lekcia04

середовища при попаданні до нього частинки), мікроскопія, фільтрація, центрифугування, ультрацентрифугування, ультрамікроскопія, нефелометрія (за розсіюванням світла на частинках), електронна мікроскопія та метод дифузії.

Статистичний дисперсійний аналіз – один з методів виявлення впливу окремих факторів на показник біологічного або технологічного процесу (параметр оптимізації). Разом з регресійним та кореляційним аналізом він становить основу обробки експериментальних даних, здобутих у результаті пасивного і активного експериментів.

У даному випадку при дисперсійному аналізі мають справу не з дисперсійністю чи пористістю речовини, а з дисперсіями факторів, тобто мірою розкиду виміряних значень змінної відносно середньої її величини. Цей метод, запропонований Р. А. Фішером у 1925 p., заснований на розкладанні дисперсії випадкової величини, яка визначається, на складові, тобто на дисперсії, які зумовлюються різними причинами або групами причин. Порівнюючи потім складові дисперсії між собою за допомогою критерію Фішера–Снедекора, можна визначити частку загальної мінливості розглядуваного показника за рахунок кожного регульованого в досліді фактору, а також нерегульованих факторів або різних збурень. Важливість цього методу полягає ще і в тому, що він дає змогу виявити дію різних поєднань факторів на результуючу ознаку.

Статистичний дисперсійний аналіз виник у процесі удосконалення методики сільськогосподарської дослідної справи, але невдовзі набув широкого застосування не лише в агротехніці та тваринництві, але і в різних переробних галузях, а також в хімічній технології, педагогіці, психології при розв’язанні багатьох комплексних задач.

Широке впровадження статистичних методів обробки експериментальних даних приводить до того, що статистичний дисперсійний аналіз починає застосовуватися при розв’язанні задач експериментального дисперсійного аналізу.

Назва дисперсійний аналіз використовується для статистичного методу обробки експериментальних даних.

4.2. Задачі дисперсійного аналізу

У виробничій практиці часто виникає така задача. Апаратники, працюючи позмінно на одному й тому ж апараті, виробляють продукт з різними якісними показниками. Наприклад, один апаратник досягає більшої стабільності вологості готової продукції, інший – меншої. Треба з’ясувати,

2

Page 3: DOE Lekcia04

що є причиною появи незадовільних результатів: недосконала конструкція апарату, що не дає змоги добитися якісної відтворюваності, чи неоднакова робота апаратників.

Розглянемо іншу задачу – складнішу. Припустимо, що на якість продукту впливають десять факторів. Щоб звести коливання показника до мінімуму, треба з’ясувати вплив кожного фактора на розмах цих коливань і усунути або хоча б знизити вплив найбільш сильно діючих факторів. Тільки таким чином можна добитися реальних результатів у поліпшенні якості продукту при мінімальних витратах часу і коштів.

Виникають задачі й іншого типу. При автоматизації певного процесу його аналізують з точки зору впливу ряду факторів, які одночасно діють на основний показник, що підлягає автоматичній стабілізації. Тільки оцінивши міру впливу кожного з факторів, можна правильно вибрати канал регулювання або той фактор, який треба вимірювати і враховувати в першу чергу. Наступний за силою впливу фактор може бути використано для корекції роботи системи регулювання за першим фактором.

На стадії конструкторських розробок проектувальник шукає оптимальну комбінацію елементів створюваного ним виробничого агрегату і знає ступінь впливу кожного з них на умови роботи агрегату в цілому.

У загальному вигляді подібні задачі можуть бути сформульовані так. За допомогою поточного контролю або спеціальних досліджень виробництва встановлюють несталість того чи іншого процесу або якості продукту. Разом з тим дані контролю не вказують безпосередньо на головну причину цієї несталості. Як проаналізувати ці дані, щоб з належною вірогідністю визначити вплив кожного з факторів на коливальність чи змінюваність показника, який вивчається?

Ця ж задача може бути поставлена і дещо в іншій формі. Характер коливань розглядуваної ознаки відносно сталий, проте розмах коливань набагато більший припустимого або бажаного. Необхідно зменшити розмах і виявити для цього, яку частку розмаху викликає той чи інший з відомих нам факторів процесу.

Подібні задачі виникають і в сільськогосподарських галузях. Припустимо, що треба визначити урожайність різних сортів однієї й тієї ж культурної рослини. Дослід можна поставити так. На кожній з трьох ділянок вирощують чотири сорти рослини, причому одна частина рослин живиться одним видом добрив, а друга – іншим. Ділянки розташовано на відкритому повітрі в однакових умовах так, щоб від рослин на одній ділянці не падала тінь на рослини іншої ділянки. На кожному майданчику ділянки вирощують однакову кількість рослин (ця вимога може порушуватися).

3

Page 4: DOE Lekcia04

У загальному випадку урожай залежатиме від сорту рослини, складу добрива і ділянки. Можливий вплив на урожай і взаємодії цих факторів. Задачі, що стоять перед агрономом, можна сформулювати так:

чи залежить урожай, усереднений за двома видами добрив і трьома ділянками, від сорту рослини?

чи свідчать рівні урожаю про різний вплив сортів на різних ділянках?

як якісно оцінити ці відмінності із заданим рівнем надійності?Метод розв’язання перелічених задач (дисперсійний аналіз) основано

на властивості адитивності дисперсії, яка характеризує коливальність. Іншими словами, повна дисперсія показника, що нас цікавить, дорівнює сумі складових її часткових дисперсій.

Звертаючись до першого з наведених прикладів, можна стверджувати,

що загальна дисперсія вологості складається з суми як мінімум двох дисперсій, одна з яких зумовлена роботою того чи іншого апаратника, тобто враховуваного фактора, а інша – залежить від невідомих властивостей апарата, нез’ясованих факторів і тому залишається чисто випадковою. Діяння таких невраховуваних факторів звичайно зводиться до залишкової дисперсії.

4.3. Розкладання дисперсії на складові

Розглянемо задачу розкладання дисперсії як характеристики коливальності (розкиду, розсіювання, зміни) на простому абстрактному прикладі.

Нехай вимірювана величина y набувала в N дослідах таких значень

, які характеризуються деяким середнім та оцінкою

дисперсії . Відкладемо результати вимірювань у на осі ординат, рисунок 4.1, а, вісь абсцис для одного із впливаючих на у факторів х.

Рисунок 4.1 – Результати вимірювань

4

Page 5: DOE Lekcia04

Відрізком довжиною зобразимо показник загального розкиду

значень у (скористатися дисперсією не можна, оскільки її розмірність не збігається з розмірністю у). Припустимо, що одночасно з у реєструвалася величина певного фактора, який за припущенням впливає на у. Цей фактор в усіх дослідах набував лише трьох значень. Результати сумісних вимірювань пар значень у і х зображено на рисунку 4.1, б. Помітна загальна тенденція зростання у зі збільшенням х. Однак говорять лише про зміни у у середньому.

оскільки в окремих випадках спостерігається, наприклад, , хоча

відповідає більшому х. Іншими словами, кожному відповідає середнє , яке можна розрахувати у даному випадку за чотирма значеннями у. Умовні

середні зображено на рисунку 4.1, в. Розглядаючи як самостійні

значення, говорять про їх розкид відносно загального середнього .

Охарактеризуємо цей розкид величиною , яка при певному числі дослідів

(тут – три) залежить від суми квадратів відхилень умовних середніх від

загального середнього .Природно, що від того, наскільки зміни х впливають на середні зміни y

залежать значення , і показник загального розкиду .

Зазначимо, що при одному й тому ж значенні х в чотирьох дослідах дістали різні значення y (рисунок 4.1, б). Наявність даного розкиду при фіксованому значенні фактора x пояснюється діянням невраховуваних факторів z, тобто різними випадковими причинами. Не виділяючи будь-яку з

них, охарактеризуємо сумарний ефект від них залишковою дисперсією ,

яка, представляючи розкид результатів вимірювань y відносно , залежить від суми квадратів відхилень y, виміряних при кожному значенні x, від

відповідних умовних середніх . На рисунку 4.1, б відрізками зображено

показники розкиду для кожного х, а також показник розкиду середніх

значень .Очевидно, що, коли усунути вплив невраховуваних факторів, розкид y

при фіксованому х не спостерігатиметься і загальний розкид y визначатиметься тільки діянням x (рисунок 4.2, а). З іншого боку, якби вплив фактора х на у був відсутній, а випадкові причини виявляли своє діяння (рисунок 4.2, б), то загальний розкид у визначався б тільки ними і характеризувався лише залишковою дисперсією від діяння невраховуваних факторів.

5

Page 6: DOE Lekcia04

Рисунок 4.2 – Загальний розкид

У подальшому детально розглянемо основні принципи сучасного експерименту: рандомізацію, багатофакторність, оптимізацію та автоматизацію. Пояснимо перший з них. Дисперсійний аналіз стає об’єктивним інструментом дослідження лише при умові, що кожне значення змінної вибрано з генеральної сукупності випадковим чином. Відбір випадкових значень змінної, який забезпечує однакову імовірність потрапити до вибірки будь-якого з них для всієї генеральної сукупності, називається рандомізацією (від англійського random – вибраний навмання). У біометрії це слово прийнято записувати і вимовляти як рендомізація. Щоб забезпечити однакову імовірність для будь-якого члена генеральної сукупності, найчастіше користуються таблицею випадкових чисел, таблиця Д1.

Таким чином, при сумісному діянні фактора х та випадкових причин z наступною буде рівність

,яка і виражає властивість адитивності дисперсії.

Зазначимо, що ця формула правильна лише при незалежних (некорельованих) факторах, які впливають на у. У противному разі вона ускладнюється:

,

де – коефіцієнт кореляції.Формула адитивності дисперсії є основою всього дисперсійного

аналізу. Її застосування часто зустрічає з боку експериментатора внутрішній опір, оскільки при всій своїй простоті вона не є очевидною. Тому, перш ніж дістати на основі цієї формули розрахункові рівняння, доведемо її правильність. Для цього скористаємося формальним перетворенням суми квадратів відхилень від загального середнього:

6

Page 7: DOE Lekcia04

Враховуючи, що

покажемо, як останній доданок при розкладанні перетворюється в нуль:

Отже,

що й треба було довести, оскільки

Другий доданок в здобутому результаті містить тільки одну змінну уi,

яка підсумовується за m. Тому підсумовування за змінною j сталою

рівнозначне помноженню на n, тобто , тоді

Така сума називається зваженою, оскільки n у загальному випадку для кожного і може бути різним.

При використанні дисперсійного аналізу запишемо останні формули через вихідні значення yij:

7

Page 8: DOE Lekcia04

Ці формули є робочими при однофакторному дисперсійному аналізі. Якщо розглядати дисперсії не функції, а незалежного параметра, а замість у покласти х, то структура формул зберігатиметься.

4.4. Однофакторний дисперсійний аналіз

Розглянемо задачу однофакторного дисперсійного аналізу. Нехай ми спостерігаємо m незалежних змінних x1, x2,…,xm, розподілених нормально, з

центрами і невідомою, але однаковою для всіх змінних дисперсією σ2. Над кожною змінною проводиться серія з n спостережень.

Даними і-ї серії або інформацією про змінну xi є ряд , де i=1,2,…,m. Спираючись на ці статистичні дані, треба перевірити нуль-гіпотезу H0

про рівність центрів розподілу, тобто . Іншими словами, нуль-гіпотеза передбачає відсутність впливу незалежної змінної xi на результат вимірювання.

Якщо перевірювана гіпотеза вірна, то зіставлення середніх ,

які є оцінкою центрів у кожній серії, не повино дати значущого розходження між ними. Якщо ж таке розходження є, то нульову гіпотезу слід відхилити. При довільному значенні m використовується дисперсійний

8

Page 9: DOE Lekcia04

аналіз, побудований на розкладанні дисперсій та застосуванні F-критерію Фішера-Снедекора.

З’ясуємо з точки зору викладеної вище математичної постановки, що є причиною нестабільності вологості продукту: апаратник з його індивідуальним досвідом чи недосконала конструкція апарату. Перевіримо вплив кваліфікації апаратника на нестабільність вологості продукту, що виробляється. При цьому кваліфікація кожного i-го апаратника є одним з елементів єдиного джерела мінливості.

Нехай число апаратників дорівнює т і при роботі кожного з них проводилося по п вимірювань величини х – вологості продукту. Кожна серія

з n вимірювань є вибіркою обсягу n з генеральної сукупності вимірювань xi, які можна було б дістати при роботі i-го апаратника. Всього маємо mn вимірювань, які позначимо через xij, де i – номер апаратника; j – номер проведеного при його роботі вимірювання

вологості . Результати вимірювань зводяться в таблиці 4.1.

Таблиця 4.1. Первинні дані для однофакторного аналізу

i j 1 2 … j … n

1 x11 x12 … x1j … x1n

2 x12 x22 … x2j … x2n

… … … … … … …I xi1 xi2 … xij … xin

… … … … … … …M xm1 xm2 … xmj … xmn

Середнє арифметичне з п показників в і-й серії (середнє за рядками) обчислюється так:

Якщо кваліфікація апаратника впливає на нестабільність х, то після обробки даних очікуватиметься підвищене розсіювання вибіркових середніх xi.

Загальне середнє арифметичне всіх тп вимірювань обчислюється за формулою

9

Page 10: DOE Lekcia04

Сукупність значень хij, утворює вибірку обсягом mn з генеральної сукупності x, яка має нормальний розподіл з центром mx та дисперсією σ2, причому обчислене значення є оцінкою математичного сподівання Mx за даними вибірки. Сутність дисперсійного аналізу полягає у розкладанні оцінки дисперсії, утвореної на підставі mn вимірювань, на складові, спричинені незалежними факторами.

Для виконання однофакторного дисперсійного аналізу суму квадратів відхилень всіх значень xij від загального середнього треба розкласти на

складові частини, одна з яких відповідає джерелу мінливості, інша – впливу випадкових причин.

Таким чином, запишемо тотожність

Тут маємо

сума є сумою квадратів відхилень всіх виміряних значень від їх загального середнього і називаються загальною або повною сумою квадратів;

сума є зваженою з урахуванням числа вимірювань в кожній серії сумою квадратів відхилень середніх за серіями (апаратниками)

від загального середнього і називається сумою квадратів між серіями або розсіюванням за елементами фактора А (кваліфікація апаратника), тобто відхилень за рахунок досліджуваного можливого джерела мінливості;

сума є сумою квадратів відхилень виміряних значень xij від середніх відповідній серії і називається сумою квадратів всередині серій.

Оскільки , то в практичних розрахунках обчислюється

безпосередньо тільки загальна сума і сума квадратів між серіями , a

знаходиться як різниця і . Том називається також залишковою сумою квадратів.

10

Page 11: DOE Lekcia04

Суми квадратів , та , поділені на відповідні числа ступенів

вільності (обчислюється лише одне середнє х); та

(обчислюється т середніх ), дають три оцінки дисперсій:

оцінка загальної дисперсії ;

оцінка дисперсій між серіями ;

оцінка дисперсій всередині серій .Числа ступенів вільності повинні задовольняти співвідношення

,яке використовується для перевірки.

Виконання дисперсійного аналізу полягає у порівнянні оцінки дисперсії, викликаної фактором мінливості А, який вивчається, і оцінки

залишкової дисперсії , яка має місце після того, як вплив фактора А було

усунуто (за рахунок розкладання дисперсії на незалежні складові), і зумовленої виключно випадковими причинами.

Якщо нуль-гіпотеза про рівність центрів розподілу

вірна (тобто від того, який апаратник працює, не залежить розкид вологості

продукту), то оцінки дисперсій і повинні різнитися між собою лише

випадково. При цьому критерій Фішера-Снедекора при ,

покаже з вибраною надійною імовірністю лише неістотні розходження між вказаними оцінками.

Якщо ж F-критерій виявить значуще розходження між і , то це вказуватиме на неприпустимість нульової гіпотези. Тут маємо підставу визнати, що джерело мінливості виявляє вплив на результати вимірювань, тобто у нашому прикладі апаратники працюють неоднаково.

Виконання однофакторного дисперсійного аналізу проводиться в такій послідовності.

1. Результати випробувань xij, заносяться у відповідні графи (див. табл. 4.1). На підставі цих даних обчислюються середні по рядках та загальне середнє .

11

Page 12: DOE Lekcia04

2. Для зручності наступних обчислень відбувається перехід до нових змінних за формулою

де – найближче до загального середнього ціле значення х. При такому

перетворенні змінних величини та не змінюються. Значення xij

заносяться у таблицю 4.2, в якій визначаються проміжні суми, необхідні для

подальших розрахунків. Для нових змінних використовуємо колишнє позначення xij.

Таблиця 4.2. Розрахунок дисперсій

I I j n

1…IM

3. Обчислюються суми квадратів :

;

;

.Зазначимо, що при використанні перетворених змінних xij

співвідношення для і набуває простого вигляду, оскільки . Це твердження стає очевидним при розгляді графічної інтерпретації переходу до нових змінних, рисунок 4.3. Нагадаємо також, що звичайно обчислюють

тільки і , знаходячи із співвідношення

12

Page 13: DOE Lekcia04

Рисунок 4.3 – Графічна інтерпретація переходу

4. Визначається ступінь вільності , і .

5. Обчислюються оцінки , і .6. Підраховується значення дисперсійного відношення F-критерію

при і . Нагадаємо, що при формулі F-критерію у чисельнику записується більша з двох оцінок дисперсій:

.7. З урахуванням вибраної величини рівня значущості α і

відповідних ступенів вільності і за таблицями розподілу (див. табл. Д2)

знаходять критичне значення .

8. Обчислене значення порівнюється з і дається висновок про

перевірювану нуль-гіпотезу. Якщо , то гіпотеза визнається, а якщо

( ), – відхиляється.Однофакторний дисперсійний аналіз використовується при вивченні

сільськогосподарських процесів, в біометрії. Сукупність вихідних даних, по суті однорідних, але індивідуально відмінних між собою, які можна згрупувати для вивчення впливу на них якого-небудь фактора, називається дисперсійним статистичним комплексом. У статистичній сукупності випадкових величин можуть існувати різноманітні внутрішні зв’язки між одиничним і загальним, нащадком і предком, дітьми одних і тих же батьків тощо. Тому вивчення однофакторних дисперсійних комплексів, тобто виділення однієї ознаки і визначення її впливу на сукупність у біометрії, має особливе значення.

Приклад 4.1. Визначити вплив різних способів внесення у грунт органічних добрив на урожай зеленої маси кукурудзи. Досліди проводилися

13

Page 14: DOE Lekcia04

на ділянках площею 10 м2 у трьох варіантах, не враховуючи контрольного. Кожний варіант мав трикратну повторність. Урожай з кожної ділянки занесено у таблицю 4.3.

Таблиця 4.3. Вплив способу внесення добрив на урожай

j Варіант досліду x, кг , кг1 2 3

1 КонтрольнийДобрива розмішувалися на 4 см:

21,2 28,0 31,2 26,8

2 Нижче закладення насіння 23,6 22,6 28,0 24,73 Збоку від насіння 24,0 30,0 29,2 27,74 Вище закладення насіння 29,2 28,0 27,0 28,1

Розв’язання. До останньої колонки вносимо середнє значення для кожного варіанта. Щоб перевірити нуль-гіпотезу про те, що ці середні не відрізняються один від одного, проведемо дисперсійний аналіз результатів дослідів. Оскільки у даному випадку маємо справу з рівномірним комплексом, а обсяг вибірок однаковий, таблиця дисперсійного аналізу, таблиця 4.4 і обчислення дещо спрощуються. Замість xij вносимо у

таблицю 4.4 – вважаючи кг. Для рівномірного однофакторного комплексу формули розрахунків сум

квадратів відхилень і спрощується

.Тоді розрахуємо спільну для цих сум величину

Далі дістанемо

.

Таблиця 4.4. Однофакторний дисперсійний аналіз

i j 1 2 3 4

1 1,2 3,6 4,0 9,2

14

Page 15: DOE Lekcia04

2 8,0 2,6 10,0 8,03 11,2 8,0 9,2 7,0M 3 3 3 3 12

20,4 14,2 23,2 24,2 82

416,16 201,64 538,24 585,64 1741,68

138,72 67,21 179,41 195,2 580,56

190,88 83,72 200,64 197,64 672,88

Визначимо число ступенів вільності. Оскільки комплекс складається з

значень змінної, то . Фактор має чотири градації

(контрольну і три варіанти дослідів), . Число ступенів вільності

для дисперсії всередині серій . Перевіримо правильність

розрахунків: . Розрахунки проведено правильно.Визначимо оцінку дисперсії між серіями (факторіальної дисперсії)

. Оцінка дисперсії всередині серій (залишкової дисперсії)

. Відповідно до наведених вище правил формування F-критерію оцінювати загальну дисперсію тут немає потреби. Оскільки в

даному випадку , запишемо у чисельнику F-критерію і дістанемо

. Знаходимо при (по вертикалі);

(по горизонталі) (див. табл. Д1). Через те, що , нуль-гіпотезу треба визнати і вважати різниці між урожаєм контрольних і всіх дослідних ділянок випадковими.

Описана вище методика дисперсійного аналізу дає змогу з’ясувати вплив окремого фактора на результативну ознаку, але не дає інформації про порівняльну цінність середніх для аналізованих вибірок. У тому випадку, коли доведено вірогідність впливу фактора, доцільно порівняти групові середні між собою або з прийнятою нормою.

Як і раніше, для порівняння вибіркових середніх треба застосувати

t-критерій Стьюдента. У чисельнику запишемо різницю середніх , у

знаменнику – помилку цієї різниці . Останню величину визначимо за

значенням залишкової дисперсії розділивши її на п, тобто на чисельник х у кожній серії. Остаточно дістанемо

15

Page 16: DOE Lekcia04

Використання таблиць t-розподілу складне, оскільки залежить не тільки від величини вибірок п, а й від числа їх т. Для вибірок однакового

обсягу складена спеціальна таблиця Д3 з врахуванням числа

ступенів вільності для залишкової дисперсі і числа серії (груп) т,

проте замість у знаменнику записано . Таким чином, вибрану за

таблицею величину треба порівнювати з , попередньо розділивши на

. Як звичайно, нуль-гіпотеза про рівність середніх відхиляється, якщо

. Розглянемо приклад використання F- та t-критеріїв в однофакторному аналізі.

Приклад 4.2. Провести дисперсійний аналіз результатів випробування урожайності шести місцевих сортів пшениці в однакових умовах. Досліди проводилися в чотирикратній повторності по кожному сорту. Результати дослідів наведено в таблиці 4.5.

Таблиця 4.5. Урожай шести сортів пшениці, ц/га

i i 1 2 3 4

1 26,1 29,2 30,0 27,3 28,22 25,0 24,3 28,5 29,0 26,73 27,2 26,4 31,0 26,4 27,84 23,6 27,2 25,2 24,8 25,25 30,0 33,0 36,0 29,8 32,36 23,0 26,0 26,0 24,8 25,0

Розв’язання. Як і в попередньому прикладі, зменшимо всі x на . Потім утворені різниці помножимо на десять, щоб позбутися дробів. Перетворені значення x і допоміжні величини заносимо у таблицю 4.6.

Перша частина обчислень аналогічна наведеним у прикладі 4.1 (крім повернення до дробових чисел), тому наведемо лише результати:

.

Таблиця 4.6. Дані для визначення різниці урожайності пшениці

16

Page 17: DOE Lekcia04

I j1 2 3 4 5 6

1 41 30 52 16 80 102 72 23 44 52 110 403 80 65 90 32 140 404 53 70 44 28 78 28M 4 4 4 4 4 4 24

246 188 230 128 408 118 1318

60516 35344 52900 16384 166464 13924 345532

16074 10554 14676 4768 44184 4084 94340

Оскільки у даному випадку , нуль-гіпотезу слід відхилити і вважати, що різниця в урожайності різних сортів пшениці не є випадковою.

Тепер порівняємо середні між собою. Візьмемо найбільш урожайний

сорт 5 ( ) і найменш урожайний сорт 6 ( ). Різниця ц/га. Знаходимо статистичну помилку різниці (за залишковою дисперсією)

і обчислене значення t-критерію . За

таблицею Д3 визначаємо для величину .

Критичне значення . Оскільки , нуль-гіпотеза про рівність середніх відхиляється.

Відношення може бути мірою впливу досліджуваного фактора на результативну ознаку, якщо доведено вірогідність цього впливу.

Тому, якщо це треба за умовою задачі, обчислюють , а вірогідність цього показника визначають за величиною F-критерію, утвореного діленням показника на його статистичну помилку.

Більш точною мірою впливу фактора вважають відношення

,а вірогідність перевіряють звичайним для дисперсійного аналізу порядком,

тобто порівнюють з табличним значенням F-критерію.Приклад 4.3. Визначити силу впливу сорту пшениці на урожайність за

даними прикладу 4.2.

Розв’язання. Обчислимо і за спрощеними формулами, користуючись даними таблиці 4.6:

17

Page 18: DOE Lekcia04

;

.Обидва результати ділили на 100, оскільки збільшені в десять разів

величини входять до цих формул у квадраті. Таким чином, , тобто 64 % загального варіювання урожайності пшениці в умовах даної задачі можна пояснити природою сортів, їх спадковою різноманітністю, а 36 % припадає на долю всіх інших факторів. Розрахуємо силу впливу за більш точною формулою

,тобто силу впливу сорту пшениці слід вважати дещо меншою, ніж по відношенню факторіальної та загальної сум квадратів. Вірогідність останнього показника була доведена в прикладі 4.2, оскільки формування F-критерію для цих задач однакове.

4.5. Двофакторний дисперсійний аналіз

Принципової різниці між багатофакторним і однофакторним дисперсійними аналізами немає. Ускладнюється лише схема аналізу, оскільки поряд з дією кожного фактора окремо враховують їх сумісний вплив на результативну ознаку.

Розглянемо задачу оцінки впливу двох одночасно діючих факторів А і В. Нехай у прикладі з аналізом впливу кваліфікації оператора (фактор А) на вологість продукту всі показники записувалися в різний час доби (на першій, другій та третій зміні – фактор В). Треба з’ясувати, чи зумовлено розсіювання здобутих показників та їх середніх значень в групах різницею в кваліфікаціях операторів (фактора А) або між часом доби (фактора В).

Нехай за фактором А всі вимірювання вологості діляться на r груп

, а за ознакою В – на h груп ( h при ) так, що весь вихідний матеріал розбивається на rh груп, причому в кожній групі є l спостережень (для простоти вважатимемо l однаковим для всіх груп). Таким

чином, загальне число спостережень . Окреме спостереження

позначимо . Воно утворене в групі за фактором А та в групі за

18

Page 19: DOE Lekcia04

фактором В. Індекс k означає номер вимірювання в групі . Записи результатів спостережень наведено в таблиці 4.7.

Таблиця 4.7. Форма запису первинних даних двофакторного дисперсійного аналізу

А … …

12…l12…l12…l

… …

Користуючись таблицею, знайдемо

;

;

.Основна ідея дисперсійного аналізу тут, як і в пункті 4.4, полягає в

розкладанні суми квадратів відхилень від загального середнього на компоненти, які відповідають передбачуваним факторам мінливості.

Запишемо тотожність аналогічно однофакторному випадку

або

19

Page 20: DOE Lekcia04

,

де і – суми квадратів різниць між рядками і стовпцями; і – відповідно загальна і залишкова суми квадратів.

Виконання дисперсійного аналізу в цьому випадку полягає у перевірці

нуль-гіпотези про однорідність загальної сукупності значень тобто припускається, що наявні спостереження є вибіркою обсягу rhl з генеральної

сукупності х, яка має нормальний розподіл з параметрами і , де – невідома загальна дисперсія.

Суми квадратів , , та , поділені на відповідні ступені

вільності , , та , дадуть такі оцінки дисперсії . Кожна з них характеризує вплив одного з досліджуваних факторів на розкид

показів в загальній сукупності. Так, у нашому прикладі характеризує розсіювання за рахунок різниці в кваліфікації апаратників (розсіювання

середніх за рядком); характеризує дію часу доби, тобто неоднорідність

вологості по змінах; оцінює випадкову похибку вимірювання. Слід

зазначити при цьому, що дисперсії і містять також випадкову складову,

і якщо виявиться, що зіставлювана з або , то вплив передбачуваного фактора відсутній і відповідне значення дисперсії здобуто за рахунок випадкових похибок.

Для перевірки ступения значущості розходжень між і або

обчислюються дисперсійні відношення та .

Якщо один з критеріїв або перевищує критичне значення , то нуль-гіпотеза про однорідність експериментальних даних повинна бути відхилена, а вплив відповідного фактора визнано значущим.

Процедура виконання двофакторного дисперсійного аналізу така.1. Вихідні експериментальні дані заносять у таблицю 4.7. Потім

обчислюють середні за рядками і стовпцями . Загальне середнє знаходять за одним з виразів.

2. Для спрощення подальших обчислень, як і в випадку однофакторного аналізу, проводять перетворення змінних

.Перетворені значення змінних заносять у таблицю 4.8 двофакторного аналізу

20

2AS

Page 21: DOE Lekcia04

3. Деякі попередні обчислення проводять за наведеними в таблиці 4.8 формулами. Зазначимо, що в рядку, який має два числа, 43,2

дорівнює сумі за j=x елементами рядка , а 450 – за i=x елементами

стовпця .

4. Суми квадратів , , та знаходять за формулами

;

;

;

.

Для перетворених змінних ці формули набувають простого вигляду,

оскільки , а після піднесення до квадрату та ділення на rhl відповідні доданки стають малими, якими нехтуємо.

Таблиця 4.8. Двофакторний дисперсійний аналіз

j 1 2 3

I k

11 0,7 0,49 0,8 0,64 -3,2 10,24 -1,7 11,37

2 0,5 0,25 1,0 1,00 -3,2 10,24 -1,7 -4,5 20,2 11,49

3 1,0 1,00 1,1 1,21 -3,2 10,24 -1,7 12,45

21 1,9 3,61 1,9 3,61 -2,7 7,29 +1,1 +4,8 23,0 14,51

2 2,0 4,00 2,3 5,29 -2,6 6,76 +1,7 16,05

3 2,0 4,0 2,3 5,29 -2,3 5,29 +2,0 14,58

8,1 9,4 -17,2 +0,3

65,6 88,4 295,8

43,2/450

13,35

17,04

50,06 80,45

21

Page 22: DOE Lekcia04

5. Ступені вільності , , та для визначення оцінок дисперсій знаходять за формулами

;

;

;

.Для контролю правильності визначення ступенів вільності

використовують тотожність .

6. Оцінки дисперсій , , знаходять так:

.7. Завершальний етап двофакторного дисперсійного аналізу полягає

у перевірці нуль-гіпогези про рівність оцінок і за допомогою F-критерію, що проводиться так, як і у випадку однофакторного аналізу.

Приклад 4.4. Провести дисперсійний аналіз впливу склоподібності зерна пшениці і механічних факторів (комбінації систем помелу) на вихід борошна високих сортів. Склоподібний фактор, як відомо, впливає на об’ємний вихід хліба та його розпливчастість (відношення висоти до діаметра).

Склоподібний фактор (фактор А) має два рівні: ; і ;

сортовий помел – три різновиди: , і .Розв’язання. Повторних спостережень було проведено по три, тому

, і . Вихід борошна високих сортів становив 21,8 – 26,0 %, тому

приймемо . Після перетворення вихідних даних складаємо таблицю 4.8.

Останні доданки в цьому прикладі менші, ніж остання значуща цифра у

попередніх доданках, тому, нехтуючи ними, дістанемо ;

; ; .

Обчислимо ступені вільності: ; ; ;

.

22

Page 23: DOE Lekcia04

Знаходимо оцінки дисперсій: ; ;

.

Розрахункові значення F-критерію: ;

.Табличні значення F-критерію при числі ступенів вільності для

більших дисперсій , і меншої дисперсії , дістанемо за

таблицею Д3: ; .

Таким чином, для обох факторів дисперсії не могли бути викликані випадковими похибками, і обидва фактори істотно впливають на основний показник технологічного процесу.

Якщо кількість спостережень в групах неоднакова (такі дисперсійні комплекси у біометрії називають нерівномірними), то це дещо ускладнює

аналіз. При цьому порушується основна рівність і проводиться корекція сум квадратів поправкових коефіцієнтів, щоб відновити цю рівність. Детальний опис цієї процедури і приклади дисперсійного аналізу нерівномірних комплексів наведено в навчальному посібнику [1].

4.6. Аналіз ієрархічних комплексів

У розглянутих вище прикладах дисперсійного аналізу зустрічалися різні фактори впливу на ознаку, яка вивчається. Серед робочих процесів АПК зустрічаються і такі, для яких вільне комбінування факторів виключається. Наприклад, при з’ясуванні впливу батьків на продуктивність потомства має місце підпорядкованість груп, тобто груп нижчого рангу (друге, трете покоління тварин або рослин) перебувають у строгій залежності від пов’язаних з ними груп вищого рангу. Такі комплекси підпорядкованих груп називають ієрархічними. Їх аналіз має деякі особливості.

Розглянемо найпростішу схему дисперсійного аналізу двофакторного ієрархічного комплексу при однакових обсягах вибірок у межах одного рівня, таблиця 4.9.

Таблиця 4.9. Схема аналізу ієрархічного комплексу

Мінливість ознаки

За

23

Page 24: DOE Lekcia04

факторамиА

В

Випадкова -

Загальна - -

Суми квадратів відхилень Q обчислюються за формулами

;

;

;

.

Фактор А утримує найвищий рівень в ієрархічній схемі, означає

кількість значень змінної величини у градаціях фактора А. Для визначення сили впливу факторів, які перебувають на різних рівнях, їх факторні

дисперсії підлягають виправленню, як показано у стовпці для .При неоднаковому обсязі вибірок у градаціях комплексу величини hl i l

для розрахунку дисперсій, що виправлюються, усувають за формулами

; ;

; .Приклад 4.5. З’ясувати вплив батьків на жирність молока корів на

підставі вибірки, систематизованої в таблиці 4.10.

Таблиця 4.10. Дані для аналізу ієрархічного комплексу

Батьки, А

Матері, В

Дочки, х1 2 3 4 5 6 7

1 4,0 3,8 3,6 3,8 - - - 3,80

24

Page 25: DOE Lekcia04

1 2 3,9 3,7 3,8 3,5 3,5 - - 3,72 3,763 4,0 4,1 3,9 4,0 - - - 4,0

24 4,2 4,0 4,0 3,9 4,0 4,1 3,8 4,00 3,975 3,9 3,9 4,0 3,8 - - - 3,906 4,1 4,2 4,0 3,9 4,0 3,8 - 4,00

3 7 4,0 4,1 4,1 3,8 3,9 - - 3,98 3,958 3,9 3,9 3,8 4,1 3,6 - - 3,86

Розв’язання. Проведемо аналіз нерівномірного ієрархічного комплексу

обсягом . Середні величини змінюються як всередині груп батьків (фактора А), так і між цими групами. Для спрощення розрахунків x зменшимо

на . Допоміжні величини заносимо у таблицю 4.11.

Потім обчислимо ; ;

; ; .

Розрахуємо число ступенів вільності: ; ;

; .

Звідси ; ; .

Таблиця 4.11. Вплив батьків на жирність молока корів

1 1 0,9 1,0 1,0 0,9 1,1 1,0 0,92 0,8 0,7 1,1 1,1 0,9 1,2 1,1 0,93 0,6 0,8 0,9 1,0 1,0 1,0 1,1 0,84 0,8 0,7 1,0 0,9 0,8 0,9 0,8 1,15 - 0,5 - 1,0 - 1,0 0,9 0,66 - - - 1,1 - 0,8 - -7 - - - 0,8 - - - -L 4 4 4 7 4 6 5 5 40

3,2 3,6 4,0 7,0 3,6 6,0 4,9 4,3 36,6

10,24 12,96 16,0 49,0 12,96 36,0 24,01 18,49 -

2,56 2,59 4,0 7,0 3,28 6,0 4,80 3,70 33,93

6,64 2,68 4,02 7,10 3,26 6,10 4,87 3,83 34,50

9 15 16 40

25

Page 26: DOE Lekcia04

6,8 14,6 15,2 36,6

46,24 213,16 231,04 -

5,14 14,21 14,44 33,79

Розрахункові значення F-критерію: ;

. Порівнюючи їх з табличними значеннями, бачимо, що

не тільки для ( ), але також і для вищого рівня

значущості ( ). Отже, вплив батьків на жирність молока корів

статистично можна вважати доведеним. Для матерів (фактор В) при

дістанемо . Їх вплив не доведено.Визначимо силу впливу фактора А. Для цього обчислимо виправлене

значення дисперсії . Усереднене значення знаменника

; .

Обчисливши також , дістанемо

. Таким чином, , тобто принаймні 30 % мінливості жирності молока визначається спадковими якостями бугаїв.

4.7. Застосування латинських і греко-латинських квадратів при дисперсійному аналізі

Ієрархічна схема дисперсійного аналізу розглядає не всі поєднання рівнів факторів у зв’язку з обмеженнями, які вносить природа самої ієрархії. Розбивка результатів дослідів на окремі блоки тут відбувається природним шляхом (див. приклад 4.5). В інших випадках експериментатор свідомо йде на виключення можливих поєднань рівнів факторів, спираючись на міркування економії часу, коштів чи засобів. При двох і більше факторах і необхідності підтримувати кожний з них на кількох рівнях таке скорочення загального числа дослідів необхідне.

Якщо факторів три, то для дисперсійного аналізу застосовують схему планування експерименту, яка називається латинським квадратом. Спочатку ця схема з’явилася у сільськогосподарських експериментах. Два з трьох факторів означають, наприклад, дві координати місцезнаходження дослідної ділянки на полі, третій (основний) – є способом обробки або сортом рослини.

26

Page 27: DOE Lekcia04

Такий план експерименту забезпечує з’ясування впливу основного фактора на середню урожайність при зниженні небажаного виливу коливань родючості окремих ділянок дослідного поля. У подальшому такі плани знайшли застосування і в переробних галузях, причому часто два, а то й усі три фактори самі по собі викликають інтерес, а не впроваджуються лише для того, щоб позбутися небажаних ефектів або пояснити їх.

Латинський квадрат зображують у вигляді таблиці, рядки якої відповідають різним рівням першого фактора, а стовпці – другого. Рівні третього (основного) фактора позначають великими літерами латинського алфавіту, які подають на перетині відповідних рядків і стовпців. Приклад латинського квадрата наведено в таблиці 4.12. Усього за рахунок

перестановок можна дістати два квадрати , 12 квадратів , 576 квадратів і т. д.

Таблиця 4.12. Приклад латинського квадрата

Фактор I Фактор II1 2 3 4

1 A B C D2 D A B C3 C D A B4 B C D A

Тут в експерименті використовують 42 різні комбінації рівнів факторів I, II і III, оскільки реалізуються умови, які стоять на перетині кожного рядка і стовпця. Якщо число рівнів п, то проводять п2 дослідів замість п3 можливих комбінацій, що значно економічніше. Можливість розділеної оцінки впливу кожного фактора при цьому зберігається, проте губиться можливість з’ясувати взаємодію окремих факторів, що обмежує застосування латинських квадратів при дисперсійному аналізі, а також при інших видах аналізу результатів експериментів. З такими обмеженнями будемо неодноразово зустрічатися в подальшому викладі.

Аналіз латинських квадратів істотно спрощується порівняно з попередніми випадками у зв’язку з тим, що всі три фактори входять в план експерименту симетрично: їх можна переставляти у будь-якому порядку, знову дістаючи латинські квадрати. Тому розрахунки сум квадратів Q і

дисперсій для всіх трьох факторів проводять за формулами однакової структури

27

Page 28: DOE Lekcia04

; ,

де підсумовування виконують для факторів І за рядками, II – за стовпцями квадрата, III – за латинськими літерами, а х – за будь-яким з трьох факторів. Загальну суму квадратів обчислюють за тією ж формулою, але х підсумовують за всіма трьома факторами. Залишкову суму визначають, як

звичайно, . Число ступенів вільності для загальної

дисперсії дорівнює , а для залишкової – .Для перевірки нуль-гіпотези про те, що вплив фактора відсутній, а

спостережуваний вплив випадковий, формують F-критерій і

порівнюють його з табличним значенням. При нуль-гіпотеза відхиляється.

Приклад 4.6. З’ясувати вплив різних сортів ячменю А, В, С, D і Е на його урожайність за результатами дослідів, проведених за планом

латинського квадрата . Вихідні дані, ц/га, і розрахункові значення середніх урожаїв наведено в таблиці 4.13.

Розв’язання. Як і в попередніх прикладах дисперсійного аналізу,

зменшимо всі х на величину , близьку до х для всіх сортів. Нові значення х, а також їх суми за рядками, стовпцями і літерами заносимо у таблицю 4.14.

Правильність розрахунків для таблиці 4.14 перевіряють по сумі х для

всіх трьох факторів . Потім обчислюють і

і суми квадратів:

;

;

;

;

.

Таблиця 4.13. Вихідні дані по урожаю ячменю

Фактор I Фактор II1 2 3 4 5

1 35,3D 31,3C 32,6A 33,4B 33,8E 32,7A

28

Page 29: DOE Lekcia04

2 40,8B 33,7A 39,3E 37,7C 37,3D 32,4B3 35,8E 27,7B 37,2D 31,8A 35,8C 34,7C4 34,2A 35,3D 36,9C 40,0E 33,9B 35,8D5 32,3C 33,7E 24,6B 33,7D 31,2A 36,5E

Таблиця 4.14. Дані для аналізу латинського квадрата

Фактор І Фактор ІІ1 2 3 4 5

1 0,3D -3,9C -2,4A -1,6B -1,2E -8,8 -11,5A2 5,8B -1,3A 4,3E 2,7C 2,3D 13,8 -12,8B3 0,8E -7,3B 2,2D -3,2A 0,8C -6,7 -1,3C4 -0,8A 0,3D 1,9C 5,0E -1,1B 5,3 3,8D5 -2,8C 1,3E -8,6B -1,3D -3,8A 15,2 10,2E

3,3 -10,9 -2,6 1,6 -3,0 -11,6 -11,6

Оскільки нас цікавить тільки вплив фактора III, тобто ячменю, на

урожай, обчислимо дві дисперсії: і . Їх

відношення дає . За таблицею Д1 знаходимо для рівня

значущості і числа ступенів вільності чисельника та

знаменника критичне значення -критерію .

Оскільки , нуль-гіпотеза відхиляється.Зручність роботи з латинськими квадратами дає змогу використовувати

цю структуру планування експериментів навіть у випадку незбігу числа рівнів усіх трьох факторів. Якщо число рівнів основного фактора менше ніж п, то можна скласти латинський квадрат, в якому частина рівнів буде фіктивною. Наприклад, для квадрата (див. табл. 4.12) при числі рівнів третього фактора, рівному трьом, замість літери D можна вписати літеру А, тобто повторити інформацію про відповідний рівень фактора III. Якщо з тих чи інших причин випадає який-небудь рівень факторів І або ІІ, його можна поновити. Така методика розроблена для сільськогосподарських польових дослідів на випадок випадання якоїсь ділянки поля; формули для обчислення обновленого урожаю можна взяти з [2].

Навпаки, якщо число рівнів основного фактора вдвічі перевищує п, то експерименти проводять за схемою подвійного латинського квадрата або латинського прямокутника. Структура плану і обчислень при цьому така ж,

29

Page 30: DOE Lekcia04

як і для латинського квадрата, деякі відмінності можна простежити на прикладі використання прямокутника .

Приклад 4.7. Провести дисперсійний аналіз впливу сортів кукурудзи на урожай зеленої маси. Один з цих сортів (А) є стандартним для даної місцевості, решта сім – новими. Результати дослідів восьми сортів, т/га, а також суми за рядками, стовпцями та літерами наведено у таблиці 4.15.

Таблиця 4.15. Дані по урожаю зеленої маси кукурудзи

Фактор ІФактор ІІ

1 2 3 4

149E 64G 35B 50D 413 167A43A 65C 47F 60H 147B

264G 42E 55D 35B 393 250C66C 42A 54H 35F 215D

340F 50H 40E 51G 365 161E40B 48D 36A 60C 167F

453H 45F 53G 30E 385 232G62D 37B 59C 46A 217H

417 393 379 367 1556 1556

Розв’язання. Перевіримо правильність розрахунків суми

. Загальний обсяг вибірки . Тому

. Далі при обчисленні і суми квадратів ділимо на 2п:

;

;

;

;

.

Як і в прикладі 4,6, обчислимо дві дисперсії: і

.

30

Page 31: DOE Lekcia04

Відповідно до структури латинського прямокутника, число ступенів

вільності , , а для та , як і для квадрата,

. Відношення дисперсій дає .

Порівняння з , знайденим для при і ,

показує, що нуль-гіпотезу тут слід відхилити, оскільки . Це означає, що мінливість результатів здобуто через вплив сортів кукурудзи на урожай зеленої маси.

У прикладі 4.7 дістали результат, протилежний висновкам з прикладу 4.6. Даний експериментальний результат дає змогу з’ясувати силу впливу основного фактора (див. п. 4.4). Проте тут можна піти ще далі і визначити, які сорти кукурудзи перспективні порівняно із стандартними, а які – ні. Найпростіший спосіб при цьому – порівняти середній урожай кожного сорту з урожаєм стандартного сорту, проте здобуті різниці необхідно статистично обгрунтувати. При дослідженні сільськогосподарських процесів використовують найменшу істотну різницю, яку позначають абревіатурою НІР. Це величина, яка показує межу випадкових відхилень між порівнюваними середніми значеннями змінних, що відповідає надійному інтервалу для різниці цих середніх. Визначають НІР за формулою

,

де - помилка різниці між середніми, a – табличне значення t-критерію, взяте для заданого рівня значущості та числа ступенів вільності цієї помилки.

При дисперсійному аналізі помилку кожної із середніх визначають за

величиною залишкової дисперсії (решта дисперсій не є випадковою), тому помилку різниці середніх обчислюють за формулою

.НІР можна виразити також і в процентах. Для цього треба поділити її

на середню з усіх порівнюваних середніх і помножити на 100:

.

Для уточнення того, при якому рівні значущості береться НІР або , у біометрії часто ці величини подають з нижніми індексами 0,5 (рівень

значущості ); 01 або 001 (відповідно та 0,001). Іноді цим величинам, найчастіше критеріям згоди, записують також інші індекси, які

31

Page 32: DOE Lekcia04

звичайно означають число ступенів вільності. Таким чином, F-критерій може

мати три індекси, які означають величини , і .Продовжимо розгляд прикладу 4.7. Визначити перспективність

кожного сорту кукурудзи порівняно із стандартним.

Розв’язання. Використаємо величину для обчислення

. За таблицею Д4 знаходимо для числа ступенів

вільності і значення . Розрахуємо абсолютне значення НІР:

т/га.

Нарешті, усереднивши середні урожаї всіх сортів, дістанемо т/га і обчислимо відносні значення НІР у процентах:

. Результати обчислень заносимо у таблицю 4.16, де відхилення від стандарту дістали простим відніманням (перший стовпець)

та діленням на (другий стовпець).

Таблиця 4.16. Вплив сорту кукурудзи на урожай зеленої маси

Сорт Урожай т/гаВідхилення від стандартут/га %

A 41,8 - -B 36,8 -5,0 -12,0C 62,2 +20,7 +49,5D 53,8 +12,0 +28,7E 40,2 -1,6 -3,8F 41,8 - -G 58,0 +16,2 +38,7H 54,2 +12,4 +29,7

Використовуючи обчислені значення НІР, зробимо висновок, що сорти C, D, G і Н дають вищий урожай, ніж стандартний сорт А. Урожаї сортів В і Е дещо менші, ніж сорту А, проте ці відхилення можна віднести до випадкових, оскільки вони менші, ніж НІР, та вважати, що сорги В, Е та F за урожайністю не відрізняються від сорту А.

Схему латинського квадрата можна використати і при дисперсійному аналізі впливу чотирьох факторів. При цьому на початковий квадрат накладається другий квадрат такого ж розміру, з клітинками, в яких показано рівні четвертого фактора. Обов’язковою вимогою при накладанні другого

32

Page 33: DOE Lekcia04

квадрата є його ортогональність початковому квадрату Під ортогональністю тут розуміють умову, при якій кожна літера нового латинського квадрата з’являється один раз у кожному рядку і кожному стовпці, так що кожна пара літер у здвоєному квадраті зустрічається лише один раз Рівні четвертого фактора позначають малими літерами грецького алфавіту, тому здвоєні квадрати називають греко-латинськими. Приклад греко-латинського квадрата

наведено у таблиці 4.17.Таблиця 4.17. Греко-латинський квадрат

Фактор ІФактор ІІ

1 2 3 4

1

2

3

4

Дисперсійний аналіз греко-латинських квадратів аналогічний аналізу латинських квадратів, лише .додається сума квадратів для четвертого

фактора та число ступенів вільності для залишкової суми зменшується на

. Зазначимо, що остання обставина робить неефективною побудову

греко-лагинських квадратів , оскільки тут число ступенів вільності для залишкової суми дорівнює нулю, що не дає змоги користуватися критеріями згоди F або t.

Подальше збільшення кількості впливаючих факторів приводить до побудови гіпер-греко-латинських квадратів і кубів. Для гіперквадрата з п’ятьма факторами рівні п’ятого фактора позначають малими літерами латинського алфавіту. Вимога ортогональності залишається обов’язковою при накладанні кожного наступного квадрата. Зрозуміло, що кожного разу,

коли число факторів досягає , зникає можливість аналізувати залишкову суму квадратів.

Вище йшлося про те, що коли число рівнів одного з факторів менше ніж п, то можна вживати фіктивні рівні. Проте при великих п число таких фіктивних рівнів може бути занадто великим, в інших випадках провести експеримент за латинським квадратом немає можливості через нестачу місця, часу або коштів чи засобів. Тоді застосовують спеціальні неповні латинські квадрати, які називаються квадратами Юдена. По суті, це латинські квадрати, в яких відсутні кілька рядків або стовпців, тому їх правильніше було б називати прямокутниками. Аналіз квадратів Юдена аналогічний аналізу

33

Page 34: DOE Lekcia04

латинських квадратів; з його особливостями і детальними прикладами використання можна ознайомитися в [3].

4.8. Ранговий дисперсійний аналіз

Описані вище методи дисперсійного аналізу передбачають нормальний або близький до нормального розподіли розглядуваної змінної. Якщо розподіл істотно відрізняється від нормального або (що зустрічається значно частіше) просто невідомий, то при дисперсійному аналізі доводиться вдава-тися до непараметричних методів (особливо при малому обсязі вибірок). Це дає змогу проводити менш ефективний, але спрощений аналіз не тільки кількісних, а й якісних даних, присвоюючи їм порядкові показники. Одним з таких методів є ранговий дисперсійний аналіз. Він базується на загальному ранжируванні всіх значень змінної в даній вибірці і порівнянні сум рангів для різних груп. Нуль-гіпотеза при цьому формулюється так: суми рангів R всіх r груп однакові, їх відмінності є випадковими. Під групами звичайно розуміють градації основного фактора (який вивчається).

Якщо групи мають однаковий обсяг, то дані кожної групи виписують у випадковому порядку в стовпці. Після цього здійснюють ранжирування даних, які потрапили до одного рядка, тобто стільки разів, скільки вийшло рядків. Якщо в якому-небудь рядку з’явилися збіжні дані, їм присвоюють середній ранг (аналогічно тому, як це робиться при використанні Т-критерію Уайта для визначення вірогідності різниці між середніми вибірок). Для

кожної групи (стовпця) обчислюється сума рангів . Критерієм згоди для перевірки нуль-гіпотези за Фрідманом є величина

.

Для більшого числа груп і більшого обсягу кожної групи

цей критерій практично збігається з -критерієм; отже, можна

користуватися -розподілом (див. табл. Д5), вважаючи . Для малих значень r і п складено допоміжну таблицю Д6. Як параметри тут використано числа r і n. Рівень значущості вибирається, як звичайно. Нуль-гіпотеза

відхиляється, якщо .Приклад 4.8. Провести аналіз впливу індивідуальних особливостей

рослин ромена круглолистяного на розмір придатка на сім’яниках – коронки. Дані по вимірюванню чотирьох коронок, мм, у кожної з чотирьох рослин А (r=n= 4) наведено в таблиці 4.18 у випадковому порядку.

34

Page 35: DOE Lekcia04

Розв’язання. Проведемо ранжирування за рядками і запишемо ранги біля кожного значення змінної (у другому і третьому рядках з усередненням).

Таблиця 4.18. Дані для рангового дисперсійного аналізу

8 2 10 3 3 1 14 45 2 11 3,5 4 1 11 3,58 2,5 12 4 3 1 8 2,56 2 14 4 4 1 12 3

8,5 14,5 4 13

Проведемо підсумовування за стовпцями і утворені дані підставимо у формулу

.

За таблицею Д6 знаходимо для , , , . Оскільки

, навіть для такого високого рівня значущості вважатимемо безсумнівним вплив індивідуальних особливостей рослин на розмір коронки.

Ранговий аналіз для груп неоднакового обсягу оброблений В. Краскелом та У. Уоллісом. Основною особливістю тут є ранжирування всіх значень змінної, незалежно від належності до тієї чи іншої групи та положення у межах групи. Критерій згоди тут дещо видозмінюється:

,де N – загальне число значень змінних; п – різне значення числа змінних у кожній групі.

Якщо є збіги, то замість Z розраховується величина , де А – поправка на збіжні значення,

,

де g – число груп, де є збіги; – число збіжних значень у j-й групі.

Як і в попередньому випадку, при великих значеннях r і всіх п ( ,

) Z-критерій наближається до -критерію. Для і складено таблицю критичних значень Z, таблиця Д6).

Приклад 4.9. Провести дисперсійний аналіз трьох штамів дріжджів Saccharomyces cerevisiae у спорідненості до субстрату – кислої фосфатози за

35

Page 36: DOE Lekcia04

результатами визначення константи Михаеліса-Ментена . Дані з трьох-чотирьох повторностей дослідів для кожного штаму наведено в таблиці 4.19.

Розв’язання. Проведемо ранжирування дослідних даних:1,20 1,61 1,66 1,92 2,00 2,08 2,12 2,17 2,20

1 2 3 4,5 6 7 8 9 10Результати заносимо у вихідну таблицю 4.19 і проведемо

підсумовування рангів за стовпцями. Розрахункове значення критерію згоди

.

Таблиця 4.19. Константа для трьох штамів дріжджів

1 2 3X R X R x R

2,17 9 2,08 7 1,66 31,92 4,5 2,00 6 1,20 12,20 10 2,12 8 1,61 2

1,92 4,5

23,5 - 25,5 - 6

За таблицею Д7 знаходимо для , (порядок груп тут не

має значення) , при і при . Розрахункове

значення лежить між цими значеннями, що дає змогу зробити висновок лише про необхідність продовжити дослідження, оскільки наявних даних не досить для однозначної відповіді.

Висновки

Описані в розділі 4 методи і приклади застосування статистичного дисперсійного аналізу сільськогосподарських і технологічних процесів порівняно прості. Зі збільшенням числа факторів та їх рівнів доводиться вдаватися до матричної форми аналізу, використання спеціальних алгоритмів, які дають змогу проводити вибірковий аналіз факторів та їх взаємодій. До цього повернемося в наступних розділах, оскільки дисперсійний аналіз часто поєднується з іншими формами аналізу дослідних даних. Це викликано тим, що в дисперсійному аналізі всі фактори досліджуються лише в якісному відношенні. Математична модель

36

Page 37: DOE Lekcia04

досліджуваного явища, незважаючи на її різновид [4, 5, 6], може бути подана просто: спостережуване значення змінної дорівнює сумі ефектів від відомих параметрів плюс сума ефектів від невичначеного діяння. Тому навіть з урахуванням великої цінності застосування дисперсійного аналізу для різних випадків його треба розглядати лише як частину математичного планування експериментів при вивченні робочих процесів сільськогосподарських та переробних галузей агропромислового комплексу.

Перелік використаних джерел і літератури

1. Лисенко А. Н. Математические методы планирования многофакторных медико-биологических экспериментов. – М.: Медицина, 1979. – 343 с.;

2. Доспехов Б. А. Методика полевого опыта (с основами статистической обработки результатов исследований). – М.: Агропромиздат, 1985. – 352с.;

3. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: В 2 т. – М.: Мир, 1980-1981. – Т. 1. – 606 с.;

4. Биометрия / Н. В. Глотов, Л. А. Животовский, Н В. Хованов, Н. Н. Хромов-Борисов. – Л.: Изд-во Ленинград. Ун-та, 1982. – 264 с.;

5. Справочник по теории вероятностей и математической статистике / В. С. Королюк, Н. И. Портенко, А. В. Скороход, А. Ф. Турбин. – М.: Наука, 1985. – 640 с.;

6. Лакин Г. Ф. Биометрия. – М.: Высш. шк., 1980. – 294 с..

Додатки

Д1. Випадкові числаВипадкові числа

3393 6270 4228 6069 9407 1865 8549 3217 2351 84109108 2330 2І57 7416 0398 6173 1703 8132 9065 67177891 3590 2502 5945 9402 0491 4328 2365 6175 76959085 6307 6910 9174 1753 1797 9229 3422 9861 83572638 2908 6368 0398 5495 3283 0031 5955 6544 38831313 8338 0623 8600 4950 5414 7131 0134 7241 06513897 4202 3814 3505 1599 1649 2784 1994 5775 14064380 9543 1646 2850 8415 9120 8062 2421 6161 46341618 6309 7909 0874 0401 4301 4517 9197 3350 0434

37

Page 38: DOE Lekcia04

4858 4676 7363 9141 6133 0549 1972 3461 7116 14965354 9142 0847 5393 5416 6505 7156 5634 9703 62210905 6986 9396 3975 9255 0537 2479 4589 0562 53451420 0470 8679 2328 3939 1292 0406 5428 3789 28823218 9080 6604 1813 8209 7039 2086 3369 4437 37989697 8431 4387 0622 6893 8788 2320 9358 5904 95390912 4964 0502 9683 4636 2861 2876 1273 7878 20304636 7072 4868 0601 3894 7182 8417 2367 7032 10032515 4734 9878 6761 5636 2949 3979 8650 3430 06355964 0412 5012 2369 6461 0678 3693 2928 3740 80477848 1523 7904 1521 1455 7089 8094 9872 0898 71745192 2571 '3643 0707 3434 6818 5729 8615 4298 41298438 8325 9886 1805 0226 2310 3675 5058 2515 23888166 6349 0319 5436 6838 2460 6433 0644 7428 85569158 8263 6504 2562 1160 1526 1816 9690 1215 95906061 3525 4048 0382 4224 7148 8259 6526 5340 4064

Д2.Розподіл Фішер-Снедекора (F-розподіл)

1 2 3 4 5 6 12 241 164,4 199,5 215,7 224,6 230,2 234,0 244,9 249,0 254,32 18,5 19,2 19,2 19,3 19,3 19,3 19,4 19,5 19,53 10,1 9,6 9,3 9,1 9,0 8,9 8,7 8,6 8,54 7,7 6,9 6,6 6,4 6,3 6,2 5,9 5,8 5,65 6,6 5,8 5,4 5,2 5,1 5,0 4,7 4,5 4,46 6,0 5,1 4,8 4,5 4,4 4,3 4,0 3,8 3,77 5,6 4,7 4,4 4,1 4,0 3,9 3,6 3,4 3,28 5,3 4,5 4,1 3,8 3,7 3,6 3,3 3,1 2,99 5,1 4,3 3,9 3,6 3,5 3,4 3,1 2,9 2,710 5,0 4,1 3,7 3,5 3,3 3,2 2,9 2,7 2,511 4,8 4,0 3,6 3,4 3,2 3,1 2,8 2,6 2,412 4,8 3,9 3,5 3,3 3,1 3,0 2,7 2,5 2,313 4,7 3,8 3,4 3,2 3,0 2,9 2,6 2,4 2,214 4,6 3,7 3,3 3,1 3,0 2,9 2,5 2,3 2,115 4,5 3,7 3,3 3,1 2,9 2,8 2,5 2,3 2,116 4,5 3,6 3,2 3,0 2,9 2,7 2,4 2,2 2,017 4,5 3,6 3,2 3,0 2,8 2,7 2,4 2,2 2,018 4,4 3,6 3,2 2,9 2,8 2,7 2,3 2,1 1,919 4,4 3,5 3,1 2,9 2,7 2,6 2,3 2,1 1,820 4,4 3,5 3,1 2,9 2,7 2,6 2,3 2,1 1,822 4,3 3,4 3,1 2,8 2,7 2,6 2,2 2,0 1,824 4,3 3,4 3,0 2,8 2,6 2,5 2,2 2,0 1,726 4,2 3,4 3,0 2,7 2,6 2,4 2,1 1,9 1,728 4,2 3,3 2,9 2,7 2,6 2,4 2,1 1,9 1,630 4,2 3,3 2,9 2,7 2,5 2,4 2,1 1,9 1,640 4,1 3,2 2,9 2,6 2,5 2,3 2,0 1,8 1,660 4,0 3,2 2,8 2,5 2,4 2,3 1,9 1,7 1,4120 3,9 3,1 2,7 2,5 2,3 2,2 1,8 1,6 1,3

3,8 3,0 2,6 2,4 2,2 2,1 1,8 1,5 1,0

38

Page 39: DOE Lekcia04

Д3. Критичні значення

fОбсяг вибірки, n

2 3 4 5 6 7 8 9 10 11 126 3,5 4,3 4,9 5,3 5,6 5,9 6,1 6,3 6,5 6,7 6,87 3,3 4,2 4,7 5,1 5,4 5,5 5,8 6,0 6,2 6,3 6,48 3,3 4,0 4,5 4,9 5,2 5,4 5,6 5,8 5,9 6,1 6,29 3,2 4,0 4,4 4,8 5,0 5,2 5,4 5,6 5,7 5,9 6,010 3,1 3,9 4,3 4,7 4,9 5,1 5,3 5,5 5,6 5,7 5,811 3,1 3,8 4,2 4,6 4,8 5,0 5,2 5,4 5,5 5,6 5,712 3,1 3,8 4,2 4,5 4,8 5,0 5,1 5,3 5,4 5,5 5,613 3,1 3,7 4,2 4,5 4,7 4,9 5,1 5,2 5,3 5,4 5,514 3,0 3,7 4,1 4,4 4,6 4,8 5,0 5,1 5,3 5,4 5,515 3,0 3,7 4,1 4,4 4,6 4,8 4,9 5,1 5,2 5,3 5,416 3,0 3,7 4,1 4,3 4,6 4,7 4,9 5,0 5,2 5,3 5,417 3,0 3,6 4,0 4,3 4,5 4,7 4,9 5,0 5,1 5,2 5,318 3,0 3,6 4,0 4,3 4,5 4,7 4,8 5,0 5,1 5,2 5,319 3,0 3,6 4,0 4,3 4,5 4,6 4,8 4,9 5,0 5,1 5,220 3,0 3,6 4,0 4,2 4,5 4,6 4,8 4,9 5,0 5,1 5,224 2,9 3,5 3,9 4,2 4,4 4,5 4,7 4,8 4,9 5,0 5,130 2,9 3,5 3,8 4,1 4,3 4,5 4,6 4,7 4,8 4,9 5,040 2,9 3,4 3,8 4,0 4,2 4,4 4,5 4,6 4,7 4,8 4,960 2,8 3,4 3,7 4,0 4,2 4,3 4,4 4,6 4,7 3,7 4,8120 2,8 3,4 3,7 3,9 4,1 4,2 4,4 4,5 4,6 4,6 4,7

Д4. Розподіл Стьюдента (t-розподіл)

fРівні значущості , %

fРівні значущості , %

5 1 0,1 5 1 0,11 12,71 63,66 - 18 2,10 2,88 3,922 4,30 9,92 31,60 19 2,09 2,86 3,883 3,18 5,84 12,92 20 2,09 2,85 3,854 2,78 4,60 8,61 21 2,08 2,83 3,825 2,57 4,03 8,87 22 2,07 2,82 3,796 2,45 3,71 5,96 23 2,07 2,81 3,777 2,37 3,50 5,41 24 2,06 2,80 3,758 2,31 3,36 5,04 25 2,06 2,79 3,739 2,26 3,25 4,78 26 2,06 2,78 3,7110 2,23 3,17 4,59 27 2,05 2,77 3,6911 2,20 3,11 4,44 28 2,05 2,76 3,6712 2,18 3,05 4,32 29 2,05 2,76 3,6613 2,16 3,01 4,22 30 2,04 2,75 3,6514 2,14 2,98 4,14 40 2,02 2,70 3,5515 2,13 2,95 4,07 60 2,00 2,66 3,4616 2,12 2,92 4,02 120 1,98 2,62 3,3717 2,11 2,90 3,97 1,96 2,58 3,29

0,05 0,01 0,0001 - 0,05 0,01 0,001

Д5. -Розподіл39

Page 40: DOE Lekcia04

fРівні значущості , %

10 5 2 1 0,11 2,71 3,84 5,41 16,64 10,832 4,60 5,99 7,82 9,21 13,823 6,25 7,81 9,84 11,34 16,274 7,78 9,49 11,67 13,28 18,465 9,24 11,07 13,39 15,09 20,526 10,64 12,59 15,03 16,81 22,467 12,02 14,07 16,62 18,48 24,328 13,36 15,51 18,17 20,09 26,129 14,68 16,92 19,68 21,67 28,8810 15,99 18,31 21,16 23,21 29,5911 17,28 19,68 22,62 24,72 30,2612 18,55 21,03 24,05 26,22 32,9113 19,81 22,36 25,47 27,69 34,5314 21,06 23,68 26,87 29,14 36,1215 22,31 25,00 28,26 30,58 37,7016 23,54 26,30 29,63 32,00 39,2517 24,77 27,50 31,00 33,41 40,7918 25,99 28,87 32,35 34,81 42,3119 27,20 30,14 33,69 36,19 43,8220 28,41 31,41 35,02 37,57 45,32

0,10 0,05 0,02 0,01 0,001

Д6. Критерій рангової дисперсії

Обсяг групи n

Кількість груп rОбсяг

групи n

Кількість груп r

Рівні значущості Рівні значущості 0,05 0,01 0,05 0,01 0,05 0,01

2 - - 6,00 - 9 6,22 8,673 6,00 - 7,40 9,00 10 6,20 9,604 6,50 8,00 7,80 9,60 11 6,54 9,465 6,40 8,40 7,80 9,96 12 6,17 9,506 7,00 9,00 7,60 10,20 13 6,00 9,387 7,14 8,86 7,80 10,37 13 6,14 9,008 6,25 9,00 7,65 10,35 15 6,40 8,93

Д7. Критерій Краскела-Уолліса

Обсяг груп nРівні

значущості Обсяг групп n

Рівні значущості

0,05 0,01 0,05 0,011 2 5 5,00 - 2 6 6 5,41 7,471 2 6 5,14 - 3 3 3 5,60 7,201 3 3 5,14 - 3 3 4 5,72 6,751 3 4 5,20 - 3 3 5 5,65 7,081 3 5 4,96 - 3 3 6 5,62 7,411 4 4 4,97 6,67 3 4 4 5,60 7,141 4 5 4,99 6,95 3 4 5 5,63 7,451 5 5 5,13 7,31 3 4 6 5,61 7,50

40

Page 41: DOE Lekcia04

2 2 3 4,71 - 3 0 5 5,71 7,542 2 4 5,33 - 3 5 6 5,60 7,592 2 5 5,16 6,53 3 6 6 5,63 7,732 2 6 5,35 6,65 4 4 4 5,69 7,652 3 3 5,36 - 4 4 5 5,62 7,762 3 4 5,44 6,44 4 4 6 5,68 7,802 3 5 5,25 6,82 4 5 5 5,64 7,772 3 6 5,35 6,97 4 5 6 5,66 7,942 4 4 5,45 7,04 4 6 6 5,72 8,002 4 5 5,27 7,12 5 5 5 5,78 8,002 4 6 5,34 7,34 5 5 6 5,73 8,032 5 5 5,34 7,27 5 6 6 5,76 8,122 5 6 5,34 7,38 6 6 6 5,80 8,22

41