Существует множество признаков, различных явлений и вещей, измерение которых затруднено или вовсе невозможно. Например, как измерить признак «вид патологии» или «профессия», а как сравнить эти признаки для получения статистического представления о профессиональной заболеваемости?

В этих случаях изучается распространенность признаков, частота встречаемости признаков (доля объектов с интересующим нас признаком) в различных выборках, оценивается взаимосвязь частоты встречаемости одного признака с частотой встречаемости другого признака.

Для этого используются таблицы сопряженности. Столбцы этой таблицы обозначают градации одного признака, строки – градации другого признака. В каждой ячейке записывается число случаев с сопряженными признаками.

Наиболее простой случай таблица 2х2 (исследуется частота совместного распространения двух признака, каждый из которых имеет две градации). Еще их называют четырехпольными таблицами.

В общем случае Н(0) формулируется следующим образом:

СЛУЧАЙ 1. Выборки независимые

Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности

Первый признак (первая градация) Первый признак (вторая градация) Всего
Второй признак (первая градация) Частота встречаемости a Частота встречаемости b a +b
Второй признак (вторая градация) Частота встречаемости c Частота встречаемости d с+d
n 1 =a+c n 2 =b+d n=a+b+c+d

Критерий хи-квадрат Пирсона вычисляется по формуле:

Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса:

Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f = ( n -1)( m -1), где n и m число строк и число столбцов в таблице сопряженности ( Приложение 5 ).

Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.

По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции):

Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.

Аналогично используется коэффициент фи-квадрат 2 ):

В примере с беременными, страдающими преэклампсией, была получена следующая таблица сопряженности:

Преэклампсия есть Преэклампсии нет Всего в строке
Ожирение есть 120 (a) 140 (b) 260
Ожирения нет 332 (c) 1520 (d) 1852
Всего в столбце 452 1660 2112

Н(0): наличие у беременной выраженного ожирения не влияет на риск возникновения преэклампсии.

Н(1): наличие у беременной выраженного ожирения увеличивает риск возникновения преэклампсии.

Выберем уровень значимости: α=0,05.

Вывод: наличие у беременной выраженного ожирения статистически значимо (с вероятностью не менее 95%) увеличивает риск возникновения преэклампсии.

А теперь рассмотрим клиническую значимость влияния фактора ожирения на протекание беременности. Из таблицы сопряженности можно посчитать, что доля лиц с ожирением среди тех, у кого нет преэклампсии, составляет 140/1660*100%=8,4%. Среди лиц с преэклампсией эта доля 26,5%, разница составляет 18,1%. Это выборочная разница и для нее необходимо определить 95% доверительный интервал. Как это сделать мы уже рассматривали. После расчетов получаем, что генеральная разница лежит в пределах от 13,8% до 22,4%. Даже нижний предел ДИ свидетельствует о клинической значимости этих различий.

Коэффициент ассоциации Юла Q =0,6 указывает на среднюю по силе связь между фактором риска и предродовым осложнением.

Эти же данные, обработанные в программе STATISTICA (модуль «непараметрическая статистика, таблицы 2×2»).

Столбец 1 Столбец 2 Всего
Частоты, стро а 1 120 140 260
% случаев 5,7 % 6,6 % 12,3 %
Частоты, строка 2 332 1520 1852
% случаев 15,7 % 72 % 87,76 %
Всего 452 1660 2112
% всего 21,4 % 78,6 %
Хи-квадрат (f=1) 107,99 p=0,0000
Поправка Йетса 106,32 p=0,0000
Фи-квадрат ,05113
Точный ритерий Фишера, одностор. ----
Точный критерий Фишера, двустор. ----
Хи-квадрат Макнемара 1193,42 p=0,0000

Таблицы сопряженности могут иметь и более сложный вид, когда каждый признак имеет более двух градаций. Нулевая гипотеза заключается в отсутствии связи между этими признаками. Ниже приведен пример подобного случая – нужно выяснить есть ли взаимосвязь между профессией и обращаемостью к врачу.

Профессия всего
Обращаемость к врачу строители шахтеры учителя госслужащие
до 3 в год 21 26 19 17 83
от 4 до 6 в год 9 15 12 6 42
более 6 в год 7 8 6 4 25
всего 37 49 37 27 150

Анализ таких таблиц также предпочтительно проводить с использованием компьютерных программ.

СЛУЧАЙ 2. Выборки зависимые

Проблема. Острые респираторные вирусные инфекции (ОРВИ) являются серьезной проблемой здравоохранения во многих регионах мира в связи с их широкой распространенностью и наносимым ими значительным социально – экономическим ущербом. Исследования показали, что у 92-94 % детей, страдающих частыми респираторно-вирусными заболеваниями, имел место дисбактериоз кишечника. Наличие дисбаланса нормофлоры, снижая антиинфекционную резистентность организма ребенка, не только сопровождает, но и влияет на частоту и характер течения острой респираторной инфекции у детей, способствуя развитию осложнений, что и позволяет считать терапевтическое и профилактическое применение биологических препаратов целесообразным и патогенетически обоснованным.

Стояла задача изучить эффективность пробиотика метаболитного типа в комплексной терапии у детей при осложненной смешанной респираторной вирусной инфекции и его влияние на микробиоценоз кишечника. В исследовании приняли участие 32 больных в возрасте от 1 мес. до 13 лет со среднетяжелыми и тяжелыми осложненными формами ОРВИ. Были получены следующие данные.

Частота нарушений микрофлоры после лечения снизилась на 43,8-15,6=28,2%. Подтверждают ли результаты выборочного исследования эффективность пробиотика?

Над одними и теми же объектами проводятся два наблюдения: «до» и после. (прием лекарства, обучение, внушение и т.д.)

Подсчитывается сколько раз данное свойство встречается:

Признак «после»
Признак «до» Вторая градация «после» (-) Первая градация «после» (+)
Первая градация «до» (+) a Число изменений от (+) к (-) b Число сохранивших (+)
Вторая градация «до» (-) c Число сохранивших (-) d Число изменений от (–) к (+)

Н(0) – частота встречаемости градаций признака после воздействия фактора не изменилось.

Критерием для проверки нулевой гипотезы является хи-квадрат М акнемара:

В задаче с эффективностью пробиотика составим следующую таблицу сопряженности для зависимых выборок. В ячейку a запишем число лиц, у которых был обнаружен дисбактериоз до лечения, но не обнаружен после (28,2% или 9 человек из 32). В ячейку b – число лиц, которым лечение не помогло (15,6% или 5 человек), в ячейку с – долю лиц, у которых как не было дисбактериоза, так и нет (56,2% или 18 человек), и в ячейку d – долю лиц, у которых после лечения вдруг он обнаружился (в нашем случае таких не было).

До лечения пробиотиком После лечения пробиотиком
Нет дисбактериоза Есть дисбактериоз
Есть дисбактериоз a 9 b 5
Нет дисбактериоза c 18 d 0

Н(0): частота нарушений микрофлоры кишечника не зависит от лечения пробиотиком.

Н(1): частота нарушений микрофлоры кишечника зависит от лечения пробиотиком.

Выберем уровень значимости: α=0,05, вычислим χ 2 = 7, 11.

Критическое значение = 3,841 (по таблице для f= 1, Приложение 5). Полученное значение χ 2 = 7,11 больше, чем критическое, следовательно, мы отвергаем нулевую гипотезу и принимаем альтернативную.

Вывод: с вероятностью не менее 95% частота нарушений микрофлоры кишечника зависит от лечения пробиотиком.

Определим 95%ДИ для разности долей, он составляет от 12,5 до 43,7%. Доверительный интервал достаточно широкий, т.е. доля лиц с положительны эффектом от лечения определена неточно, что может быть связано с недостаточным объемом выборки. Однако, даже нижний предел ДИ свидетельствует о клиническом эффекте от применения препарата.