Валидность
Содержание
Распределение частот первичных оценок по тесту 6 глава
⇐ ПредыдущаяСтр 13 из 34
Один из путей устранения влияния тренировки на результаты оценки Н. р. — формирование устойчивого навыка в работе с соответствующей методикой перед проведением тест-ретеста. Однако количество повторений теста при этом неизбежно возрастает, что приводит к увеличению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, содержащих большое количество элементов тестового материала.
Для других методик, очевидно, единственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоречие с определением надежности как характеристики теста.
Для большинства тестов общих способностей характерно улучшение показателей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выполнения. Другим фактором увеличения расчетных показателей Н. р. является относительное замедление с возрастом темпа психического развития в области тех характеристик, которые могут стать объектом измерения или влиять на результат теста. Благодаря этому, спустя время, составляющее интервал ретеста, случайные колебания результатов обследования становятся менее выраженными. Это искусственно завышает показатели Н. р. Эта закономерность требует отдельных измерений Н. р. в разных возрастных контингентах испытуемых, что особенно существенно для методик, предназначенных для обследования в широком возрастном диапазоне (см. Станфорд—Бине умственного развития шкала, Векслера интеллекта измерения шкалы).
Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускающих многократное повторное обследование. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других методик, отличающихся большим количеством пунктов (см. Миннесотский многоаспектный личностный опросник).
НАДЕЖНОСТЬ ФАКТОРНО-ДИСПЕРСИОННАЯ— способ определения надежности, основанный на дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения (см. Ошибка измерения). Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).
Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов (см. Фактор G), особых факторов, обеспечивающих тесты специфической направленности (см. Факторы групповые) и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности:
где σ2t — дисперсия теста, — дисперсия общих, групповых и единичных факторов, — дисперсия погрешности. Разделив уравнение на σ2t получим:
что может быть записано в виде:
где — доля дисперсии, выраженная общим фактором а, и т. д.
Таким образом, коэффициент надежности теста равен:
Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста (см. Факторно-аналитический принцип), но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.
НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА —характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста.
Наиболее простым и распространенным способом определения Н. ч. т. является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту (см. Нормальное распределение) выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отношению к тесту в целом).
Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласованность, Трудность заданий теста). Разделение объема заданий теста на сопоставимые части достигается:
— распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);
— распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности (см. Дискриминативность заданий теста). Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуемых на все пункты;
— распределением задач по времени решения каждой из частей (для тестов скорости).
Для испытуемых в выборке определения надежности (раздельно для каждой из частей теста) вычисляются оценки успешности решений, среднеквадратические отклонения первого и второго рядов оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность лишь половины теста.
Уравнение Спирмена—Брауна отражает влияние изменения количества заданий на коэффициент надежности теста:
где rt — коэффициент надежности для полного объема заданий, — его значение после изменения числа заданий, п — отношение нового числа заданий к первоначальному (если число заданий полного теста — 100, а его части, полученной методом расщепления на половины, — 50, то п = 0,5). Отсюда для полного теста:
Приведенные формулы справедливы для случаев равных стандартных отклонений обеих половин теста (σх1 = σх2). Если σх1 отличается от σх2, для определения коэффициента надежности применяется формула Фланагана:
Этот же показатель для малых выборок рассчитывается по формуле Кристофа:
При определении rt целого теста можно воспользоваться формулой Рюлона:
где — дисперсия разностей между результатами каждого испытуемого по двум половинам теста, — дисперсия суммарных результатов. В данном случае коэффициент надежности рассчитывается как доля «истинной» дисперсии результатов теста (см. Надежность, Ошибка измерения).
При расщеплении тестов скорости применяется особая процедура группировки заданий. Определяется минимальное время (tmin) решения целого теста, затем отсчитываются половина и четвертая часть этого времени. Все испытуемые работают половину минимального времени, после чего ставят отметку против задания, выполняемого в момент подачи сигнала, и продолжают работать еще четверть минимального времени. Коэффициент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигнала (0,5tmin) и решенных за время между первым и вторым сигналами (0,25tmjn).
Разделение заданий теста на равноценные половины является лишь частным случаем Н. ч. т. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутренней согласованности.
При разделении всего набора заданий теста на любое количество групп для правильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения rt ниже истинных.
Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера—Ричардсона:
где — дисперсия первичных оценок теста, р — индекс трудности, выраженный в виде доли — — (см. Трудность заданий 100 теста), q = 1 — р, rpb — коэффициент дискриминации (см. Дискриминатив-ность заданий теста).
В целях упрощения вычисления может быть применена формула Гуликсена:
где k — число заданий в тесте.
Это уравнение может быть упрощено следующим образом:
При отсутствии коэффициента дискриминации применим вариант формулы Кьюдера—Ричардсона:
Пример вычислений rt по методу Кьюдера — Ричардсона приведен в табл. 17.
Таблица 17
Определение коэффициента надежности методом Кьюдера—Ричардсона (n = 50; = 8,01;k= 16)
Предложенные выше формулы для определения коэффициента надежности пригодны для случаев, когда задания оцениваются в дихотомической шкале (см. Шкалы измерительные) по принципу «выполнено — не выполнено». Для случаев с более дифференцированной оценкой применима формула коэффициента альфа:
где — сумма дисперсий результатов отдельных заданий.
В практике психологической диагностики считается, что тест надежен, если rt ≥ 0,6.
Коэффициент надежности обладает доверительным интервалом, определение которого особенно важно в связи с большим количеством факторов, способных влиять на его значение. Доверительный интервал для rt определяется как
где — стандартная ошибка коэффициента надежности — преобразование Фишера (определяется по статистическим таблицам). На практике применяется только нижняя граница rt (Zкрит при γ = 0,05 составляет 1,96, при α = 0,01 -2,58).
Характеристика надежности по типу Н. ч. т. имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных, форм, главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение методов характеристики Н. ч. т. по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода Н. ч. т. с другими типами характеристики надежности психологической методики.
«НАРИСУЙ ИСТОРИЮ»(Draw-a-Story, DAS) — проективная методика исследования личности. Предложена Р. Силвером в 1987 г. Предназначена для раннего обнаружения депрессии, в частности — скрытой депрессии.
«Н. и.» основывается на обычных для проективных методик положениях: а) детское восприятие одних и тех же рисунков различно; б) на восприятие оказывает влияние личный опыт; в) рисунки могут отражать элементы личности, поддающиеся квантификации.
В методике комбинируются исследовательские процедуры разных проективных техник. Первоначально обследуемый должен выбрать из 14 картин две и по ним придумать историю (на предлагаемых картинах в основном содержатся изображения людей и животных). Затем необходимо сделать рисунок по мотивам ранее воображенной истории. Наконец, предлагается записать историю. Темы рисунка и истории оцениваются по 7-балльной шкале (от «выражение негативная» до «выраженно позитивная»). Негативные темы содержат указания на «грусть», «печаль», «смерть», «беспомощность», «будущее без надежд на лучшее» и т. п. и рассматриваются как знаки депрессии.
«Н. и.» предназначена для группового обследования детей и подростков, начиная с 5-летнего возраста. Сообщается о высокой надежности методики. Так, надежность ретестовая (интервал ретеста — неделя) при обследовании детей с эмоциональными расстройствами — 0,87.
Данные о валидности ограниченны, тем не менее имеются сведения о том, что темы депрессивных детей и подростков оцениваются в основном как «выражение негативные», чего не наблюдается в других группах. Имеются нормативные данные, полученные при обследовании 380 детей и подростков, однако они не могут быть признаны репрезентативными.
Сведений об использовании в СНГ нет.
«НАРИСУЙ ЧЕЛОВЕКА» ТЕСТ(Draw-A-Person Test, DAP) — проективная методика исследования личности. Разработана К. Маховер в 1948 г. на основе теста Ф. Гудинаф, предназначенного для определения уровня интеллектуального развития детей и подростков с помощью выполненного ими рисунка мужчины (см. Гудинаф «Нарисуй человека» тест).
«Н. ч.» т. можно использовать для обследования как взрослых, так и детей, допускается групповое обследование.
Обследуемому предлагают карандашом на чистом листе бумаги нарисовать человека. После выполнения рисунка ему дают задание нарисовать человека противоположного пола. Заключительный этап обследования — опрос. К. Маховер составлены специальные перечни вопросов о нарисованных фигурах. Эти вопросы касаются возраста, образования, семейного положения, привычек и т. д.
При интерпретации полученных данных автор исходит из идеи о том, что рисунок является выражением «Я» обследуемого. Значительное внимание уделяется анализу разнообразных деталей рисунка, прежде всего особенностям изображения основных частей тела, которые зачастую оценивают в соответствии с психоаналитической символикой. Изучение валидности «Н. ч.» т. западными психологами привело к противоречивым результатам в силу умозрительности предлагаемых автором интерпретаций. Имеются данные о том, что общие субъективные оценки более валидны и надежны, нежели оценки по отдельным деталям рисунка.
В СССР «Н. ч.» т. первоначально применялся в клинико-психологических исследованиях. Анализировались преимущественно формальные аспекты рисунков, напр, размер фигуры, ее расположение на листе бумаги, степень законченности рисунка и т. п. (Ю. С. Савенко, 1970). Полученные при обследовании пациента результаты соотносились с клинической картиной заболевания, обогащая и уточняя представление о больном. Начиная с 90-х годов сфера использования теста существенно расширяется, выполнено немало исследований в возрастной и педагогической психологии.
НАРУШЕНИЙ ПСИХИЧЕСКОЙ АДАПТАЦИИ ОПРОСНИК(НПА) — опросник личностный, разработан А. И. Скорик и Л. С. Свердловым в 1993 г. Предназначен для предварительной диагностики адаптационных нарушений.
Методика носит скрининговый характер (см. Отсеивание). Исследование, проводимое при помощи НПА, позволяет получить общее представление о наличии или отсутствии проявлений психической дезадаптации, их основных особенностях. Требования,предъявляемые к такого рода ускоренной диагностике, обусловили небольшой объем опросника и простоту обработки первичных данных.
Опросник НПА состоит из 37 утверждений, касающихся личностных качеств и психологических особенностей испытуемого, состояния соматической сферы, представлений о психическом здоровье, восприятия некоторых обыденных жизненных проблем. Задания опросника требуют только утвердительных или отрицательных ответов («да»—»нет», «верно»— «неверно», «согласен»—»не согласен»). Ответ «не знаю» не допускается. Опросник может применяться при индивидуальном и групповом обследовании. Оценки первичные подсчитываются в соответствии с «ключом», раздельно по 6 шкалам опросника. Особенностью первичной обработки является то, что подсчитывается не просто число совпадений с ключом с оценкой 1 балл за каждое совпадение, а суммируются удельные веса каждого из совпавших с ключевым значением ответов (см. Внутренняя согласованность). Весовая величина каждого пункта рассчитывалась на основе определения факторной нагрузки (см. Факторный анализ) данного ответа в измеряемом шкалой признаке. Расчет сделан таким образом, что веса пунктов выражаются целыми числами от 1 до 9. Сырые оценки переводятся в стандартные Т-баллы (см. Оценки шкальные). Результаты представляются графически на специальном бланке в виде оценок профильных.
Шкалы опросника разработаны на основе результатов факторного анализа первичного статистического материала, полученного в соответствующих клинических группах испытуемых: 1. (В) Описывает переживание общего физического и психического комфорта. В норме у адаптированных испытуемых оценка по данной шкале имеет тенденцию к повышению. 2. (Н) Шкала «ипохондрии» — отражает степень фиксации на соматическом неблагополучии. При нарушениях адаптации оценка по данной шкале повышается. 3. (М) Шкала «гипоманиакальности» — фиксирует ощущение комфорта с оттенком эйфории, «форсированного благополучия», беспечности. При нарушении адаптации оценка снижается. 4. (Р) Шкала описывает депрессивное состояние. Результат отрицательно коррелирует с данными по шкале М. В норме наблюдается низкая оценка. 5. (N) Шкала «невротизации» — описывает состояние эффективно-вегетативного дисбаланса, возникающего при эмоциональном напряжении, «нервозность». При нарушениях адаптации оценка повышается. 6. (S) Шкала фиксирует нарушения в сфере социальных отношений. У дезадаптированных оценка повышается.
При интерпретации данных НПА основное значение имеет анализ «профиля». Наряду с этим авторы предлагают простые формальные критерии диагностики дезадаптации. Простейшим из них является критерий, основанный на высоте профиля. Дезадаптация имеет место в том случае, если оценки хотя бы двух шкал превышают значения 70 Т или опускаются ниже 30 Т либо одна из шкал превышает 80 Т или опускается ниже 20 Т. По данным авторов, вероятность необнаружения реально существующей дезадаптации составляет лишь 5%. Однако вероятность того, что достаточно адаптированные лица будут причислены к дезадаптированным, составляет 22,5%. Это делает данный критерий малопригодным, в частности при проведении массовых эпидемиологических исследований. Более сложным и точным (10% вероятности того, что адаптированные будут причислены к дезадаптированным) является критерий, учитывающий дифференцированный результат по «шкалам благополучия» (В, М) и «шкалам неблагополучия» (Н, D, N, S). Дезадаптация диагностируется в тех случаях, когда В + М составляют 79 Т или когда сумма Н, D, N и S превышает 255 Т. Сравнительные исследования на материале контрастных групп показали высокую корреляцию комплексного критерия дезадаптации с верифицированным диагнозом (r = 0,85, Р< 0,001).
Надежность ретестовая НПА (при интервале ретеста 1 сутки) по различным шкалам колеблется в интервале rt = 0,74-0,90. Имеются сведения о валидности текущей, которая изучалась путем сопоставления данных контрастных групп (группы психически здоровых адекватно адаптированных, психически здоровых с нарушениями адаптации и больных с неврозоподобными состояниями). Сведения о надежности и валидности опросника НПА дают основание предполагать эффективность методики в индивидуальном и массовом скрининге состояний психической дезадаптации.
НЕСУЩЕСТВУЮЩЕЕ ЖИВОТНОЕ— проективная методика исследования личности; предложена М. 3. Друкаревич.
Испытуемому предлагают придумать и нарисовать несуществующее животное, а также дать ему ранее не существовавшее имя. Из имеющейся литературы видно, что процедура обследования не стандартизована (используются разных размеров листы бумаги для рисования, в одних случаях рисунок выполняется цветными карандашами, в других — одним цветом и т. д.). Общепринятой системы оценки рисунка не существует. Теоретические посылки, положенные в основу создания методики, совпадают с таковыми у прочих проективных методик. Как и многие другие рисуночные тесты, Н. ж. направлен на диагностику личностных особенностей, иногда ее творческих потенций.
Показана удовлетворительная валидность конвергентная методики путем установления связи между результатами, полученными с ее помощью, и данными других личностных методик на материале обследования пациентов психиатрической клиники и лиц, проходящих профотбор в штат МВД (П. В.Яньшин, 1988, 1990). Валидность также подтверждена при дифференциации больных неврозами и здоровых (Т. И. Краско, 1995). Н. ж. — одна из наиболее популярных рисуночных методик и широко используется психологами СНГ при обследовании детей и взрослых, больных и здоровых чаще всего в качестве ориентирующей методики, т. е. такой, данные которой позволяют выдвинуть некоторые гипотезы об особенностях личности.
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ— вид распределения переменных. Н. р. наблюдается при изменении признака (переменной) под влиянием множества относительно независимых факторов. График уравнения Н. р. представляет собой симметричную унимодальную колоколообразную кривую, осью симметрии которой является вертикаль (ордината), проведенная через точку 0 (рис. 46).
Рис. 46. Процентное распределение случаев под нормальной кривой
Кривая Н. р. была построена для простого аппроксимативного решения задачи вероятности частот событий. Нормальная кривая описывается формулой де Муавра
U — высота кривой над каждым заданным значением xi, — среднее арифметическое xi , — среднеквадратическое отклонение от .
Теоретически существует бесконечное множество нормальных кривых с кон-летными значениями М и σ. При стандартизации тестовых оценок и в некоторых других случаях используется Н. р. со следующими характеристиками: М = 0; σ= 1; площадь под нормальной кривой равна единице. Такое распределение носит название стандартного (единичного) Н. р. Для любого Н. р. в пределах значений х1. М + σ лежит около 68%, в пределах М ± 2σ — 95%, М ± 3σ — 99,7% площади под кривой. Частоты случаев, укладывающихся в интервалы, ограниченные значениями от М ± σ до М ± σ, составляют 68,26%; 95,44%; 99,72%; 99,98 % соответственно (рис. 46). Высота кривой (U) над значением М приблизительно равна 0,3989. Асимметрия стандартной, как и любой другой нормальной, кривой равна нулю, эксцесс (Q) — трем (см. Оценка типа распределения). Распределение показателей, получаемых в эмпирических психологических и психодиагностических исследованиях при большом числе наблюдений, как правило, приближается к Н. р.
На практике важную роль имеет вычисление площади слева от любой точки на оси абсцисс, ограниченной участком нормальной кривой и ординатой этой точки. Так как площадь стандартного Н. р. равна единице, то доля этой площади отражает частоту случаев с хi, меньшими, чем данное значение на оси X. Решение уравнения де Муавра для любого значения х неудобно, поэтому для определения площади слева от данного значения в различных Н. р. (по оси z) имеются специальные таблицы (см. табл. 1 Приложения III).
Важнейшим качеством Н. р. является то, что для семейства нормальных кривых характерны одинаковые доли площадей, лежащих под участками, ограниченными равными значениями σ. При этом любую нормальную кривую можно свести к единичной и таким образом ответить на вопрос о площади между выбранными точками на кривой или высоте кривой над любой из точек оси X. Форма нормальной кривой не изменяется при вычитании среднего значения и делении на σ. Так, если нужно выяснить, какая часть площади лежит слева от значения х = 20 в Н. р. с = 25 и = 5, эту задачу можно заменить выяснением площади, лежащей слева от в единичном Н. р. Для стандартного Н. р. значение х указывает, что точка отстоит от среднего на х единиц. Отклонение значения от среднего х — , а число стандартных отклонений, которое отделяет х от , составляет — единичное нормальное отклонение (z). Рассмотренная выше закономерность обобщается правилом: если х имеет нормальное распределение со средним и стандартным отклонением , то — характеризуется нормальным распределением со средним 0 и стандартным отклонением 1. Площадь между xl и в Н. р. со средней и стандартным отклонением равна площади между и в единичном Н. р.
Предположим, результаты измерения IQ-показателей в выборке с достаточно большим числом обследованных (п) обладают свойствами нормального распределения. Значение = 4,52, σ = 3, тогда в точке со значением IQ-показателя 10,4 . Для этого значения площадь слева от z составит 0,975 (97,5%). Это означает, что лишь у 2,5% испытуемых оценки IQ превышают 10,4. Можно определить, какое число членов выборки укладывается в интервал оценок от 10,4 до 8,3. Тогда .
Площадь слева от z для этого значения составит 0,1020 (10,2%). Следовательно, число лиц, имеющих оценку ниже 8,3, составляет 89,8%, а число лиц с оценкой в интервале 8,3-10,4 составляет 97,5-89,8 = 7,7%.
Число случаев в пределах стандартного отклонения можно легко определить без расчетов. Так, в интервале оценок, соответствующих -2 и — , находится 13,6% обследованных (см. рис. 46).
Валидность (психология)
Эту страницу предлагается переименовать в Валидность. Пояснение причин и обсуждение — на странице Википедия:К переименованию/2 мая 2017. Пожалуйста, основывайте свои аргументы на правилах именования статей. Не удаляйте шаблон до подведения итога обсуждения. Переименовать в предложенное название, снять этот шаблон. |
У этого термина существуют и другие значения, см. Валидность.
Вали́дность (англ. validity, от лат. validus — «сильный, здоровый, достойный») — обоснованность и пригодность применения методик и результатов исследования в конкретных условиях. Более прикладное определение понятия «валидность» — мера соответствия методик и результатов исследования поставленным задачам. Валидность считается фундаментальным понятием экспериментальной психологии, организационной психологии и психодиагностики.
Как в психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять (эта узкая трактовка «валидности» является наиболее популярной, по факту она соответствует понятию «конструктная валидность»). То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).
Важная особенность валидности — её нельзя установить единожды и использовать это доказательство как финальный аргумент «за» качество того или иного эксперимента или методики. Валидность необходимо постоянно обосновывать новыми данными, перепроверять в независимых исследованиях.
Способы установления валидности методики
Чаще всего понятие «валидность» обсуждается в контексте конкретных методик или экспериментов. При этом может быть поставлен вопрос и о валидности определенного метода в целом (например, метода тестирования или ассессмент центра). Подобные исследования проводятся с помощью мета-анализа.
Существуют три основных способа установления валидности методики.
I. Оценка содержательной валидности.
Содержательная валидность — степень соответствия содержания заданий методики той реальной деятельности, в которой проявляется измеряемое в методике свойство. Частным случаем содержательной валидности является так называемая очевидная (лицевая или фейс) валидность — степень соответствия методики ожиданиям оцениваемых. Для большинства методик считается важным, чтобы для участника оценки была очевидна связь между содержанием процедуры оценки и той реальной деятельностью, которая является объектом оценки (профессиональная, учебная, семейная и т. п.).
II. Оценка конструктной валидности.
Конструктная валидность — это степень обоснованности того, что методика действительно измеряет заданные и при этом научно обоснованные конструкты. Существуют, как минимум, две стратегии установления конструктной валидности.
Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи результатов конкретной методики с показателями других методик, измеряющих сходные характеристики. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями.
Подход второй — «дискриминантная валидизация». Проверка валидности здесь заключается в том, что тест не должен измерять никакой черты, с которой он теоретически и не должен быть связан.
III. Оценка критериальной валидности.
Критериальная валидность — это определенная статистическими методами степень соответствия результатов методики и определенных заранее внешних критериев. В качестве подобных критериев могут выступать:
- независимые от результатов методики непосредственные меры исследуемого качества (такие как уровень достижения в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности и т. д.),
- показатели социально- или оргазизационно-значимых результатов деятельности (ключевые показатели эффективности (КПЭ или KPI), успеваемость, устойчивость семейных отношений и т. п.)
Одним из видов критериальной валидности является т. н. «прогностическая» валидность. Этот вид валидности используется, когда методика призвана давать определенный прогноз поведения человека. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что методика является прогностически валидной.
Профессиональные разработчики методик должны обосновывать все перечисленные виды валидности и вести постоянный сбор свидетельств в пользу валидности их инструментов.
Валидность содержательная
Валидность содержательная — один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.
Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т.д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.
Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Первым этапом валидизации является определение круга исследуемых свойств и видов деятельности, расчленение сложной способности или деятельности на элементы. На втором этапе разрабатывают собственно модель тестовой деятельности на основе наиболее важных элементов реальной деятельности. Наконец, на последнем этапе проводят анализ степени соответствия разработанной модели реальной деятельности, проверку соответствия пропорций представленное™ элементов в заданиях теста и в реальной деятельности. Так, для тестов достижений по отдельным предметам разработке конкретного содержания тестовых задач предшествуют полная систематическая проверка соответствующих учебников и учебных программ, а также консультации со специалистами по данному предмету. На основе собранной таким путем информации составляют спецификацию теста, где указывают тестируемые области содержания (темы), задачи (процессы) обучения, а также относительное значение каждой темы и процесса для достижения целей обучения на данном этапе. Конкретные задания оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждения о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.
Широкое использование экспертных оценок сближает В. с. с процедурой определения валидности критериальной. Однако существенным различием между этими типами валидности является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валидизации они относятся к испытуемым из выборки стандартизации. Расчленение изучаемой деятельности или способности на элементы является необходимым этапом характеристики синтетической валидности. В В. с. синтетический подход реализуется в анализе элементного состава содержания самого теста, а не совокупности внешних валидизации критериев.
Экспертная оценка адекватности содержания заданий теста может быть дополнена при характеристике В. с. рядом эмпирических процедур. Так, можно проверить, насколько от класса к классу повышается суммарный показатель для группы и индивидуальное выполнение теста достижений. Эта процедура в значительной мере близка определению валидности конструктной с помощью критерия возрастной дифференциации. Роль этого критерия при оценке В. с. заключается не в верификации конструкта, лежащего в основе теста, а лишь в анализе гипотез, приведших к выбору того или иного материала теста.
Наряду с тестами достижений В. с. является одной из важнейших форм валидизации тестов критериально-ориентированных, а также методик, предназначенных для профотбора, анализа успешности овладения профессией.
Для валидизации опросников личностных и тестов интеллекта критерии В. с. имеют ограниченное применение и используются лишь на начальных стадиях составления теста. Личностные опросники, как правило, не имеют того сходства с исследуемой областью поведения, как это имеет место в случае тестов достижений. Ответы на вопросы анкеты, опросника, данные проективных исследований позволяют лишь косвенно судить о реальной деятельности испытуемого. Проявление личностных свойств и реализация способностей в деятельности могут носить индивидуальный характер.
При проведении теста интеллекта эффективное решение заданий может достигаться за счет логического мышления, механической памяти, психомоторной подвижности, разными путями и способами. Наконец, в отличие от тестов достижении, опросники личностные и тесты интеллекта прямо не связаны с конкретным курсом обучения или общностью предшествовавшего жизненного опыта, на которых строится содержание тестов достижений.
Содержательная валидность
В контексте психодиагностики валидность понимается, прежде всего, как показатель соответствия диагностической методики и диагностического процесса в целом тому, что должна оценивать данная методика и на что должен быть направлен диагностический процесс.
ВАЛИДНОСТЬ
Стандартизация и испытание диагностической модели
Современной теории тестов
Присвоение диагностических весов на основе
Дифференцированный подход к оценке ответов на пункты диагностической методики можно реализовать не только с помощью теории распознавания образов, но также и на основе технологии анализа тестовых заданий. Данная технология позволяет оценить диагностические веса ответов на пункты методики двумя способами.
· Как уже выше указывалось, данная технология оценивает такие характеристики ответа на утверждение как информативность и дискриминативность. С помощью этих характеристик не составляет труда рассчитать условные диагностические коэффициенты для ответов на каждое утверждение.
· Второй способ основан на том, что вследствие разных характеристик трудности и дискриминативности утверждений различные сочетания утверждений, на которые предоставлены ключевые ответы, отражают разные уровни диагностической информативности. С помощью специальных компьютерных программ можно рассчитать диагностическую информативность для каждого возможного сочетания и формализовать ее в виде нормализованной шкалы.
Суть этого заключительного этапа создания психодиагностической методики состоит в приведении построенной модели в соответствие с критериями психометрии и доказательной клинической диагностики. Каждый из этих критериев представляет собой важную психодиагностическую категорию, которая должна быть тщательно проработана перед введением методики в клиническую практику.
Данный этап включает следующие процедуры:
· оценка валидности;
· оценка диагностической эффективности;
· оценка надежности;
· стандартизация процедуры исследования,
· формирование критериев оценки полученных результатов.
В представленных ниже разделах приводится подробное описание перечисленных диагностических категорий.
ГЛАВА 9
Сущность валидности. Классификация видов валидности
Валидность представляет собой одно из важнейших и центральных понятий медицинской диагностики, психодиагностики в целом и клинической психодиагностики в частности.
Данная катагория применяется для характеристики всех аспектов психодиагностического исследования в клинике:
· психодиагностической методики,
· диагностического процесса,
· трактовки полученных результатов,
· выводов и заключений.
Существует и более широкое понимание валидности в психодиагностике. В широком смысле валидность рассматривается как диапазон интерпретаций, которые могут быть корректно применимы к трактовке полученных данных.В этом контексте валидность перестает быть характеристикой отдельной диагностической методики, а становится характеристикой всего диагностической процесса. Особенно актуальна такая трактовка валидности для клинической психодиагностики, поскольку клинико-психологическое исследование основывается на интерпретации диагностических данных, полученных из разных источников. Кроме того, применение валидности не только к отдельной методике, а ко всему диагностическому процессу полезно еще и потому, что многие методики изначально заявлялись для оценки одних свойств, а позже стали эффективно использоваться для оценки совершенно других психологических свойств.
Таким образом, понятие валидности в клинической психодиагностике применимо абсолютно ко всем этапам клинического и психологического исследования в клинике. В этом понимании валидность характеризует следующие аспекты:
· насколько каждый этап и аспект диагностического исследования, независимо от применяемых методик, соответствует целям исследования,
· насколько технически правильно проводится исследование,
· корректно ли получены диагностические данные и оценки,
· адекватно ли проведена интерпретация результатов,
· правильны ли окончательные выводы.
Валидность как центральная характеристика относится ко всем методам и методикам, применяющимся в клинической психодиагностике, начиная от метода наблюдения и заканчивая психологическими тестами. Наряду с психодиагностическими методиками соответствовать критериям валидности должны клинические методы оценки психического статуса и постановки психиатрического диагноза.
Существует несколько видов валидности, характеризующих клиническую психодиагностику с разных сторон:
· Очевидная (внешняя валидность) – отражает, насколько по внешнему впечатлению от методики можно определить её направленность.
· Содержательная валидность — определяет, насколько задания теста отражают все аспекты исследуемой области поведения.
· Критериальная валидность — показывает, как задания методики коррелируют с каким-либо внешним критерием.
· Конкурентная валидность — характеризует, как результаты, полученные по данной методике, коррелируют с результатами по другим тестам.
· Прогностическая валидность – отражает, как задания данной методики коррелируют с каким-либо поздним временным критерием.
· Конструктная валидность отражает, насколько задания теста коррелируют с различными сторонами измеряемой психологической переменной или конструкта.
· Концептуальная валидность — показывает, насколько результаты исследования данной методикой согласуются с ее диагностическим механизмом и с данными из других источников в отношении конкретного испытуемого.
В последующих разделах подробно излагаются наиболее важные виды валидности.
Содержательная валидность является показателем того, насколько стимульный материал методики соответствует назначению данной методики.
Стимульный материал– это материал, включающий все средства метода или методики, которые стимулируют у испытуемого предоставление диагностически значимой информации. К стимульному материалу относятся:
· задаваемые вопросы,
· пункты-утверждения шкал и опросников,
· когнитивные задания,
· изображения и рисунки.
Применительно к клиническим методам, таким как интервью или беседа, содержательная валидность показывает, насколько полно поставленные вопросы отражают направленность данных методов, насколько корректно они сформулированы для решения поставленных задач.