Особенности определения валидности педагогического теста

Классификация валидности

В экспериментальной психологии валидность – это одно из фундаментальных понятий.

Оно включает в себя огромное количество всевозможной информации о тесте. Говоря простыми словами, она указывает, что измеряется и насколько хорошо. Способы получения и категории этих сведений формируют виды валидности. Она делится на 4 основных вида:

  • внутреннюю;
  • внешнюю;
  • операциональную;
  • конструктную.

Также в экспериментальной психологии используют виды валидности:

  • дифференциальную;
  • инкрементную;
  • экологическую.

Психодиагностика использует другую классификацию. Здесь валидность бывает:

1.Конструктная. Делится на:

2.Критериальная (эмпирическая). Делится на:

  • текущую;
  • прогностическую;
  • ретроспективную.

Что характеризует валидность показателя в исследовании

При проведении исследований важно добиться результата, максимально соответствующего безупречному эксперименту. Если полученный итог практической работы вплотную приближен к соответствию с установленными научными стандартами, он имеет высокие показатели валидности

Существует две категории валидности – это внутренняя и внешняя.

Внутренняя валидность является показателем, отражающим достоверность выводов, полученных после проведения ряда реальных экспериментальных исследований в сравнении с результатами «идеальных» экспериментов, применимых для той же научной отрасли. Является основным требованием, выдвигаемым к результатам экспериментов.

Внешняя валидность – это достоверность полученных результатов исследования по сравнению с итогами экспериментов, направленных на полное соответствие «безупречному» результату. Увеличить внешнюю валидность поможет введение дополнительных переменных с достижением экспериментального уровня, соответствующего реальному уровню аналогичных переменных в изучаемой научной отрасли.

Свежие записи

  • Особенности психологии как науки и ее задачи
  • Общее понятие об интеллекте
  • Общая характеристика мотивационной сферы человека
  • Диагностика избирательности внимания
  • Конфликты как борьба животных за жизненные ресурсы
  • Предмет и метод педагогической конфликтологии
  • Социальная экология – наука и учебный предмет в профессиональной подготовке специалистов социальной работы
  • Анализ конкретных случаев терапии
  • Развитие отечественной психологии в 19 в
  • Основные принципы и методы управленческой психологии 2
  • Совладание с трудными жизненными ситуациями
  • Методические указания для проведения практических занятий по разделам 1–3 дисциплины «Психология»
  • по курсу «Психология» 2
  • Психиатрия — Билеты с ответами
  • Психология профессионализма. 2011/12

Что такое валидность методики?

Что такое валидность методики? Это показатель, который обозначает, занимается ли рассматриваемая методика изучением того качества, характеристики, для которой она предназначена. При этом делается акцент на том, что испытуемый, который проходит тестирование, может иначе видеть и характеризовать самого себя. Вот почему не всегда результаты учитывают мнение людей, которые могут не замечать за собой определенных характеристик.

Валидизацией называется проверка валидности методики. Чтобы определить действенность, эффективность, практичность используемой методики, применяется внешний независимый показатель – качество, которое наблюдается в повседневной жизни. Здесь выделяют 4 типа внешних показателей:

  1. Критерий исполнения – затраченное время, количество работы, уровень успеваемости, рост профессиональных навыков и т. д.
  2. Субъективные критерии – мнение, взгляды, предпочтение, отношение испытуемого к кому- или чему-либо. Здесь применяются анкеты, интервью, опросники.
  3. Физиологические критерии – влияние внешнего мира на психику и организм человека. Здесь измеряются пульс, частота дыхания, симптомы утомления и пр.
  4. Критерий случайности – возможен ли, к примеру, подбор лиц, которые не склонны к несчастным случаям? Изучение влияния определенного случая.

Теоретический поход в измерении валидности методов позволяет распознать, действительно ли технология изучает именно то качество, для которого она была предназначена.

Валидность также определяется встречаемостью изучаемого качества. Хорошо, если оно является распространенным, что и делает методику нужной и полезной. Также важными становятся этические и культурные изменения общества.

Что такое валидность?

У рассматриваемого понятия существует много определений. Что такое валидность? Это пригодность и обоснованность применения какой-то методики или результата в конкретной ситуации. Прикладное значение данного слова – степень соответствия результатов и методик поставленным задачам.

Валидность – это измерение другого показателя, которое измеряет конкретные качества. Таким образом, методика направлена на измерение конкретного качества, например, интеллекта, а ее валидность должна показывать, насколько хорошо данная методика помогает в получении результатов.

Другим словом валидность можно назвать достоверностью. Она измеряет те тесты и методики, которые занимаются измерениями определенных психологических качеств. Чем лучше они измеряют те качества, которые измеряют, тем выше их валидность.

Валидность становится важной в двух случаях:

  1. Когда некая методика разрабатывается.
  2. Когда некая методика показывает результаты, и необходимо установить, насколько качественны данные результаты.

Таким образом, валидность – это характеристика, которая указывает пригодность конкретной методики для измерения какого-то качества и полезность, качественность, эффективность данной методики.

Обычно используется несколько видов валидности, чтобы провести проверку конкретного теста или методики. Здесь также происходит сравнение показателей, которые даются различными инструментами. Существует множество способов измерения того или иного психологического качества или характеристики. Чаще психологами будет использоваться та методика, которая дает более достоверные результаты. Это и будет показывать ее высокую валидность.

Вместе с валидностью часто рассматривается такое понятие, как надежность. Методики и тесты должны быть надежными, то есть они должны быть постоянными, достоверными. Экспериментатор должен быть уверен в том, что он рассматривает именно то качество, которое он желает рассмотреть. Вот почему надежность не всегда может быть валидной, однако валидность всегда должна быть надежной.

Критерии валидности теста

Валидность теста – это способность инструмента оценки показывать и измерять именно то, что он должен оценить. Валидность является одним из главных критериев качества теста и может быть проверена и оценена различными способами. Кроме того, валидность теста может быть внешней или внутренней.

Внешняя валидность теста связана с тем, насколько результаты теста могут быть применены в реальных ситуациях. Внешняя валидность теста может быть улучшена путем использования реалистичных заданий и проверки результатов на корреляцию с другими инструментами и реальными мерами.

Внутренняя валидность теста оценивает соответствие результатов теста целям, поставленным при разработке теста. Внутренняя валидность может быть улучшена путем использования репрезентативных заданий, проверки результатов на корреляцию и удостоверения того, что тест действительно измеряет то, что он должен измерять.

Другим критерием валидности является уровень валидности теста. Уровень валидности определяет, насколько точно и надежно тест измеряет то, что он должен измерять. Тесты, которые имеют более высокий уровень валидности, считаются более точными и надежными. Однако, даже тесты с высоким уровнем валидности могут содержать определенные ошибки и отклонения из-за недостатков методологии и других факторов.

  • Сверх-валидность относится к оценке, в которой тест измеряет больше, чем его цель.
  • Избыточная валидность описывает тест, который пытается измерить то, что он не должен измерять.

В итоге, критерии валидности теста играют важную роль в разработке и использовании тестовых инструментов. Правильная проверка и оценка валидности теста могут гарантировать, что результаты теста отражают реальные знания и умения тестируемой личности, а не просто случайные факторы.

Детали

Говорят, что выводы обладают внутренней достоверностью, если причинно-следственная связь между двумя переменными правильно продемонстрирована. Обоснованный причинно-следственный вывод может быть сделан при соблюдении трех критериев:

  1. «причина» предшествует «следствию» во времени (приоритет во времени),
  2. «причина» и «следствие» имеют тенденцию происходить вместе (ковариация), и
  3. нет никаких правдоподобных альтернативных объяснений наблюдаемой ковариации (непредсказуемости).

В условиях научных экспериментов исследователи часто изменяют состояние одной переменной ( независимой переменной ), чтобы увидеть, какое влияние она оказывает на вторую переменную ( зависимую переменную ). Например, исследователь может манипулировать дозировкой определенного лекарства между разными группами людей, чтобы увидеть, какое влияние он оказывает на здоровье. В этом примере исследователь хочет сделать причинно-следственный вывод, а именно, что различные дозы препарата могут быть ответственны за наблюдаемые изменения или различия. Когда исследователь может уверенно отнести наблюдаемые изменения или различия в зависимой переменной к независимой переменной (то есть, когда исследователь наблюдает связь между этими переменными и может исключить другие объяснения или конкурирующие гипотезы ), тогда говорят, что причинный вывод быть внутренне действительным.

Однако во многих случаях размер эффектов, обнаруженных в зависимой переменной, может зависеть не только от

  • вариации независимой переменной,
  • мощность инструментов и статистические процедуры , используемые для измерения и обнаружения эффектов, и
  • выбор статистических методов (см .: Достоверность статистического заключения ).

Скорее, ряд неконтролируемых (или неконтролируемых) переменных или обстоятельств может привести к дополнительным или альтернативным объяснениям (а) обнаруженных эффектов и / или (b) величины обнаруженных эффектов. Следовательно, внутренняя валидность больше зависит от степени, чем от «либо-либо», и именно поэтому исследовательские планы, отличные от истинных экспериментов, также могут давать результаты с высокой степенью внутренней достоверности.

Чтобы сделать выводы с высокой степенью внутренней достоверности, при разработке исследования могут быть приняты меры предосторожности. Как показывает опыт, выводы, основанные на прямом манипулировании независимой переменной, допускают большую внутреннюю валидность, чем выводы, основанные на ассоциации, наблюдаемой без манипуляций

Если рассматривать только внутреннюю валидность, строго контролируемые истинные экспериментальные планы (то есть со случайным выбором, случайным распределением в контрольную или экспериментальную группы, надежные инструменты, надежные процессы манипуляции и гарантии против мешающих факторов) могут быть «золотым стандартом» научных исследований

Однако сами методы, используемые для повышения внутренней достоверности, могут также ограничивать обобщаемость или внешнюю достоверность результатов. Например, изучение поведения животных в зоопарке может облегчить получение достоверных причинно-следственных выводов в этом контексте, но эти выводы могут не распространяться на поведение животных в дикой природе. В общем, типичный эксперимент в лаборатории, изучающий конкретный процесс, может не учитывать многие переменные, которые обычно сильно влияют на этот процесс в природе.

Если рассматривать только внутреннюю валидность, строго контролируемые истинные экспериментальные планы (то есть со случайным выбором, случайным распределением в контрольную или экспериментальную группы, надежные инструменты, надежные процессы манипуляции и гарантии против мешающих факторов) могут быть «золотым стандартом» научных исследований . Однако сами методы, используемые для повышения внутренней достоверности, могут также ограничивать обобщаемость или внешнюю достоверность результатов. Например, изучение поведения животных в зоопарке может облегчить получение достоверных причинно-следственных выводов в этом контексте, но эти выводы могут не распространяться на поведение животных в дикой природе. В общем, типичный эксперимент в лаборатории, изучающий конкретный процесс, может не учитывать многие переменные, которые обычно сильно влияют на этот процесс в природе.

Формы проверки валидности теста

Общепринятые формы проверки валидности теста:

  • Критерии валидности — используются для оценки степени соответствия результатов теста тому, что с ним должно измеряться. К таким критериям относятся выдвижение гипотез о связи с другими измерениями, анализ соответствия результатов стандартам или оценка способности теста предсказывать будущие результаты.
  • Тест-ретест — форма проверки, при которой тест применяется дважды: первый раз, чтобы измерить начальный уровень знаний, а второй раз — через определенный период времени, чтобы проверить, сохранились ли знания.
  • Разбивка на группы — при такой проверке респонденты разбиваются на группы с разными характеристиками, например, возрастом или образованием. Результаты в каждой группе анализируются с целью определения, действительно ли тест измеряет то, что он должен оценивать, и насколько надежен он в разных группах.
  • Проверка содержания — оценка содержания теста на основе экспертного мнения — этим занимаются профессионалы, знакомые с контентом теста. Они оценивают, насколько вопросы отображают содержание, которое должно измерять тест.

Примеры использования форм проверки:

Форма проверки Пример использования
Критерии валидности Проверка на соответствие результатов теста оценкам продуктивности сотрудников на работе.
Тест-ретест Оценка учебных программ по предмету: студенты проходят тест перед началом и после окончания курса.
Разбивка на группы Сравнение результатов теста на знание английского языка у студентов разной национальности и возраста.
Проверка содержания Оценка теста по биологии на учет содержимого преподаваемого предмета.

Каждая из этих форм тестирования позволяет выявить разные аспекты валидности теста, поэтому их использование вместе может помочь убедиться в том, что результаты теста являются достоверными и точными.

Валидность психологического теста: что это такое?

Для начала уточним, что означает понятие «валидность психологического теста», и попытаемся объяснить это простыми словами. Итак, валидностью психологического теста называется способность теста определять и измерять те показатели, для определения и измерения которых данный тест разработан.

Условно говоря, тестом на определение типов личности не стоит пытаться определить степень эмоционального выгорания человека. Аналогично тому, как тестами по английскому языку не стоит пытаться определить уровень знаний по математике, или тестами по математике за 11-й класс не нужно определять уровень знаний программы за 9 классов.

Помимо этого, есть еще один важный момент. Тесты по психологии имеют разное назначение. Мы начали с того, что разным людям приходится сталкиваться с психологическими тестами при разных обстоятельствах. Кем-то движет любопытство и желание узнать, условно говоря, «кто я такой»

А кому-то жизненно важно докопаться до причин своего неблагополучного психологического состояния и найти пути выхода из него

Понятно, что для удовлетворения любопытства и диагностики психологического состояния нужны не только разные тесты, но и разная направленность тестирования, разная степень детализации вопросов и, само собой, разная степень точности измерений. Психологический тест – это практически всегда измерение. Кто проходил, тот знает, что результат обычно представляют в баллах, очках, процентах. Проще говоря, в неких исчисляемых единицах.

Разумеется, при любом измерении возможны неточности или погрешности. Если вы просто любопытствуете, являетесь ли вы сангвиником или, скорее, флегматиком, разные тесты могут дать разный результат, а истина, как всегда, может оказаться где-то посередине. Это нормально, потому что людей, у которых были бы выражены исключительно черты сангвиника или флегматика и совсем не было бы качеств, присущих, к примеру, меланхоликам, не так много.

Да и сам факт, что ваше любопытство не будет удовлетворено в полной мере и заставит вас либо искать другие тесты, либо забросить затею с тестированием, вряд ли может иметь какие-то далеко идущие последствия для душевного здоровья.

А вот если психотерапевту приходится иметь дело с пограничным расстройством и нужно понять, требуется ли пациенту медикаментозное лечение или можно ограничиться психотерапевтическими сеансами, здесь точность измерений различных параметров при тестировании обретает принципиально важное значение. Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания [И

Кондаков, 2007]. А также публикации в специализированных журналах по психологи . А мы продолжим тему и поговорим о типах валидности психологических тестов

Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания . А также публикации в специализированных журналах по психологи . А мы продолжим тему и поговорим о типах валидности психологических тестов.

Надёжность и валидность

Критерии надёжности рассматриваются с формальной точки зрения, тогда как содержательная сторона не учитывается.

Валидность, наоборот, обращает внимание на содержательные результаты теста. Оценивается их соответствие существующим феноменам психологии

Надёжная методика не тождественна валидной. Например, тест, оценивающий инициативность, может продемонстрировать высокие показатели надёжности и ретестовости элементов. Однако фактически результаты будут свидетельствовать о значительной силе воли, но с точки зрения содержания инициативности не подтвердят.

Таким образом, надёжность теста является высокой, а валидность — низкой.

Внутренняя валидность и пример её нарушения

Внутренняя валидность — одна из разновидностей данного феномена. Чтобы понять её принцип, стоит рассмотреть пример, который отразит её нарушение.

Допустим, лаборатория хочет протестировать лекарство, способствующее росту. Для этого экспериментаторы отбирают несколько подростков тринадцати лет, измеряют параметры роста и дают детям лекарство.

Спустя два года снова производятся замеры, которые отражают увеличение показателей. Однако на основании изменившихся данных нельзя сделать вывод о том, что причиной перемен оказалось именно лекарство.

Нарушение внутренней валидности заключается в неучтенных факторах, которые влияют на результат исследования. В данном случае речь идёт о естественных процессах взросления. Корректный эксперимент должен был предусмотреть и их.

Методика определения определения поведения людей в различных ситуациях тоже может быть валидной или нет. Курс Викиум «Профайлинг» научит «читать людей» по невербальным признакам, выявлять скрытые намерения собеседника и прогнозировать действия оппонента.

Виды валидности и критериидля её измерения

Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.

Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.

Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измеритьиз-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.

Инкрементная валидность — сравниваем, насколько повысилась корреляцияпри добавлении нового инструмента в уже существующую оценочную процедуру.

Провайдеры, как правило, считают валидность так, как им удобно и выгодно.Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,когда приводит показатель валидности.

НАДЕЖНОСТЬ

НАДЕЖНОСТЬ КАК УСТОЙЧИВОСТЬ

Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов

Устойчивость определяется с помощью повторного тестирования (ретеста)

1.1. Метод повторного тестирования (ретеста)

Ретестовая надежностьопределяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76

Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

1.2. Метод параллельных форм

Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации. Имеются трудности в доказательстве того, что обе формы — параллельные наборы заданий — являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

НАДЕЖНОСТЬ КАК СОГЛАСОВАННОСТЬ

Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Для проверки внутренней согласованности применяются различные методы:

1.3. Метод расщепления или метод автономных частей

Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.

1.4. Метод эквивалентных бланков

Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.

1.5. Метод альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.

«Прогностическая» валидность.

«Прогностическая» валидность определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик — предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

Понравилась статья? Поделиться с друзьями:
Великий Капитал
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: