古典テスト理論

古典テスト理論 / 実験心理学

テストは 科学機器 意図していること、つまり妥当であること、そして正しく測定していること、つまり正確であるか信頼できるかを測定する限りにおいて。私たちが同じ物を測定するときにそれらが時々変わるので、我々が彼らが提供する測定を信頼することができない楽器を見つけるならば、それは信頼できないと言うでしょう。測定器 きちんと そうでなければ、あなたが測定したものを測定し、それを間違って測定するからです。したがって、正確であることは必要ですが十分条件ではありません。さらに、それは有効でなければなりません。つまり、正確に測定するものは測定することを意図したものになり、それ以外は何もしません。.

また、あなたはに興味があるかもしれません:アイテム応答理論 - アプリケーションとテスト

信頼性:

絶対的および相対的信頼性:テストの信頼性の問題には、2つの異なる方法で対処することができます。.

測定の不正確さとしての信頼性:被験者がテストに反応すると、エラーの影響を受ける経験的スコアが得られます。誤りがなければ、被験者は彼の本当の得点を得るでしょう。経験的スコアが真の真のスコアと一致しないため、テストは不正確です。両方のスコア間のこの違いは、サンプリング誤差、測定誤差です。の 典型的な測定誤差 になります 測定誤差の標準偏差. の 典型的な測定誤差 得られた測定値とエラーがなかった場合に得られる測定値との差を推定できるため、テストの絶対精度を示します。.

測定の安定性としての信頼性:テストは、それが繰り返されるときに提供される結果がより一定または安定であるほどより信頼性が高くなります。結果が2つの場面でより安定しているほど、それらの間の相関は大きくなります。この相関関係は 信頼性係数. これは、エラーの量ではなく、テストとそれ自体の一貫性、および提供される情報の不変性を表しています。の 信頼性係数 テストの相対的な信頼性を表します.

信頼性係数と信頼性指標 - 信頼性係数 テストの確率は、テストとそれ自体の相関関係で、たとえば2つの並列形式で得られます。rxx. - 精度インデックス rxv精度指数は常に信頼性係数よりも大きくなります信頼性係数を見つけるには、これら3つの古典的な方法に注目する価値があります。

  • テストとその反復の間の相関関係を見つけます。反復方法またはテスト - 再テスト方法:同じグループに同じテストを2回適用し、2つの一連のスコア間の相関関係を計算します。この相関が信頼度係数です。この方法は通常他の方法で得られたものよりも高い信頼性係数を与え、そして妨害要因によって汚染されるかもしれない.
  • テストの2つの並列形式間の相関関係を見つけます。並列形式の方法:同じテストの2つの並列形式、つまり同じ情報を与える2つの等価形式を用意し、同じグループの被験者に適用します。 2つの形式の間の相関関係は信頼性係数です。この方法では、同じテストを繰り返さないことで、邪魔な再テストの信頼性の原因を回避できます。.
  • テストの2つの平行な半分の間の相関関係を見つけます。2つの半分の方法:テストは2つの等価な半分に分けられ、それらの間の相関関係が見つけられます。それは簡単であり、前の手順の制限を無視するので、それは好ましい方法です。テストの奇数要素を選択して半分を構成し、偶数要素を他の半分を構成するように選択できます。.

信頼性係数と並列テスト間の相関

信頼性係数 検定の確率は、真の分散が経験的分散のものである割合を示します。 graphic33 テストの信頼性係数は0から1の間で変化します。例:2つの並列テスト間の相関がrxxの場合´ = 0.80は、検定の分散の80%が実際の尺度によるものであり、残りの検定、つまり検定の分散の20%が誤差によるものであることを意味します。の 信頼性指標 テストの信頼度は、その経験的スコアとその真のスコアの間の相関です信頼性指数=信頼性指数は、信頼性係数の平方根に等しいです

2つの並列形式のテストが開発されたら、分散分析手順を適用して、分散の均一性と測定値間の差をチェックします。分散が均質であれば、平均値の差は重要ではなく、2つの形式は同種の同数の要素と心理的内容で構成されており、それらは並列であると言えます。そうでなければ、あなたは彼らがなるまで彼らを改革しなければなりません。信頼性の欠如はrxx値で識別されます´= 0 4.-測定の一般的な誤差:経験的スコアと実際のスコアの差は、測定誤差と呼ばれるランダム誤差です。測定誤差の標準偏差は標準測定誤差と呼ばれます。の 典型的な測定誤差 テストの絶対的な信頼性についての見積もりを行うことができます。つまり、測定誤差がスコアに与える影響の程度を見積もることができます。.

信頼性と長さ:テストの長さはその要素の数を表します。信頼性はこの長さに依存します。テストが3つの要素で構成されている場合、被験者は1のスコアを取得することができ、別の方法で、または並行してのスコアを取得できます。

ある時から別の時に、得点は一点ずつ変わりました。 3を超えるポイントは33%の変動であり、高い変動です。被験者がこのタイプのランダムな変化を得た場合、テストとそれ自体またはテストの2つの並列形式との相関関係は大幅に減少し、高くなることはできません。テストがはるかに長い場合、たとえば100個のアイテムがある場合、被験者は1回に70ポイント、並行して67ポイントを獲得できます。あるものから別のものへそれは3つのポイントを変えました。これは、テスト全体に対して比較的小さい分散、具体的には3%です。 1つの形式から並列形式に移行するときに被験者のスコアに発生する、この大きさの小さな偶然の変化は比較的重要ではなく、両者の間の相関関係の前ほど減少することはありません。.

信頼性係数は、前の場合よりもはるかに高くなります。 Spearman-Brownの式は信頼性と長さの関係を表します。長さが0の場合、テストの精度はゼロになり、長さが増えるにつれてテストの精度は上がります。どの部分の長さが大きいほど、増加は比較的小さいです。これは、精度が最初は大きく、それ以降は比較的遅くなることを意味します。長さが無限大になると、信頼性係数は

テストの長さを長くすると、誤差分散よりも高いレートで真の分散が増えるため、精度が向上します。これは、誤差による分散の割合が減少するため、テストの精度が向上することを意味します。 Rulonの式、およびFlanaganとGuttmanの式は、2つの半分の方法で信頼性係数を計算するときに特に適用可能です。これらは信頼性係数を計算するために使用される式です。.

信頼性と一貫性:信頼性係数も別の方法で見つけることができ、それはいわゆるです アルファ係数一般化係数または代表性の係数(Cronbach). このアルファ係数は、いくつかの項目が性格や行動の側面を測定する際の正確さを示します。それは、次のように解釈することができます。特定の側面におけるすべての可能な項目の平均相関の推定。コヒーレンスまたは内部の一貫性(テスト要素間の相互関係、テスト要素がすべて同じ程度を測定しているかどうか)およびその長さに応じたテストの正確さの尺度。テストの代表性、つまりそれを構成するアイテムのサンプルが、同じ種類および心理的内容の可能なアイテムの母集団を代表する量を示します。の アルファ係数 テストの精度における2つの基本概念を主に反映しています。1.その要素間の相互関係:それらがすべて同じものを測定する程度.

テストの長さ:サンプルのケース数を増やすとき、および系統的エラーが排除された場合、サンプルは抽出されるよりも優れた母集団を表し、偶然のエラーが含まれる可能性は低くなります。検定の項目が2つに分かれている場合(はいまたはいいえ、1または0、一致または不一致など)、アルファ係数の方程式は単純化され、次の方程式が得られます。 クダーリチャードソン(KR20 and KR21). 一定数の項目が与えられた場合、テストはより均質であればより信頼性が高くなります。アルファ係数は、テスト要素の均一性と一貫性または内部的な一貫性を表すので、信頼性を示します。.

規格と信頼性基準

アイテムのサンプルスペースのモデルによると、テストの目的は、サンプルスペース内のすべてのアイテムが使用された場合に得られる測定値を推定することです。この尺度は、実際の測定値が多かれ少なかれ近似する真のスコアです。項目のサンプルが実際のスコアと相関する程度に応じて、テストは多かれ少なかれ信頼性があります。このモデルでは、サンプル空間内のすべての項目間の相関行列が中心になっており、このサンプルモデルは内部の一貫性をより直接的に主張し、それを達成する限り、間接的に安定性を保証します。.

並列テストの線形モデルは、スコアの安定性をより強く要求し、安定性を達成する範囲で、間接的に内部の一貫性を優先します。個々の診断と予測を確立するためにテストを適用すると、信頼性係数は0.90アップするはずです。予報や集団分類では、それほど要件ではありませんが、0'90から0'80までを大きく外すのは不便です。.

性格テストなどの特定の種類のテストでは、0.70を超える係数を達成するのが困難な場合があります。多かれ少なかれ大きな間隔の後に並列形式または並列半分が適用される場合、偶然誤差はアルファ係数に影響を与えるものよりも多数になる可能性があります。これは、相関を減少させるのは、テストに固有のランダムなエラーだけでなく、アルファ係数を考慮に入れるだけでなく、2つの異なる状況から発生する可能性があるすべてのエラーにも影響するためです。 、それは多くの細部で異なるかもしれません。したがって、アルファ係数は通常他の係数よりも大きくなります。.

同じテストを繰り返すことによって見つけられた係数を除いて、最初のアプリケーションのランダムエラーが2番目のアプリケーションで繰り返される可能性がより高いので、そして2つの間の相関を減らす代わりに、それを増やします。 2番目のアプリケーションが最初のアプリケーションから完全に独立していることを確認する必要があります。これを達成する場合、これは最も簡単で安価な方法であり、特に長期間にわたって複雑なテストでスコアの安定性を評価しようとするときにお勧めします。 >次へ:テストの妥当性

この記事は純粋に参考情報です、オンライン心理学では私たちは診断をするか、または治療を推薦する教員を持っていません。特にあなたのケースを治療するために心理学者に行くことを勧めます。.

に似た記事をもっと読みたい場合 古典テスト理論, 実験心理学のカテゴリーに入ることをお勧めします。.