項目への応答の理論 - アプリケーションとテスト

項目への応答の理論 - アプリケーションとテスト / 実験心理学

の分野内 心理テストの理論 現在「品目反応の理論」という名称を取っているさまざまな宗派が登場している(F.M.Lord、1980)。この宗派は、古典的なモデルに関していくつかの違いを示します。1.-被験者の得点の期待値と特性(その値に関与する特性)との関係は、通常は線形ではありません。 2.-規範グループの特性を参照せずに個々の予測をすることを目的とする.

また、に興味がある可能性があります。Classical Test Theory Index
  1. テスト理論における潜在的特性の項目またはモデルに対する応答の理論
  2. 項目反応理論のモデル(tri)
  3. パラメータ推定
  4. テスト構築
  5. 項目反応理論の応用
  6. スコアの解釈

テスト理論における潜在的特性の項目またはモデルに対する応答の理論

そして、私たちは、この項目に対する反応の理論が、項目と個人を別々に説明する可能性を提供することを見ます。それはまた、対象によって与えられた反応が、考慮された範囲内にあるスキルのレベルに依存するとも考えている。これらのモデルの起源は、1950年にLazarsfeldが「潜在的形質」という言葉を紹介したことによるものです。 .

ここから、各個人は、「形質」とも呼ばれる、被験体の特徴に関与する個々のパラメーターを有すると考えられる。この特徴は直接測定できないので、個々のパラメータは潜在変数と呼ばれます。テストを適用すると、真のスコアとフィットネスのスケールという2つの異なることがわかります。これは、同じフィットネスに対する2つのテストを同じグループに合格させると達成されます。.

潜在形質の理論または項目への反応の理論 真のスコアは、観察されたスコアから予想される値です。主によると、真の得点と適応度は同じものですが、異なる尺度で表現されています.

項目反応理論のモデル(tri)

二項誤差モデル:Lord(1965)によって導入されました。これは、観測されたスコアがテストで得られた正解の数に対応すると仮定しています(その項目はすべて同じ難しさを持ち、ローカル独立ある項目に正しく回答することは、他の項目に与えられた回答の影響を受けません。.

ポアソンモデルこれらのモデルは、項目数が多く、正解または不正解の可能性が小さいテストに適しています。このグループ内では、順番に、私たちは異なるモデルを持っています。

  1. ラッシュのポアソンモデル, その仮説は次のとおりです。各テストには、ローカルに独立した多数のバイナリ項目があります。各項目の誤りの確率は小さいです。被験者が誤りを犯す可能性は、2つのこと、テストの難しさと被験者の適性に左右されます。難易度の加法性。単一のテストに2つの同等のテストを混在させた結果として理解されます。難易度は、2つの初期テストの難易度の合計です。.
  2. 速度を評価するためのポアソンモデル: このモデルはRaschによっても提案されており、テストの実行速度が考慮されているという点で特徴があります。このモデルは、2つの方法で提案できます。コミットされたエラーの数と、単位時間内に読み取られたワードの数です。コミットされたエラーの数とテキストの読み上げの完了に費やされた時間を数えます。ある時間(t)の間、被験者(j)によるテスト(i)内の一定数の単語の実現確率
  3. Ojivaノーマルモデル:は、二分法の項目と1つの変数のみを共通にしたテストで使用されるLord(1968)によって提案されたモデルで、そのグラフは次のようになります。
  • 潜在バリアントの空間は一次元です(k = 1).
  • intems間のローカル独立.
  • 各アイテムの曲線が通常の弾頭になるように、潜在変数のメトリックを選択できます。.

ロジスティックモデル;これは前のモデルと非常によく似たモデルですが、数学的な扱いに比べてより多くの利点があります。ロジスティック関数は次の形式を取ります。持つパラメーターの数に応じて、ロジスティックモデルは異なります。

  • 2パラメータロジスティックモデル, Birnbaum 1968年、その特徴の中で我々はそれが一次元であること、局所的な独立性があること、要素が二分的であることなどを述べている。
  • 3パラメータロジスティックモデル, 主は、占いによってヒットする確率がテストのパフォーマンスに影響を与える要因であるために特徴付けられています。 4.3。 4パラメータロジスティックモデル:1981年にMcDonald 1967年とBarton-Lordによって提案されたモデル。その目的は、高いフィットネスレベルを持つ被験者がアイテムに正しく反応しないケースを説明することです。.
  • ラッシュのロジスティックモデル: このモデルは、欠点があるにもかかわらず、最も多くのジョブを生成したモデルですが、実際のデータへの調整がより困難であるという点で優れています。調整のためのサンプルサイズ.

パラメータ推定

最もよく使用されている方法は最大尤度であり、この方法の次にニュートン - ラフソンおよびスコアリング(Rao)などの数値近似手順が使用されている。最尤法は、前記サンプルを取得する確率を最大にする未知のパラメータの推定量を取得するという原則に基づいています。最大尤度に加えて、推論を行うプロセスに関連するすべての既知の情報、先験的に取り入れることからなる、ベイズの定理に基づいて、ベイズ推定も使用される。適応度パラメータを推定するためのベイズ法のより詳細な研究は、Birnbaum(1996)とOwen(1975)の研究です。 .

情報機能

構成することができる最良のテストは潜在的な特性についてのほとんどの情報を提供するものです。この情報の定量化は「情報機能」を通して行われます。情報関数Birnbaum 1968の公式は次のとおりです。テストで得られた情報は、各項目の寄与度が他の項目に依存しないことを除いて、各項目の情報の合計であることを考慮する必要があります。それがテストを構成します。一般的に言えば、すべてのモデルで情報は次のようになります。

  • フィットネスレベルによって異なります.
  • 曲線の傾きが大きいほど、情報が多くなります。.
  • スコアの分散に依存し、これが高いほど、情報が少なくなります。.

テスト構築

最初の課題 そして、テストを構築するときに最も重要なことの1つは、項目が選択されることです。これは、テストが測定しようとしている機能を定義する必要がある理論的前提の前のコードです。 「項目分析」という概念は、テストを最終的に形成する項目を選択するために実行される一連の正式な手順を指します。アイテムに関して最も関連性があると見なされる情報は次のとおりです。

  1. アイテムの難易度、それに回答した個人の割合.
  2. 各項目とテストの合計スコアとの識別、相関.
  3. 注意散漫またはエラー分析、その影響は関連していて、アイテムの難しさに影響を及ぼして、差別の価値を過小評価させます.

さまざまな指標の指標を設定する際には、通常、統計または指標が使用されますが、以下が最も使用されます。

難易度のインデックス 差別 信頼性の指標妥当性の指標テストを構成する項目の選択に考慮する必要がある既知のインデックス。テストの構築に必要な手順はどれでしょうか。

  1. 問題の仕様.
  2. 幅広い項目を宣言してデバッグする.
  3. モデルの選択.
  4. 事前に選択した項目をテストする.
  5. 最高のアイテムを選ぶ.
  6. テストの質を調べる
  7. 得られた最終テストの解釈の規範を確立する.

前のポイントから、モデルの選択、ポイント3はテストによって追求される目的、データの特性と品質、そして利用可能なそれらのリソースに依存することに注意するべきです。モデルが選択されるとき、それが適用されることができる理論的な条件を考えると、いいえ その美徳にもかかわらず それぞれの場合と特定の状況でそれらを分析する必要があります。を構成するそれらのモデルに起因する特性 項目に対する応答理論(TRI), 影響を受ける可能性があります。

  • テストの次元数コンピュータリソースのサンプル不足の可用性の欠如1つまたは他のモデルを使用する場合、いくつかの好みがあります。それらを見てみましょう。通常の弾頭モデルは通常アプリケーションでは使用されず、その値は理論的です.
  • ラッシュ:水平方向の比較に適しています(同様の適応度分布を持つ難易度の比較テスト)。同じテストのさまざまな形式があります。 * 2と3のパラメータ:さまざまな問題に最適なもの.
  • 誤った応答パターンを検出します。テストの垂直方向の等化のため(さまざまなレベルの難易度とさまざまな分布のテストを比較して適合度を比較します).

1と2のパラメータ:

  • あなたは異なるレベルでのスキルを比較できるように、単一のスケールを構築するのに適しています.

目的の選択に加えて、モデルの選択はサンプルのサイズによって影響を受ける可能性があります。サンプルが大きくて代表的である場合には、古典的モデルでも潜在的形質でも問題はないだろう。しかしTRIでは( 項目反応理論 小さなサンプルでは、​​単一パラメータモデルであっても、少数のパラメータを持つモデルを選択する必要があります。.

項目反応理論の応用

最も一般的なアプリケーションを見てみましょう。a)テストの均等化。異なるテストで得られたスコアを2つの考えられる目的で関連付ける必要がある場合があります。

  • 水平等化:同じテストの異なる形式を取得することが求められています.
  • 垂直等化:目的は、難易度のレベルが異なる単一規模の適性を構築することです。検定の平準化に関して、Lord(1980)は「公平性」の概念を導入しています。これは、どちらの検定でも推定された適性水準は変わらないことから適用されるためです。主題のために.

アイテムの偏りの研究。アイテムが平均的に同じ母集団の一部であると想定される特定のグループで有意に異なるスコアを与える場合、アイテムは歪められます。.

適応テストまたは平均テスト , TRIを通して、問題の形質の真の価値をより正確な方法で推測することを可能にする個別化された試験を構築することができる。項目は連続して管理され、ある項目または別の項目の事前設定は上記の回答によって異なります。適応テストにはさまざまな種類があります。以下の点を指摘します。

  • 二段階の手順、主1971年。 Bertz and Weiss 1973 - 1974。1回目の試験に合格し、結果に応じて2回目の試験が実施される.
  • いくつかの段階での手順は、前のものと同じです、唯一のプロセスはより多くの段階を含みます.
  • 固定分岐モデル、主1970年、1971年、1974年。回答に応じて、すべての科目が同じ項目を解決し、項目のセットが解決されます。.
  • 可変分岐モデルは、項目間の独立性と最尤推定量の特性に基づいています。.

商品の銀行, 多数の項目を持つことはテストの品質を向上させるものですが、このために項目は最初にデバッグプロセスを経なければなりません。項目を分類するためには、どの項目がこの項目がその一部であるかというテストを測定することを目的としていることを考慮に入れる必要があります。.

スコアの解釈

スケールその目的は、評価された特徴の相対的な大きさが何であるかを順序付け、分類、または知るための連続体を提供することです。これは私達がその特性に関して人々の違いと類似点を確立することを可能にするでしょう。心理学で使用される尺度は次のとおりです。名義、序数、間隔および理由。これらのスケールはテストの結果から構築され、 "直接スコア"と呼ばれる結果 .

タイプする テストを類型化するとは、直接スコアを、グループに対する被験者の位置を明らかにし、被験者内および被験者間の比較を可能にするため、解釈しやすい他のスコアに変換することです。入力には2種類あります。

  1. 線形、分布の形状を保持し、相関のサイズを変更しません.
  2. 非線形、それらは相関や分布の大きさを保存しません .

適性尺度TRIでは、構築される尺度はフィットネスレベルに対応する尺度です。見積もりと参照が適性とそのスケールに関して直接行われるので、このスケールは特徴付けられます。さらに、推定されるこの適性は、品目の特性曲線の形状にのみ依存します。考えられる尺度の範囲内で、2つ示します。

  1. スケールは、Woodcock(1978)によって提案され、次の式で定義されます。
  2. Wrightの尺度は、Wright(1977)によって提案されたもので、前の尺度の変形であり、次の関係式で与えられます。

この記事は純粋に参考情報です、オンライン心理学では私たちは診断をするか、または治療を推薦する教員を持っていません。特にあなたのケースを治療するために心理学者に行くことを勧めます。.

に似た記事をもっと読みたい場合 項目への応答の理論 - アプリケーションとテスト, 実験心理学のカテゴリーに入ることをお勧めします。.