
IRTは、受験者の回答傾向から能力をより正確に測定できる統計的手法です。CBT試験に導入することで、公平性や効率性が向上し、従来の試験では見えにくかった「真の実力」を把握することが可能になるといわれています。本記事ではIRTを活用するメリットや運用に役立てる方法を解説します。
IRTとは?注目されている背景も解説
試験がいかに正確で公平に行われるかは、試験を主催する教育機関や資格認定団体にとって大きな課題です。従来の試験では、正答数の合計で受験者の能力を判断する方式(古典的テスト理論=CTT)が一般的でした。
しかし、この方法では、必ずしも「真の能力」を正確に測れているとは限りません。たとえば、かんたんな問題が多い年度では平均点が上がり、難しい問題が多い年度では平均点が下がるといったように、受験者の能力ではなく出題傾向に大きく左右されてしまうのです。
その結果、同じレベルの受験者同士であっても、年度や試験問題によって評価が異なるという不公平さが生じてきました。この課題を解決するために注目されているのが「IRT(項目反応理論:Item Response Theory)」です。
IRTは、各問題(項目)への受験者の反応から能力を推定する理論体系であり、試験の問題特性と受験者の能力を切り離して分析することができます。IRTの特徴は、各問題に「識別力(a値)」「困難度(b値)」といった特性を与え、受験者がその問題に正答する確率から能力値(θ値)を推定できる点にあります。
さらに、項目特性曲線(Item Characteristic Curve, ICC)と呼ばれるグラフを用いれば、ある能力の受験者がその問題に正答する確率を視覚的に確認することも可能です。IRTが注目される背景には、教育や資格試験において「公平性」と「信頼性」を確保したいという社会的ニーズがあります。
CBT(Computer Based Testing)が普及し、同じ試験でも複数パターンの問題が提供されるようになった現在、IRTを導入することで試験間の難易度を等化し、どの受験者も同じ基準で評価できる仕組みが実現できるのです。
CBT試験にIRTを導入するメリット
IRTはCBT方式と非常に相性がよく、柔軟性と精度を兼ね備えた試験運用を可能にします。IRTを導入することで、具体的には次のようなメリットがあります。
公平性の向上
IRTを導入することで、試験の問題ごとの特性を考慮しながら受験者の能力を推定できます。従来の合計得点方式では、試験問題が易しいか難しいかによって受験者の評価が左右されてしまいました。
しかしIRTでは、異なる問題セットを解いた受験者同士であっても、同一の尺度で能力を比較できるため、公平性が大幅に向上します。
試験問題の精度向上
IRTでは各問題の識別力や困難度が数値化されるため、問題の良し悪しを客観的に分析できます。識別力の低い問題は能力を測るうえで不適切である可能性があり、逆に識別力の高い問題は受験者の実力を明確に区別するのに役立ちます。
こうした分析を定期的に行うことで、問題の質を継続的に改善し、試験全体の精度を高めることが可能です。
複数回受験や常時受験の実現
CBT試験は年間を通して複数の日程や会場で実施されるケースが多く、情報漏洩防止のために複数パターンの問題が準備されます。従来の理論では、異なる問題を解いた受験者の公平性を担保するのは困難でした。
しかしIRTを導入すれば、問題セットが異なっても能力を同一基準で測定できるため、複数回受験や常時受験が可能となります。
データ活用の可能性
IRTは、過去の受験データから問題特性を抽出することで成り立っています。つまり、問題作成者や試験主催者にとって「過去の正誤データ」というシンプルな情報を活用するだけで、受験者の能力をより正確に測定する新たな枠組みを構築できるのです。
IRT導入はゴールではない!試験の精度と公平性を維持・向上させよう
IRTの導入は試験改革のゴールではなく、新たなスタートです。公平性と精度を維持するためには、導入後も継続的に分析を行い、運用改善を行わなければなりません。
公平な試験を行うための第一歩として、まずもっとも必要なのは各試験項目に対する「a値(識別力)」と「b値(困難度)」の分析です。a値は、問題が受験者の能力をどれだけ正確に識別できるかを示す数値のことで、b値は問題の困難度を表します。
b値が高いほど難しく、低いほどかんたんな問題ということです。これらの数値は、過去の回答情報から算出できます。このa値とb値の関係をふまえて分析し、データを活用していきましょう。
a値・b値の定期的な更新
試験問題は時代の変化や受験者層の特性によって、その難易度や識別力が変化します。特定の問題が繰り返し使われれば、解答が広まり本来の難易度が下がることもあります。
そのため、IRTで算出した項目特性値は定期的に更新し、最新の受験データにもとづいて調整することが欠かせません。
新しい問題の追加とダミー問題の活用
試験を継続的に運営するには、新しい問題の追加が不可欠です。しかし新問題の特性値は事前にはわかりません。
そこで活用されるのが「ダミー問題」です。これは採点には影響しませんが受験者の反応を通じてa値・b値を測るために挿入される問題で、新しい問題をアイテムバンクに組み入れるうえで非常に重要な役割を果たします。
出題停止問題の適切な管理
IRTの分析を通じて、正答率が急上昇した問題や内容が古くなった問題は出題停止する判断が必要です。たとえば、参考書や関連法規の改訂によって正答が変わるケースや、情報漏洩の可能性が高い問題を放置すれば、公平性が損なわれます。
アイテムバンクの問題を常に最新かつ有効な状態に保つことが試験の信頼性維持につながります。
IRT運用の課題と対応
IRT導入には課題もあります。十分な受験者データの確保(最低300人規模が推奨)、膨大な問題数の準備、問題公開文化との整合性(日本では試験問題を公開する慣習があるが、IRTの観点では非公開が望ましい)などです。
これらの課題に適切に対応することが、IRTの効果を最大化するカギとなります。
まとめ
IRT(項目反応理論)は、従来の合計得点方式の限界を克服し、受験者の「真の能力」を公平に測定するための強力な理論です。CBT方式と組み合わせることで、試験問題が異なっても同じ尺度で評価でき、試験の公平性と信頼性を大幅に高められます。ただし、IRT導入はゴールではなく、問題特性値の更新、新問題の導入、出題停止の判断といった運用サイクルを維持していくことが不可欠です。十分な準備と継続的な改善があってこそ、IRTは試験改革の基盤となり得ます。試験主催者にとってIRTは、単なる理論ではなく、実務に直結する「実践的なツール」です。本記事が、CBT試験にIRTを導入し、公平で精度の高い試験運営を実現するための一歩となれば幸いです。
-
引用元:https://cbt-s.com/
国内最大の導入実績を持つCBTソリューションズのCBTサービスは、試験の申込から受験料の回収、全国でのCBTによる試験の実施、採点、結果発表、コールセンター等、試験業務の全てを業界No.1の水準でサービス提供可能。
国家試験から有名団体まで200以上の試験が現在も実施されており、国内最大の80%以上の導入シェアを持つ実績十分の企業です。会場も47都道府県の全ての主要都市に国内最大の360の会場を展開中。受験者は一年中好きな場所で試験を受けられます。