エビデンスレベルとは?
論文を読む力は、職場選びにもつながります
エビデンスレベルを理解できると、ガイドラインや論文の結論を現場で使いやすくなります。一方で、教育体制や共有文化が弱い職場では学びを活かしにくいこともあります。今の環境を整理したい方は、PT 向けキャリアガイドも参考にしてください。
エビデンスレベルとは、研究結果の根拠の強さを整理するための考え方です。一般に、システマティックレビューやランダム化比較試験( RCT )は高く位置づけられ、観察研究や症例報告は相対的に低く扱われます。ただし、これは「上位の研究だけ読めばよい」という意味ではありません。
大切なのは、エビデンスレベルを臨床疑問に合った根拠を探すための道具として使うことです。介入効果、予後、診断、実態把握、まれな有害事象など、知りたいことによって適した研究デザインは変わります。研究デザインの基本は、先に RCT・コホート研究・横断研究の違い で整理しておくと理解しやすくなります。
結論:エビデンスレベルは「強さ」だけでなく「問いとの一致」で見る
エビデンスレベルは、論文やガイドラインを読むときの重要な目安です。しかし、単純に「レベルが高いから正しい」「レベルが低いから使えない」と判断すると、臨床では誤解が生じます。エビデンスレベルは、研究デザイン、研究の質、対象者、アウトカム、臨床適用性と合わせて読みます。
| 見る視点 | 確認すること | 注意点 |
|---|---|---|
| 臨床疑問 | 介入効果、予後、診断、実態のどれか | 問いに合わない研究は使いにくい |
| 研究デザイン | RCT、コホート研究、横断研究など | デザイン名だけで質は決まらない |
| 研究の質 | バイアス、交絡、脱落、測定方法 | 高いデザインでも質が低いと信頼性は下がる |
| 一貫性 | 複数研究で結果がそろっているか | 研究間で結果が大きく違う場合は慎重に読む |
| 臨床適用性 | 自分の患者・施設に当てはまるか | 対象者や環境が違えば調整が必要 |
臨床家にとっては、「この研究は上位か」だけでなく、この根拠は自分の臨床判断に使えるかを確認することが重要です。
エビデンスレベルの基本構造
エビデンスレベルは、研究デザインをもとに根拠の強さを階層的に整理する考え方です。一般的には、複数の研究を系統的にまとめたシステマティックレビューやメタアナリシス、介入効果を検証する RCT が上位に位置づけられます。
| 位置づけ | 代表的な研究 | 主に分かること | 注意点 |
|---|---|---|---|
| 上位 | システマティックレビュー、メタアナリシス | 複数研究をまとめた全体像 | 含まれる研究の質に左右される |
| 上位 | RCT | 介入の効果 | 対象者や条件が限定されることがある |
| 中間 | コホート研究、症例対照研究 | 予後、リスク、まれな事象 | 交絡因子の影響を受けやすい |
| 中間〜下位 | 横断研究 | 実態、頻度、関連 | 因果関係は判断しにくい |
| 下位 | 症例報告、専門家意見 | 仮説、新しい視点、少数例の経過 | 一般化や効果判定には限界がある |
この階層は便利ですが、絶対的な序列ではありません。たとえば、まれな有害事象を調べる場合は RCT よりも観察研究が重要になることがあります。実臨床の経過や予後を見る場合も、コホート研究が有用です。
GRADE とは?エビデンスの確実性を見る考え方
GRADE は、エビデンスの確実性と推奨の強さを透明に評価するための枠組みです。ガイドラインやシステマティックレビューで広く使われ、エビデンスの確実性を high、moderate、low、very low の 4 段階で整理します。
| 確実性 | 意味のイメージ | 臨床での読み方 |
|---|---|---|
| High | 真の効果にかなり近いと考えられる | 比較的安心して根拠として使いやすい |
| Moderate | 真の効果が異なる可能性もある | 条件を確認しながら使う |
| Low | 真の効果がかなり異なる可能性がある | 慎重に解釈し、他の根拠と合わせる |
| Very low | 推定効果に大きな不確実性がある | 仮説や参考情報として扱う |
GRADE では、研究デザインだけで機械的に判断するのではなく、バイアスリスク、不一致、非直接性、不精確さ、出版バイアスなどを確認します。つまり、RCT であっても質が低ければ確実性は下がり、観察研究でも条件によっては評価が上がる場合があります。
エビデンスの確実性が下がる要因
エビデンスレベルを読むときは、なぜ評価が下がったのかを確認することが重要です。GRADE では、主にバイアスリスク、不一致、非直接性、不精確さ、出版バイアスが確実性を下げる要因として扱われます。
| 要因 | 意味 | 臨床での注意点 |
|---|---|---|
| バイアスリスク | 研究方法に偏りが入りやすい | ランダム化、盲検化、脱落を確認する |
| 不一致 | 研究ごとに結果がそろわない | 対象者や介入条件の違いを見る |
| 非直接性 | 自分の PICO と研究の PICO がずれる | 対象者・介入・アウトカムが現場に近いか見る |
| 不精確さ | 推定に不確実性が大きい | サンプルサイズ、信頼区間を確認する |
| 出版バイアス | 都合のよい研究だけが見えやすい | 小規模研究や未出版研究の偏りを考える |
これらは、論文の信頼度を見るときの基本項目と重なります。詳しく確認したい場合は、論文の信頼度を判断するチェックポイントも参考になります。
エビデンスレベルと推奨度の違い
エビデンスレベルと推奨度は似ていますが、同じではありません。エビデンスレベルは「根拠の確実性」を示す考え方です。一方、推奨度は「臨床でその介入や判断をどの程度すすめるか」を示します。
| 項目 | 見るもの | 判断に含まれる要素 |
|---|---|---|
| エビデンスレベル | 研究結果の確実性 | 研究デザイン、バイアス、不一致、不精確さなど |
| 推奨度 | 臨床でどの程度すすめるか | 利益と害、患者の価値観、費用、実施可能性など |
そのため、エビデンスレベルが高くても、害が大きい、費用が高い、実施が難しい、患者の価値観に合わない場合は、強い推奨にならないことがあります。逆に、エビデンスの確実性が高くなくても、害が少なく臨床上の必要性が高い場合には、条件付きで推奨されることもあります。
臨床家はエビデンスレベルをどう使うべきか
臨床家がエビデンスレベルを使う目的は、論文やガイドラインの結論を鵜呑みにすることではありません。どのくらい確実な根拠なのか、自分の患者・利用者に当てはまるのか、現場で実施できるのかを整理するために使います。
| 確認項目 | 見るポイント | 臨床での考え方 |
|---|---|---|
| 問い | 自分の臨床疑問と合っているか | PICO をそろえて読む |
| 対象者 | 年齢、疾患、重症度が近いか | 患者像が違えば慎重に使う |
| 介入・比較 | 内容、量、期間、通常ケアが近いか | 自施設で再現できるか見る |
| アウトカム | 患者に意味のある指標か | 統計的有意差だけで判断しない |
| 実施可能性 | 人員、時間、制度、リスク管理 | 現場条件に合わせて調整する |
リハビリテーションでは、対象者の重症度、介入量、評価時期、施設体制の違いが結果に影響しやすくなります。エビデンスレベルを確認したうえで、臨床適用性を必ず見ます。
エビデンスレベルを読む 5 分フロー
ガイドラインや論文を読むときは、エビデンスレベルだけを見て判断せず、次の順番で確認すると整理しやすくなります。特に「推奨度」と「エビデンスの確実性」は分けて読むことが大切です。
| 順番 | 確認すること | 見るポイント |
|---|---|---|
| 1 | 臨床疑問を確認する | 介入、予後、診断、実態のどれか |
| 2 | 研究デザインを見る | 問いに合った研究か |
| 3 | 確実性が下がる理由を見る | バイアス、不一致、非直接性、不精確さ |
| 4 | 推奨度を確認する | 利益と害、実施可能性、患者価値観を見る |
| 5 | 自分の現場に当てはめる | 対象者、体制、介入量、安全性を照合する |
よくある誤解
エビデンスレベルは便利ですが、使い方を間違えると臨床判断を単純化しすぎてしまいます。特に「レベルが高いから全員に使える」「レベルが低いから読む価値がない」という読み方には注意が必要です。
| よくある誤解 | なぜ危ないか | 正しい見方 |
|---|---|---|
| レベルが高い研究は必ず使える | 対象者や介入条件が現場と違う場合がある | 臨床適用性を確認する |
| レベルが低い研究は読む価値がない | 症例報告や観察研究が重要な問いもある | 目的に合った研究かで判断する |
| RCT なら常に最上位 | バイアスや不精確さで確実性が下がる | 研究の質も確認する |
| 推奨度とエビデンスレベルは同じ | 推奨度には害、費用、価値観、実施可能性も含まれる | 確実性と推奨は分けて読む |
現場の詰まりどころ
現場で詰まりやすいのは、ガイドラインの推奨やエビデンスレベルを、患者ごとの判断にどう落とし込むかです。「推奨されているから実施する」「エビデンスが低いからやらない」と単純化すると、対象者の状態や現場条件を見落としやすくなります。
| 詰まりどころ | よくある失敗 | 回避策 |
|---|---|---|
| 推奨だけを見る | 対象者や実施条件を確認しない | PICO と臨床適用性を見る |
| レベルで機械的に判断する | 低レベルの研究をすべて除外する | 問いに合った根拠かで判断する |
| 研究環境をそのまま使う | 人員、時間、設備の違いを見落とす | 自施設で再現できる形に調整する |
| 患者の価値観を抜かす | 根拠だけで方針を決める | 利益、害、希望、生活背景を合わせて考える |
まとめ:エビデンスレベルは判断の入口
エビデンスレベルは、研究結果の根拠の強さを整理するための便利な考え方です。システマティックレビュー、RCT、観察研究、症例報告などの位置づけを理解すると、論文やガイドラインを読みやすくなります。
ただし、エビデンスレベルは臨床判断の結論ではありません。研究デザイン、研究の質、対象者、アウトカム、バイアス、推奨度、臨床適用性を合わせて考える必要があります。臨床では、エビデンスレベルを「根拠の強さを確認する入口」として使い、最終的には患者・利用者と現場条件に合わせて判断しましょう。
よくある質問
各項目名をタップ(クリック)すると回答が開きます。もう一度タップで閉じます。
エビデンスレベルが高い研究は必ず信頼できますか?
必ずしもそうではありません。研究デザインが上位でも、バイアス、不一致、不精確さ、対象者の違いがあれば信頼性や臨床適用性は下がります。研究の質と現場への当てはまりを確認します。
RCT とシステマティックレビューはどちらが上ですか?
一般には、質の高い RCT を系統的にまとめたシステマティックレビューやメタアナリシスが上位に置かれます。ただし、含まれる研究の質が低ければ、レビュー全体の確実性も下がります。
観察研究はエビデンスとして弱いので読まなくてよいですか?
いいえ。予後、リスク、実臨床の実態、まれな有害事象を知る場合、観察研究は重要です。介入効果の断定には慎重さが必要ですが、臨床判断の補助として有用です。
エビデンスレベルと推奨度は同じですか?
同じではありません。エビデンスレベルは根拠の確実性を示し、推奨度は利益と害、患者の価値観、費用、実施可能性なども含めて判断します。高いエビデンスでも強い推奨になるとは限りません。
臨床でエビデンスレベルを見るとき最初に何を確認しますか?
まず臨床疑問と PICO を確認します。そのうえで、研究デザイン、対象者、アウトカム、確実性が下がる理由、推奨度、自施設での実施可能性を順番に確認します。
次の一手
エビデンスレベルを理解したら、次は論文の読み方をさらに実践的に整理しましょう。研究デザインの復習には、RCT・コホート研究・横断研究の違いが役立ちます。論文の中身を評価する視点は、論文の信頼度を判断するチェックポイントで確認できます。
数値指標から整理したい場合は、インパクトファクターとは?論文評価での使い方と注意点と、インパクトファクター以外の論文評価指標まとめも参考になります。
また、ガイドラインや論文を読んでも、職場で共有する文化や教育体制が弱いと、学んだ内容を実践に落とし込みにくいことがあります。環境要因も含めて整理したい方は、職場環境の詰まりを見える化できるチェックシートも活用してください。
参考文献
- Oxford Centre for Evidence-Based Medicine. OCEBM Levels of Evidence. https://www.cebm.ox.ac.uk/resources/levels-of-evidence/ocebm-levels-of-evidence
- Oxford Centre for Evidence-Based Medicine. Levels of Evidence. https://www.cebm.ox.ac.uk/resources/levels-of-evidence
- GRADE Working Group. GRADE home. https://www.gradeworkinggroup.org/
- GRADE Working Group. GRADE Handbook. https://gradepro.org/handbook/
- Cochrane Handbook. Chapter 14: Completing Summary of Findings tables and grading the certainty of the evidence. https://www.cochrane.org/authors/handbooks-and-manuals/handbook/current/chapter-14
- Balshem H, Helfand M, Schünemann HJ, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-406. doi:10.1016/j.jclinepi.2010.07.015. PubMed
- Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924-926. doi:10.1136/bmj.39489.470347.AD. PubMed
- Page MJ, McKenzie JE, Bossuyt PM, et al. The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ. 2021;372:n71. doi:10.1136/bmj.n71. PubMed
著者情報

rehabilikun(理学療法士)
rehabilikun blog を 2022 年 4 月に開設。医療機関/介護福祉施設/訪問リハの現場経験に基づき、臨床に役立つ評価・プロトコルを発信。脳卒中・褥瘡などで講師登壇経験あり。
- 脳卒中 認定理学療法士
- 褥瘡・創傷ケア 認定理学療法士
- 登録理学療法士
- 3 学会合同呼吸療法認定士
- 福祉住環境コーディネーター 2 級
専門領域:脳卒中、褥瘡・創傷、呼吸リハ、栄養(リハ栄養)、シーティング、摂食・嚥下


