紙面で管理されている用語集を、検索できるWebデータベースへ。
見出し・読み・カテゴリ・関連語を整理し、
PDF資料を公開して終わらせず、活用しやすい情報資産へ変換します。
はじめに
冊子やPDFで作成された辞典・用語集・ハンドブックは、情報が整理されていて信頼性も高い一方で、Web上で活用しようとすると少し扱いにくい場面があります。
たとえば、必要な用語を探すためにPDFを開いてページ内検索をする、カテゴリごとに見直す、関連する語句をたどる、といった操作は、紙面のままではどうしても限界があります。
また、紙面データの中にある見出し、読み、説明文、関連語、カテゴリなどの情報は、本来であれば検索やWeb表示に活用できる貴重なデータです。
そこで今回は、地域医療・介護連携に関する用語辞典を題材に、紙面PDFをもとにしたWebアーカイブのサンプルを作成しました。
元になった紙面PDFと、そこから作成したWebデータベースは、以下から確認できます。
元紙面PDF
制作したWebデータベース

当社では、こうした紙面ベースの辞典・用語集・資料集を、構造化データとして整理し、検索可能なWebデータベースとして再構築する取り組みを行っています。
紙面データを、Webで使える情報資産に変換します
元になるデータは、組版データ、PDFなどの紙面データを想定しています。
使用した紙面データの内容の一部

そこから、用語ごとの情報を抽出し、Webで扱いやすい形に整理していきます。
たとえば、辞典系のデータであれば、次のような項目を構造化します。

紙面上ではひとまとまりの本文として配置されている情報も、Webで使うためには「どれが見出しで、どれが説明文で、どれが関連語なのか」を分けて扱う必要があります。
この整理を行うことで、単なるPDF掲載ではなく、検索・分類・関連表示に使えるデータベースとして活用できるようになります。
JSONなどの構造化データとして再構成
抽出した情報は、JSONなどの構造化データとして整理します。
これにより、Webサイト側ではデータを読み込み、用語一覧、詳細ページ、カテゴリページ、検索結果などを自動的に生成できます。
構造化JSONの一部

今回のサンプルでは、地域医療・介護連携に関する用語辞典を題材にし、200語以上の用語をカテゴリ別に整理しました。
カテゴリ例としては、以下のようなものがあります。

このようにカテゴリ情報を持たせることで、検索だけでなく「分類から探す」導線も作ることができます。
データベース上のカテゴリ表示

Webデータベースとして公開
構造化したデータをもとに、Webサイトとして閲覧できる形に落とし込みます。
今回のサンプルでは、トップページに検索フォームを配置し、用語を探すことを主目的にした構成にしています。
各用語には個別ページを生成しているため、検索結果から直接その用語ページへ移動できます。
PDFのように「該当箇所を探す」のではなく、Webページとして1語ずつ独立した情報にアクセスできる点が大きな違いです。
スマートフォンでの閲覧にも対応
Webデータベースとして公開する場合、PCだけでなくスマートフォンからも見やすく使えることが重要です。
今回のサンプルでは、画面幅に応じて検索フォーム、カテゴリ一覧、用語詳細ページの表示が切り替わるように調整しています。



スマートフォン表示では、検索フォームを大きく配置し、カテゴリ一覧や用語ページも縦方向に読み進めやすい構成にしています。
検索機能も、紙面より使いやすく
Webデータベース化するメリットのひとつが、検索機能の拡張です。
単純に用語名だけを検索するのではなく、読み、表記ゆれ、関連語、略称、説明文、口語的な言い方などからも候補を探せるようにしています。
今回のサンプルでは、検索オプションとして次の3種類を用意しています。

あいまい検索
入力した文字に近い用語を拾う検索です。
読み、ひらがな、表記ゆれ、軽い入力ミスなどに対応します。
たとえば、次のような検索ができます。
- 「しょうかいじょう」→「紹介状」
- 「ほうもんかんご」→「訪問看護」
- 「けあまねじゃ」→「ケアマネジャー」
- 「えむあーるあい」→「MRI」
正式な表記がわからない場合でも、近い入力から候補にたどり着けます。

関連語・略称検索
辞書データ内に登録された関連語、類義語、略称、別表現から検索する機能です。
たとえば、次のような検索ができます。
- 「MSW」→「医療ソーシャルワーカー」
- 「エコー」→「超音波検査」
- 「退院調整」→「退院支援」
- 「人生会議」→「ACP」
利用者が正式名称を知らない場合でも、現場で使われる略称や言い換えから探せるようになります。

AI推定検索
用語名や略称を知らなくても、文章の意味から近い用語を推定する検索です。
たとえば、次のような検索を想定しています。
- 「薬を管理してくれる人」→「薬剤師」
- 「家に来て看護してくれる」→「訪問看護」
- 「中に入って確認する検」→「内視鏡検査」
- 「病院を出た後の生活が不安」→「退院支援」
これは、紙面の索引や通常のキーワード検索だけでは拾いにくい部分です。
利用者が専門用語を知らなくても、自分の言葉で探せるようにすることで、情報への到達しやすさを高めます。

用語ページから関連情報をたどる
各用語ページでは、用語名、読み、英語表記、説明文だけでなく、関連語や別表現も表示できます。
また、メタデータでつながる項目を表示することで、ひとつの用語から周辺の用語へ自然に移動できる構成にしています。
たとえば「薬剤師」のページであれば、服薬指導、薬剤管理、調剤薬局、お薬手帳など、関連する項目へつなげることができます。

紙面ではページをめくって探す必要がある関連情報も、Web化することでリンクとしてたどれるようになります。
静的サイトとして公開できる構成
今回のサンプルは、FTPサーバーへアップロードして公開できる静的サイトとして構成しています。
サーバー側に特別なシステムを用意しなくても、HTML、CSS、JavaScript、JSON、PDFなどのファイルを配置すれば動作します。
そのため、比較的導入しやすく、既存のWebサーバーにも載せやすい形式です。
もちろん、用途によっては管理画面、検索API、データ更新フローなどを組み込むことも可能です。
管理画面から用語を追加

さいごに
辞典、用語集、ハンドブック、マニュアル、専門資料などは、制作に時間をかけて整理された情報資産です。
しかし、PDFとして掲載するだけでは、必要な情報にたどり着きにくかったり、関連情報を横断しにくかったりします。
紙面データを構造化し、Webアーカイブ化することで、次のような活用が可能になります。
- 用語を検索しやすくする
- 読みや表記ゆれから探せるようにする
- 略称や関連語から正式名称へ誘導する
- 口語的な言い方から候補を提示する
- カテゴリ別に一覧できるようにする
- 用語ごとの個別ページを自動生成する
- 元紙面PDFとWeb表示を併用する
- 将来的な更新や追加に対応しやすくする
本記事で紹介した取り組みは、当社の「データ加工×ビジュアル化 支援サービス」の一例です。
紙面データの整理・構造化、データベース化、検索用コンテンツの作成、Web上での見せ方の設計など、資料の内容や目的に応じてさまざまな形でご支援できます。
既存の資料を「検索できる情報資産」として活用したい場合は、ぜひお気軽にご相談ください。

コメント