「次世代デジタルライブラリー」の活用

次世代デジタルライブラリー
拡大する

 国会図書館は最新技術も積極的に取り入れている。その代表が「次世代デジタルライブラリー」。

「2021年から、画像認識による文字起こしを利用して、デジタル化された資料を全文起こそうというテキストデータ化のプロジェクトが行われた。開発はLINE(の子会社)が請け負い、そのプログラムはオープンソースとして公開もされている」

 この全文データを活用したのが、「NDL Ngram Viewer」だ。Googleのトレンド検索のような機能を持つが、Googleのトレンド検索が(日本語ではほぼ)インターネット登場以降のデータにしか有効に機能しないのに対し、NDL Ngram Viewerは古い出版物のデータも含まれる。

 2つの単語を並べて比較することもできる。例えば「二宮尊徳」と「西郷隆盛」を比較すると、二宮尊徳が戦前に中心的に多く登場するのに対して、西郷隆盛は意外にも戦後により多く言及されている。

 出版物の数やデジタル化された範囲が年代によって対象はデジタル化された資料に限り差があるため、その数は年代によって偏りがあるので、数値の解釈には注意が必要だという。

 「日常会話で話していることで、『あれ、これっていつ頃から出てきた単語なんだろう?』と思ったら検索したり、日常レベルで楽しめることがたくさんある」

著作権フリーの画像も利用可能
この記事の写真をみる(5枚)