自治体通信ONLINE
  1. HOME
  2. 先進事例
  3. 戦前の資料も読み込めるAI-OCRで、幅広い歴史・文化資料の公開が可能に
沖縄県豊見城市の取り組み
先進事例2023.12.14
デジタルアーカイブ事業の推進

戦前の資料も読み込めるAI-OCRで、幅広い歴史・文化資料の公開が可能に

[提供] 株式会社モルフォAIソリューションズ
戦前の資料も読み込めるAI-OCRで、幅広い歴史・文化資料の公開が可能に
この記事の配信元
株式会社モルフォAIソリューションズ
株式会社モルフォAIソリューションズ

※下記は自治体通信 Vol.54(2023年12月号)から抜粋し、記事は取材時のものです。

デジタル技術の進展も背景に、保有する歴史資料や文化財などをデジタル化して公開する「デジタルアーカイブ事業」に取り組む自治体が増えている。豊見城市(沖縄県)もそうした自治体の1つで、戦前・戦後に発行された資料でも全文検索できるようにする試みに注目が集まっている。それを実現するには、従来のOCR技術では難しいとされてきた「旧字体のテキストデータ化」が求められるが、同市ではどのように実施しているのか。同市教育委員会の島袋氏に聞いた。

[豊見城市] ■人口:6万6,055人(令和5年10月31日現在) ■世帯数:2万8,362世帯(令和5年10月31日現在) ■予算規模:413億6,281万4,000円(令和5年度当初) ■面積:19.33km² ■概要:沖縄本島南部に位置し、北は県都の那覇市に隣接、東は南風原町、八重瀬町、南は糸満市に隣接している。本土復帰を境に人口が急激に増加。平成14年4月1日、地方自治法施行後初となる村から市への市制施行を行い、現在の名称となった。
インタビュー
島袋 幸司
豊見城市
教育委員会 教育部 文化課 主査
島袋 幸司しまぶくろ こうじ

新聞形式の資料では、OCRの精度に「問題あり」

―デジタルアーカイブ事業の取り組み状況を聞かせてください。

 当市は令和4年2月に、市の教育委員会で保管している歴史・民俗資料、文化財、写真などを広く市民へ公開するために、「とみぐすくデジタルアーカイブ」というポータルサイトを開設しました。「地理」「文化財」「写真」「文書資料」「3Dデータ」などの項目を、個別でも一括でも検索できるよう整備を進めています。そこでは、大量の資料から目的の情報を探せるよう、タイトルや目次だけでなく全文から検索できる機能を設ける必要があります。たとえば地域の綱引きの歴史を調べたい場合、「綱引き」という語で全文検索ができるようになれば、膨大な資料からでも該当する内容を比較的容易に探し出せるようになるでしょう。ただし、全文検索の機能を設けるには、保有資料をすべてテキストデータ化する必要があり、そこに1つ大きな問題がありました。

―どのような問題でしょう。

 テキストデータ化のためにはOCR処理が必要ですが、資料の中には戦前に作成された古いものも数多くあり、そこでは一般的なOCRでは認識が難しい旧字体が多数使われているのです。また、「段組み」で構成される新聞形式の資料も多く、段と段のあいだの隙間や線を認識するのが難しいため、段を越える場合、従来の技術では誤ってまったく異なる文章をつなげてしまうことも多いです。実際、私たちも複数のOCRソフトを試しましたが、いずれも精度に問題があり活用できるものではありませんでした。かといって、私たちが手入力でテキストデータ化するには、膨大な手間と時間がかかります。そこで、より精度の高いOCRがないか探していたところ、DX支援を手がけるNansei社から、『FROG AI-OCR』*という製品の紹介を受けました。

*『FROG AI-OCR』: 国立国会図書館のNDLOCR(https://github.com/ndl-lab/ndlocr_cli)をコアエンジンとして利用

国立国会図書館の委託事業で、開発したエンジンを活用

―どういった製品ですか。

 モルフォAIソリューションズという会社の製品で、同社が国立国会図書館の委託事業で開発した「AI-OCRプログラム」を搭載したエンジンを活用しています。実際に使ってみたところ、旧字体でもほぼエラーなく認識し、段組みのある資料も問題なく処理できました。古い資料でも十分な品質確保ができると判断し、導入を決めました。すべての文書資料のテキストデータ化を目指し、今年度から着手しています。私は、デジタルアーカイブ事業を通じて市民に地域のことを深く知ってもらい、誇りと愛着を持ってもらいたいと考えています。地域のことが分かるすべての資料の検索を可能にする『FROG AI-OCR』は、そうした事業の推進を強力に支援してくれるツールだと評価しています。

学識者の声
新聞のテキスト化ができるOCRは、研究推進の強力なエンジン
インタビュー
加納 隆
一橋大学経済学研究科
教授
加納 隆かのう たかし
昭和45年、東京都生まれ。専門分野は マクロ経済学、国際金融論。

 私は、国際金融論の対象として、「本土復帰前後の沖縄における通貨体制変遷の経済的影響」というテーマを研究しています。当時の為替レートの急変動とそれに対する沖縄市民の反応などを日次で細かく把握できる過去の新聞記事は、貴重な一次資料です。そうした新聞情報は、たとえば物価高騰の数値データの背景を明らかにし、研究の精度を高めてくれます。そのため、地元紙の新聞縮尺版から多くの資料を収集してきました。新聞記事をもテキストデータ化できる『FROG AI-OCR』は、私の研究を進める強力なエンジンになっています。

支援企業の視点
高精度ОCRの導入で「デジタルアーカイブ」の価値は高まる
インタビュー
神田 武
株式会社モルフォAIソリューションズ
代表取締役社長 兼 CEO
神田 武かんだ たけし
昭和56年、兵庫県生まれ。慶應義塾大学大学院理工学研究科 修士課程修了。国内シンクタンク、総合商社にて先端技術領域でのコンサルティングや事業投資に従事。令和元年、株式会社モルフォAIソリューションズを設立、代表取締役社長 兼 CEOに就任。
インタビュー
池原 健太
株式会社Nansei
DX事業部 部長
池原 健太いけはら けんた
昭和53年、沖縄県生まれ。国際電子ビジネス専門学校を卒業。おもに文書デジタル化業務に携わり、平成30年、株式会社Nanseiに入社。令和4年から現職。

―自治体が「デジタルアーカイブ事業」を進めるうえで、重要なポイントはなんでしょう。

神田 歴史・文化資料の「全文検索」ができるように、資料のすべてをテキストデータ化することです。当社の『FROG AI-OCR』では、最新の画像処理・ディープラーニング技術を活用し、明治期から昭和初期の近代書籍・雑誌において、市販のОCRよりも約2倍、90%以上の読み取り精度を確保した、という調査結果*があります。また、読み込んだ旧字体を現在の新字体に変換してテキストデータ化することも可能です。

池原 これまでは認識精度の低さから、ОCRの活用は無理だと考えている自治体は多かったです。資料の全文検索を可能とする『FROG AI-OCR』は、デジタルアーカイブ事業の価値を高めるツールになると考えています。

―自治体に対する今後の支援方針を聞かせてください。

神田 デジタルアーカイブ事業以外でも、幅広く自治体を支援します。自治体では文書記録や書面ベースでの日常業務が多く、たとえば、市民からの問い合わせや過去の判例・事例などの記録を残していても、膨大な資料の中から目的の情報を探し当てるのは容易ではないでしょう。その検索精度を上げる『FROG AI-OCR』は、職員のみなさんの負担削減に貢献できるはずです。

*調査結果 : 国立国会図書館NDLラボ「令和3年度OCR処理プログラム研究開発」結果より

株式会社Nansei

創業/昭和57年1月 資本金/500万円 売上高/約1億9,600万円(令和5年3月期)  従業員数/15人(令和5年7月1日現在) 事業内容/情報サービス業 URL/https://www.nansei-m.co.jp/

お問い合わせ先/haisai@nansei-m.co.jp

株式会社モルフォAIソリューションズ
株式会社モルフォAIソリューションズ
設立

令和元年12月

資本金

1億円

売上高

約3億1,000万円(令和4年10月期)

従業員数

24人(令和4年10月31日現在)

事業内容

AIコンサルティング、システムインテグレーション、SW・HW販売など

URL

https://www.morphoai.com/

お問い合わせ先
contact@morphoai.com
サービス資料を確認する
電子印鑑ならGMOサイン 導入自治体数No.1 電子契約で自治体DXを支援します
自治体通信 事例ライブラリー