![戦前の資料も読み込めるAI-OCRで、幅広い歴史・文化資料の公開が可能に](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2Fd5298a0c2f1e448b885bd7d0e4ee0b70%2F9_jt54_morphoai.jpg&w=3840&q=75)
![株式会社モルフォAIソリューションズ](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2F4e53e5c50fc94aa19d7f3d2ccb3d3d9e%2F%25E4%25BC%2581%25E6%25A5%25AD%25E3%2583%259A%25E3%2583%25BC%25E3%2582%25B8%25E3%2583%25AD%25E3%2582%25B4%25E5%2588%25B6%25E4%25BD%259C%25E7%2594%25A8%25E3%2581%25AE%25E3%2582%25B3%25E3%2583%2594%25E3%2583%25BC%25E3%2581%25AE%25E3%2582%25B3%25E3%2583%2594%25E3%2583%25BC%2520(94).png&w=640&q=75)
※下記は自治体通信 Vol.54(2023年12月号)から抜粋し、記事は取材時のものです。
デジタル技術の進展も背景に、保有する歴史資料や文化財などをデジタル化して公開する「デジタルアーカイブ事業」に取り組む自治体が増えている。豊見城市(沖縄県)もそうした自治体の1つで、戦前・戦後に発行された資料でも全文検索できるようにする試みに注目が集まっている。それを実現するには、従来のOCR技術では難しいとされてきた「旧字体のテキストデータ化」が求められるが、同市ではどのように実施しているのか。同市教育委員会の島袋氏に聞いた。
![島袋 幸司](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2Fe538e70ea7f6486ba224b2f2231c8aa0%2F9_%25E5%25B3%25B6%25E8%25A2%258B%2520%25E5%25B9%25B8%25E5%258F%25B8.jpg&w=384&q=75)
新聞形式の資料では、OCRの精度に「問題あり」
―デジタルアーカイブ事業の取り組み状況を聞かせてください。
当市は令和4年2月に、市の教育委員会で保管している歴史・民俗資料、文化財、写真などを広く市民へ公開するために、「とみぐすくデジタルアーカイブ」というポータルサイトを開設しました。「地理」「文化財」「写真」「文書資料」「3Dデータ」などの項目を、個別でも一括でも検索できるよう整備を進めています。そこでは、大量の資料から目的の情報を探せるよう、タイトルや目次だけでなく全文から検索できる機能を設ける必要があります。たとえば地域の綱引きの歴史を調べたい場合、「綱引き」という語で全文検索ができるようになれば、膨大な資料からでも該当する内容を比較的容易に探し出せるようになるでしょう。ただし、全文検索の機能を設けるには、保有資料をすべてテキストデータ化する必要があり、そこに1つ大きな問題がありました。
―どのような問題でしょう。
テキストデータ化のためにはOCR処理が必要ですが、資料の中には戦前に作成された古いものも数多くあり、そこでは一般的なOCRでは認識が難しい旧字体が多数使われているのです。また、「段組み」で構成される新聞形式の資料も多く、段と段のあいだの隙間や線を認識するのが難しいため、段を越える場合、従来の技術では誤ってまったく異なる文章をつなげてしまうことも多いです。実際、私たちも複数のOCRソフトを試しましたが、いずれも精度に問題があり活用できるものではありませんでした。かといって、私たちが手入力でテキストデータ化するには、膨大な手間と時間がかかります。そこで、より精度の高いOCRがないか探していたところ、DX支援を手がけるNansei社から、『FROG AI-OCR』*という製品の紹介を受けました。
*『FROG AI-OCR』: 国立国会図書館のNDLOCR(https://github.com/ndl-lab/ndlocr_cli)をコアエンジンとして利用
国立国会図書館の委託事業で、開発したエンジンを活用
―どういった製品ですか。
モルフォAIソリューションズという会社の製品で、同社が国立国会図書館の委託事業で開発した「AI-OCRプログラム」を搭載したエンジンを活用しています。実際に使ってみたところ、旧字体でもほぼエラーなく認識し、段組みのある資料も問題なく処理できました。古い資料でも十分な品質確保ができると判断し、導入を決めました。すべての文書資料のテキストデータ化を目指し、今年度から着手しています。私は、デジタルアーカイブ事業を通じて市民に地域のことを深く知ってもらい、誇りと愛着を持ってもらいたいと考えています。地域のことが分かるすべての資料の検索を可能にする『FROG AI-OCR』は、そうした事業の推進を強力に支援してくれるツールだと評価しています。
![加納 隆](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2F0784bc31937447e39a44aca4910c048f%2F9_%25E5%258A%25A0%25E7%25B4%258D%2520%25E9%259A%2586.jpg&w=384&q=75)
私は、国際金融論の対象として、「本土復帰前後の沖縄における通貨体制変遷の経済的影響」というテーマを研究しています。当時の為替レートの急変動とそれに対する沖縄市民の反応などを日次で細かく把握できる過去の新聞記事は、貴重な一次資料です。そうした新聞情報は、たとえば物価高騰の数値データの背景を明らかにし、研究の精度を高めてくれます。そのため、地元紙の新聞縮尺版から多くの資料を収集してきました。新聞記事をもテキストデータ化できる『FROG AI-OCR』は、私の研究を進める強力なエンジンになっています。
![神田 武](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2F551d89b22bd74b259e6577dc22336818%2F9_%25E7%25A5%259E%25E7%2594%25B0%2520%25E6%25AD%25A6.jpg&w=384&q=75)
![池原 健太](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2Fb7cbf94fc4874d40af3dc78df7808308%2F9_%25E6%25B1%25A0%25E5%258E%259F%2520%25E5%2581%25A5%25E5%25A4%25AA.jpg&w=384&q=75)
―自治体が「デジタルアーカイブ事業」を進めるうえで、重要なポイントはなんでしょう。
神田 歴史・文化資料の「全文検索」ができるように、資料のすべてをテキストデータ化することです。当社の『FROG AI-OCR』では、最新の画像処理・ディープラーニング技術を活用し、明治期から昭和初期の近代書籍・雑誌において、市販のОCRよりも約2倍、90%以上の読み取り精度を確保した、という調査結果*があります。また、読み込んだ旧字体を現在の新字体に変換してテキストデータ化することも可能です。
池原 これまでは認識精度の低さから、ОCRの活用は無理だと考えている自治体は多かったです。資料の全文検索を可能とする『FROG AI-OCR』は、デジタルアーカイブ事業の価値を高めるツールになると考えています。
―自治体に対する今後の支援方針を聞かせてください。
神田 デジタルアーカイブ事業以外でも、幅広く自治体を支援します。自治体では文書記録や書面ベースでの日常業務が多く、たとえば、市民からの問い合わせや過去の判例・事例などの記録を残していても、膨大な資料の中から目的の情報を探し当てるのは容易ではないでしょう。その検索精度を上げる『FROG AI-OCR』は、職員のみなさんの負担削減に貢献できるはずです。
*調査結果 : 国立国会図書館NDLラボ「令和3年度OCR処理プログラム研究開発」結果より
創業/昭和57年1月 資本金/500万円 売上高/約1億9,600万円(令和5年3月期) 従業員数/15人(令和5年7月1日現在) 事業内容/情報サービス業 URL/https://www.nansei-m.co.jp/
お問い合わせ先/haisai@nansei-m.co.jp
![株式会社モルフォAIソリューションズ](/_next/image?url=https%3A%2F%2Fimages.microcms-assets.io%2Fassets%2F9e15dadb3dd640d093e339e00878ef94%2F4e53e5c50fc94aa19d7f3d2ccb3d3d9e%2F%25E4%25BC%2581%25E6%25A5%25AD%25E3%2583%259A%25E3%2583%25BC%25E3%2582%25B8%25E3%2583%25AD%25E3%2582%25B4%25E5%2588%25B6%25E4%25BD%259C%25E7%2594%25A8%25E3%2581%25AE%25E3%2582%25B3%25E3%2583%2594%25E3%2583%25BC%25E3%2581%25AE%25E3%2582%25B3%25E3%2583%2594%25E3%2583%25BC%2520(94).png&w=640&q=75)
設立 | 令和元年12月 |
---|---|
資本金 | 1億円 |
売上高 | 約3億1,000万円(令和4年10月期) |
従業員数 | 24人(令和4年10月31日現在) |
事業内容 | AIコンサルティング、システムインテグレーション、SW・HW販売など |
URL |