続・人間老いやすく、学成りがたし: 静岡県立中央図書館、県内の自治体ウェブサイトのPDFを自動収集するシステムを共同開発!!

2022/05/19

静岡県立中央図書館、県内の自治体ウェブサイトのPDFを自動収集するシステムを共同開発!!

  昨日5月18日、静岡県立中央図書館が、「図書館DX実証実験」の一部として、静岡県内の自治体ウェブサイトに掲載されたPDFを自動収集するクローリングシステムを、地元企業と共同開発したと発表しました。


  収集範囲は、ドメイン以下5階層目まで、5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集するとのことですから、なかなか優秀なシステムです。

 収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存され、また世代管理も行うとのことで、管理方法は、

1.収集範囲内にあるすべてのPDFを機械的に管理
2.収集したPDFをリネームし管理

だそうです。

 今までの「図書館DX実証実験」はいまいちだったのですが、今回はすごいです。どうせやるなら、こうでなくちゃ👌

0 件のコメント:

コメントを投稿