続・人間老いやすく、学成りがたし: 静岡県立中央図書館、県内の自治体ウェブサイトのPDFを自動収集するシステムを共同開発!!

2022/05/19

静岡県立中央図書館、県内の自治体ウェブサイトのPDFを自動収集するシステムを共同開発!!

　昨日5月18日、静岡県立中央図書館が、「図書館DX実証実験」の一部として、静岡県内の自治体ウェブサイトに掲載されたPDFを自動収集するクローリングシステムを、地元企業と共同開発したと発表しました。

【プレスリリース解禁】
静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発しました。
これにより、これまで困難だった自治体PDF資料の収集が進んでいきます。https://t.co/1p0KbCH068 @PRTIMES_JPより
— 【公式】静岡県立中央図書館 (@shizuokaken_lib) May 18, 2022

　収集範囲は、ドメイン以下5階層目まで、5階層内のHTMLにPDFへのリンク（<a href=”*.pdf”></a>）があれば，収集範囲の対象階層外であっても収集するとのことですから、なかなか優秀なシステムです。

　収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存され、また世代管理も行うとのことで、管理方法は、

1.収集範囲内にあるすべてのPDFを機械的に管理
2.収集したPDFをリネームし管理

だそうです。

　今までの「図書館DX実証実験」はいまいちだったのですが、今回はすごいです。どうせやるなら、こうでなくちゃ👌

続・人間老いやすく、学成りがたし

2022/05/19

静岡県立中央図書館、県内の自治体ウェブサイトのPDFを自動収集するシステムを共同開発!!

0 件のコメント:

コメントを投稿

ラベル