昨日5月18日、静岡県立中央図書館が、「図書館DX実証実験」の一部として、静岡県内の自治体ウェブサイトに掲載されたPDFを自動収集するクローリングシステムを、地元企業と共同開発したと発表しました。
【プレスリリース解禁】
— 【公式】静岡県立中央図書館 (@shizuokaken_lib) May 18, 2022
静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発しました。
これにより、これまで困難だった自治体PDF資料の収集が進んでいきます。https://t.co/1p0KbCH068 @PRTIMES_JPより
収集範囲は、ドメイン以下5階層目まで、5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集するとのことですから、なかなか優秀なシステムです。
収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存され、また世代管理も行うとのことで、管理方法は、
1.収集範囲内にあるすべてのPDFを機械的に管理
2.収集したPDFをリネームし管理
2.収集したPDFをリネームし管理
だそうです。
今までの「図書館DX実証実験」はいまいちだったのですが、今回はすごいです。どうせやるなら、こうでなくちゃ👌
0 件のコメント:
コメントを投稿