技術情報の共有化: セキュリティのかかったPDFファイルからテキストを抽出する方法

2009/04/17

セキュリティのかかったPDFファイルからテキストを抽出する方法

文献検索をNAMAZUで作ってるのだが，最近pdfにセキュリティ掛けてるところが多いのでメモ

xpdf
namazu付属。動きません。ここがスタート。

xdoc2txt
一緒においているcryptlib.dllを一緒に落として使う。
コマンドラインの引数は「-n　PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)」
ただし　時々エラーで落ちるpdfがいる
あと，NAMAZUのフィルターがわからない。@convopts　に-n追加しただけじゃだめなのか？

ConcatPDF
iTextFrontがメンテナンスしなくなったようなので。
pdfの暗号化解除で可能。必要なものが「.NET Framework 1.1 再頒布可能パッケージ」＋「Visual J# .NET Version 1.1 再頒布可能パッケージ」ってのがマニアックすぎ。J#アプリなんてはじめてみた。
まぁ使えたのだが。

ちなみにConcatPDFが使っているライブラリが　iText.NET らしい。
ググｯたら，.NET Framework 2.0 用の iText.NET 2005 があるじゃないか。
書き直してほしいな

余談だがiTextってJAVAのpdfライブラリをJ#に移植したのがiText.NETなのか。
J#使いってはじめてみたわ！世の中広いね！

0 件のコメント:

コメントを投稿

2009/04/17

セキュリティのかかったPDFファイルからテキストを抽出する方法

0 件のコメント:

Blogger Syntax Highliter

お気に入り