Tika是一個(gè)內(nèi)容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且為文本抽取工作提供了一個(gè)統(tǒng)一的界面。其次,Tika也提供了便利的擴(kuò)展API,用來(lái)豐富其對(duì)第三方文件格式的支持。
Tika提供了對(duì)如下文件格式的支持:
* PDF - 通過(guò)Pdfbox
* MS-* - 通過(guò)POI
* HTML - 使用nekohtml將不規(guī)范的html整理成為xhtml
* OpenOffice 格式 - Tika提供
* Archive - zip, tar, gzip, bzip等
* RTF - Tika提供
* Java class - Class解析由ASM完成
* Image - 只支持圖像的元數(shù)據(jù)抽取
* XML
您的評(píng)論需要經(jīng)過(guò)審核才能顯示
有用
有用
有用