暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

必知开源项目 - Apache Tika 1

整码阁 2021-05-24
2268

了解Tika

Apache Tika™是一个工具箱,用于检测文档类型,从文档中提取元数据和文本内容,并且支持上千种文档类型(例如PPT、XLS、PDF和MP4等)。

Tika通过提供统一而简单的接口,屏蔽解析不同类型文档的差异性和复杂性。目前Tika广泛应用于搜索引擎索引、内容分析、翻译等领域。

Tika灵感来自网络爬虫项目Apache Nutch对MIME类型检测和文档解析的需要,随着更多开源项目对文档类型检测和解析需求的增强,Tika成为独立且炙手可热的Apache项目。

Tika是作者之一Jerome儿子的毛绒动物玩具的名字。

Tika架构

Tika提供三个版本:

  • API版:通过Maven等将Tika引入项目,通过调用Tika API实现;

  • 桌面版:从官网下载名为 tika-app-XXX.jar 的可执行文件,通过本地CLI或GUI实现;

  • 服务器版:从官网下载名为 tika-server-XXX.jar或tika-server-XXX-bin.zip,通过部署实现Tika服务;

Tika核心功能是检测 (Detect)和解析 (Parse),组件包括
  • Parser:文件元数据和内容解析;

  • MIME Detector:MIME类型检测;

  • Language Detector:文件语言检测;

  • Facade:Tika门面,将detector和parser封装为统一且简单的接口,简化调用;

Tika优势

  • Tika支持解析多种文档类型,包括PDF、图片、Office、音频、视频等,并且提供统一的接口,屏蔽对各种文档类型加载和调用的复杂性;

  • Tika占用内存少、处理速度快,可以应用于配置不高硬件环境而不影响性能;

  • Tika自带MIME数据库,可以搜索需要的MIME类型;

Tika场景
  • 搜索引擎和知识管理:通过Tika提取各种类型文档的元数据和内容,用于文档索引、分类和搜索;

  • 文档(智能)分析:Tika和AI相结合,使得对更多类型的文档进行智能分析和分类成为可能,而不仅限于文本文档;

  • 数字资产管理:DAM (Digital Asset Management)不仅对CAD绘图、手写稿、图片、音乐和视频等数字内容进行存储,还需要通过元数据进行内容分类和搜索,这些都离不开Tika;

  • 安全领域:安全威胁建模通过Tika提取各种类型网络文档的元数据,进行安全分析; 


文章转载自整码阁,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论