ReaderLM v2:高级HTML到Markdown转换

产品介绍
ReaderLM v2是由Jina AI开发的前沿小型语言模型,旨在高效地将HTML转换为Markdown和JSON格式。凭借15亿个参数,它确保数据处理的高准确性,使其成为开发人员、内容创作者和研究人员的重要工具。该模型支持多达512,000个标记,可以全面处理文本并从网页中提取数据。
主要特性
- HTML到Markdown转换:在保留完整信息的同时转换HTML内容,并有效利用Markdown语法。
- 直接HTML到JSON生成:根据定义的JSON架构从HTML中提取特定数据,提高数据清理和提取效率。
- 多语言支持:支持29种语言,包括英语和中文,满足多样化用户的需求。
- 长文本处理:能够处理多达512,000个标记的输入/输出组合,解决长文本降级中的挑战。
- 高级训练范式:利用更高质量的训练数据,相对于前身提供了更好的性能,使得生成高效的Markdown语法和复杂元素创建成为可能。
产品数据
- 模型参数:15亿
- 标记限制:输入/输出组合的标记数上限为512,000
- 支持的语言:29种语言
- 主要功能:HTML到Markdown和HTML到JSON转换
产品链接
产品官网





