把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字

今天给大家分享关于【一条龙繁体】,【把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字】的如识,如果你也对相关的知识感兴趣,别忘了关注本站哦!

一、一条龙繁体

一条龙的繁体是:一 龍

条的部首是:木

条[ tiáo ]

1、植物的细长枝:枝~。柳~儿。荆~。

2、泛称条形的东西:~子。面~儿。便(biàn)~儿。金~。铁~。

3、细长的形状:~形。~纹。~案。~几(jī)。~凳。~幅(直挂的长条字画)。苗~。身~。

4、项目,分项目的:~例。~令。~文。~陈(a.分条叙述b.旧时向上级分条陈述的文件)。

5、层次,秩序:~理。~贯。有~不紊。

6、量词。

[ tiāo ]

挑取:“蚕月~叠”。

把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字

二、把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字

原计划每天5-10篇文章,其中《民国列女传》每天5个人物,《民国老照片》每天5张照片、每天一篇介绍《趣味历史》软件的功能和历史人物分类、微头条若干。

中断了这几天,是因为最近有了点灵感,要写一个新的程序,一个把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字的软件。

1)市面上有成熟的pdf转图片功能,有OCR文字识别服务(支持竖排),有龙泉寺提供的自动加标点的网站,二者相结合,就可以把竖排、繁体、无标点的古籍pdf,自动转换为横排、简体、有标点的文字。注意,是文字版本,而不是之前扫描的图片。

有了文字就可以全文检索。

2)针对于哪些古籍呢?

扫描《资治通鉴》?网上已经有文字版本了,可以用来做准确度测试工具。

不针对于现代人和当代人的著作,会涉及到版权问题。

针对的主要方向,是那些目前网上没有文字版的古籍,比如说历朝历代的文人笔记,各地的县志,里面记载了大量的史料,是正史里面没有的。把这些内容转换成文字,录入到素材库,可以为自媒体人提供更多的写作素材。

目前在解决的几个问题:

1)把多张图片拼接在一起去OCR扫描,能节省成本。看了一下几大厂商各自的OCR价格,量大的话,也是一笔不小的银子,因此怎么能做到拼接尽可能多的图片,而又不失真,导致降低扫描精度,是研究的一个方向。

2)把这些步骤串起来,成为一条龙服务,有可视化操作界面,中间任何一个步骤出错、任何一张图片出错,都有对应的重试和容错机制。

3)扫描后生产的文字段落,进行排版,可以在可视化软件中,手动调整段落的顺序和级别,更正错字。

关于【一条龙繁体】的介绍就聊到这里吧,希望对您有所帮助,更多信息可以在本站搜索查找哦。

本站所有内容均由网友收集整理,作品版权均为原版权人所有。 如果损害到您的利益,本站在核实之后会立即删除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注