请选择 进入手机版 | 继续访问电脑版

石家庄老站长

点击联系客服
客服QQ: 客服微信:
 找回密码
 立即注册
查看: 10|回复: 0

功能强大的ETL工具FME和python

[复制链接]

1

主题

1

帖子

-7

积分

限制会员

积分
-7
发表于 7 天前 | 显示全部楼层 |阅读模式
从第一次与Fme接触开始,我就一直在思考FME能否与机器学习、深度学习、统计学回归算法相结合,实现大量数据的智能操作,但学识一直受到限制,至今没有取得突破。

但是,园区统一确认注册项目的扫描可以对相对多的非标准数据提取特征文字,实现自动分类存档,方法是用Python调用谷歌的汉字识别库pytesseract,实现特征值提取。然后可以使用FME清洗数据,最后整理数据,输出到我们想要的存档结构。

既然确定了大体的思维方式,剩下的就是各种技术难度上逐一突破的问题。首先,Python提取图片的包OpenCV,允许FME的Python  Caller对接。





如果设置为截取图片的上半部分,就能看到FME的成功和对比画。接下来,您可以调用pytesseract库提取其中的字符,然后将提取的结果封装在字段中。





提取效果并不理想,但提取核心属性并分类并不是问题。





下面是大量的正则表达式、大量的字段替换清洗、特征值判断,以获得我们最终需要的属性。





最终,这些繁琐的扫描结果被分类,但仍然有一些字符识别错误无法提取相应特征值的属性。目前分别显示,整理完成后手动修改,测试了117个数据。无法解释三个数据。

最后,整理路径、参数,封装到映射文件中,即可使用。下面是结果演示。








由于命名要求不同,这边项目没有取得所有权来源的家庭要以名字命名,其他的要以房地产单位号码命名。





读取失败的照片放在最下面,可以看出手动处理很容易





摘要:Google研发字符识别库pytesseract的字符识别仍然效率低下,但用于分类可以满足项目需求。但是悟空仍然认为这些模板还有很大的进步空间,所以已经具有了扩张性。(威廉莎士比亚、模板、模板、模板、模板、模板、模板)也许可以使用sklearn进行SVM监督学习,然后通过大量的数据放置来训练学习,最终实现零误差分类。或者,可以将OpenCV与深度学习相结合,生成智能识别框,根据指定的位置将指定的信息提取到指定的字段中,还可以提取ID、户口簿照片信息。现在市面上有很多这种产品出售,但大部分都是调用的开源识别库,错误率很大。因为训练合格的识别库需要很多时间和努力,同时需要顶级设备的支持。幸运的是,我以前提前购买了3090,希望后面能用他24的显存突破这个模板。需要这个模板的小伙伴可以私信我。集中一只手,不断更新各种FME的扩展游戏。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|无图版|手机版|小黑屋|石家庄@IT精英团

GMT+8, 2021-9-22 01:04 , Processed in 0.156000 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2021 Comsenz Inc.

快速回复 返回顶部 返回列表