昨天早上开始工作一直顺利,主要是前期准备充分。以至于到了中午少有感觉到饿了。
已经很久没有中午自己给自己做饭了。
吃罢午饭后,本想乘胜追击,学习一下Python提取PDF文件表格的内容。使用的是在文本提取方面发挥出色的PDFplumber。
结果不太顺利,以至于到了睡觉点,满脑子还是那不规则的表格和错乱的数据。
其实大部分问题已经解决,甚至比网上的的教程还要完美,可能有些太贪心了,太追求完美,在某个细节总是难以如愿。
问题出在跨页表格上,生成的表格总是缺少页面结束的最后一行。
早上起床脑子清醒一点,重新理一下思路,换一种方式,使用更为简单的方式,直接列示抓取转换的列表内容,这才发现原来是PDFplumber本身的问题,最后一行抓取得并不完整,而并非我自己一直纠结的条件控制方面的问题。
看来也不能总是怀疑自己。