殊途同归 python 第7节:PDF 提取神器-技术文章-肥仔教程网

pdfplumber，PDF文件解析处理神器，直接上代码

from cryptography.hazmat.backends import default_backend
import pdfplumber
pdf = pdfplumber.open('w1.pdf')
len_page = len(pdf.pages)
#pdf.pages：获取pdf文件的总页数
print(len_page)

f_page = pdf.pages[0]
#pdf.pages[0]：pdf文件第1页
f_content = f_page.extract_text()
#f_page.extract_text()：解析第1页的所有文本内容，返回文本（格式：字符串）
print(f_content)

f_table = f_page.extract_table()
#f_page.extract_table():解析第1页的表格，返回文本（格式：列表）
print(f_table)

f_image = f_page.images[0]
#f_page.images[0]：获取第1页的第1张图片
box = (f_image['x0'],f_image['top'],f_image['x1'],f_image['bottom'])
#box：带坐标的方框；图片在pdf中的位置
crop_page = f_page.crop(box)
#f_page.crop(box):按box方框裁剪pdf
image = crop_page.to_image()
#crop_page.to_image()：将裁剪的pdf转换成图片
image.save(f'image.jpg')
#将图片保存
pdf.close()

本方法对于由word转成pdf的PDF文件提取效果最优，不适用于扫描的pdf文件（需用ocr提取，后期讲）

编程技巧：对于调用库生成的对象，使用dir()函数来查看对象的属性和方法。

关注＋点赞，编程其实很简单。下期见～

肥仔教程网

SEO 优化与 Web 开发技术学习分享平台

殊途同归 python 第7节:PDF 提取神器