肥仔教程网

SEO 优化与 Web 开发技术学习分享平台

殊途同归 python 第7节:PDF 提取神器

pdfplumber,PDF文件解析处理神器,直接上代码


from cryptography.hazmat.backends import default_backend
import pdfplumber
pdf = pdfplumber.open('w1.pdf')
len_page = len(pdf.pages)
#pdf.pages:获取pdf文件的总页数
print(len_page)

f_page = pdf.pages[0]
#pdf.pages[0]:pdf文件第1页
f_content = f_page.extract_text()
#f_page.extract_text():解析第1页的所有文本内容,返回文本(格式:字符串)
print(f_content)

f_table = f_page.extract_table()
#f_page.extract_table():解析第1页的表格,返回文本(格式:列表)
print(f_table)

f_image = f_page.images[0]
#f_page.images[0]:获取第1页的第1张图片
box = (f_image['x0'],f_image['top'],f_image['x1'],f_image['bottom'])
#box:带坐标的方框;图片在pdf中的位置
crop_page = f_page.crop(box)
#f_page.crop(box):按box方框裁剪pdf
image = crop_page.to_image()
#crop_page.to_image():将裁剪的pdf转换成图片
image.save(f'image.jpg')
#将图片保存
pdf.close()


本方法对于由word转成pdf的PDF文件提取效果最优,不适用于扫描的pdf文件(需用ocr提取,后期讲)

编程技巧:对于调用库生成的对象,使用dir()函数来查看对象的属性和方法。

关注+点赞,编程其实很简单。下期见~

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言