python으로 pdf 파일 read
언어/python2019. 12. 8. 22:14
from pdflib import Document
import os
import base64
class PDFObj():
def __init__(self):
self._targetPath="./pdf_dir"
def dirSearch(self):
os.chdir(self._targetPath)
cur = os.listdir()
for f in cur:
fname, fext = os.path.splitext(f)
if fext == ".pdf":
doc = Document(f)
print(doc.metadata)
for c, p in enumerate(doc):
print("{} ========================".format(p))
strData = " ".join(p.lines).strip()
encodedBytes = base64.b64encode(strData.encode("utf-8"))
encodedStr = str(encodedBytes, "utf-8")
print(encodedStr)
print(strData)
if c == 3:
exit(1)
if __name__ == "__main__":
o = PDFObj()
o.dirSearch()
테스트 환경
=> ubuntu 18.4
=> interpreter 3.6
'언어 > python' 카테고리의 다른 글
21대 국회의원 선거 크롤링 (0) | 2020.04.15 |
---|---|
pdf 변환 (0) | 2019.12.18 |
백준 2108 (0) | 2019.12.08 |
from csv to json convert + logstash (0) | 2019.11.26 |
네이버 기사 크롤링 => elasticsearch 적재 (0) | 2019.07.12 |