from pdflib import Document
import os
import base64

class PDFObj():


    def __init__(self):

        self._targetPath="./pdf_dir"


    def dirSearch(self):

        os.chdir(self._targetPath)
        cur = os.listdir()

        for f in cur:

            fname, fext = os.path.splitext(f)

            if fext == ".pdf":

                doc = Document(f)
                print(doc.metadata)

                for c, p in enumerate(doc):

                    print("{} ========================".format(p))
                    strData = " ".join(p.lines).strip()
                    encodedBytes = base64.b64encode(strData.encode("utf-8"))
                    encodedStr = str(encodedBytes, "utf-8")
                    print(encodedStr)
                    print(strData)

                    if c == 3:
                        exit(1)


if __name__ == "__main__":

    o = PDFObj()
    o.dirSearch()

 

 

테스트 환경

 => ubuntu 18.4

 => interpreter 3.6

'언어 > python' 카테고리의 다른 글

21대 국회의원 선거 크롤링  (0) 2020.04.15
pdf 변환  (0) 2019.12.18
백준 2108  (0) 2019.12.08
from csv to json convert + logstash  (0) 2019.11.26
네이버 기사 크롤링 => elasticsearch 적재  (0) 2019.07.12