圖形驗證碼識別技術

圖形驗證碼怎麼輸入求解

阻礙我們爬蟲的。有時候正是在登入或者請求一些資料時候的圖形驗證碼。因此這裡我們講解一種能將圖片翻譯成文字的技術。將圖片翻譯成文字一般被成為光學文字識別（Optical Character Recognition），簡寫為

OCR

。實現

OCR

的庫不是很多，特別是開源的。因為這塊存在一定的技術壁壘（需要大量的資料、演算法、機器學習、深度學習知識等），並且如果做好了具有很高的商業價值。因此開源的比較少。這裡介紹一個比較優秀的影象識別開源庫：Tesseract。

Tesseract：

Tesseract是一個OCR庫，目前由谷歌贊助。Tesseract是目前公認最優秀、最準確的開源OCR庫。Tesseract具有很高的識別度，也具有很高的靈活性，他可以透過訓練識別任何字型。

安裝：

Windows系統：

在以下連結下載可執行檔案，然後一頓點選下一步安裝即可（放在不需要許可權的純英文路徑下）：

https：//github。com/tesseract-ocr/

Linux系統：

可以在以下連結下載原始碼自行編譯。

https：//github。com/tesseract-ocr/tesseract/wiki/Compiling

Pycharm啟用碼教程使用更多解釋請見：

https：//vrg123。com

或者在

ubuntu

下透過以下命令進行安裝：

sudo apt install tesseract-ocr

Mac系統：

用

Homebrew

即可方便安裝：

brew install tesseract

設定環境變數：

安裝完成後，如果想要在命令列中使用

Tesseract

，那麼應該設定環境變數。

Mac

和

Linux

在安裝的時候就預設已經設定好了。在

Windows

下把

tesseract。exe

所在的路徑新增到

PATH

環境變數中。

還有一個環境變數需要設定的是，要把訓練的資料檔案路徑也放到環境變數中。

在環境變數中，新增一個

TESSDATA_PREFIX=C：\path_to_tesseractdata\teseractdata

。

在命令列中使用tesseract識別影象：

如果想要在

cmd

下能夠使用

tesseract

命令，那麼需要把

tesseract。exe

所在的目錄放到

PATH

環境變數中。然後使用命令：

tesseract 圖片路徑檔案路徑

。

示例：

tesseract a。png a

那麼就會識別出

a。png

中的圖片，並且把文字寫入到

a。txt

中。如果不想寫入檔案直接想顯示在終端，那麼不要加檔名就可以了。

在程式碼中使用tesseract識別影象：

在

Python

程式碼中操作

tesseract

。需要安裝一個庫，叫做

pytesseract

。透過

pip

的方式即可安裝：

pip install pytesseract

並且，需要讀取圖片，需要藉助一個第三方庫叫做

PIL

。透過

pip list

看下是否安裝。如果沒有安裝，透過

pip

的方式安裝：

pip install PIL

使用

pytesseract

將圖片上的文字轉換為文字文字的示例程式碼如下：

# 匯入pytesseract庫 import pytesseract # 匯入Image庫 from PIL import Image # 指定tesseract。exe所在的路徑 pytesseract。pytesseract。tesseract_cmd = r‘D：\ProgramApp\TesseractOCR\tesseract。exe’ # 開啟圖片 image = Image。open（“a。png”） # 呼叫image_to_string將圖片轉換為文字 text = pytesseract。image_to_string（image） print（text）

用

pytesseract

處理拉勾網圖形驗證碼：

import pytesseract from urllib import request from PIL import Image import time pytesseract。pytesseract。tesseract_cmd = r“D：\ProgramApp\TesseractOCR\tesseract。exe” while True： captchaUrl = “https：//passport。lagou。com/vcode/create？from=register&refresh=1513081451891” request。urlretrieve（captchaUrl，‘captcha。png’） image = Image。open（‘captcha。png’） text = pytesseract。image_to_string（image，lang=‘eng’） print（text） time。sleep（2）

農林漁牧網

圖形驗證碼識別技術

相關文章