使用 OpenCV 構(gòu)建文檔掃描儀
介紹
在本文中,我們將使用 OpenCV 庫來開發(fā) Python 文檔掃描器。
OpenCV 的簡要概述: OpenCV 是一個開源庫,用于各種計算機(jī)語言的圖像處理,包括 Python、C++ 等。它可用于檢測照片(例如使用人臉檢測系統(tǒng)的人臉) 。
我們的軟件應(yīng)該能夠正確對齊文檔,檢測捕獲圖像的邊界,提升文檔的質(zhì)量,并最終提供更好的圖像作為輸出。本質(zhì)上,我們將輸入一個文檔,即用相機(jī)拍攝的未經(jīng)編輯的圖像。OpenCV 將處理該圖像。
我們的基本工作流程是:
形態(tài)學(xué)運(yùn)算邊緣和輪廓檢測識別角點(diǎn)轉(zhuǎn)變視角執(zhí)行形態(tài)學(xué)操作
形態(tài)學(xué):是一系列圖像處理程序和算法,根據(jù)圖像的高度和寬度來處理圖片。最重要的是它們的大小,而不是它們的相對像素值排序。
kernel = np.ones((5,5),np.uint8)
img = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel, iterations= 3)
我們可以使用morphologyEx() 函數(shù)執(zhí)行操作。Morphology 中的“close”操作與Erosion相同,在此之前是Dilation過程。
我們將創(chuàng)建一個空白文檔,因?yàn)樵谔幚磉吘墪r圖片里的內(nèi)容會妨礙你,我們不想冒險刪除它們。
從捕獲的圖像中刪除背景
照片中非我們拍攝對象的部分也必須刪除。與裁剪圖像類似,我們將只專注于維護(hù)圖像所需的部分?梢允褂肎rabCut庫。
GrabCut 在接收到輸入圖片及其邊界后,剔除邊界外的所有元素。
為了利用 GrabCut 來識別背景,我們還可以為用戶提供手動設(shè)置文檔邊框的選項(xiàng)。
不過,目前,GrabCut 將能夠通過從圖像的每個角落取 20 個像素作為背景來自動識別前景。
mask = np.zeros(img.shape[:2],np.uint8)
bgdModel = np.zeros((1,65),np.float64)
fgdModel = np.zeros((1,65),np.float64)
rect = (20,20,img.shape[1]-20,img.shape[0]-20)
cv2.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv2.GC_INIT_WITH_RECT)
mask2 = np.where((mask==2)|(mask==0),0,1).a(chǎn)stype('uint8')
img = img*mask2[:,:,np.newaxis]
這里的“rect”變量表示我們愿意分離的邊界。你可能會遇到部分背景進(jìn)入線條內(nèi)部的情況,但這是可以接受的。我們的目標(biāo)是對象的任何部分都不應(yīng)超出邊界。
邊緣和輪廓檢測
我們目前擁有一份與原始文件大小相同的空白文件。同樣,我們將進(jìn)行邊緣檢測。我們將為此使用Canny函數(shù)。
為了清理文檔的噪聲,我們還使用了高斯模糊。
(注意:Canny 函數(shù)僅適用于灰度圖像,因此如果圖像尚不存在,則將圖像轉(zhuǎn)換為灰度)。
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))
我們在最后一行放大了圖像。
在此之后,我們可以繼續(xù)進(jìn)行輪廓檢測:
我們只會記錄最大的輪廓并在一個新的空白文檔上進(jìn)行交互。
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))
識別角點(diǎn)
我們將使用已經(jīng)注意到的四個角對齊紙張。使用“ Douglas-Peucker ”方法和approxPolyDp()函數(shù)。
con = np.zeros_like(img)
# Loop over the contours.
for c in page:
# Approximate the contour.
epsilon = 0.02 * cv2.a(chǎn)rcLength(c, True)
corners = cv2.a(chǎn)pproxPolyDP(c, epsilon, True)
# If our approximated contour has four points
if len(corners) == 4:
break
cv2.drawContours(con, c, -1, (0, 255, 255), 3)
cv2.drawContours(con, corners, -1, (0, 255, 0), 10)
corners = sorted(np.concatenate(corners).tolist())
for index, c in enumerate(corners):
character = chr(65 + index)
cv2.putText(con, character, tuple(c), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 1, cv2.LINE_AA)
標(biāo)準(zhǔn)化四點(diǎn)定位
def order_points(pts):
rect = np.zeros((4, 2), dtype='float32')
pts = np.a(chǎn)rray(pts)
s = pts.sum(axis=1)
rect[0] = pts[np.a(chǎn)rgmin(s)]
rect[2] = pts[np.a(chǎn)rgmax(s)]
diff = np.diff(pts, axis=1)
rect[1] = pts[np.a(chǎn)rgmin(diff)]
rect[3] = pts[np.a(chǎn)rgmax(diff)]
return rect.a(chǎn)stype('int').tolist()
尋找目的地坐標(biāo):
最后一組坐標(biāo)可以改變圖像的視角。如果從通常的視角以一定角度拍攝,這將很有幫助。
(tl, tr, br, bl) = pts
# Finding the maximum width.
widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))
widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
maxWidth = max(int(widthA), int(widthB))
# Finding the maximum height.
heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
maxHeight = max(int(heightA), int(heightB))
# Final destination co-ordinates.
destination_corners = [[0, 0], [maxWidth, 0], [maxWidth, maxHeight], [0, maxHeight]]
透視變換
源照片的坐標(biāo)現(xiàn)在必須與我們事先發(fā)現(xiàn)的目標(biāo)坐標(biāo)對齊。完成此階段后,圖像看起來就像是從紙張的正上方拍攝的一樣。
# Getting the homography.
M = cv2.getPerspectiveTransform(np.float32(corners), np.float32(destination_corners))
final = cv2.warpPerspective(orig_img, M, (destination_corners[2][0], destination_corners[2][1]), flags=cv2.INTER_LINEAR)
現(xiàn)在很明顯,以一定角度拍攝的圖像現(xiàn)在已經(jīng)被完美地掃描出來了。
測試觀察
已經(jīng)在許多不同方向的照片上測試了這些代碼,你也可以這樣做。在每個樣例上,它都表現(xiàn)出色。
即使圖像的背景是白色(即類似于頁面本身顏色的顏色),GrabCut 也有效且清晰地定義了邊界線。
結(jié)論
本教程教我們?nèi)绾问褂?OpenCV 快速輕松地創(chuàng)建文檔掃描儀。
總結(jié):
上傳圖片后,執(zhí)行了:
1. 生成與原始文件高度和寬度相同的空白文檔的形態(tài)學(xué)操作
2. 從圖像中刪除了背景。
3. 檢測到圖像中的輪廓和邊界。
4. 檢測到的圖像角點(diǎn),以矩形的形式
5. 變換圖像的透視圖(如果有)
此文檔掃描儀的一些限制: 即使文檔的一部分在捕獲時位于邊界框架之外,該項(xiàng)目也應(yīng)正常運(yùn)行。但它也會導(dǎo)致不準(zhǔn)確的透視變換。
廣泛使用的文檔掃描儀應(yīng)用程序采用了幾種深度學(xué)習(xí)算法,因?yàn)樗鼈兊慕Y(jié)果更加徹底和準(zhǔn)確。
原文標(biāo)題 : 使用 OpenCV 構(gòu)建文檔掃描儀
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市