OCR通用識別能力及場景識別能力的訓練和服務
發(fā)布日期:2024/2/3 15:27:19 瀏覽量:
基于百度大規(guī)模圖片語料數(shù)據(jù)訓練的通用OCR基礎模型,通過對用戶掃描文檔數(shù)據(jù)的調(diào)優(yōu)訓練,得到高精度文檔OCR模型。OCR模型支持中英文兩種語言,適配純手寫、純印刷和手寫印刷混排等多種場景。采用百度飛槳識別模型套件PaddleOCR,目標是打造豐富、領先、實用的文本識別模型/工具庫。 PaddleOCR是基于飛槳開發(fā)的OCR(Optical Character Recognition,光學字符識別)系統(tǒng),基于人工標注、機器自動標注等手段得到的大規(guī)模版面標注數(shù)據(jù),來訓練目標檢測模型,從而識別和定位印章、圖表、段落、標題等元素信息,再使用百度知識增強的持續(xù)學習語義理解框架,借鑒文檔理解預訓練模型(Layout LM)的設計思想,在訓練數(shù)據(jù)擴增、預訓練任務設計、位置向量編碼、模型結構等方面深入探索,充分結合文本內(nèi)容、圖像、空間位置等信息,實現(xiàn)文檔智能分析,可以實現(xiàn)包括文字檢測、文字識別、文本方向檢測和圖像處理等模塊,具有高精度、多語種支持、高效性、易用性、魯棒性等優(yōu)點。
針對采購尋源、合同管理及履約等場景,項目一個完整的定制化OCR訓練流程步驟如下:
(1)原始數(shù)據(jù)準備:根據(jù)項目需求場景準備需要OCR訓練的原始資料。例如:身份證、營業(yè)執(zhí)照、發(fā)票等原始資料的掃描電子文件等。
(2)打標工具標注:逐個檢查每個圖像的標注框是否正常,識別內(nèi)容是否準確。如果發(fā)現(xiàn)標注框異常的,自行調(diào)整至正常,或者刪除掉,重新手動標注,手動標注確認,重新識別后檢測識別結果是否準確,如果錯誤,需要手動更正。確保標注框和識別結果準確無誤后確認完成一個圖像的標注。
(3)準備標注完成的數(shù)據(jù)集:首先,準備一個完成標注的數(shù)據(jù)集,該數(shù)據(jù)集包含了需要建模的序列數(shù)據(jù)。
(4)定義模型:在百度飛槳中,使用自定義一個 Transformer 模型?;蛘呤褂蔑w槳提供的 PaddleNLP 庫中的 Transformer 模型,或者自定義 Transformer 模型。
(5)配置訓練參數(shù):在訓練模型之前,定義訓練參數(shù),如學習率、批次大小、迭代次數(shù)等。
(6)訓練模型:在訓練參數(shù)配置好之后,使用百度飛槳提供的 Trainer 類來訓練模型。在每次迭代中,Trainer 類將從數(shù)據(jù)集中獲取一批數(shù)據(jù),并使用定義的優(yōu)化器和損失函數(shù)計算模型參數(shù)的梯度。最后,Trainer 類將使用反向傳播算法更新模型參數(shù)。
(7)測試模型:訓練結束后,使用測試數(shù)據(jù)集來評估模型的性能,計算模型的準確率、精度等指標。
(8)搭建API框架支撐項目前端應用自訓練模型。選擇FastAPI框架創(chuàng)建和部署API服務,FastAPI可以簡單而快速構建精細和高性能API。
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生