文字識別技術在人事檔案工作中應用的前景研究
作者:檢測狗 發(fā)表時間:2020-10-24 18:47:46 瀏覽次數(shù):668
-
碩博初稿查重系統(tǒng) 498.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:碩博初稿檢測(一般習慣叫做碩博預審版),論文查重檢測上千萬篇中文文獻,超百萬篇各類獨家文獻,超百萬港澳臺地區(qū)學術文獻過千...開始檢測
-
維普查重(大學生版) 4.00元/千字? 語種:中文,英文? 適用:雜志社投稿,職稱論文? 簡介:學位論文查重,維普大學生版論文查重系統(tǒng):高校,雜志社指定系統(tǒng),可檢測期刊發(fā)表,大學生,碩博等論文。檢測報告支持PDF、網(wǎng)...開始檢測
-
本科高校內部版系統(tǒng) 288.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:比定稿版少大學生聯(lián)合比對庫,其他數(shù)據(jù)庫一致。出結果快,價格相對低廉,不支持驗證,適合在修改中期使用,定稿推薦PMLC?!?..開始檢測
-
萬方論文查重系統(tǒng) 4.00元/千字? 語種:中文? 適用:雜志社投稿,職稱論文? 簡介:畢業(yè)論文查重,萬方查重系統(tǒng),涵蓋期刊、學位論文、學術成果、學術會議論文的大型網(wǎng)絡數(shù)據(jù)庫;比肩中國知網(wǎng)的學術數(shù)據(jù)庫。最多支...開始檢測
【摘 要】論文通過對文字識別技術,特別是中文手寫識別技術的分析和文字識別技術的應用研究,及檔案工作的回顧分析,探索并提出文字識別技術在檔案工作中的應用場景,為數(shù)字化時代的檔案工作提供思路。
【關鍵詞】文字識別;檔案管理;應用場景
1 引言
數(shù)據(jù)采集是所有工作的起點,并決定了解決效果的上限。利用文字識別技術,目前大量的文檔采集從專有設備轉向了普通手機,數(shù)據(jù)采集者也從專業(yè)辦公人員轉向普通用戶。
2 文字識別技術現(xiàn)狀分析
計算機文字識別,又名光學字符識別、OCR識別,是利用光學技術和電子信息技術把印在或寫在紙上的文字提取出來,并轉換成一種計算機能夠接受、人又可以理解的形式。OCR技術是實現(xiàn)文字高速輸入的一項核心技術。
2.1 文字識別技術的發(fā)展
2.1.1 西文識別技術的發(fā)展
在OCR技術中,印刷體文字識別是開展最早、技術上最為成熟的一個。早在20世紀20年代末期德國科學家最早取得了光學字符識別的專利。西方國家為了將大量報章雜志、文件材料和票據(jù)表格等紙質材料輸入計算機進行信息處理,從20世紀50年代就開始了西文文字識別技術的研究。隨著信息技術的飛速發(fā)展與研究人員的不斷探索和完善,西文文字識別技術現(xiàn)已逐漸滲透于各行各業(yè)。
2.1.2 中文識別技術的發(fā)展
第一,中文印刷體識別技術的發(fā)展。
與印刷體西文文字識別相比,漢字的印刷體識別技術的研究是在字母和數(shù)字的印刷體識別基礎上發(fā)展起來的,發(fā)源于20世紀60年代。60年代中期,BIM公司的工作人員發(fā)表了首篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了一千個印刷體漢字。從70年代以來,日本研究人員在漢字識別方面做了許多探索和發(fā)明,其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識別兩千個獨立印刷體漢字的識別系統(tǒng);80年代早期,日本武藏野電氣研究所研制的可以識別兩千三百個連續(xù)漢字的識別系統(tǒng),代表了當時漢文OCR識別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字轉換的計算方法,使用了大量專用設備,甚至有的相當于大型機,價格不菲,所以并沒有得到普及和推廣。
印刷體的中文識別自20世紀80年代中期規(guī)模發(fā)展以來,清華大學、中科院、沈陽自動化研究所等一眾單位分別研制并開發(fā)出了可以量產(chǎn)的印刷體中文OCR識別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識別產(chǎn)品和由漢王開發(fā)的尚書文字識別產(chǎn)品,它們占據(jù)著OCR技術的領先地位,并擁有最多的OCR客戶,代表著印刷體中文OCR技術的未來發(fā)展趨勢。目前,印刷體中文識別技術已經(jīng)從簡單的文字識別逐漸發(fā)展到了表格的自動識別、自動輸入的研究階段,圖片文字混合、各種語言混合下的內容提取、語義理解,各種卡片、票據(jù)的識別和歷史文獻的識別等都逐漸開展起來。多種相關的識別系統(tǒng)如雨后春筍般應運而生,如紫光文通推出的名片識別系統(tǒng)和慧視屏幕文字圖像識別系統(tǒng)等。這些新的識別系統(tǒng)的出現(xiàn),標志著印刷體中文識別技術的應用領域得到了擴展。
第二,中文手寫識別技術的發(fā)展。
中文手寫識別由于信息的獲取形式不同,可以劃分為非在線中文手寫識別和在線中文手寫識別兩種。在線中文手寫識別所處理的手寫體漢字是書寫者通過物理設備在線輸入獲取的文字信號,筆畫的順序通過計時器采樣實時輸入計算機中。非在線中文手寫識別所處理的手寫漢字是通過掃描設備或手機攝像頭等圖片抓取設備采集到的手寫漢字圖片。
近年來,百度OCR技術在檢測、識別和端到端三個核心技術領域多次取得并保持了世界第一的排名,具備較明顯的領先優(yōu)勢。騰訊集團的數(shù)平精準推薦團隊研發(fā)了一種適用于各個角度漢字的點對點提取方法,能夠有效解決文字尺度不一、形態(tài)萬千和檢測器對標準過于敏感等問題,大幅提高了測試步驟的準確度。
知網(wǎng)檢測: http://www.jiarunkj.com/jiance/
本站聲明:網(wǎng)站內容來源于網(wǎng)絡,如有侵權,請聯(lián)系我們,我們將及時刪除處理。