Thursday, November 6, 2008

[轉貼]Google為PDF文件搜尋加入OCR技術

資料來源:http://www.ithome.com.tw/itadm/article.php?c=51792


Google利用OCR技術將含有文字的圖像轉為真正的數位文字。
Google上周四(10/30)宣布利用光學字型辨識技術(Optical Character Recognition,OCR)開始支援PDF文件的內容搜尋。

Google產品經理Evin Levey表示,官方的政府報告或是學術文件通常內含文字圖像而非文字,由於Google很難確定這些掃描而來的檔案內容,因此很少出現在搜尋結果中,使用者也許只能找到標題,但看不到內容。而現在Google採用OCR技術,將PDF格式的文字圖像轉為數位文字,以供使用者搜尋。

Levey說,掃描與列印剛好相反,列印是將數位文字轉為在紙上的文字,而掃描則是將紙上的文字變成數位圖像,隨後Google再利用OCR技術將含有文字的圖像轉為真正的數位文字。

當使用者搜尋到原本是PDF格式的內容時,可以看到它原本的檔案格式是PDF,但得以利用HTML模式瀏覽,這是因為Google已利用OCR技術將這些以圖像方式儲存的內容轉為數位文字並加以索引,供使用者搜尋及檢視內容。(編譯/陳曉莉)

No comments: