慾望乘四: [轉貼]Google為PDF文件搜尋加入OCR技術

Thursday, November 6, 2008

[轉貼]Google為PDF文件搜尋加入OCR技術

資料來源：http://www.ithome.com.tw/itadm/article.php?c=51792

Google利用OCR技術將含有文字的圖像轉為真正的數位文字。
Google上周四（10/30）宣布利用光學字型辨識技術（Optical Character Recognition，OCR）開始支援PDF文件的內容搜尋。

Google產品經理Evin Levey表示，官方的政府報告或是學術文件通常內含文字圖像而非文字，由於Google很難確定這些掃描而來的檔案內容，因此很少出現在搜尋結果中，使用者也許只能找到標題，但看不到內容。而現在Google採用OCR技術，將PDF格式的文字圖像轉為數位文字，以供使用者搜尋。

Levey說，掃描與列印剛好相反，列印是將數位文字轉為在紙上的文字，而掃描則是將紙上的文字變成數位圖像，隨後Google再利用OCR技術將含有文字的圖像轉為真正的數位文字。

當使用者搜尋到原本是PDF格式的內容時，可以看到它原本的檔案格式是PDF，但得以利用HTML模式瀏覽，這是因為Google已利用OCR技術將這些以圖像方式儲存的內容轉為數位文字並加以索引，供使用者搜尋及檢視內容。（編譯/陳曉莉）

慾望乘四

Thursday, November 6, 2008

[轉貼]Google為PDF文件搜尋加入OCR技術

No comments:

Labels

Contributors

My Blog List

Followers

Blog Archive

Web Analytics

實用網站

熱門