現在簡體中文書,成為強勢市場,已經不是秘密。
還沒搬家去北京前,其實我已經很習慣使用 Amazon.cn 購買書籍,如果不在乎費用的話,使用最速的 DHL 配送,大概兩三天就能寄到台北。運費大概等於書籍本身價錢(我個人很樂意被徵時間稅)
今年下半年搬到北京三環內,對於我這個書蟲就更爽了。所有的書幾乎是中午12點前下訂,我就有機會在15:00-17:00拿到手。
然而,有幾件事還是沒有解決。主要是我想要看繁體的epub畫線,可以的話,有時候可以開語音...
我的慣用閱讀器是多看。多看有兩項殺手級功能
簡轉繁
多看有一個蠻作弊的模式,如果你在多看書城上買 epub,內建的繁簡轉換器,可以把全文轉讀成繁體。我本身有中文速讀,但是簡體中文速讀功力當然還是要比繁體弱得多。大概是只有繁體的一半速度而已。
語音讀書
多看內建迅飛語音朗讀,如果你買的是 epub,就可以透過迅飛語音朗讀讀書。
更不用說 epub 可以畫註記了。
OCR文字辨識
我用的是 iX500 掃瞄器。理論上可以掃描辨識。事實上如果要大量掃書,要做掃描辨識這件事基本上不可能。OCR 龜得跟什麼一樣。
就算掃完再用掃描軟體掃一樣很慢。
今天本來忘記是要做什麼事,就跑去找什麼軟體 OCR 準確率最高,Google 給我的答案是 FineReader。有 Mac 版,在 Mac AppStore 買了以後,發現辨識準度很高 (99%)。但是在 Mac 上如果要掃描一本書,基本上速度還是不行,會吃掉所有的資源。。。。
但是這給我了一個靈感,大部分的掃描軟體早期都沒有做 Mac 版的,只有 Windows 版。現在如果有 Mac 版,理論上應該會有 Linux 版引擎。果然 FineReader 有出 Linux 版。看了一下價格,價格竟然是我已經可以接受的價格,所以立馬就購買下載到自己閒置的 Linux 機器上。
先搞了一個 20 頁的 sample,以下是 sample 檔
EPUB
其他你也許想知道的事
- 購買網址在 http://www.ocr4linux.com/
- 參數生成器在這裡,至少不用查老半天 http://www.ocr4linux.com/en:kb:cligen:start
- 請不要問我免費哪裡抓,本軟體只適合願意付費的愛書人
- 請不要問我怎麼安裝,本方法只適合會用 Linux 的愛書人
更多的 sample
- 我剛剛試了一本完整的書,244 頁
- 掃描本 56MB
- 轉換出的 epub 560K
- 丟到 Linode 4 Core 8GB 的機器花 12 分鐘轉完(所以理論上買更厲害的機器,可以轉超快)
這件事對我的意義就是,我想深讀哪些書,以後可以直接整批上傳丟到機器上,批次轉完,睡醒再抓回來...