新同文堂的轉換盲點
簡繁轉換方面,沒有什麼轉換器可以比得上新同文堂的速度,而轉換的準確率平均一本小説大概也就只有一兩個錯處,所以轉換率説是 99.99% 也不為過吧。

不過根據新文同堂的轉換方式,在今天看的小説時發現了一個問題。這個問題我覺得是一般取代轉換無法做到的地方,也就是説這個 bug 是在架構上無法修復的。

例一

下例取自小説《我的怪物眷族》:

原文
哪怕与以前的葛贝拉面对面也无所畏惧

轉換後:
哪怕與以前的葛貝拉麵對面也無所畏懼

如果用取代的方式來看的話,轉換器在看到 拉面 的時候,詞庫中有將 拉面 轉換成 拉麵 的指示。

解決方法好簡單,只要將 葛貝拉 視為名詞,讓轉換器跳過這個位置就可以了。

但這裏將 葛貝拉 `例為名詞有一個問題,先不説隨便増加名詞詞庫做法上可不可取。這裏説的是如果將 葛貝拉 視為名詞,但劇情發展之後出現 葛貝拉麵 ,也許是 葛貝拉 要做 拉麵 然後將其命名為 葛貝拉麵 ( 欸? )

而這裏的 葛貝 跟 拉麵 是分別的名詞,這樣的話就會產生矛盾:

我邊吃著葛貝拉麵,邊看著與葛貝拉面對面的真菜,而在莉莉面前的葛貝拉麵對面的是捲縮在桌子上的菖蒲

這種情況就是所謂的 0.01% 了,這裏有三個拉麵,我不怎麼喜歡吃拉麵…不對,上例的 面 / 麵 簡體字全都會是  。

這樣就麻煩了,這種清況轉換器需要分析句子的結構,才能判斷三個「拉麵」到底是「拉面」還是「拉麵」。

例二 ( 14 February 2017 )

干 -> 幹 / 乾?
Input:
  鼻子会干掉啊
  他被干掉了
  我会干掉他的
  这工作他会干掉吧

Expected:
  鼻子會乾掉啊
  他被幹掉了
  我會幹掉他的
  這工作他會幹掉吧
這是最近在看 《電波女興青春男》 中看到的,這個「干」字也是沒辦法轉換,喝酒時可以「把杯乾掉」,也可以「打工作幹掉」,那麼「干掉」到底是「乾掉」還是「幹掉」?

這些例子都是在不理解前文後理的前提下沒辦法轉換的。

分析轉換的困難之處

找出問題後,再來就是尋找解決方式。來討論一下分析轉換吧。

分析轉換的目的是讓轉換器知道句子的結構,從而判斷相應的詞應該是屬於那種類別,再從該類別的詞庫中找出候選轉換。

上例可以分成:
我 ( 代詞 )
邊 ( ?
吃 ( 動詞 )
著 ( 現在進行式?
葛貝 ( 助名詞? )
拉麵 ( 名詞 )
....

看吧我根本就不懂,這正是困難之處!

我去 wiki 浸個幾天再説吧。
Profile picture
斟酌 鵬兄
Tue Oct 04 2016 03:32:38 GMT+0000 (Coordinated Universal Time)
Last modified: Tue Feb 14 2017 03:53:30 GMT+0000 (Coordinated Universal Time)
Comments
No comments here.
Do you even comment?
website: 
Not a valid website
Invalid email format
Please enter your email
*Name: 
Please enter a name
Submit
抱歉,Google Recaptcha 服務被牆掉了,所以不能回覆了