不過根據新文同堂的轉換方式,在今天看的小説時發現了一個問題。這個問題我覺得是一般取代轉換無法做到的地方,也就是説這個 bug 是在架構上無法修復的。
例一
下例取自小説《我的怪物眷族》:
原文
哪怕与以前的葛贝拉面对面也无所畏惧
轉換後:
哪怕與以前的葛貝拉麵對面也無所畏懼
如果用取代的方式來看的話,轉換器在看到 拉面 的時候,詞庫中有將 拉面 轉換成 拉麵 的指示。
解決方法好簡單,只要將 葛貝拉 視為名詞,讓轉換器跳過這個位置就可以了。
但這裏將 葛貝拉 `例為名詞有一個問題,先不説隨便増加名詞詞庫做法上可不可取。這裏説的是如果將 葛貝拉 視為名詞,但劇情發展之後出現 葛貝拉麵 ,也許是 葛貝拉 要做 拉麵 然後將其命名為 葛貝拉麵 ( 欸? )
而這裏的 葛貝 跟 拉麵 是分別的名詞,這樣的話就會產生矛盾:
我邊吃著葛貝拉麵,邊看著與葛貝拉面對面的真菜,而在莉莉面前的葛貝拉麵對面的是捲縮在桌子上的菖蒲
這種情況就是所謂的 0.01% 了,這裏有三個拉麵,我不怎麼喜歡吃拉麵…不對,上例的 面 / 麵 簡體字全都會是 面 。
這樣就麻煩了,這種清況轉換器需要分析句子的結構,才能判斷三個「拉麵」到底是「拉面」還是「拉麵」。
例二 ( 14 February 2017 )
干 -> 幹 / 乾?
Input:
鼻子会干掉啊
他被干掉了
我会干掉他的
这工作他会干掉吧
Expected:
鼻子會乾掉啊
他被幹掉了
我會幹掉他的
這工作他會幹掉吧
這是最近在看 《電波女興青春男》 中看到的,這個「干」字也是沒辦法轉換,喝酒時可以「把杯乾掉」,也可以「打工作幹掉」,那麼「干掉」到底是「乾掉」還是「幹掉」?
這些例子都是在不理解前文後理的前提下沒辦法轉換的。
分析轉換的困難之處
找出問題後,再來就是尋找解決方式。來討論一下分析轉換吧。
分析轉換的目的是讓轉換器知道句子的結構,從而判斷相應的詞應該是屬於那種類別,再從該類別的詞庫中找出候選轉換。
上例可以分成:
我 ( 代詞 )
邊 ( ?
吃 ( 動詞 )
著 ( 現在進行式?
葛貝 ( 助名詞? )
拉麵 ( 名詞 )
....
看吧我根本就不懂,這正是困難之處!
我去 wiki 浸個幾天再説吧。 斟酌 鵬兄
Tue Oct 04 2016 03:32:38 GMT+0000 (Coordinated Universal Time)
Last modified: Tue Feb 14 2017 03:53:30 GMT+0000 (Coordinated Universal Time)