190012
應用深度學習sequence to sequence model 於古文解譯 Taiwan
以將古文翻譯成白話文為初衷,以爬蟲擷取古文解譯網站「讀古詩詞網」中的大量古文及其白話翻譯作為訓練用的資料,並按照不同文體分開訓練。我們先嘗試用Bert模型做選擇題:給一句古文讓機器從四個選項中選出其翻譯。一開始隨機挑選其餘三個選項,正確率高達96%。因此我們挑戰更困難的設置,撰寫搜尋關鍵字的程式,將有與題目古文相同字的白話文放入選項。雖然準確率有些許降低,但仍高於只選重複字最多選項的結果,代表模型有發展出獨立的判定標準。選擇題成功後,我們用MT5模型嘗試更困難的翻譯,並在訓練集中新增提供不同前後文的注釋資料幫助訓練。雖然還無法翻得非常準確,但仍在某些句子有不錯的表現。我們也發現了模型對某些特定類型字詞的翻譯有待加強,未來希望透過加強代名詞判斷訓練及持續新增注釋來增加整體翻譯能力。