zi2zi 沒有出現在訓練資料裡的符號, 要怎麼處理?

滿神奇的, 居然推論的出來, 而且有幾個版本的推論, 產生的外形還滿好看的.

有些符號, 訓練的資料裡可能完全沒出現過, 例如:

  • 辵部: 有二點與一點的差別, 追槌樋進近,蓬遊鏈
  • 草部: cjktc 是完全分開, 而且還有一些例外, 例如: 歡觀勸敬驚警灌夢等字, 不算是草.
  • 食部: cjktc 是橫線, cjksc 是一點45度的線, cjkjp 是直線; 最左下角, cjktc 是直線加橫線, 且有長腳, cjktc 是類似一個勾, 只有微微的長出一點點腳.

除了上面的差異之外, 辵部在 cjk jp / cjk tc 形狀不同, 這個完全沒有出現在訓練的資料, 如果不讓模型學習到正確的對應, 那未來的推論結果永遠都不會有所改進.

為了要讓資料正確, 解法之一, 是先把訓練一小段時間的模型, 使用 cjk tc 把辵部圖片取出來, 做一次推論, 取辵部, 參考:

如果圖片已經使用 infer 完整推論到指定資料夾, 再使用上面的取出特定檔案, 參數請使用:

  • 辵部: –range的參數, 請設為 –range=8fb6,9090
  • 草部: –range的參數, 請設為 –range=8279,864c
  • 食部: –range的參數, 請設為 –range=98df,9957

圖片取出來後, 使用:

copy_selected_image_out.py --input infer-folder --output infer-folder-8279 --range=8279,864c

可以取得草部的圖片.

get_ttf_chars.py --input image_folder --mode=unicode_image

即可取得草部圖片charset list, 把 list 存入 charset/charset_test.txt, 先取得 cjktc 的推論結果:

python infer.py --experiment_dir=experiments ^
                --experiment_checkpoint_dir=experiments/checkpoint-maruko ^
                --gpu_ids=cuda:0 ^
                --input_nc=1 ^
                --batch_size=32 ^
                --resume=1 ^
                --from_txt ^
                --canvas_size=512 ^
                --char_size=512 ^
                --generate_filename_mode=unicode_int ^
                --src_font=source/font/SweiGothicCJKtc-Thin.ttf ^
                --src_font_y_offset=0 ^
                --src_txt_file=charset/charset_test.txt ^
                --crop_src_font ^
                --label=19

有了列表, 把charset list 存到 charset_test.txt 串, 看看與 cjktc 與原字型的對映:

python font2img.py --src_font=source/font/SweiGothicCJKtc-DemiLight.ttf ^
                   --dst_font=source/font/ZenMaruGothic-Regular.ttf ^
                   --charset=charset/charset_test.txt ^
                   --sample_dir=source/paired_images-maruko-debug ^
                   --label=0 ^
                   --mode=font2font

說明: 為了方便比對, 這邊建議不要下 –shuffle 參數, 預設 font2img 會去除留白, 想保留空白區域, 請增加下列參數:

                   --canvas_size=512 ^
                   --char_size=512 ^
                   --x_offset=0 ^
                   --y_offset=-150 ^
                   --disable_auto_fit ^

察看與 cjkjp 與原字型的對映:

python font2img.py --src_font=source/font/SweiGothicCJKjp-DemiLight.ttf ^
                   --dst_font=source/font/ZenMaruGothic-Regular.ttf ^
                   --charset=charset/charset_test.txt ^
                   --sample_dir=source/paired_images-maruko-debug ^
                   --label=0 ^
                   --mode=font2font

說明: 這個步驟可以省略, 如果是直接挑戰修改 paired images 是可以直接在對照表這裡修改, 就可以略過下一個步驟.


修改好的推論結果在路徑: experiments/infer/modified-regular-384, 執行下面指令:

python font_image_combiner.py --source_image_dir=experiments/infer/modified-regular-384 ^
    --target_font_path=source/font/SweiGothicCJKtc-DemiLight.ttf ^
    --output_dir=source/modified-regular-384 ^
    --filename_prefix="" ^
    --reverse ^
    --canvas_size=384 ^
    --char_size=384 ^
    --disable_auto_fit ^
    --filename_rule=unicode_int

說明:

  • 重新使用 SweiGothicCJKtc-DemiLight.ttf 做對映.
  • 輸出的路徑在: source/modified-regular-384
Script 詳細教學: 生成字型與圖像的對照表
https://codereview.max-everyday.com/font_image_combiner/

產生的 mapping 預覽: (左邊是正確答案 zen maru, 右邊是 noto sans)

command mode 進入 source/paired_images_modified-regular-256, 執行指令:

ren source\paired_images_modified-regular-256
ren source\paired_images_modified-regular-256\0_0* 0_3*
_0* 0_3*

說明: 預設檔名是 0_0*, 置換成不同開頭的名稱, 避免之後的 script 誤刪和覆蓋掉這一個 “人工手動” 修改過的訓練資料.

如果之前修改過是 256×256, 想改用 512×512 訓練, 要放大即有圖片:

python resize_all_image.py --input source\paired_images_modified-regular-256  --output source\paired_images_modified-regular-512 --width=1024

集中管理 “人工手動” 處理過的檔案, 到特定資料夾, 避免被刪除, 執行指令:

xcopy source\paired_images_modified-regular-512\*.png source\do_not_delete-maruko-regular-512

集中好之後, 執行 script, 讓整個打包流程, 從頭到尾再自動化執行一次.


除了上的做法之外, 也可以在 infer.py 的時候, 拿掉 –crop_src_font 參數, 就可以取到 paired_images, 對這個 image 做修改即可直接取得對應後的結果.

把修改後的檔案放到 do_not_delete_ 系列的資料夾,

修改自動產生訓練的腳本檔案, 確定這次修改的項目, 會被加入到 train.obj 之中.


結論

實際測試, 不同語言最好分開訓練, 因為同一個模型要去判斷不同語言, 難度太高, 雖然輸入的資料已經有加入 cjktc, 但實際上會推論出介於 cjktc / cjkjp 之間的草字頭. 有一些由於訓練資料的 cjktc 的草頭很接近, 留白處很少, 而 cjkjp 是幾乎相連, 因為訓練出來的結果, 會是極為接近的草字頭, 不符合預期, 但以輸入的資料來說又很合理.

要給cjktc 的模型, 在接近穩定時, 不要放入 cjkjp 與 cjktc 相沖突的資料.

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *