Anthyの珍変換

一時代を作ったAnthy

サーバーでなく普段利用するデスクトップをLinuxにしたのが2006年。

サーバーとしての利用はすでにしていましたが、デスクトップ用のソフトウェアはまだ快適でないという状態がやっと何とかなってきたというあたりで、Windows2000機が故障したというのが始まりです。

このあたりの事情はかなり忘れていることも多く、調べるといろいろ出てくるのですけれど、今回かな漢字変換のAnthyについて調べた記録が出てきましたので、紹介しておきます。

内容的にはAnthyの漢字変換はひどいと言う事になってしまいますが、Anthyが使えるようになってWindowsからLinuxデスクトップに移行できたと言っても過言でないほど当時としては画期的なオープンソースで、随分とお世話になったソフトです。

現在のLinuxの漢字変換はmozcが標準に入ったので、快適な環境になっていることも申し添えておきます。

短い単語だとOKだが長くなるとだめ

Anthyは入力された文字列を分節に区切り、注目文節の移動や文節の切り直しができるごく普通の漢字変換です。

単に変換効率が悪いと考えていたのですが、奇妙な変換がたくさん見つかるので、記録しはじめました。

例えば、

「教員用」と入れたくて「きょういんよう」一度に入力して変換すると、

「教員」までだとちゃんと出ます。

「きょうい」と「んよう」に分けて変換しているのなら、まだ分かりますがそうではありません。「きょういんよう」とひとつで変換しています。分けて変換して学習させると教員用となりますが、その後「きょういんように」と入力すると「今日陰陽に」ときます。

候補が使いそうな順でない

「スレッド関係のバグがある」では最初「スレッド奸計のバグがある」になります。

「かんけいの」で変換すると、奸計の 姦計の 関係の 簡勁の 寛刑の 還啓の の順で出てきます。

「関係の」より「奸計の」を多く使う人がそうたくさんいるとは思えないのです。一応学習はするので、いま変換すると最後の「還啓の」がでます。でもしばらく使った今日も「奸計の」がでてきました。「かんけい」で変換すると 「関係」が一番に出ます。

「たんご」と入れると「単語」ですが、「たんごだけで」とすると「丹後だけで」が先です。文脈内で使用すると使いそうなものが後になってしまう。こんな傾向があるのです。

Anthyの珍変換例

なるべくインストール直後の状態で、第一候補を探っています。中には正しい字がついに候補に出ないというのもありますけれど。

入力したかった言葉を一度にかな漢字変換した時の第一候補を出しています。

Anthyの第一候補入力したかった言葉備考
門田んです簡単です「簡単で」までならうまくいきます
生枝です名前です「名前で」までならうまくいきます
計三品押してくれる計算し直してくれる
季肋の仕方記録の仕方
当たらし違法は新しい方は
黄海されテイルが公開されているが
マウント匝瑳もマウント操作も
旗すべき果たすべき
予想が異なことをする予想外なことをする
陽子線卓など用紙選択などありそうですが、卓のような簡易なものでは危険かも
最所なので最初なので「最初」だけなら良。
出現順は(最所なので 税所なので 才所なので 最初なので 細書なので)
田の思想でも楽しそうでも「楽しそう」だけなら良。
出現順は(田の思想でも 楽しそうデモ 楽しそうでも)
情報通新技術情報通信技術
偏光子ます変更します理系の言葉をよく知っています
抑制利されていたことよく整理されていたこと「よく整理されていた」だけなら良。これは仕方がないか
黄海されテイルが公開されているが
マウント匝瑳もマウント操作も
玄海ですね限界ですね「限界」だけなら良
汲みたての場所が組み立ての場所が「組み立て」だけなら良
紺日ゅー田川のコンピュータ側の
社史んですから写真ですから「写真です」は良
童話蹴るかどう分けるか
区切り側からなくなります区切りがわからなくなります
勘が得ていたのですが考えていたのですが「考えていたのだが」は良
報国をしている報告をしている「報告」だけなら良。
勇名になる有名になる「有名」だけなら良。「幽明になる」も出る
四膳でしょう自然でしょう「自然」なら良
ログインがメンマではログイン画面までは「ログイン画面まで」なら良し
雄幸だったのは有効だった まではよし
ローカルに死体所だがローカルにしたい所「ローカルにしたいところ」までなら良し
入っている野田が入っているのだが「入っているのだが」までなら良
フォルダな意のフォルダ内の「フォルダ内」までなら良
ドアノブ分ドアの部分
圭角だ計画だ「計画」なら良。経過句ならまだ分かるが...
干潟っています日がたっています
変換史泣ければなりません変換しなければなりません「変換」だけなら良

文節区切り

漢字変換の操作について教えたときには、次のように分節ごとに変換するように薦めていました。

つまり/の位置で変換操作をします

関係の/機関の/担当者は/その/期間は/忙しくて/帰還できない

長く入力すると注目文節の移動や、文節の切り方を変更する操作をしなければならなくなるので単語+助詞あたりで切るのが良いのです。

逆に短く入力すると効率が上がりません。例えば、

関係/の/機関/の/担当者/は/その/期間/は/忙しくて/帰還/できない

とすると、「の」や「は」ではひらがなで確定する必要が出てきてしまいます。

漢字変換が特別なものであった時には、漢字の所を変換と意識する余り、こように入れる人も多かったのです。

それがAnthyになると「かんけいの」とすると「奸計の」になってしまうので「かんけい」、「の」と変換した方が良いということになってしまいます。

また、「きかん」という言葉は「きかんする」とか「きかんできる」と動詞であることがわかるように入力した場合には「帰還する」や「帰館する」を上位に出すことで効率をあげるようになっているのが普通でした。Anthyはそれができませんでした。

文節の切り直し

文節の切り直しの仕方も教えました。分節ごとに入力しても、コンピュータ側との見解の相違というものがどうしても起こるからです。落語に有名な例があります。

ここではきものをぬいでください

これは

ここで はきものをぬいでください → ここで履き物を脱いで下さい
ここでは きものをぬいでください  → ここでは着物を脱いで下さい

の2つの解釈が可能です。

このような例をたくさん挙げて練習してもらおうとしたわけです。

恐怖の味噌汁     きょうふの みそしる
今日麩の味噌汁    きょう ふのみそしる
電子配置図      でんし はいちず
電子は一途      でんしは いちず
卓越した技術     たくえつした ぎじゅつ
卓越下着術      たくえつ したぎじゅつ

などですが、当時はこれを見つけるのにかなり苦労しました。

これを探した時に使っていた漢字変換はATOKです。

そのときまでにAnthyを使っていたなら、上の表にあるようにたくさん見つかっていたのですがね。

今では??

現在使用中のデスクトップはDebianのwheezy(7.11)。このAnthyは「脅威んよう」のままです。moscが使えるようになった最初のDebianのバージョンなので、Anthyも入っているけど学習が進んでいないのでほとんど素のAnthyです。

Debianは現在stretch(9)ですが、Anthyがどうなっているか確認できていません。Jessieはインストールしてあるのですが、GUIではAnthyかmozcかもわからなくなっていて確認できていません。「教員用」となるのでmozcだと思います。

とりあえずバージョンを調べてみましょう

Debianのバージョン Anthyのバージョン mozcのバージョン
9 strtch 2017-06 anthy (9100h-25+b2)
anthy-common (9100h-25)
mozc-data (2.19.2623.102+dfsg-1)
mozc-server (2.19.2623.102+dfsg-1)
8.0 jessie 2015-04 anthy (9100h-24)
anthy-common (9100h-24)
mozc-data (1.15.1857.102-1)
mozc-server (1.15.1857.102-1)
7.0 wheezy 2013-05 anthy (9100h-16)
anthy-common (9100h-16)
mozc-data (1.5.1090.102-4)
mozc-server (1.5.1090.102-4)
6.0 squeeze 2011-02 anthy (9100h-6)
anthy-common (9100h-6)
-
5.0 lenny 2009-02 anthy (9100e-3.2) -
4.0 etch 2007-04 anthy (7900-3.1) -
3.1 sarge 2005-06 anthy (6300d) -
3.0 woody 2002-07 - -

Anthyは9100hになってからは変わっていないと推測されます。

mozcがDebianのパッケージに入ったのはwheezyから。現在もバージョンが大きく変化しています。

AnthyがDebianのパッケージに入ったのはsargeから。Linuxでもいけるとなったターニングポイントと言えるでしょう。

私が使用経験があるのはsargeから。それ以前はslackwareとかredhatとかvineとかをサーバー用途でGUIなしで使用していました。