サーバーでなく普段利用するデスクトップをLinuxにしたのが2006年。
サーバーとしての利用はすでにしていましたが、デスクトップ用のソフトウェアはまだ快適でないという状態がやっと何とかなってきたというあたりで、Windows2000機が故障したというのが始まりです。
このあたりの事情はかなり忘れていることも多く、調べるといろいろ出てくるのですけれど、今回かな漢字変換のAnthyについて調べた記録が出てきましたので、紹介しておきます。
内容的にはAnthyの漢字変換はひどいと言う事になってしまいますが、Anthyが使えるようになってWindowsからLinuxデスクトップに移行できたと言っても過言でないほど当時としては画期的なオープンソースで、随分とお世話になったソフトです。
現在のLinuxの漢字変換はmozcが標準に入ったので、快適な環境になっていることも申し添えておきます。
Anthyは入力された文字列を分節に区切り、注目文節の移動や文節の切り直しができるごく普通の漢字変換です。
単に変換効率が悪いと考えていたのですが、奇妙な変換がたくさん見つかるので、記録しはじめました。
例えば、
「教員用」と入れたくて「きょういんよう」一度に入力して変換すると、
「教員」までだとちゃんと出ます。
「きょうい」と「んよう」に分けて変換しているのなら、まだ分かりますがそうではありません。「きょういんよう」とひとつで変換しています。分けて変換して学習させると教員用となりますが、その後「きょういんように」と入力すると「今日陰陽に」ときます。
「スレッド関係のバグがある」では最初「スレッド奸計のバグがある」になります。
「かんけいの」で変換すると、奸計の 姦計の 関係の 簡勁の 寛刑の 還啓の の順で出てきます。
「関係の」より「奸計の」を多く使う人がそうたくさんいるとは思えないのです。一応学習はするので、いま変換すると最後の「還啓の」がでます。でもしばらく使った今日も「奸計の」がでてきました。「かんけい」で変換すると 「関係」が一番に出ます。
「たんご」と入れると「単語」ですが、「たんごだけで」とすると「丹後だけで」が先です。文脈内で使用すると使いそうなものが後になってしまう。こんな傾向があるのです。
なるべくインストール直後の状態で、第一候補を探っています。中には正しい字がついに候補に出ないというのもありますけれど。
入力したかった言葉を一度にかな漢字変換した時の第一候補を出しています。
Anthyの第一候補 | 入力したかった言葉 | 備考 |
---|---|---|
門田んです | 簡単です | 「簡単で」までならうまくいきます |
生枝です | 名前です | 「名前で」までならうまくいきます |
計三品押してくれる | 計算し直してくれる | |
季肋の仕方 | 記録の仕方 | |
当たらし違法は | 新しい方は | |
黄海されテイルが | 公開されているが | |
マウント匝瑳も | マウント操作も | |
旗すべき | 果たすべき | |
予想が異なことをする | 予想外なことをする | |
陽子線卓など | 用紙選択など | ありそうですが、卓のような簡易なものでは危険かも |
最所なので | 最初なので | 「最初」だけなら良。 出現順は(最所なので 税所なので 才所なので 最初なので 細書なので) |
田の思想でも | 楽しそうでも | 「楽しそう」だけなら良。 出現順は(田の思想でも 楽しそうデモ 楽しそうでも) |
情報通新技術 | 情報通信技術 | |
偏光子ます | 変更します | 理系の言葉をよく知っています |
抑制利されていたこと | よく整理されていたこと | 「よく整理されていた」だけなら良。これは仕方がないか |
黄海されテイルが | 公開されているが | |
マウント匝瑳も | マウント操作も | |
玄海ですね | 限界ですね | 「限界」だけなら良 |
汲みたての場所が | 組み立ての場所が | 「組み立て」だけなら良 |
紺日ゅー田川の | コンピュータ側の | |
社史んですから | 写真ですから | 「写真です」は良 |
童話蹴るか | どう分けるか | |
区切り側からなくなります | 区切りがわからなくなります | |
勘が得ていたのですが | 考えていたのですが | 「考えていたのだが」は良 |
報国をしている | 報告をしている | 「報告」だけなら良。 |
勇名になる | 有名になる | 「有名」だけなら良。「幽明になる」も出る |
四膳でしょう | 自然でしょう | 「自然」なら良 |
ログインがメンマでは | ログイン画面までは | 「ログイン画面まで」なら良し |
雄幸だったのは | 有効だった まではよし | |
ローカルに死体所だが | ローカルにしたい所 | 「ローカルにしたいところ」までなら良し |
入っている野田が | 入っているのだが | 「入っているのだが」までなら良 |
フォルダな意の | フォルダ内の | 「フォルダ内」までなら良 |
ドアノブ分 | ドアの部分 | |
圭角だ | 計画だ | 「計画」なら良。経過句ならまだ分かるが... |
干潟っています | 日がたっています | |
変換史泣ければなりません | 変換しなければなりません | 「変換」だけなら良 |
漢字変換の操作について教えたときには、次のように分節ごとに変換するように薦めていました。
つまり/の位置で変換操作をします
関係の/機関の/担当者は/その/期間は/忙しくて/帰還できない
長く入力すると注目文節の移動や、文節の切り方を変更する操作をしなければならなくなるので単語+助詞あたりで切るのが良いのです。
逆に短く入力すると効率が上がりません。例えば、
関係/の/機関/の/担当者/は/その/期間/は/忙しくて/帰還/できない
とすると、「の」や「は」ではひらがなで確定する必要が出てきてしまいます。
漢字変換が特別なものであった時には、漢字の所を変換と意識する余り、こように入れる人も多かったのです。
それがAnthyになると「かんけいの」とすると「奸計の」になってしまうので「かんけい」、「の」と変換した方が良いということになってしまいます。
また、「きかん」という言葉は「きかんする」とか「きかんできる」と動詞であることがわかるように入力した場合には「帰還する」や「帰館する」を上位に出すことで効率をあげるようになっているのが普通でした。Anthyはそれができませんでした。
文節の切り直しの仕方も教えました。分節ごとに入力しても、コンピュータ側との見解の相違というものがどうしても起こるからです。落語に有名な例があります。
ここではきものをぬいでください
これは
ここで はきものをぬいでください → ここで履き物を脱いで下さい ここでは きものをぬいでください → ここでは着物を脱いで下さい
の2つの解釈が可能です。
このような例をたくさん挙げて練習してもらおうとしたわけです。
恐怖の味噌汁 きょうふの みそしる 今日麩の味噌汁 きょう ふのみそしる 電子配置図 でんし はいちず 電子は一途 でんしは いちず 卓越した技術 たくえつした ぎじゅつ 卓越下着術 たくえつ したぎじゅつ
などですが、当時はこれを見つけるのにかなり苦労しました。
これを探した時に使っていた漢字変換はATOKです。
そのときまでにAnthyを使っていたなら、上の表にあるようにたくさん見つかっていたのですがね。
現在使用中のデスクトップはDebianのwheezy(7.11)。このAnthyは「脅威んよう」のままです。moscが使えるようになった最初のDebianのバージョンなので、Anthyも入っているけど学習が進んでいないのでほとんど素のAnthyです。
Debianは現在stretch(9)ですが、Anthyがどうなっているか確認できていません。Jessieはインストールしてあるのですが、GUIではAnthyかmozcかもわからなくなっていて確認できていません。「教員用」となるのでmozcだと思います。
とりあえずバージョンを調べてみましょう
Debianのバージョン | Anthyのバージョン | mozcのバージョン | ||
---|---|---|---|---|
9 | strtch | 2017-06 | anthy (9100h-25+b2) anthy-common (9100h-25) |
mozc-data (2.19.2623.102+dfsg-1) mozc-server (2.19.2623.102+dfsg-1) |
8.0 | jessie | 2015-04 | anthy (9100h-24) anthy-common (9100h-24) |
mozc-data (1.15.1857.102-1) mozc-server (1.15.1857.102-1) |
7.0 | wheezy | 2013-05 | anthy (9100h-16) anthy-common (9100h-16) |
mozc-data (1.5.1090.102-4) mozc-server (1.5.1090.102-4) |
6.0 | squeeze | 2011-02 | anthy (9100h-6) anthy-common (9100h-6) |
- |
5.0 | lenny | 2009-02 | anthy (9100e-3.2) | - |
4.0 | etch | 2007-04 | anthy (7900-3.1) | - |
3.1 | sarge | 2005-06 | anthy (6300d) | - |
3.0 | woody | 2002-07 | - | - |
Anthyは9100hになってからは変わっていないと推測されます。
mozcがDebianのパッケージに入ったのはwheezyから。現在もバージョンが大きく変化しています。
AnthyがDebianのパッケージに入ったのはsargeから。Linuxでもいけるとなったターニングポイントと言えるでしょう。
私が使用経験があるのはsargeから。それ以前はslackwareとかredhatとかvineとかをサーバー用途でGUIなしで使用していました。