神話の森のブログ

+古文書の森。 日本の神話や民俗、また近世農村研究

IME専門用語辞書の公開


最近、パソコンでの漢字変換にマイクロソフト社のIME(漢字変換ソフト)を使い始めている。(これまではWXGというソフトである)
第一印象はなんといっても「語彙を知らない」ということである。ユーザー辞書がまだできていないせいもあるのだが、ここ10年間のうちにIMEソフトは、語彙がが貧しくなったような印象がある。パソコンの世界はハードもソフトも日進月歩といわれているが、IMEのボキャブラリーに関しては退化もありえないことではない。それはたとえば最近の政治家が発する言葉の貧しさ、政治家だけではもちろんないが、そういうことを思えば、想像のつくことである。

「漢字」と変換しようとしたら最初に「感じ」が出てしまい、変換キーを押しているうちに見失ってしまって、カンジと読む人名がずらりと出てきた。40〜50はあるようだ。「ゆうき」と読む人名は80くらいある。これでは非常に効率が悪いので、IMEのプロパティから「人名地名辞書」を削除した。それでもカンジという人名は15例ほど出るので十分だろう。

以前のMEからユーザー辞書の移植を始めてみた。吟味しながらの移植である。その経過や単語リストを日本語IME専門用語辞書の試みというページに公表することにした。単語リスト(辞書テキストファイル)の利用も可能。

★追記
MSIMEの標準辞書の一般語彙の登録語数は7万語くらいだったと思う。「人名地名辞書」だけで同じ数の7万くらいが登録されている。7万のうちの大かたは、「ゆうき」などの最近の子供に名付けられた人名で、漢字の組み合わせ例は大変な数になる。効率が悪いわけである。
こういうケースでは名簿を入力する仕事の人も、いちいち数十の候補から選ぶよりは、漢字を1文字づつ確定したほうが早いのではないだろうか。若い人が自分の名前が漢字変換されたからこのパソコンを買おうという判断基準のためだけにあるようなものだ。
ちなみに1980年代のMS-DOS用NEC漢字変換システムには「ゆうき」とよむ人名は1例も登録されていなかった。そういう人名がほとんどなかったからだろう。

comments (0) trackback (0) 編集

キッズgoo


キッズgoo というサイトでは、webページを子ども向けにルビをふって表示してくれる。
http://kids.goo.ne.jp/cgi-bin/kgframe.php?BL=0&SY=0&MD=2&FM=0&TP=http://nire.main.jp/rouman/fudoki/index.htm
実際は間違いのルビも多く、じゅうぶんなものとは言いがたいのだが、アクセスは少なくない。一般的な地名の読み方などは大人が使っても参考になるかもしれない。

さらに、子ども向けとして不適切とされた用語を含むページは表示しないようになっている。「歌語り風土記」の項目590ページのうち、60ページがNGだったので、書き替えられるものは書き替えてみた。
どんな用語がNGだったかというと、やはり差別と性に関連するものである。
訂正した用語は次の通り。

[別語で言替え]  部落 朝鮮征伐 妾 狂女 白痴 殺した 自殺した 美少女 幼女 禁を犯して 秘密
[ルビを指定する]  阿保(地名) 三ヶ尻(地名) 女体山 乳 逆鉾 貝合せ 妹(いもうと、いも)
[漢字表記にする]  ちちぶ 「身はくち人に」 たまたま
[かな表記にする]  覗き
[一部をかな表記に]  人妻
歴史的仮名遣の「なほも」を「更に」に書替、たぶん「〜なホモ」との解釈だろう

妹がなぜいけないかというと、和歌で「妹に恋ひ」は「いも」とルビをふらなければ誤解を招くからということなのだろう。貝合せとか秘密とか、よくわからないのもある。

文章の量のわりには訂正箇所は少なかった。沖縄のページで「遊郭」を言替える適当な語が思いつかなかったので、そのままになっているところがある。

★追記 沖縄県のページは「ゆうかく」とルビをふったら通りましたね。なんでもこれで通るのかも(現在のところは)。

comments (0) trackback (0) 編集

電子書斎の"夢"


20年近く前に、「電子書斎」という言葉を耳にして自分で試みたことがある。といってもWindowsもなかった当時では、1台のデスクトップパソコンが広辞苑を検索するための専用機になっただけだった。今はインターネットにつなげておけば、辞書や事典のサイトもあるし、文献テキストを公開しているサイトもある。そのほか一般のWEBページの情報は玉石混交だが、Googleなどの検索エンジンで調べることもできる。
それでもよく使う市販のCD-ROM事典類がある。

『平凡社世界大百科事典』 日本を代表する百科事典で、記事は小論文形式といってよい。気になる記事があったら執筆者名で全文検索すると関連情報も広がる。難点は、たとえば示扁(しめすへん)などの漢字で今のJIS書体では字形が「ネ」の形になっているものも「示」の字形で表示するなどのため、外字が多用され、コピーすると外字は文字化けすること。

『国語大辞典(新装版)』小学館 Windows95パソコンに付いてきたCD-ROM「Microsoft Bookshelf Basic 96」に収録。たまにではあるが貴重な項目があるのに気づく。俗語風の使用例についての説明も詳しい。

『広辞苑』 1つのテキストファイルにしてしまってエディタで検索している。そうしておけば紙の辞書のように、調べようと思った項目ではないその前後の記事に寄り道することも可能。

『二十一代集』(岩波書店) これもテキストにしてしまった。このCD-ROMは江戸時代の版本を元にしたといい、仮名遣も版本のまま。つまり古今集など二、三の歌集以外では、明治時代に確立した歴史的仮名遣で検索しようとしても一致しないことがある。二十一代集にはない万葉集は若き日に入力しておいた折口信夫『口訳万葉集』を使用している。夫木抄も欲しい。

『平成祭データ』(神社本庁) 神社の由緒など公式の資料を収録。

そのほか『新潮文庫の100冊』に柳田国男「遠野物語」がある。

comments (0) trackback (1) 編集
<< 2/2