ユニコードはどの程度の漢字を使えるか

特殊な祭神名(高龗神など)のほか、漢字の旧字体等は、パソコンでどの程度まで使えるかについては、これまでも書いたことがある。
近年、パソコンで使用するユニコードの文字体系が整備され、使える文字はかなり増えた。しかしちょっと調べてみると、昔の旧字体で出版された活字本の漢字を、そのまま表示できるまでには、なっていないようである。

文字を使える、使えないの問題には、区別して考えなければならない点がある。
 1 文字コードの問題。ディスプレイに文字が表示できるか。一般的な方法で検索や通信が可能か。
 2 字形の問題。文字の字体に間違いないか。パソコンやハードウェアが異なっても同じ字体になるか。OSの提供するフォントの問題。
 3 表示された通り印刷できるか。

さて、近年は「祠を祀る」などの文字が正しく表示される(以前は「しめすへん」は「ネ」のような字形だった)ので、常用漢字の「通用字体」と「旧字体」の対照表を作ることができるのではないかと思った。そこで調べてみると、Wikipediaにそれに近いものがあった。

Wikipediaの 常用漢字一覧 に、表形式の一覧が載っているが、ざっと見たところ、本来あるべき「旧字体」の欄が空白になっているのが多い。

 すぐに80字ほど見つけた(詳細にはもっと多いだろう)
  媛 援 煙 翁 鎌 緩 起 虐 急 券 兼 拳 嫌 謙 誤 采 彩 採 菜 削
  咲 姿 捨 爵 弱 習 週 述 術 肖 宵 消 勝 侵 浸 刃 尋 請 扇 遷
  掃 送 造 尊 妥 隊 濯 暖 彫 調 朕 墜 謄 藤 騰 毒 乳 浮 派 覇
  半 伴 浮 婦 包 抱 泡 胞 砲 飽 望 翻 躍 愉 諭 輸 癒 曜 翌 翼

これだけ多いということは、ページ作成者の見落としではなく、ユニコードに文字がないのではと思い、そこで、《Unicode/CJK統合漢字》 漢字部首検索 で調べたところ、やはりほとんどなかった。
この CJK統合漢字サイトには、「□」という表示だけで字形が表示されない文字コードがかなりある。今回調べた文字が、実際は文字コードはあるが、この□のどれかに該当して表示されないだけかもしれない。それは未調査である。これは前記の「2 字形の問題」であり、使用したPCでたまたま□の表示になっただけかもしれないが、そうだとしてもそういうのはごく僅かであろう。

Wkipediaで「郷」の旧字体欄に「鄕」という字形があるが(PCのフォント環境によって字形が異なるかもしれないが)、この字の中ほどが「皀」となる字形のほうが一般的だと思うが、ユニコードでは使えない。既(旣)、即(卽)は可。
「並」に対して「並」は旧字体のコードだが、同じ字形で表示されるとしたら「2 OSのフォントの問題」である。


以上のほかに、前記の80字には入れてないが、「食へん」や「しんにょう」(「草かんむり」は3画が主流らしいが)……などの漢字を見てゆくと、Windows環境で正しい旧字体で表示できない文字の数は、さらに多いことになる。

そんなわけで、ざっと見ただけでも、これほどの問題があるわけである。昔の書籍の文字のまま再現するのは、困難である。

また、どの字形が本字なのか異体字なのかは諸説があるようである。古い字を使って作文しようと思っても、字形を選ぶのに苦労するだろうし、字音仮名遣よりも厄介かもしれない。
comments (0) | trackbacks (0) | Edit

蔵書の処分

骨董品を鑑定するテレビ番組などで、定年後に退職金などを元にコレクションを始めた人などは、集めたコレクションの数は全く把握してゐないと言ふ。年齢によるものと思はれる。

音楽家の大瀧詠一は、還暦を2〜3年過ぎたころ、これまでのレコードコレクション数万点を処分したとある年の正月のラジオ番組で語ってゐた。数万といふ数を管理するのは年齢的に無理になったからではないかと思ふ。若いころからのコレクションなら、記憶を頼りに以後の執筆活動などには大きな影響はない。(その後逝去されたが)
作家の井上ひさしが故郷の山形県の川西町に蔵書13万冊を寄付した話を聞いたことがあるので、そのときの年齢を調べてみた。1987年(昭和62年)といふから、63歳である。大瀧氏とほぼ同じだ、井上氏はその後20年以上活躍した。

62〜63歳。
以前は、どの本がどこに置いてあるかは、かなりきっちり把握してゐた。今はそれができない。
そこで処分をしようと思った。
今後の研究のことを思ふと、全て処分するほどの自信はない。

念入りに選別するほどの時間もないので、とりあへず、蔵書部屋のものは全て「仮処分」したものとみなし、そこから必要なものを近くに運んで区別することにした。運ぶ前にその本の付近を見て、正式処分に値するものは、処分箱へ移動。といったことを考へた。
もっと簡単で良い方法があればよいが。
【倚松帖より】
comments (0) | trackbacks (0) | Edit

「私本管理Plus」という蔵書管理ソフト

「私本管理Plus」というフリーの蔵書管理ソフトを使ってみたのは、6年以上前の2006年8月ごろだが、そのとき3000有余を登録。今年2013年になって、バーコードリーダーを使用して、続きをやってみた。
現在、一般書が5900冊。ほかに漫画関係で1500冊、伝来物和本200冊、他に処分予定の本から新しめの本でバーコードで簡単に登録できるもの200冊。合計7800冊。切りの良い1万まで登録してみたい気もする。残りは、郷土史物、自費出版物・紀要類、漫画、トンデモ古代史系、実存主義マルクス主義哲学、雑誌などがある。

「私本管理Plus」というソフトは、若干使いにくい部分もあるが、個人の蔵書はそれほど際限なく数があるわけではないので、不便を感じながらも、登録は終ってしまう。

ただしデータベースとして長く使い続けるためには、改善を望みたい部分もある。
このソフトの良いところは、Amazonのサイトから本の内容説明のテキストを取り入れることができ、そのテキストには目次のリストが含まれている場合もあり、それらのテキストに対してソフトから検索することができることである。
Amazonの「内容説明」は全ての本にあるわけではないが、日々追加されているようでもある。増補もあるようだ。6年前には「内容説明」が欠けていたものが、今は追加されている場合がある。表紙画像もなかったものが付いている。それらの新しいデータは、一件一件このソフトの「登録画面」を開いてISBNの横をクリックしなければ取得できない。そのときクリックしても必ずしも追加データがあるとは限らない。これらの新しいデータを、どう取得するかが問題になる。
今回は、全てのISBNを再登録することにした。方法は、「データ整列」でカテゴリ基準に並べ替えて保存。そのcsvファイルからISBNだけ取り出して新規フォルダに一括登録する。カテゴリ順に保存したのは、カテゴリの再登録が不可避なので、それをやりやすくするためである。

「内容説明」には手動で全集の目次などを貼り付けておくと便利である。目次をテキストにして個人ブログに載せている人がいる。柳田国男集、折口信夫全集、日本の民話(未来社)などの目次をそれらのサイトから拝借した。三田村鳶魚全集はWikipediaに目次があった。

次の画像は、キーワード「猫」で検索したときの67冊のリストの一部。こういう使い方ができるのがよい。
私本管理Plus


私本管理Plusで、さらに欲しい機能は、右側の「プレビュー」エリアは、画面上のボタン1つで開閉できると良い。このエリア内の不要な表示項目は表示しない選択ができるようにし、ヒットしたキーワードがすぐにわかるように色表示にするとか。
(こういう画面はMSの Media Player に似ているかもしれない。電子書籍を登録して、ここからビュ−ワを起動できるとか。星5つまでの評価欄もほしい)

入力についての改善策としては、古い本のISBNを取得するための検索で「タイトル」「作者」「発行所」の3項目の入力欄があるが、その検索で見つからないときは、手動登録になるが、新たに「新規登録」画面を開いて、同じ3項目を再入力しなければならない。最初に入力した3項が生かされたまま、「新規登録」画面を開いたとき該当する3項目に既に入力された状態になっていると便利。
逆にISBNのない手動登録データの(データ修正のための)「登録画面」の内の3項目から、ISBN取得のための「ISBN検索」へ飛べるようにすれば、新規にISBNが付与されたケースではそれを取得できる。
更に登録データの「検索画面」で3項を入力して検索してみたが、未登録とわかり(登録忘れ)、新規に登録したいときは、この3項入力を保持したまま「検索画面」から「ISBN検索」へ切り替わると便利。
comments (0) | trackbacks (0) | Edit

WXGの2011年問題

 ダウングレードの時代
3・11以後の哲学的な問題は別に考へていかねばならないが、実際生活の問題としては、エネルギーの浪費を戒めることが重要になってくるのだらう。
さういへば、3年前に、パソコンをダウングレードした。ペンティアム4の2GHz超から、1.6GHzのAtomとし(マザーボードはmini-ITX)、初のダウングレードだった。

 WXGの辞書が壊れる?
IMEは長年WXG(Ver.4)を使用して来たが、古いためか、WindowsXPでは調子がいまいちなので、先月来、辞書の再整備を始めたところ、新たな問題につきあたってしまった。辞書の最適化がまったくできなくなってゐた。必ず「辞書が壊れています」のエラーが出る。原因は不明だが、もしかして古いPCでなら問題ないのではないかと思ひ、Windows98時代のノートPCで同じ処理をしてみたら、問題なくできた。このノートPCはWXGの辞書管理専用機として長く使ひ続けることになるのだらうと思った。ある日、このノートPCで作成した辞書の日付が2010年9月になってゐたことに気づき、長く使はずにゐたPCだったので時計が狂ってゐたわけだが、時計の日付を修正した。翌日、このPCでも、辞書最適化のエラーが出るやうになった。辞書ツールが使へないのは日付が原因かと思ひ、PCの時計を意図的に1年前に戻すと、エラーは出なくなった。WXGは、2010年までの使用しか想定してゐない疑ひが濃厚になった。

 バイナリエディタでファイル修正して修復
ネット検索で調べてみると、某掲示板で同様の指摘があった。
http://hibari.2ch.net/test/read.cgi/software/1170889754/
上のページの1月6日、No844の書き込みによると、WXGDLIB.DLLを書き替へると正常になるといふ。
> 2000/01/27 221,184 00:00 Wxgdlib.dll
> 0000CEB5 DA 97
> 0000CEB6 07 08

2000-01-27 00:00 の日付の WXGDLIB.DLL、ファイルサイズ221,184バイト。ファイル先頭から 0000CEB5〜6 の位置の "DA 07" といふデータを "97 08"に書き替へると、2199年まで使用できるといふ。

PC内を探すと、C:\Windows\System32 といふフォルダに、WXGDLIB.DLLがあった。しかし日付は1998-12-28 00:00、ファイルサイズ 220,672 バイト。細かいバージョンの違ひがあるやうだ。
バイナリエディタ(Stirling)をダウンロードしてこのファイルを調べると、"DA 07"といふデータは2ヶ所あった。
 00000A26〜7
 0000CE66〜7
このうち2つめのデータが掲示板での指摘位置に近いので、これを書き替へることにした。System32フォルダのWXGDLIB.DLLを別フォルダにコピーし、コピーしたファイルを改めてエディタに読み込み、とりあへず一ヶ所、0000CE66番地のDAをFFに書き替へる(0000CE67はそのまま)。これで2047年まで使へることになる。
上書保存してエディタを終了。書替済のファイルはそのままSystemフォルダへ上書コピーはできない(IME使用中)ので、コントロールパネルから「既定の言語」をMS-IMEあたりに変更して再起動後、書き替へたWXGDLIB.DLLをSystem32フォルダ内へ上書コピーした。(コピー完了後「規定の言語」をWXGに戻す)
 そして辞書の最適化を試みると、エラーは出なくなった。

 さて現在進めてゐる辞書の整備は、歴史的仮名遣変換辞書であるので、この文も歴史的仮名遣で書いた。

※ "DA 07" は16ビットでは 07DA、これは16進数表記であり、10進数なら2010の意味。
※ バイナリエディタはc.mos氏に敬意を表してBZを試みたが、16進数での検索方法がわからない。これでは新規ユーザーはつきにくいのではないか。
comments (0) | trackbacks (0) | Edit

よく使われる異体字など

神名地名難読漢字・ユニコード対照表
http://nire.main.jp/rouman/dic/hsgaiji.htm
のページは比較的多いアクセスをいただいていますが、今回1文字のユニコードを追加し、ページ内容も全面改訂となりました。協力いただいたかたのサイトへのリンクはそのページ内にあります。

改定により余計な説明を省きすっきり見やすくなったと思います。WindowsXP以前では「MS明朝」のフォントをアップグレードしないと表示されない文字ばかりかもしれません。

この漢字リストの中には、28宿の一つでもある「氐」という字があります。「𣑥」は万葉集で「白𣑥の(しろたへの)」などとよく使われます。「嬥」(かがひ)も万葉集でときどき見かけます。

また、そのリストの中で、江戸時代から明治時代にかけての一般文書でよく見かける漢字でいえば、人名などに多い「杦」(すぎ)があります。さらに、「㕝」(こと)は「事」の異体字ですが、かなりよく使われました。「霊」の異体字の「灵(れい)」もよく見かけます。
(この記事中の一部の漢字はMSのフォントをアップグレードしないと表示されないかもしれません)
comments (0) | trackbacks (0) | Edit

ソフト探し

古文書の整理のためのソフトを探している。
軽いソフトで、多数の画像を表示して縦書き表示、文字飾りは見出し文字と注釈用小文字くらいで十分、できればアウトラインプロセッサのような機能が欲しい。

しかしアウトラインプロセッサの類は、縦書きのものはあまり見かけず、画像はほとんど不可であるらしい。「文章書きのプロ」が使うと謳ってあるのに縦書き不可とはどういうことだろうか。
軽いワープロソフトでは、古いものだが、松風やVJE-Penなどは画像はBMPのみ。重い(?)エディタのWZなども同様。リッチテキストは、保存ファイルがBMPよりも更に大きなファイルとなって重くてしかたがない。
結局、エディタによるHTML作成と一太郎ライト2とを併用している。

HTMLは、MSのIE(インターネットエクスプローラ)の縦書き表示を使用。印刷ではヘッダやフッタが不自由なので、書籍用というわけにはいかない。

ある程度できあがったHTMLを一太郎ライトで読み込む。このソフトは画像を専用ディレクトリにコピーしているようだが、文書ファイルには画像は含まれないので、ファイルは大きくはならない。(余談だが、以前入手したMSエクセルのファイルをWindows98で閲覧する方法はないかと思案したとき、一太郎ライトで表示できたので、そのときから重宝している。)
しかし多数のファイルの中身をちょっと確認するためだけのときは、ワープロは不自由ではある。

もう一つ面白いソフトがあって、「ネタの種」というソフトで(「紙」というフリーソフトをJustSystemが買い取ったもののようだが)、HTMLの画像を表示したまま縦書きで編集ができ、アウトラインプロセッサに似たところもある。しかしこれも画像を専用フォルダにコピーしているようだ。
comments (0) | trackbacks (0) | Edit

縦書き表示


「白山比咩命」の「咩」はユニコードで記入するのが良いという話を去年書いたが、
http://nire.main.jp/sb/log/eid134.html
最近は、グーグルの検索で、IBM拡張漢字のコードでも区別なく検索でき、文字化けもなくなったようである。

「大日孁貴尊」で検索してウィキペディアを見ると、江戸時代のものだろうか、錦絵の画像が挿入されていた。日本の神話を題材にした絵は個人的にまあまあ収集したが、錦絵、浮世絵の類は、著作権上問題は少ないと思う。しかし描かれた時代の通俗性のようなものが強すぎる絵柄も少なくなくて、現代のイメージに合わないものもある。ウィキペディアの絵はまあまあ良いと思う。


さて、WEBでの縦書き表示が、意外に簡単にできることがわかった。
<div style="writing-mode:tb-rl"> 文章 </div>
IEでは右のようにすると良いようだ。
そこで昔テキストファイルにしてあった「神代系図」を、縦書き表示でアップした(先月)。
comments (2) | trackbacks (0) | Edit

歴史的仮名遣

神話の森のホームページは、多くのページが歴史的仮名遣で書かれている。しかしブログはそうではない。最近、歴史的仮名遣を間違えることがあるのは、ブログ以外の更新が少ないからだろう。そこでホームページでまだとりくんでいない「歌語り歳時記」、「千人一首」、「日本の神話・詳述版」についてとりかかろうと思う。もちろん歴史的仮名遣になる。

歴史的仮名遣は、丸谷才一氏のほか、阿川弘之氏だとか、普通の小説やエッセイが読まれているので、将来もまったくなくなることはなかろうと思う。廃れてしまった原因について、丸谷氏がいうには福田恆存氏が良くなかったという。それは一種の急進主義のようなもので、送り仮名だけでなく、漢字の字音仮名(たとえば缶詰はクワンヅメ)、さらに当用漢字ではなく本字で書かなければならないという主張が一部で支持を得てしまったからで、狭い範囲のグループの中では急進的な発言は支持を得やすいのだという。極論になって世間と乖離してしまったということだ。今日の皇統の男系主義と似たようなものだろう。
あるいは急進主義のほかに、日本人の技能主義のようなものもあるのではないかとも思う。

技能主義とは、左甚五郎が彫った馬が歩きだすのは、甚五郎の技能への崇拝があるからで、戦のルールを無視した源義経が支持されるのは、戦術の奇抜さへの畏怖のようなものがあるのだろうし、そういったことである。これについてはあとで書いてみたい。

ところでネットでも「大祓詞」を見かけることがあるが、数年前いくつか見た範囲では、ふりがななどの仮名遣の間違いのないものは、「玄松子の記憶」というサイトのものだけだった。1つのデータに対しての誠実さは保証できるということがいえると思う。
comments (1) | trackbacks (0) | Edit

使用漢字の増えたWindows Vista

Windows Vista を導入してみたが、新たに、JIS第3水準、第4水準の漢字など、4354字の表示・印刷が可能となったとのこと、多くの漢字の表示を確認した。

今回JISのバージョンの規格変更により、168文字の字体が変更されたために混乱も伝えられるが、使用文字が増えたことは、歓迎したいと思う。ビジュアル面ばかりの特徴が宣伝されているWindows Vistaだが、多数の漢字を使えるようになったわけである。

神名地名難読漢字・ユニコード対照表」の中の漢字の8割程度が、普通に表示されるようになり、そのページに注記を追加して更新した。
これでたとえば「猨田彦神」とあるのを「猿田彦神」と書き替えずに住むようになったわけである。

Windows Vistaは、メモリ等ハードウェアの追加が必要となることが多いので、OEM版とメモリのセットで購入すると良いと思う。
comments (0) | trackbacks (0) | Edit

Yahooサーチと使用サーバー

雑記です。
神話の森のホームページとブログは、ロリポップ社のサーバーを借りて運営していますが、昨年8月下旬以降、Yahooサーチから検索されにくい状況になっています。「Yahoo ロリポップ」と検索エンジンから検索すれば、当サイト以外でも同様の状況が多いことがわかります。ロリポップ社から早い段階で改善がなされたと「お知らせ」があったので、4か月ほど様子を見てきたのですが、こちらのアクセス解析によれば、Yahooからの検索結果は減ったままの状態にあります。

どの程度減ったかというと、検索大手のGoogle社とYahoo社のそれぞれが検索対象として認識している当サイト内のページ数を調べて比較すれば、おおむねわかります。「site:ドメイン」(site:nire.main.jp)をキーワードに検索してみれば良いわけです。
その結果は、Google 1020件、Yahoo 93件で、YahooがGoogleの1/10以下です。

たまたま同じサーバーで運営の2つのサイトについても調べてみると
Gサイト Google:3290 Yahoo:2590
Kサイト Google:2410 Yahoo:2510
意外にもKサイトはYahooが多く、GサイトもYahooが2割減程度です。同じ会社のサーバーでも問題のないサイトもあることがわかりました。

そこで原因について考えたことは、
同じ会社のサーバー内でも、物理的に異なる場所にあるサイトでは影響が異なるかもしれないということ。もしそうなら対処のしようはありません。
その他、対策になるかもしれない2つのことを実施してみました。
1、Yahooカテゴリー(神話、民話と民俗学)への登録申請
  Gサイト、Kサイトとも登録済みですので。
2、他サーバー(nifty)のサイトのアクセス解析をこちらでしていたのを中止
 こちらのサーバーに負荷をかけると優良サイトとはいえないのではないかということ。

さて、どういう結果になりましょうか。
comments (3) | trackbacks (0) | Edit

  page top