普段パソコンに向かい使っているローマ字、その用法やつづりにあまり関心を持たずなんとなく使ってしまえている。 不思議だが結構色んなローマ字があるようである。
ふしぎと打つのに husigi と打つものもあれば fushigi 打てる。ちょうちんと打つのに
choutsin---tyoutin---tyochin 或は ん を nn ともできる???
日本人だから分からないのか?或はそんなものと思って使っているのであろうか?調べれば調べるほど頭が痛い。 ヘボン式、訓令式、 日本式と色んな方式のローマ字がるようであるが日常ではそれを混在して使っているようである。 Asukalだけであろうか?みんなは統一してXXXX式で使っているのであろうか??
とにかくAsukalの習慣をまとめてみた。これは色んな方式が混ざっているのである。
(小梅ちゃんキーの為の辞書つくりの為のデータ用である)
これだけ混在しているとPCの変換ソフトでは無理な用である・・・・
ち=ti
し=si
つ=tu
じ=ji
ず=zu
づ=du
fa(ふぁ) fi(ふぃ) fe(ふぇ) fwo(ふぉ)
wha(うぁ) whi(うぃ) whe(うぇ)who(うぉ)
------------------------------------------
ちょ= tyo/cho
しょ=so →sho/syo
ちょうちん=tyoutin
@明らかに読みが違うような修正(音読みすべきを訓読み、或はその反対)
休職=yasumishoku →kyushoku
@母音が二つ並ぶ場合
@語尾がei/ou/aiとなるべきの物がe/o/aで終わっているも
長母音と二重母音の統一
oh→ou (当方 =touhoh → tohou)
o →ou (学校 =gakko → gakkou)
a →aa (母さん=kasan → kaasan)
i →ii (良いで=ideu → iidesu)
e →ei (メーカー=meka → meika)
(一定 =itte → ittei)
<<その他の例>>
石像=sekizoh→sekizou
成果=seka →seika
えいご=ego → eigo
おおの=ono →ouno
おうさま osama→ousama
@ b,m,pの前でnの代わりにm画使われている場合はnに戻す
ほんま =homm→honma
@固有名詞と町名の最後のUは欠落しても良い
本郷町=hongoucho
佐藤 =sato
後藤 =goto
@日本語で「あかるい」→「明るい」等と漢字に出来るものは修正
<<参考>>
------------------------------
takao 貴男 ---音訓相違
bikia 引合い--音読みの韻とり違い
akuto 悪党---語尾uの欠落
binme 便名---語尾iの欠落
ninga 人が---音読み訓読み違い
a 合い----語尾iの欠落
------------------------------
_
hyo 豹 |
byo 廟 |---語尾のUの欠落
byo 描_|
nae 苗----ひ/び-項目でなえと変換(びょう)
ikari 錨----同様にいかりと変換(びょう)
byo 鋲----語尾のUお欠落
------------------------------
<<Plum用変則ローマ表記--訓令式改>>
a i u e o
ka ki ku ke ko
sa si su se so
ta ti tu te to
na ni nu ne no
ha hi fu he ho
fa(ふぁ) fi(ふぃ) fe(ふぇ) fwo(ふぉ)
ma mi mu me mo
ya yu
yo
ra ri ru re ro
wa i e
o
n
ga gi gu ge go
za ji zu ze zo
da di zu de do
ba bi bu be bo
pa pi pu pe po
kya kyu
kyo
sha syu sho
tya tyu tyo
nya nyu nyo
hya hyu hyo
mya myu myo
rya ryu
ryo
ja
ju jo
bya byu byo
pya pyu pyo
今しばらくお待ちください。
---------------------------------------------
【基本方針】
1.辞書データ Plum_riben.xls に登録されている単語をひらがな読みに変換した後、それをローマ字読みに変換する。
2.ひらがな読みからローマ字読みへの変換規則は Asukal式 とする。
【ひらがな読み変換】
1.Plum_riben.xls に登録されている単語で、以下に掲げる辞書データに収録済みのものについては、その収録辞書のひらがな読みを採用する。
(1)EDICT :2文字以上の単語の読み仮名辞書として利用(109328語収録)
(2)KANJIDIC:1文字の単漢字の音訓読み仮名辞書として利用(21919語収録)
http://www.vector.co.jp/vpack/browse/person/an003770.html
2.上記1.(1)(2)に掲げる辞書に収録されていない単語(14773語)については、MS-IME の再変換機能を使ってひらがな読み変換する。
3.上記2.においてひらがな変換できた単語(10211語)については、評価目的で(半)濁音・拗音を清音に変換し、オリジナル辞書データ kana_kanji.txt と比較して検証を行う。
4.上記2.において文節区切りの関係で漢字が残ってしまった単語(4562語)については、kana_kanji.txt を利用して目視確認しながら手動でひらがな変換する。
【ローマ字読み変換】
「大陸諜報活動新聞」2005年05月27日★ローマ字を学ぼう★に記述されている規則に従い変換する。
---------------------------------------------
MS-IME変換結果の 10211語 については私の方で検証を行います。
漢字残りの 4562語 については一件づつ見ていくしかありませんので、これについてご協力ください。
変換結果ですが、Asukalさんが指摘されている問題点はクリアできています。ただし辞書データが大きくなる(新規入れて143406語)ので、どこかで線引き必要かもしれません(オリジナル辞書に登録されている単語のみにするとか)。
現在他で進行中の変換結果との差分も取れますので、私の方のデータが完成しましたら評価ください。
夕べも1000-2000まで目を通していたのですが
30000近い辞書、どこまでやり遂げられるか不安な状態でした。
ありがとうございます。実は私自身夕べローマ字表記の統一をしようと試みたのですが、実際日常で使っている場合もかなり統一性が有りませんので自身困りました。まだ困ってますが・・
で、なんかすごい辞書が出来そうで楽しみです!サイズ的に1MB前後(2MB位までは・・)でしたら梅キーの入力性能に対しての代価として問題ないと思います。
ご存知のようにPBOX系の入力はAtok/IMEなどのよう「ひらがなを表示させそれを漢字に変換させる」物ではなく、叩いたキーに該当する文字で始まる登録済みの文字列/単語を呼び出すもの=ユーザー辞書の呼び出し専門の様な=ですので単語登録数が決め手です。
この三日間使ってみた梅ちゃんキー!機能は最高ですが単語呼び出しがうまく行かない、あわてて作った辞書ローマ字が不正確なのとまだまだ単語量が不足していると言う点ですね。
*梅ちゃん入力オプション
軽量辞書とMuni62フルバージョンと二つくらい用意できるようにしましょう。
今朝ほどユーザーからの怒りの電話でシンセンまで来ているreveilでございます。
辞書完成の一助にと手をあげたのは良いのですがここ二日ほど忙しくて何も着手できてません。
その間に辞書もどんどんと完成に近づいているようでびっくりするやら何も出来ないでいるのが申し訳無いやら・・・。
何かできることがあればお手伝いしますので是非声をかけて下さい。
シンセンは何処でしょうか?