梅ちゃん入力日本語版(β)が出来上がった!
しかしまだ文字を呼び出す為の辞書のローマ字が不適格である。
やはりソフトで漢字をローマ字変換した物には限界が有るようである。
昨晩も明け方まで手動で修正していたAsukal,本日も修正をしているがもうくたびれた・・・
同志よ!我々起動電脳解放戦線では今こそ君たちの力を必要としている!
地球上の同志達の日本語入力環境を改善し、救う為のプロジェクト!
さ〜クリックしてDLすべし!そして呪われたローマ字表記を修正しようではないか!
と言う事でお手伝い募集!報酬は梅ちゃん15歳を買ってもいいと言う許可を出す!
全て修正は大変なので有志はコメント欄にエクセルの何番〜何番まで担当と発表後、修正した内容は エクセルのC列へ追記して欲しい。
(取り合えず1〜1000までは目を通した。 やはりかなり重複も出ているので新しい物をアップしておいた)リンクは同じである。)
さ〜立ち上がれ同志よ!
特に単漢字が音読み/訓読みが統一されていない。
また追加したい単語も追加してもらってかまわない。
ち=chiでなくti でお願いします。
し=shiでなくsi (タップ数省略の為)
ちょ=cho
しょ=sho
追加事項;つ=tsuでなく tu でお願いします
このあたりはエクセルの置き換え機能で一気に置き換え可能ですので間違っても良いです。
@明らかに読みが違うような修正
休職=yasumishoku →修正; kyuushoku或いはkyushoku
@母音が二つ並ぶ場合
上記のkyuushoku 様な場合Uは一つでも良いです
@ 語尾がei/ou/aiとなるべきの物がe/o/aで終わっているものも修正願います。
@日本語で「あかるい」等と漢字にで生きるものを発見した場合「明るい」 等と漢字に変換しておいていただくと助かります。
@修正後は asukal@public.szptt.net.cn 或いは sugra@asukal.jp まで
追加事項;つ=tsuでなく tu でお願いします
参考文献;オリジナル辞書とkakashi変換
この中には
1; kana_kanji.txt
*Poboxの辞書から引き出したままのよみがな-漢字の辞書です。
ただし重複、間違い登録したもの、梅ちゃんの方で認識できないデータがそのまま入っています。
梅ちゃんで認識できないものは半角英数字以外のデータが読み=入力される方に入っていると読み込めません、全角数字、記号等です。 私がアップしたエクセルはすでに取り除いてありますがこれはそのまま・・・取り除く作業自体も大変でし
*また読みは本来は濁音の物は非濁音であり、「っ」「ょ」などの小文字は大文字で登録されています。
そしてBirchさんがカナ読みに変換してくださった、
2; Plum_riben_kakasi_kana.csv (漢字から読みに変換したもの)
3; Plum_riben_kakasi_roma.csv (漢字をローマ字変換したもの)
以上三つあります。
いつもお世話になってばかりだ!
そうだ、こういうときにお手伝いしなくっちゃ!
でも3万2千9百4十4もの単語がある!
どこからどこまでやるのが適当なのか判断つかぬが気は心とも言うし一応32001からあとはわしがお手伝いいたそう。
はたしてこれで梅ちゃん15歳を買ってもいい許可がもらえるのだろうか?
梅チャン買って好きにして良いですよ!
よろしくお願いいたします・・・
隊長!質問です!
「し」 は shi でもsi でもなくて ti なのですか? si じゃないの?
あと「ちょ cho? tyo?」とか「しょ sho? syo?」とかどう統一するかもう一度まとめてくれると助かりますです隊長!
ちょ=cho
しょ=sho
で行きましょう。
このあたりはエクセルの置き換え機能で一気に置き換え可能ですので間違っても良いです。
Plum_riben.xls を csv に変換して、今 kakasi 実行中。ついでに shi -> si や 語尾の ei -> e 等も同時にスクリプト中で変換かけています。その辞書をヒトレビューにかけた方が楽かもしれません。
その他、要望あれば tyo -> cho 等等、一発変換できますよ?
できたらとりあえずメールで送ります。
破棄するかどうかはAsukalさんざっと変換結果みて決めていただければと…。
一度見てみます。
それで一発で出来たら最高ですね。
KakasiですがDLしましたが使い方が良く分からなかったもので・・
楽しみに待っています!
っと、送ったあとで気がつきました。大文字はいっちゃってますね。これも一発変換できるので直してみます。
ローマ字側でのソートとかしてなくても平気でしょうか?
なんかちょっと気になったので。ソートされていた方がいい(変換効率がいいとか)ならば、それもできます。
問題は一つの漢字で複数の読み方で登録して有るものが同じ読み方になってしまうと再編集の時困るかも?もし誤変換なら前後の単語から読み方を判断できるんでソートはしないほうが良いかも知れません。
例
苗ですと
nae Nの単語と並んでます、
でもmyouとかbyouにも登録されているのです。
ソフトでは3つともnaeとか同じローマ字にしてしまわないでしょうか?
一旦ひらがなに変換して内容をチェックし、それからローマ字変換という手順がよいのではないかと思います。
ひらがな変換の精度については、kakasi でも固有名詞については弱い部分があります(例えば17721行目の「竜神橋町」を「りゅうかみはしまち」と変換してしまう)。
kakasi 以外で変換精度が高いものに M$-IME の再変換機能がありますので、その2つを使ってまずは辞書ファイル全体をひらがな変換し、両者の差異部分をエクセルの関数でも使って抽出して正しい方に修正、続いてヒトレビューしてひらがな変換結果が固まった後でローマ字変換、という手順が手戻りが少ないかと思います。
明日になりますが、bichirさんのひらがな変換後のデータをアップしてもらえれば M$-IME での変換結果と差分とりますよ。
と書きつつも、現在の方針で突っ走った方が良いですかね。人間ですから勢いが大切ですし・・・
実は私も夕べ
漢字→ひらがな→ローマ字と行いました。
しかしひらがなへ変換した時点でチェックをしていないので余りいい結果では無かったですが。
元辞書をtxtに変換した時点では本来はひらがな読みは有ります。
しかしCOmpobox系の辞書は濁音とか小さな「っ」「ょ」で読みが登録されないのでそれを変換するのはやめました。
例;
ぶっきらぼう 読み登録=ふつきらほう
次の指令を待っております〉〉隊長
の2つのファイルを作って送りますね。
ありがとうございます。
ざっと見てみましたらやはり昨晩私が行った変換と結果は同じようです。実際同じくらい変換できていたようです。
昨晩あれから別のソフトも使ってみました。
Kanji2naと言うソフトで漢字をかなにも直せます。ローマ字もヘボン/訓令式/日本式と読み込めます。
windows IMEの変換辞書を使うようです。
殆どそれと同様な結果です。残念
語尾iやuの欠落、音読み/訓読みのとり違い等です。
やはり最終的には人の手で修正が必要かと思われますが、何か他に良い方法ご
ざいますでしょうか?
下記は送っていた物の中からです。
----------------
takao 貴男 ---音訓相違
bikia 引き合い--音読みの韻とり違い
akuto 悪党---語尾uの欠落
binme 便名---語尾iの欠落
ninga 人が---音読み訓読み違い
a 合い----語尾iの欠落
-----------------
hyo 豹
byo 廟
byo 描
nae 苗----ひ/び-項目でなえと変換(びょう)
ikari 錨----同様にいかりと変換(びょう)
byo 鋲
--------------------
Asukal
音読み訓読みや、同じ字の読み換えはちょっとむずかしいですね。。。
一番問題は同じ漢字が複数あって、違う読み方をソフトにさせる、これが一番の問題点であります。どんな賢いソフトでもこれを見分けるの至難の業ではないかと!
読みのひらがなを変換したものと、漢字から変換したものを合わせるか?でも最終手金は人力が頼り・・・・
muni62さん>色々有難うございます。やはり送っていただいたmuni62さんのソフトでも同じ文字、特に単漢字の読み分けは同様な結果です。これは読み込む相手が辞書と言う特殊なものであるが故いかんともしがたいのかも知れませんね。
やはり人海戦術(^^ゞ でしょうか?
単漢字の異読については、たしか日本語漢字の音訓読みデータベースがネット上にころがっていたと思いますので、それをべースに辞書データを作ればよいと思います。
問題は2文字以上の音訓相違ですね。
色々な辞書を比較して差異をつぶした後は、人の目でしらみつぶしにチェックしていくしかないでしょう。
「っ」や「ょ」が無いですが、この部分ではasukalさんが作成したオリジナルの辞書データが一番精度が高いと思われます。
ひらがな読みと漢字表記対照となっているオリジナルと kakasi データを一度アップして頂けますでしょうか?
ありがとうございます。
一応続きを読むの方からDLできるようにしておきました。
Birichさん>作っていただいたもの勝手にアップしております。お許しを!
現在私のメインPCで辞書データを MS-IME で再変換させています。
スクリプトで1行づつループ処理させているため終わるのはおそらく明け方の4時くらいになります(自動処理なのでつきっきりではありません)。
オリジナル、kakasi変換、MS-IME変換の3データの比較と修正、単漢字異読データの追加、ついでに富豪辞書との比較もやっておきます。
正規表現とSQLを使いますのでデータがそろえば一気です。
(そのあとは人海戦術ですが・・・)
ゆっくりで良いですよ。
取りあえず1〜1000まで目を通した物を再度アップしています。一番最初の物を置き換えてあります。
また、石像→sekizoh となるのはsekizouにしたほうがいいのですか?
seikaでお願いします。
長音はohを使わず ouで願います。