2005年05月26日

★同志よ!団結せよ★

梅ちゃん入力日本語版(β)が出来上がった!

しかしまだ文字を呼び出す為の辞書のローマ字が不適格である。

やはりソフトで漢字をローマ字変換した物には限界が有るようである。

昨晩も明け方まで手動で修正していたAsukal,本日も修正をしているがもうくたびれた・・・

同志よ!我々起動電脳解放戦線では今こそ君たちの力を必要としている!

地球上の同志達の日本語入力環境を改善し、救う為のプロジェクト!

PlumSIP-小梅ちゃん(15才)を救え!

さ〜クリックしてDLすべし!そして呪われたローマ字表記を修正しようではないか!

と言う事でお手伝い募集!報酬は梅ちゃん15歳を買ってもいいと言う許可を出す!

全て修正は大変なので有志はコメント欄にエクセルの何番〜何番まで担当と発表後、修正した内容は エクセルのC列へ追記して欲しい。

(取り合えず1〜1000までは目を通した。 やはりかなり重複も出ているので新しい物をアップしておいた)リンクは同じである。)

さ〜立ち上がれ同志よ!

特に単漢字が音読み/訓読みが統一されていない。

また追加したい単語も追加してもらってかまわない。

ち=chiでなくti でお願いします。

し=shiでなくsi   (タップ数省略の為)

ちょ=cho
しょ=sho

追加事項;つ=tsuでなく tu でお願いします


このあたりはエクセルの置き換え機能で一気に置き換え可能ですので間違っても良いです。

@明らかに読みが違うような修正

休職=yasumishoku →修正; kyuushoku或いはkyushoku

@母音が二つ並ぶ場合

上記のkyuushoku 様な場合Uは一つでも良いです

@ 語尾がei/ou/aiとなるべきの物がe/o/aで終わっているものも修正願います。

@日本語で「あかるい」等と漢字にで生きるものを発見した場合「明るい」 等と漢字に変換しておいていただくと助かります。

@修正後は asukal@public.szptt.net.cn  或いは sugra@asukal.jp  まで

 


追加事項;つ=tsuでなく tu でお願いします

参考文献;オリジナル辞書とkakashi変換

この中には 

1; kana_kanji.txt 

*Poboxの辞書から引き出したままのよみがな-漢字の辞書です。

ただし重複、間違い登録したもの、梅ちゃんの方で認識できないデータがそのまま入っています。

梅ちゃんで認識できないものは半角英数字以外のデータが読み=入力される方に入っていると読み込めません、全角数字、記号等です。 私がアップしたエクセルはすでに取り除いてありますがこれはそのまま・・・取り除く作業自体も大変でし

*また読みは本来は濁音の物は非濁音であり、「っ」「ょ」などの小文字は大文字で登録されています。

そしてBirchさんがカナ読みに変換してくださった、

2; Plum_riben_kakasi_kana.csv (漢字から読みに変換したもの)

3; Plum_riben_kakasi_roma.csv (漢字をローマ字変換したもの)

以上三つあります。

 



posted by Asukal at 01:12| 香港 ☀| Comment(22) | TrackBack(0) | 梅花輸入法 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント

いつもお世話になってばかりだ!
そうだ、こういうときにお手伝いしなくっちゃ!
でも3万2千9百4十4もの単語がある!
どこからどこまでやるのが適当なのか判断つかぬが気は心とも言うし一応32001からあとはわしがお手伝いいたそう。
はたしてこれで梅ちゃん15歳を買ってもいい許可がもらえるのだろうか?
Posted by reveil at 2005年05月25日 19:20
おおお!持つべきは同志!早速大感謝です。
梅チャン買って好きにして良いですよ!
よろしくお願いいたします・・・
Posted by Asukal at 2005年05月25日 19:33

隊長!質問です!

「し」 は shi でもsi でもなくて ti なのですか? si じゃないの?

あと「ちょ cho? tyo?」とか「しょ sho? syo?」とかどう統一するかもう一度まとめてくれると助かりますです隊長!

Posted by reveil at 2005年05月25日 19:56
そのとおりSIです.
ちょ=cho
しょ=sho
で行きましょう。
このあたりはエクセルの置き換え機能で一気に置き換え可能ですので間違っても良いです。
Posted by Asukal at 2005年05月25日 20:17
たぶん、Asukal さんが以前示されていたソフトより kakasi の持っている辞書の方が精度が高いんじゃないかと思います。namazu という全文検索ソフトのバックグラウンドで使われています。

Plum_riben.xls を csv に変換して、今 kakasi 実行中。ついでに shi -> si や 語尾の ei -> e 等も同時にスクリプト中で変換かけています。その辞書をヒトレビューにかけた方が楽かもしれません。

その他、要望あれば tyo -> cho 等等、一発変換できますよ?

できたらとりあえずメールで送ります。
破棄するかどうかはAsukalさんざっと変換結果みて決めていただければと…。
Posted by bichir at 2005年05月25日 21:05
感謝感激です。
一度見てみます。
それで一発で出来たら最高ですね。
KakasiですがDLしましたが使い方が良く分からなかったもので・・
楽しみに待っています!
Posted by Asukal at 2005年05月25日 21:22
さっき送りました。
っと、送ったあとで気がつきました。大文字はいっちゃってますね。これも一発変換できるので直してみます。
Posted by bichir at 2005年05月25日 21:30
あと質問ですが…。
ローマ字側でのソートとかしてなくても平気でしょうか?
なんかちょっと気になったので。ソートされていた方がいい(変換効率がいいとか)ならば、それもできます。
Posted by bichir at 2005年05月25日 21:36
そうですね。一応私のエクセルもソートして有るのですがローマ字がとんでもないのに変換されていて順番が狂っているかも。

問題は一つの漢字で複数の読み方で登録して有るものが同じ読み方になってしまうと再編集の時困るかも?もし誤変換なら前後の単語から読み方を判断できるんでソートはしないほうが良いかも知れません。

苗ですと
nae Nの単語と並んでます、
でもmyouとかbyouにも登録されているのです。
ソフトでは3つともnaeとか同じローマ字にしてしまわないでしょうか?

Posted by Asukal at 2005年05月25日 21:46
漢字から一気にローマ字まで変換してしまうと、目視にて検証することになるでしょうから、結果の検証がし辛くないでしょうか。

一旦ひらがなに変換して内容をチェックし、それからローマ字変換という手順がよいのではないかと思います。

ひらがな変換の精度については、kakasi でも固有名詞については弱い部分があります(例えば17721行目の「竜神橋町」を「りゅうかみはしまち」と変換してしまう)。

kakasi 以外で変換精度が高いものに M$-IME の再変換機能がありますので、その2つを使ってまずは辞書ファイル全体をひらがな変換し、両者の差異部分をエクセルの関数でも使って抽出して正しい方に修正、続いてヒトレビューしてひらがな変換結果が固まった後でローマ字変換、という手順が手戻りが少ないかと思います。

明日になりますが、bichirさんのひらがな変換後のデータをアップしてもらえれば M$-IME での変換結果と差分とりますよ。

と書きつつも、現在の方針で突っ走った方が良いですかね。人間ですから勢いが大切ですし・・・
Posted by muni62 at 2005年05月25日 21:53
皆様ありがとうございます!m(__)m

実は私も夕べ
漢字→ひらがな→ローマ字と行いました。
しかしひらがなへ変換した時点でチェックをしていないので余りいい結果では無かったですが。

元辞書をtxtに変換した時点では本来はひらがな読みは有ります。
しかしCOmpobox系の辞書は濁音とか小さな「っ」「ょ」で読みが登録されないのでそれを変換するのはやめました。

例;
ぶっきらぼう 読み登録=ふつきらほう
Posted by Asukal at 2005年05月25日 22:00
bichirさんの変換のほうが効率良さそうなので様子見の裏切り者は拙者でござる,,,

次の指令を待っております〉〉隊長
Posted by reveil at 2005年05月25日 22:03
じゃ、一気にローマ字&ひらがなまで。
の2つのファイルを作って送りますね。
Posted by bichir at 2005年05月25日 22:07
Bichirさん>
ありがとうございます。
ざっと見てみましたらやはり昨晩私が行った変換と結果は同じようです。実際同じくらい変換できていたようです。
昨晩あれから別のソフトも使ってみました。
Kanji2naと言うソフトで漢字をかなにも直せます。ローマ字もヘボン/訓令式/日本式と読み込めます。
windows IMEの変換辞書を使うようです。

殆どそれと同様な結果です。残念

語尾iやuの欠落、音読み/訓読みのとり違い等です。
やはり最終的には人の手で修正が必要かと思われますが、何か他に良い方法ご
ざいますでしょうか?


下記は送っていた物の中からです。
----------------
takao 貴男 ---音訓相違
bikia 引き合い--音読みの韻とり違い
akuto 悪党---語尾uの欠落
binme 便名---語尾iの欠落
ninga 人が---音読み訓読み違い
a 合い----語尾iの欠落
-----------------
hyo 豹
byo 廟
byo 描
nae 苗----ひ/び-項目でなえと変換(びょう)
ikari 錨----同様にいかりと変換(びょう)
byo 鋲
--------------------



Asukal
Posted by at 2005年05月25日 22:21
語尾の ei -> e は私が読み間違えていて、わざわざ ei -> e に変換していました。ai -> a も同様の理由です。なのでこれは単純に修正できます。
音読み訓読みや、同じ字の読み換えはちょっとむずかしいですね。。。
Posted by bichir at 2005年05月25日 23:25
Bichirさん>メールの件と合わせてコメントさせていただきます。
一番問題は同じ漢字が複数あって、違う読み方をソフトにさせる、これが一番の問題点であります。どんな賢いソフトでもこれを見分けるの至難の業ではないかと!
読みのひらがなを変換したものと、漢字から変換したものを合わせるか?でも最終手金は人力が頼り・・・・

muni62さん>色々有難うございます。やはり送っていただいたmuni62さんのソフトでも同じ文字、特に単漢字の読み分けは同様な結果です。これは読み込む相手が辞書と言う特殊なものであるが故いかんともしがたいのかも知れませんね。

やはり人海戦術(^^ゞ でしょうか?
Posted by Asukal at 2005年05月25日 23:40
ローマ字変換の語尾の二重母音については、ひらがな読みのデータさえあれば、本日私がメールしたスクリプトでいかようにも修正可能です。

単漢字の異読については、たしか日本語漢字の音訓読みデータベースがネット上にころがっていたと思いますので、それをべースに辞書データを作ればよいと思います。

問題は2文字以上の音訓相違ですね。
色々な辞書を比較して差異をつぶした後は、人の目でしらみつぶしにチェックしていくしかないでしょう。
「っ」や「ょ」が無いですが、この部分ではasukalさんが作成したオリジナルの辞書データが一番精度が高いと思われます。

ひらがな読みと漢字表記対照となっているオリジナルと kakasi データを一度アップして頂けますでしょうか?
Posted by muni62 at 2005年05月25日 23:42
muni62さん>
ありがとうございます。
一応続きを読むの方からDLできるようにしておきました。

Birichさん>作っていただいたもの勝手にアップしております。お許しを!
Posted by Asukal at 2005年05月26日 00:08
早速ファイルアップ頂きありがとうございます。

現在私のメインPCで辞書データを MS-IME で再変換させています。

スクリプトで1行づつループ処理させているため終わるのはおそらく明け方の4時くらいになります(自動処理なのでつきっきりではありません)。

オリジナル、kakasi変換、MS-IME変換の3データの比較と修正、単漢字異読データの追加、ついでに富豪辞書との比較もやっておきます。

正規表現とSQLを使いますのでデータがそろえば一気です。
(そのあとは人海戦術ですが・・・)
Posted by muni62 at 2005年05月26日 00:55
ありがとうございます。

ゆっくりで良いですよ。

取りあえず1〜1000まで目を通した物を再度アップしています。一番最初の物を置き換えてあります。

Posted by Asukal at 2005年05月26日 01:11
質問です。20000から直しているのですが、“せい”のあたりなのですが、たとえば“成果”→seka となっていますがこれはseikaと直した方がいいのでしょうか?
また、石像→sekizoh となるのはsekizouにしたほうがいいのですか?
Posted by eye! at 2005年05月26日 09:57
ありがとうございます。m(__)m

seikaでお願いします。

長音はohを使わず ouで願います。
Posted by Asukal at 2005年05月26日 11:09
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス: [必須入力]

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。