EDR 日本語単語辞書を用いた同音語の抽出 您所在的位置:网站首页 小红书封号怎么才能注销账号 EDR 日本語単語辞書を用いた同音語の抽出

EDR 日本語単語辞書を用いた同音語の抽出

2023-03-25 19:42| 来源: 网络整理| 查看: 265

ベースを作成する。このデータベースは発音練習の資料となるもので,長音・促音等が付 くか付かないかによるだけの違いの類音語の組をまとめたものである。 

この分析では,日本語の音節は,先行子音(+半母音)+後続母音にモーラ音素が付随す る/しないもの,と定義した。モーラ音素としてとりあげたのは,母音の長音化した部分/H/,

促音部分/Q/,撥音部分/N/と二重母音の/i/の部分/I/である。日本語の二重母音については,

二重母音ではなく二連母音であるとする説(杉藤 1989)もあるが,ここでは,/ai, oi/等 の/i/の部分にはアクセント核がこないことに注目し,モーラ音素としてとりあげることと する。 

調査の結果,同音語の占める割合は 34.5%であった。同音語の組の中の単語数は,この 単語集合では 2 単語から 37 単語にまで及んでいた。同音語の組数は組の中のそれぞれの単 語の数が増えるのにしたがって減少するが,このような多量の単語集合では,それらが正 確に反比例していた。同音語の組の中のアクセント型には偏りがあり,一つのアクセント 型が平均で 80%ほどを占めているので,同音語のアクセントによる区別は効果的ではない ことが分かった。 

母音型の音節(直音節)にアクセントが付く確率は平均 13%,半母音+母音型の音節(拗 音節)では平均 16%で,母音の種類による有意な差はなかった。モーラ音素の影響につい ては,モーラ音素が付いた音節にアクセントが付く確率は,後続する半母音や母音の種類 によらず,平均より数%高くなった。母音型の音節と半母音+母音型の音節を合わせると,

アクセントの付く平均的な確率は 14%であったが,どの種類の先行子音の音節でも,モー ラ音素が後続する音節の確率は,平均より数%高かった。第三節ではモーラ音素の聴取や 発音が不完全で脱落した場合に,間違う可能性がある単語の候補を検索する表を作成した。

これらのデータベースは,言語処理の基礎研究だけでなく,漢字語彙教育の発音・聞き取 りの指導のために有用なものである。 

 

第一節  EDR 日本語単語辞書を用いた同音語の抽出   

1.1.  同音語の先行研究 

本章では,日本語の漢字の発音の側面について,特に漢語に多い同音語と,それにモー ラ音素の付いた類音語を統計的に調査研究する。   

同音語に関する研究では,『同音語の研究』(国立国語研究所 1961)が計算機導入以前の まとまった同音語の資料として重要なものである。電子化された資料として, 『電子計算機 による新聞の語彙調査Ⅱ』(国立国語研究所 1971)に,量的な同音語のデータが示され, 『電 子計算機による国語研究Ⅲ』(国立国語研究所 1971)にはその分析がなされている。 『高校・

中学校教科書の語彙調査分析編』(中野 1989)は高校教科書による同音語の調査を行い,同 音語の語彙量について『新明解国語辞典』の見出し語による調査との比較も行っている。 

本研究では基礎となるデータとして,EDR(日本電子辞書研究所)が編集した『EDR 電子 化辞書』(1994)の「日本語単語辞書」を用いることとする。 

  『EDR 電子化辞書』は,コンピュータによる言語処理のために開発され,単語辞書,対 訳辞書,概念辞書,共起辞書,専門用語辞書と EDR コーパスから構成されている。これは,

基盤技術研究促進センターとコンピュータメーカー8社(富士通,日本電気,日立製作所,

シャープ,東芝,沖電気工業,三菱電機,松下電器産業)との共同出資のプロジェクト(1986

〜1994)により開発されたものである。 『EDR 電子化辞書』は自然言語処理,知識処理シス テムの研究と応用開発に多く利用されている。日本語単語辞書の基本的役割は,単語と概 念(意味)との対応関係を記述し,対応関係に文法的特性を与えることであるとされている。

本研究で『EDR 電子化辞書』を用いる理由は,大量データが電子化されていることと,ア クセント情報があること,さらに,記号で概念による識別がなされていることから,解析 に適した資料であると判断されたためである。 

 

1.2.  同音語の定義 

  同音語について述べる前に,まず同音語とは何かを定義する必要がある。そのためには,

言葉をどのレベルで区切るかということが前提として明確にされていなければならない。

中野(1989)は, 『高校教科書の語彙調査』(国立国語研究所 1983)・『高校教科書の語彙調査

Ⅱ』 (同 1984)の,W 単位(単語レベル)と M 単位(形態素レベル)との二単位よる分類を採用 して,同音語の調査を行っている。W 単位とは,Word 単位で,いわゆる文節にもとづいた 長い単位である。M 単位は Morpheme 単位で,W 単位で区切られたものをさらに細かく構成 要素単位で区切ったものである。それらの分類によって得られた同音語の,総数に対する 割合は表 3-1 の通りである。 

国語辞典の見出し語を使う場合は M 単位の異なりになる。中野(1989)の『新明解国語辞 典』による同音語の調査では,同音語は全体の語数の 36.6%である。 

  本調査においては『EDR 電子化辞書』の「日本語単語辞書」を用いるので,単位は M 単位 で,異なり語数を調べることになる。本研究ではこの区切りを用いて,かな表記が共通す る単語を同音語とする。 

 

<表 3-1>  高校教科書の同音語の割合 

単位  助辞の扱い等  延べ(%)  異なり(%) 

助辞を含む  63.6  35.4 

M単位 

助辞を除く  31.7  34.9 

助辞を含む  61.4  − 

助辞を除く  22.6  − 

W単位 

2M単位以上  2.6  − 

(国立国語研究所報告 99『高校・中学校教科書の語彙調査分析編』1989) 

   

1.3.  統計分析のための資料 

1.3.1  EDR 日本語単語辞書の普通名詞 

本研究では『EDR 電子化辞書』の「日本語単語辞書」の,全体の「単語見出し」の約 41 万語から,約 70%を占める約 30 万語の普通名詞を抽出し,次に,その 15%を占める外来 語を除いて,残りの「単語見出し」約 256,000 語を統計分析の元の資料として使った。中 野(1989)の国語辞典の同音語の品詞別の割合を見ると,名詞が 81.1%,動詞が 6.4%,形容 詞が 0.4%で,名詞が 8 割を占めている。このことから本調査では,同音語の 8 割が属す普 通名詞を抽出することとした。さらに,サ変動詞も「日本語単語辞書」では名詞としても扱 われているので,それらはこの資料に加えられている。和語の用言については,実際には 活用して使われるものであり,付属語の助詞等も他の語に付属して成り立つので,この調 査からはそれらを外し普通名詞に限定した約 256,000 語を分析に用いた。辞書にある普通 名詞をすべて統計的分析の対象にするので,頻度の非常に低い,ほとんど目にすることのな いような単語もこの単語集合には含まれている。 

「日本語単語辞書」には「レコード番号,単語見出し,連接属性,かな表記,発音,品詞,

構文木,活用,表層格相,機能語,概念識別子,英概念見出し,概念見出し,英概念説明,

概念説明,用法,概念別頻度,単語別頻度」の情報が収められている。そのうち, 「レコー

ド番号,単語見出し,かな表記,発音,品詞,概念識別子,概念見出し,概念別頻度」を 調査に用いた。 

 

1.3.2  同音語の統合の過程 

約 256,000 語の「単語見出し」の約 80%は,同じ発音の単語のグループに属していた。

しかし,それらのグループの単語のすべてが,同音語であるわけではない。見出し語 5〜7 万程度の一般的な国語辞典では一つの見出し語として扱われている単語が,EDR の「日本語 単語辞書」の「単語見出し」では,意味や表記の違いによって細かく分かれている。これは EDR の「日本語単語辞書」が自然言語処理関連の需要により作成されているため,意味の違 いによって語を一つ一つ詳細に区別しているからである。そこで,次のような段階を踏ん で「単語見出し」の統合の処理をした。 

 

段階 1.「発音」が重複した「単語見出し」のグループに,同じ「概念識別子」(単語の概 念の最小単位)の部分組があるならば,代表として「概念別頻度」が最も高いも のを残す。「概念別頻度」が同じ場合には,「単語見出し」の最後の行を残す。最 後の行は「単語見出し」のうちで最も漢字表記を多く含むものである。  

段階 2. 「発音」が重複している「単語見出し」の組の中で,「概念見出し」 (「概念識別子」

よりは大きいまとまりであるが,一般的な辞書の見出しよりは細かい単位)が同 じ部分組があれば,段階 1 と同じ方法で代表を残す。 

段階 3.「発音」と「単語見出し」が同じ組の中から,代表として「概念別頻度」が最も高 いものを残す。 「概念別頻度」が同じ場合には,EDR の「レコード番号」の順で最 後の行を残す。 

 

統合の経過を図 3-1 に示す。段階 1 で元の「単語見出し」の 256,000 語が 30%減って 178,000 語に,段階 2 で 18%減って 147,000 語に,段階 3 で 16%減って,124,000 語にな った。これは元の「単語見出し」の約 50%である。 

削除過程の具体例を表 3-1 に示す。表 3-1は「カイコ」と発音される語の例であるが,

はじめの段階で「単語見出し」(HEADWORD)に,「買い子」「買子」「回顧」「解雇」がそれぞ れ二つずつあるが,段階3までに,それぞれ一つになり,「買い子」と「買子」は「買子」

一つに代表されている。ただし,「買い子」「買子」のような異表記同語は,違う「概念見

出し」(HEADCONCEPT)を持つ場合,二つとも残ることになる。これは単語によって違いが生 じるが,この調査では EDR の「概念見出し」に従って,この段階で得られたものを用いる こととする。なお,『電子計算機による新聞の語彙調査Ⅱ』では,「うけとり/受け取り/受 取り/受取」のような異表記同語も同音の単語(短単位)として抽出されている。   

このようにして統合された単語集合を以下の統計分析のために用いた。  

 

 

<図 3-1> 見出し語重複の削除過程   

 

<表 3-1> 見出し語重複削除の例 

RECORD NO. HEADWORD P RONUNCIATION HEADCONCEPT  PROCESS

JAPANESE  ENGLISH MAIN STEP1 STEP2 STEP3

JWD0257498 買い子 カ イコ 0 1f1dff 買い子[カイコ] PURCHASING AGENT ○

JWD0257499 買子 カ イコ 0 1f1dff 買い子[カイコ] PURCHASING AGENT ○ ○

JWD0425223 買い子 カ イコ 0 3c62c9 買い子[カイコ] PURCHASING AGENT ○

JWD0425224 買子 カ イコ 0 3c62c9 買い子[カイコ] PURCHASING AGENT ○ ○ ○ ○

JWD0548703 回顧 カ イコ 1 3d0c34 回顧[カイコ] REVIEW ○ ○ ○

JWD0517475 回顧 カ イコ 9 3ceda6 回顧する[カイコ・スル] REVIEW ○ ○ ○ ○

JWD0036237 解雇 カ イコ 0 0e8908 解雇する[カイコ・スル] FIRE ○ ○ ○

JWD0543791 解雇 カ イコ 62 3d032f 解職する[カイ ショク・スル] FIRE ○ ○ ○ ○

JWD0036263 懐古 カ イコ 4 0e890a 懐古する[カイコ・スル] REMINISCENCE ○ ○ ○ ○

JWD0036175 蚕 カ イコ 16 0e88cf カイコ[カイコ] SILKWORM ○ ○ ○ ○

             CONCEP T IDENTIFIER 10 8 7 5

       CONCEPT OCCURRENCE FREQUENCY    NUMBER OF HEADWORDS AN EXAMPLE OF THE PROCESS OF CONSOLIDATING THE EDR HEADWORDS

 

STEP 1

STEP 3 STEP 2

0 50,000 100,000 150,000 200,000 250,000 300,000

256,000 words -30%

-18%

-16%

DIFFERENT "CONCEPT IDENTIFIER" WORDS

DIFFERERNT "HEADCONCEPT" WORDS

DIFFERENT "HEADWORD"  WORDS

DIFFERENT "CONCEPT IDENTIFIER,"

"HEADCONCEPT" AND " HEADWORD"  WORDS

DUPLICATED WORDS

178,000 words

124,000 words

 ¦̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲¦̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲̲¦

0      50      100        RATIO TO THE EDR DICTIONARY (%)

100%

PROC ESS TO CONSOLIDATE THE DUPLIC ATED WORDS

NUMBER OF WORDS

COMMON  NOUNS  EXTRACTED  FROM THE EDR JAPANESE  WORD  DICTIONARY (LOAN WORDS EXCLUDED)

147,000 words



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有