ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 07 システムデザイン
  2. 0701 情報科学/情報通信システム
  3. 0701b 学位論文
  4. 修士論文
  5. 2016(平成28年度)

LSTMを用いた日本語形態素解析

http://hdl.handle.net/10748/00009529
http://hdl.handle.net/10748/00009529
32290f23-161b-466f-96c2-b4dbc50bddfd
名前 / ファイル ライセンス アクション
T01175-001.pdf T01175-001.pdf (1.6 MB)
Item type 学位論文 / Thesis or Dissertation(1)
公開日 2018-04-01
タイトル
タイトル LSTMを用いた日本語形態素解析
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_46ec
資源タイプ thesis
著者 北川, 義彬

× 北川, 義彬

北川, 義彬

Search repository
著者(ヨミ) キタガワ, ヨシアキ

× キタガワ, ヨシアキ

WEKO 20244

キタガワ, ヨシアキ

Search repository
著者別名 Kitagawa, Yoshiaki

× Kitagawa, Yoshiaki

WEKO 20245

Kitagawa, Yoshiaki

Search repository
抄録
内容記述タイプ Abstract
内容記述 日本語の処理において形態素解析は機械翻訳,対話などの後段の処理のために必要となる基本的なタスクである.日本語の形態素解析では,主な処理として,単語分割と品詞タグ付けが行われるのが一般的である.日本語,中国語のようなスペースなどの区切り文字のない言語においては,形態素解析のエラーによる後段のタスクへの影響は無視できない.形態素解析は教師データを用いた系列ラベリングによる手法や条件付き確率場を用いた手法が主流であるが,素性を人手で作成する必要がありコストがかかり,素性がスパースになりやすい傾向がある.最近の研究では,自然言語処理のタスクに対して,ニューラルネットワークのモデルの適用が盛んに研究されている.ニューラルネットワークのモデルは,隠れ層の数やベクトルの次元といったハイパーパラメータのチューニングの問題を伴うが,以前のような素性エンジニアリングによる手間を軽減し,高次元でスパースな素性ではなく,低次元で密な素性による学習を実現している.中国語の単語分割においては,ニューラルネットワークを利用した単語分割がstate-of-the-artを記録した.この要因として,Long Short-Term Memory(LSTM)により系列全体の情報や複数の文字から作られる文字のN-gramなどのスパースな素性をうまく扱えるようになった点が考えられる.日本語の形態素解析では,リカレントニューラルネットワーク言語モデル(RNNLM)を利用した研究があるものの,ニューラルネットワークの構造を用いた形態素解析の研究はなされていない.このような背景から,本論文では深層ニューラルネットワークを利用した日本語形態素解析に関しての分析を行った.本研究では,深層ニューラルネットワークによる手法を日本語に適用するために,ひらがな,カタカナ,漢字といった日本語特有の入力情報と日本語形態素解析で広く用いられる辞書を組み込む手法を提案した.本研究では,先行研究に従い,初めに単語分割を行い,その後に分割された単語の品詞を推定するというカスケード方式で形態素解析を実現した.これらの2つのステップでは,どちらも系列ラベリングによる手法を採用した.つまり,単語分割においては,それぞれの文字に,B(Begin),I(Inside),E(End),S(Single)のいずれかのラベルを付与するタスクを解き,品詞付与においては,単語分割後のそれぞれの単語に,名詞,動詞,形容詞などの品詞を付与するタスクを解くことで形態素解析を実現した.実験において,データとしては,日本語解析で広く用いられている日本語書き言葉均衡コーパス(BCCWJ)と京大コーパスを使用した.BCCWJは日本語の様々なジャンルのテキストに,京大コーパスは毎日新聞に,単語境界と品詞情報等がそれぞれアノテーションされたコーパスである.単語分割に関しては,単語の適合率と再現率によるF値,品詞付与に関しては,単語/品詞のペアに対しての適合率と再現率によるF値で評価した.すなわち,品詞付与の評価では,単語分割があっていてかつ品詞付与が正しくなければ正解にならない.また,先行研究の手法と本手法の違い,入力情報の比較,BCCWJのジャンルによる比較,実際の出力から考察を行った.本論文の構成は以下のようになっている.第1章では本研究全体の提案,貢献,概要を述べる.第2章では深層ニューラルネットワークを利用した単語分割,品詞タグ付け(POS付与)についての関連研究について述べる.第3章では深層ニューラルネットワークを利用した日本語形態素解析を単語分割,品詞付与に分けて解く手法について述べる.第4章では単語分割と品詞付与の実験結果と考察を行う.第5章では本研究の結論と今後の展望について述べる.
抄録
内容記述タイプ Abstract
内容記述 This paper presents a Long Short-Term Memory (LSTM) neural network approach to Japanese Morphological Analysis (JMA). Previous work in Chinese word segmentation (CWS) has succeeded in using recurrent neural networks such as LSTM and gated recurrent unit (GRU) and achieves state-of-the-art accuracy. Unlike Chinese, Japanese has several character types such as hiragana, katakana, and kanji, that produce orthographic variations and make word segmentation even difficult. Also, it is important for JMA task to consider the whole sequence to correctly segment, yet traditional JMA approaches rely on features in a fixed window. To address this problem, we propose to employ LSTM to JMA. Experimental results show that our proposed model outper-formed state-of-the-art method only in Japanese Word Segmentation.
内容記述
内容記述タイプ Other
内容記述 首都大学東京, 2017-03-25, 修士(工学)
書誌情報 p. 1-27, 発行日 2017-03-25
著者版フラグ
出版タイプ AM
出版タイプResource http://purl.org/coar/version/c_ab4af688f83e57aa
その他のタイトル
その他のタイトル Long Short-Term Memory for Japanese Morphological Analysis
学位名
学位名 修士(工学)
学位授与機関
学位授与機関名 首都大学東京
学位授与年月日
学位授与年月日 2017-03-25
戻る
0
views
See details
Views

Versions

Ver.1 2023-06-19 16:49:36.217592
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3