@misc{oai:tokyo-metro-u.repo.nii.ac.jp:00007139, author = {コダイラ, トモノリ and Kodaira, Tomonori and 小平, 知範}, month = {Mar}, note = {要約を構築する主な目的は,読み手が文書すべてを読むことなくその文書を理解できるようにすることである.特にニュース要約では,スマートフォンユーザは画面のサイズが限られているので,表示できる限られた量の要約を読みたい.これらの目的を達成するために,ポータブルデバイス向けの要約システムは重要な情報を含んだ要約を限られた要約長の中で生成しなけれぼならない.要約タスクには抽出型と抽象型の2つのアプローチがある.抽出型アプローチは要約を作るために文書の一部(文や句,単語など)を選ぶ.抽象型アプローチは文書に現れない単語も使って要約を生成する.抽出型アプローチは元の文書から出力する表現を直接抽出するので,抽象型アプローチより文法的な要約を作ることができる.しかし,それでは元の文書に現れない単語を選ぶことができない.抽象型要約は機械翻訳タスクとは異なり,おおよその出力は入力の文書から得ることができる.また,抽象型要約では主にEncoder-Decoderという機構を用いる.Encoder-Decoderモデルにおいて入力系列はソース,出力系列はターゲットと呼ばれる.Encoder-Decoderは,ソース(文書)の情報を読み取るRNNのEncoderと,その情報をもとにターゲット(要約)を生成していくDecoderを組み合わせたものである.入出力ともに系列の場合はsequence-to-sequenceと呼ばれる.Sequence-to-sequenceを基に,要約中に入力の文書に現れない単語を含む抽象型文要約タスクに取り組まれている.CNN/Daily Mailデータセットは様々な長さの文で構成された要約が含まれているので,構造化された要約を生成するために要約の構造情報の注釈を簡単につけることができない.そのため,彼らのモデルは構造的な要約の生成ができない.そこで,本研究ではニュース要約のための構造的な要約(3行要約)の生成に着目し,我々はCNN/Daily Mailデータセットと同量の要約データセットをLivedoor Newsから構築した.Livedoor Newsは3行要約とニュースを公開しているので,このデータセットを用いた解析は容易である.3行要約の生成を解析するために,我々はニューラルネットを用いたモデルを用いた.モデルを改善するために,我々は彼らのモデルを基に新しい機構を提案する.我々の貢献は以下である.・3行要約のみを含む新しい日本語ニュースの要約データセットを構築した.・データセットに対して,要約の構造の注釈付けと解析を行った.・このデータセットの特徴を基に3行要約に適応したモデルを提案した.本論文の構成は以下のようになっている.第1章では本研究全体の概要,貢献を述べる.第2章では抽出型要約と抽象型要約についての関連研究について述べる.第3章ではニューラル要約の学習について述べる.第4章では大規模3行要約データセットの構築について詳しく述べる.第5章では3行要約の要約構造の分類モデルと3行要約の要約構造に適したfine-tuningについて述べる.第6章では,要約を構造情報ごとに分類する実験結果について述べる.第7章では.要約の実験結果について述べる.第8章では,実験結果に対する考察を述べる.最後に第9章で本研究のまとめ,今後の展望について述べる., Neural network-based approaches have become widespread for abstractive text summarization. Previous models prevent repetition of the same contents in the summary, but do not explicitly take its information structure into account. One of the reasons they failed to model information structure of the generated summary is that the standard datasets, CNN / Daily Mail summarization tasks, include summaries of variable lengths. Thus, it is not clear how the first sentence contributes to the following sentences, and so forth. To address the lack of the dataset for structured summarization, we introduce a new dataset containing summaries consisting of only three bullet points, and propose a neural network-based abstractive summarization model considering information structure of the generated summary. Our contributions are as follows: • We constructed a new summarization dataset, whose summaries are in the form of three sentences. • We annotated and analyzed the structure of summaries in the dataset. • Our model generates a summary considering the type of summary., 首都大学東京, 2018-03-25, 修士(工学)}, title = {文書構造に着目したニューラル文書要約}, year = {2018} }