研究テーマ

J48 C4.5  fileOtaruH19-J48-C025-M1.txt の場合

アンケートの質問項目の抽出方法を考える。

  1. 議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。
  2. カテゴリ名を含む文だけを抽出
  3. カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示)
  4. カテゴリ名を含むフレーズを構文解析した後に、2文節の係り受けを抽出し、句末が名詞で終了するように修正
  5. 1段落1カテゴリの段落のみを抽出
  6. 1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句点で区切った文を構文解析し、係り元->係り先の対を作成し、名詞で終わるように助詞、助動詞などを削除する。
  7. 1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句読点点で区切ったフレーズを名詞で終わるように助詞、助動詞などを削除する。
  8. 複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続を複合名詞とする。
  9. アンケートを作ってみる。アンケート項目適当に選択する。
  10. アンケートを作ってみる。アンケート項目、TFIDF編 単独カテゴリ
  11. アンケートを作ってみる。アンケート項目、TFIDF編 複数カテゴリ

  1. 複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続、「の」による連結名詞を複合名詞とする。
  2. 名詞トライグラムをカウントする。

抽出対象