テキスト分析 ~いろはの「い」~
テキストデータ分析の基礎を初心者向けに解説
選挙など時事ニュースの解説で使われるワードクラウドや24時間問い合わせ対応してくれるチャットボット、質問に文章で答えるAI適職診断、自動翻訳など、今や当たり前のものとして誰もが利用しています。これらの裏側には、私たちが日常使っている言葉で書かれたテキストデータをコンピューターに理解させるためのさまざまな技術やテクニックが使われています。
自然言語処理、テキストマイニング、形態素解析、固有表現抽出、係り受け解析、評価表現抽出・・・どこかで聞いたことがあるこれらの用語を整理し、テキストデータ分析の基礎を初心者向けに解説します。
- 講師: 川嶋敦子 Ph.D.
情報コミュニケーション学博士号(Ph. D.)取得(論文は、ルーブル美術館における鑑賞体験のテキストデータ分析)。 サンテチエンヌ大学大学院(フランス)修了。
エス・ピー・エス・エス株式会社にてテキストマイニング・データマイニングのコンサルタントを経て、その後R&Dに転籍し、Text Analytics製品の開発に従事。SPSSがIBMに統合された後もIBM SPSS Modeler Premium開発チームのメンバーとしてテキスト分析を中心に製品開発業務に携わる。
現在はフリーランスとして、テキスト分析のアドバイザーや研修の講師などを務める。
- レンタル視聴料金
- じっくり見たい方 – 3ヶ月間何度でも視聴できるシリーズ(すべて)レンタル: 3,300円
- お手軽料金で興味のあるトピックだけ見たい方 – 動画ごとのレンタル(1週間): 120円~310円/1本あたり
- 視聴方法
- 視聴にはvimeoへの登録が必要です(既に登録済の方はログインしてご利用ください)
- 詳しい視聴方法はこちらをご覧ください
※ 2021年7月に開催したオンライン・セミナーを録画したものです(実際のセミナー内容から一部割愛しています)
※ 会社名、商品名等は、一般に各社の商標、または登録商標です
※『テキスト分析〜いろはの「い」〜』は、2019年12月、2020年1月に開催した『自然言語処理〜いろはの「い」〜』を元に内容を更新しております
視聴できる動画
タイトル | 視聴時間 | 内容 |
ワードクラウドを作る方法を学ぶ | 13:56 | 使われている単語の頻度を視覚的に表現するワードクラウド。ニュースやSNSで話題のトピックを表す場合など、目にする機会が増えています。無料で使える「茶まめ」とExcelのアドイン「E2D3」を使い、ワードクラウドを出力する方法を紹介します。 |
世に出たテキスト分析製品から見る主な機能 | 10:02 | 1980年代後半から、テキスト分析を目的とした製品が多く登場しました。これらソフトウェアの歴史的変遷を追いながら、KWIC(Keyword in Context)やキーワード抽出、係り受け解析など、どのツールにも共通する機能を俯瞰します。 |
自然言語処理技術の仕組み | 23:13 | テキスト分析ではまず文章を単語に切り分けます。英語など単語をスペースで区切る言語では簡単な処理ですが、単語の区切りが明確ではない日本語ではどうでしょうか。形態素解析など日本語をを処理する仕組みと課題を解説します。 |
自由回答のテキストデータの分析 KH Coderを用いた分析 | 13:57 | テキスト分析活用の例として、アンケートの自由回答を分析してみましょう。ここではフリーウェア「KH Coer」を使用し、自由記述中の単語と選択式回答の関係を視覚化する「共起ネットワーク分析」「対応分析」を行います。 |
書籍の紹介 | 06:38 | テキスト分析に関連する書籍を紹介します。KH Coderの解説書などとともに、計量文献学の領域の書籍を紹介します。 |
計量の世界 | 08:37 | 計量文献学とはどのようなものでしょうか。先に紹介した書籍を参考に、犯罪捜査など実際に活用が期待される例を紹介します。 |
出現頻度 | 16:39 | 再びKH Coderを使いながら、出現頻度についてじっくりと考えていきましょう。複合語や助詞・助動詞の扱いなど出現頻度に影響する要因と、分析者が考慮すべき点を、実際の操作とともに解説します。 |
語彙の豊富さ | 08:22 | 「延べ語数」と「異なり語数」から表現の多様さを計る考え方や、ある語がどの程度特徴的であるかを計る指標「TF-IDF」の算出方法の解説を通して、語彙の豊富さについて考えます。 |
分析経験から:美術館での鑑賞体験 | 10:00 | 実際の研究でテキストを分析した経験をお話します。 |
出来ていることと、出来ていないこと | 05:33 | ここまで、出現頻度を見たりキーワードを抽出したり、他の変数と組み合わせて視覚化するなど、日本語テキストをどう処理して分析するかを概観してきました。それを踏まえ、質的な分析の必要性を考えてみます。 |
動詞の活用、助動詞・助詞 | 04:21 | 量的テキスト分析では、付属語は切り捨てられがちです。これらが持つ意味は分析において切り捨てて良いものなのか、助動詞・助詞についてについて考えてみます。 |
「ない」問題 | 03:58 | 「~ない」という表現にはいくつかの種類があり、扱いには注意が必要です。「ない」表現を整理し、テキスト分析においてどのように扱えるかを検討します。 |
さらなる言葉の奥深さ | 04:26 | 日本語のさらなる奥深さに触れ、セミナーをしめくくります。 |