MAXDictioを使ってみる その2
MAXQDAの量的テキスト分析機能「MAXDictio」で日本語データの分析を試してみた体験を順次掲載していきます。
その1では単語の頻度とワードクラウドを試してみました。残念ながら日本語テキストの扱いには課題が多いようですが、Go Listや辞書の利用でうまく活用していく可能性を探っていきたいと思います。
今回は[除外語リスト][Go Lists(包含(語)リスト)]を取り上げます。
※ 日本語化の漏れか、メニュー上では[Go Lists]となっていますが、ウインドウによっては[包含リスト]と表示されます。[Go Lists]=[包含リスト]でどちらも同じ機能を指しています。
除外語リスト
[除外語リスト]はDictioでテキスト分析する際に対象としたくない語を指定する機能です。メニューの[除外語リスト]をクリックして開きます。
除外語リストには2種類あり、それぞれ複数のリストを持つことができます。
① プロジェクトの除外語リスト
プロジェクトに紐づいた除外語リスト。プロジェクトを別のコンピュータで開いた時も利用可能。[タグ・クラウド用の除外リスト]は標準で一番上に表示される。チームで共有する除外語リストにはこちらを使用。
② 包括除外語リスト
PC(ポータブルライセンスの場合はUSBメモリ)に紐づいた除外語リスト。使用しているコンピュータで他のプロジェクトを開いた時も利用可能。他のPCでプロジェクトを開いた時には使用できない。自分専用の除外語リストをさまざまなプロジェクトで使用したい場合など。
③ 除外された単語
選択したリストに含まれる単語が表示される。
新たに除外語リストを作成するには緑の+マークをクリックし、リストの名前を付けます。
除外する単語を入力していきます。右上のボタンをクリックすると、除外語の入力→[Enter]→除外語の入力 と連続して入力していくことができます。日本語ではあまりないかもしれませんが、複数の語がスペースで区切られていても“MAXQDA Analytics Pro”のように“”で囲むことで登録可能です。
もしくは頻出語のリストやワードクラウドから除外語に追加することもできます。操作については、前回掲載しているこちらをご覧ください。
作成した除外語リストは名前の変更や複製、削除が可能です。また、包括除外リストとして保存すれば同一PC上の他のプロジェクトでも利用することができます。
除外語リストをテキストファイルとして作成したものをインポートすることも可能です。左側のボタンをクリックすると新たなリストとしてインポートされます。右側のボタンをクリックすると、既存リストへ追加する形でインポートします。
除外語リストはテキストファイルで保存されています。これをExcelなどのOfficeアプリケーションを使って作成、更新することもできます。
(参考:MAXDictio Online manual – StopLists)
例えば頻出語を見る際に対象となるデータによって除外語が異なる場合など、除外語リストを切り替えて使用することができます。
Go Lists(包含リスト)
Go Listsは除外語リストの逆の働きをします。除外語は分析の対象から外す語をまとめたものであり、包含リストは分析の対象となる語を指定することが目的です。リストの作成や管理は除外語リストと同様です。
([除外された単語]と表示されていますが、[包含された単語]の誤りと思われます)
(参考:MAXDictio Online manual – Go Lists)
[Go Lists]を指定しておくと、[単語の頻度][文脈付きキーワード]を、Go Listsに含めた語のみを対象に実行することができます。
前回紹介した[単語の頻度]を見てみます。
[単語の頻度]>[単語の頻度(包含リストの単語のみ)]を選択、実行してみます。
[Go Lists]で指定した語のみの頻度が表示されました。このように着目する語が決まっている場合には対象とする語を限定して[単語の頻度]機能を利用することができます。
元々MAXDictioが単語として認識しなない場合は対象となりませんのでご注意ください。下の出力の「キャリアパス」「身体的欠陥」はデータには含まれていますが頻度が0となっています。包含リストに限定せずに単語頻度を確認すると、それぞれ『「キャリア」「パス」』、『「身体」「的」「欠陥」』に分かれていました。Go Listsはあくまでも、MAXQDAが切り分けた語の中から分析対象を選択してリストする機能と言えそうです。
まだ制約が多い印象ですが、さらに辞書機能なども試していきたいと思います。
Tips
MAXDictioは形態素解析にMeCabを使用しています。(参考: MAXDictio Online manual – Language Options)
品詞によるフィルタや見出し語化なども将来的には可能かもしれませんね。