こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
突然ですが、もしも気になるアーティストの歌詞にはどんな特徴があるのかが可視化されたら面白いと思いませんか?そこで今回は普段のビッグデータ分析と趣を変えて、GYAO!の歌詞サービスと連携し歌詞の日本語処理分析とその結果のデータビジュアライズに取り組んでみました。
まずは歌詞を解析してデータとして抽出する必要があります。今回は「形態素解析」と呼ばれる日本語処理手法を用いて歌詞の分析を行いました。
形態素とは、意味を持つ最小の単位のことで、形態素解析は、その最小単位に分解するという処理手法です。例えば「明日は日曜日です」という歌詞があった場合、「明日/は/日曜日/です」という形態素に分解できます。さらに「明日(名詞)/は(助詞)/日曜日(名詞)/です(助動詞)」のように、各形態素の品詞も判別できます。
これ以外にも、目的に応じた様々な補正や付加要素を加え、文章の解析を行うことを一般的に「形態素解析」と呼んでいます。今回は約16万曲分の歌詞データに対して、Yahoo! JAPANの日本語処理技術を用いた形態素解析を適用して処理を行い、次にすべての単語(以下歌詞ワード)の出現個数や曲あたりの出現頻度などを計算して、これを歌詞分析用のマスターデータとしました。
まだ特徴などの分析を行う前の段階のデータでも、歌詞に登場しやすい歌詞ワードのランキングを知ることができます。
この結果、約16万曲の歌詞の中で、最も出現頻度が高い名詞は「君」、形容詞は「強い」、動詞は「見る」となりました。ただし、この同じ順位の言葉が必ずしも同時に使われているわけではないという点は留意する必要があります。
しかしこのデータだけでは、「各アーティストの歌詞ワードにはこんな特徴がある」という分析ができません。そのためには各アーティストの歌詞に含まれている歌詞ワードの特徴を統計的に解明する必要があります。アーティストが持つ歌詞ワードごとに「特徴度」を求めて、値が高かった上位歌詞ワードを各アーティストの「特徴語」としました。
これにより、「アーティストAさんの歌詞の中ではよく使われ(要素1)、他のアーティストの歌詞には現れにくい(要素2)歌詞ワード」ほど高い値となり、特徴語として抽出できます。アーティストの保有曲数が少ないと精度が下がるため、今回はGYAO!の歌詞サービスに登録されている曲数が多い順に上位約500アーティストに絞って分析を行いました。
実際の例で見てみましょう。382曲と最も登録曲数が多かった「TUBE」を例に、特徴度のスコア上位20件の特徴語を並べてみると次のようになりました。
「TUBE」において最も特徴度スコアの高い単語は「夏」となり、イメージ通りの結果を得ることができました。この抽出された歌詞ワードは、いろんな角度で眺めるだけでもとても面白い結果を得ることができます。
例えば、このデータから歌詞の中で「自分」と「相手」の呼び方がわかります。一人称と二人称を抜き出してみます。
図4から例えば「aiko」や「いきものががり」は、他のアーティストと比較して自分を「あたし」、相手を「あなた」と呼ぶことが特徴として現れているなどがわかります。また、同じ「私」という呼び方であっても「私」「わたし」「あたし」など、使われる表記でも分かれていることが読み取れます。
アーティスト数では「僕」と「君」の組み合わせが最も多く、自分を「私」、相手を「あんた」と呼ぶ組み合わせは、「やしきたかじん」のみとなっています。
次に、一人称、二人称以外も含めた各アーティストの「特徴語」を使って、歌詞ワードが似ているアーティストを以下の手順で分類してみました。
【分析手順】
【注意事項】
ツールの詳細な使い方はツール内のヘルプで解説していますが、基本的にはアーティスト名を選択することで、そのアーティストの特徴語や、類似アーティストの情報を見ることができます。
機械的な処理で一致スコアを計算して自動的にグラフを生成しただけですが、例えば「モーニング娘。」などのハロー!プロジェクトのアーティストはすべて近い位置に集まった上に、プロデューサである「つんく♂」が所属している「シャ乱Q」まで組み合わせの近い位置に来るなど、感覚的にも納得できる結果を得ることができました。
また、中には「Mr.Children」と「TOKIO」や「矢沢永吉」と「郷ひろみ」のような興味深い組み合わせもたくさんあるため、一通り眺めてお気に入りのアーティストの特徴語をぜひ確認してみてください。
今回はGYAO!歌詞のサービスデータ、Yahoo! JAPANの日本語処理技術、D3jsを用いたデータビジュアライゼーションといった様々な取り組みを連携させた分析・可視化技術に挑戦してみました。歌詞分析に関してはまだまだチャレンジできることが多く残っており、今後は年代別での歌詞ワード傾向や歌詞の持つ感情の評価などもできればと考えております。
今後とも、Yahoo! JAPANビッグデータレポートとデータビジュアライゼーションの取り組みをどうぞよろしくお願いいたします。