#02■発信内容のデータ化
従来型のアクセス解析とは異なり、サイトが発信する情報内容についても、データとして扱うのが、 「WEB体験の可視化」という新しい考え方の特徴です。
各ページ上の全文章を単語(形態素)に分割し、「全単語×全ページ」の行列を作ります。
行列内の数値は、そのページに各単語が何回登場するかの回数です。
つまり、この行列は「サイトが発信する情報内容」を表しています。
一方、先ほどの「来訪者が体験した構造」を表す行列は、次のようなものでした。
これら2つの行列は、「ページ」が横方向に並んでいるという共通性があるので、
1つに連結することができます。 実際には次のようになります。
これに、先ほどと同様の計算を行うと、次のようなマップが得られます。
ご覧のように、個々のページを読まなくても、各ページがどんな内容かが分ります。 文字の大きさは、その語の累計登場回数を表します。 重要な語ほど大きく表示されることになります。 登場回数が少ない語は表示されません。
この例では「量子力学」という語が、どのページにも頻出していたので、中央の原点近くに位置し、 大きなサイズで表示されています。
メインコンテンツがある左側は多くの語で混みあっていますが、サブコンテンツが多い右側は空いています。 ページごとに独自の内容を扱うサブコンテンツでは、頻出語が相対的に少なくなるからです。