ほぼこもセキュリティニュースは2021年1月に掲載を開始しました。
先日、記事の数が100を超えました。
ほぼこもセキュリティニュースはセキュリティに関連するいろいろなネタを扱っています。
これまでの記事の中にどんなワードが重要ワードとして登場しているのか、という切り口でみてみました。
今回利用した手法は、TF-IDF法というものです。
Term Frequency:単語の出現頻度、と、Inverse Document Frequency:逆文書頻度、とを使い、特徴語を抽出する、というものです。
社内の技術者に協力してもらって、過去の記事の特徴語の傾向を数値化することができました。
この情報を使って、100記事までのワードランキングと50記事までのワードランキングとの比較という形で傾向の変化をみてみました。
出来上がったものがこちらです。
100記事までの順位 | ワード | スコア | 傾向 | 50記事までの順位 |
---|---|---|---|---|
1 | マルウェア | 4.942553914 | → | 1 |
2 | 情報 | 3.768050728 | ↑ | 3 |
3 | ファイル | 3.648165961 | ↑ | 圏外 |
4 | 環境 | 3.007401208 | ↑ | 6 |
5 | 脆弱 | 2.985937905 | ↓ | 4 |
6 | システム | 2.869650852 | ↓ | 5 |
7 | パスワード | 2.629950044 | ↑ | 圏外 |
8 | データ | 2.561448494 | → | 8 |
9 | ランサムウェア | 2.546580195 | ↑ | 15 |
10 | 状態 | 2.525354879 | ↓ | 9 |
スコアは大きい値であるほど重要、という感じで当たらずとも遠からずなんだと思います。
一番スコアが高いものは、マルウェアでした。
これは50記事まで時点と100記事まで時点で見る場合、継続して一番でした。
大きく順位を上げているものは、ファイル、パスワード、ランサムウェア、でした。
これらのワードもそういえばよく書いたな、という感じです。
たまにこんな感じで傾向の変化を見てみるのも面白いですね。
また頃合いを見て、やってみようと思います。
次はどんなワードがランクをあげてくるんでしょうね。
この記事をシェア |
---|