DarkBERT? ｜ブログ(ほぼこもセキュリティニュース)｜(株)コンステラセキュリティジャパン

ほぼこもセキュリティニュース　By Terilogy Worx

BERTというものがあります。
注目の技術の一つですよね。
BERTはBidirectional Encoder Representations from Transformersの略で、Googleの自然言語処理のモデルです。
いわゆるAIです。
同じ領域にいくつものものがでてきていますが、いずれも多くのドキュメントを入力してそれを解釈させ、知識として利用しようという取り組みです。
サービスによってそれぞれ特色があります。

既存のこういったサービスは、基本的に一般性の高い人が使う際に有用となるように入力データが選択されています。
間違いを恐れずに言い方を変えるとしますと、なるべく多くの人に有効なものとするために、なるべく多くの人が触れることのできる普通の情報を学習させれば、すごい物知りな普通の人のような人格が生み出せるのではないか、と期待したもののように思えます。

視点を変えまして、インターネットを考えてみます。
最初は小さな研究機関を繋ぐネットワークだったインターネットですが、現在では巨大なものとなっています。
巨大化する中でさまざまな要素がでてきています。
そのなかに、サーフェスウェブとダークウェブという要素があります。

サーフェスウェブはだれでもが特別な意識を必要とすることなくアクセスできる一般的なインターネットコンテンツがある場所です。
閲覧する際には特殊なブラウザや設定等を必要としませんし、Googleなどの検索エンジンを使ってほしい情報を探すことも難しくありません。
一方ダークウェブはどういうものでしょう。
IPアドレスを隠す仕組みを経由して利用することが必要な構成になっていますので、通常のウェブブラウザからはアクセスできません。
構造上の特徴から匿名性が高く保てるものとなっており、この意味で犯罪の温床となりやすいといえます。
このダークウェブにも多くの文書が存在しています。

構図としてはこうです。
サーフェスウェブの利用者：サーフェスウェブの住人、ダークウェブの住人
ダークウェブの利用者：ダークウェブの住人

これではどうやってもダークウェブの住人のほうが使える情報も多くなりますし、有利に活動が展開できると考えられます。
では、そんなダークウェブの情報を使って大規模言語モデルで利用できるようにしてしまうとどうなるだろう、という取り組みがあります。
それがDarkBERTです。

サーフェスウェブとダークウェブとではそこで使われる単語やその意味も異なってきますので、その環境毎に学習させた方が利用上意味のあるものを作り出せることが期待できます。
このDarkBERTをうまく活用することで、こんな点に活用できることが期待されています。