Cloudmark is now part of Proofpoint. Learn More

About Proofpoint

スパムの効果的なフィルタリングのためのレピュテーションベースアプローチ

コンテンツ

  1. 抜粋
  2. イントロダクション
  3. Cloudmark技術の基礎
  4. 関連項目
  5. アーキテクチャ
  6. スパムの一括定義
  7. フィンガープリントとそのシステムパフォーマンスへの影響
  8. 全体的な適合性
  9. 送信者のレピュテーション
  10. 結論
  11. 参照

抜粋

Cloudmarkの包括的なスパム対策は、実際のユーザーからの怪しいメッセージの報告によって得られる「レピュテーション」を追加要素として実装しており、従来のブロックやフィルタリングの方法より迅速で効果的であることが立証されています。Cloudmark Global Threat networkのコアはTrust Evaluation System(TES)です。 TESは大規模受信者コミュニテイがメッセージの評価にどれだけ合意したかを追跡することで、報告者の「評価」を保証します。また、Cloudmarkは高度に熟練したフィンガープリントアルゴリズムの自動化システムを使用しています。高度なメッセージフィンガープリンティングで、内容のプライバシーを守り分析するデータを減らします。メッセージのフィンガープリントがスパムとして認識されると、そのフィンガープリントに一致するすべてのメッセージが将来にわたって自動的にフィルタリングされます。 レピュテーションベースの協調性システムは用語、ホスト、または人々について一般化しないので、管理コストを削減しながら、特に誤検出に関してスパム検知の精度を向上することが立証されいます。

イントロダクション

スパムはどこにでもあります。 それは単に迷惑なだけではなく、情報技術の出現がもたらす生産性の向上を阻害します。従業員は大量の不正なメッセージをかき分けるのに日々莫大な時間を割いています。自動化スパムフィルタが劇的にスパムを減少させましたが、これらフィルタを使用するのに必要な訓練に費やす時間はフィルタリングされていないスパムを単に削除するのに必要な時間と同程度、もしくはそれを超えています。

スパムが本質的に多数の個人に向けた単一のメッセージで構成されていることを考慮すれと、自動化スパムフィルタに関連するトレーニング負荷を同じ不要なメッセージを受け取る個人の大規模なコミュニティに分散させることができると考えました。この理論では自治コミュニティがまとめて新しいメッセージを「スパム」か「スパムでない」かに分類します。

コミュニティの共同意思決定を使用した場合、個人や企業の管理コストやトレーニングコストを削減し、またメッセージの誤分類の精度のコストも削減します。 メッセージの誤分類は3つのカテゴリに分けられます。

  1. 正当なメールをスパムとして誤分類する「誤検出」
  2. 正当で重要なビジネスメールをスパムとして誤分類する「深刻な誤検出」
  3. スパムを正当なメールとして誤分類する「検出漏れ」

誤分類の中でも誤検出と深刻な誤検出は最も重要な問題です。検出漏れが全体的な生産性を損ねるのに対し、誤検出と深刻な誤検出は組織に対して即時かつ大幅なコストをもたらします。 (偶然にも、我々のアンチスパムソリューションの研究では、誤検出と深刻な誤検出がすべてのスパム誤分類の中で最も報告がされていないことが分かりました。) ということは、もしコミュニティが — スパムフィルター—を訓練し誤検出や深刻な誤検出の割合を減らすことができれば、スパムとして誤分類された正当なメッセージの送信者に発生したコストが低減され、またメッセージを必要とする受信者のコストも同様に低減します。

スパムフィルターの訓練と正確性の確保に関するコストの削減、特に誤検出の正確性に伴うコストの削減が、Vipul’s Razor™[4] とその派生物をはじめとする協調型スパムフィルタリングアーキテクチャを作成した主な動機です。こうしたシステムのおかげでユーザーは、下記のように、メッセージのフィンガープリントを特定して提出できます。フィンガープリントの付いているメッセージがユーザーのコミュニティによってスパムと裏付けられた場合、このメッセージは既知のスパムメッセージに分類されます。

Cloudmark技術の基礎

最初の作成者がスパムに関わり始めたのは1996年、USENETへの投稿の結果、自分の使用する速度300ボーのモデムを通してスパムが侵入し始めた時です。当時彼は、匿名のリメイラー[6] とオニオンルーティングについて研究しており、送信者が匿名でネットワーク・トポロジーも不明なメッセージ・システムを始めとする、より広範な文脈においてスパム対策を検討したいと考えていました。設計基準を満たす基本案は、ごく少数の最初の受信者がメッセージがスパムであることを突き止め、当該メッセージがスパムであるため他のユーザーが読む前に削除される可能性がある旨をユーザーのコミュニティ全体に自動で通知する方法を提供することでした。言い換えれば、協調的な人間の知性がメッセージをスパムだと「特定」し、自動テクノロジーがそれを確認して拡散を防止するというものでした。

このシステムはVipul’s Razorという名でプロトタイプのオープンソースプロジェクトとして1998年に発表されました。2001年には大幅なアップデートをRazorに施し(Razor2)、VipulはCloudmarkというメッセージセキュリティ会社を共同設立しました。現在、 Razor2の根底にある共同クラシファイア、そしてCloudmarkのすべての製品はCloudmark Global Threat Networkとして知られています。サービスは、大規模に運用されており世界中で1800万人のスパムをフィルタリングしています。 サービスの目標は、最初の2〜3の報告でメッセージがスパムでないか正確に判断することで、数人の報告者が新たなスパム攻撃に対してクラシファイアを訓練できるようにするものです。このサービスの中核は、受信者のコミュニティ内で過去の合意と不同意をモデル化し、ユーザーが提出したフィードバックの整合性を確保するレピュテーション測定分析です。この自動化とリアルタイムのアプローチが大幅に個人のトレーニングと企業管理コストを削減します。

スパムトラフィックの近年の莫大な増加はアンチスパムテクノロジーの進化を促しました。 多くの新しい方法が発見され、評価され、配備されています。人気のあるアプローチは以下に示すアドレスホワイトリスト、IPブラックリスト、ベイズクラシファイアです。

アドレスホワイトリスト

このシンプルで人気のある分類方法は「アドレスホワイトリスト」と呼ばれ、受信者によって承認された知人からしかメールを受け取れないようにする方法です。前提として「許可された送信者」リスト以外のスパムは受信箱に届きません。この分類は実装が非常に容易であり、明確に定義された相手だけとの交流をする受信者に最適です。しかし、その性能は受信者のネットワークが広がるにつれ、受信者が継続的に更新しなければなりません。またアドレスベースの分類はアドレス偽造の影響を受けやすく、明確に定義されたリストを使用すると、リスト外のアドレスの最初の通信を妨げる可能性があり精度のリスクも高くなります。この論文の後半で議論するように、アドレスホワイトリストに関連付けられた欠点の多くは送信者認証スキームと評判ベースのトレーニングで軽減することが可能です。

IPブラックリスト

スパム停止のその他の一般的な方法は、スパムを送信すると知られている、または設定ミスが原因でスパムを送信する可能性を有しているメールサーバからのすべての着信トラフィックをブロックすることです。既存のスパムメールサーバからのメールを拒否したいサーバーは、IPアドレスにでの既存スパム生成メールサーバのリストを取得することができ(RBL、リアルタイムブラックホールリストと一般的に呼ばれている)、それらシステムからの接続をすべて拒否することができます。インターネット上の最も脅威度の高いサーバーをブロックするには強力な方法ですが、特定のメールサーバーからすべての受信メッセージを拒否することで誤検出や深刻な誤検出を多く生み出す可能性があります。 ブロックリストのサーバーが通常のメールを送っている場合、サーバーについての迅速なフィードバックを提供できなければ誤検出をほとんどゼロに抑えたい組織ではメッセージ配列に関してより良い粒度を提供する技術を模索する必要があります。

ベイズクラシファイア

統計的なテキスト分類システムは、ナイーブベイズ(NB)クラシファイア6のように、前のメッセージのコーパスへの着信メールの意味的類似性に基づき分類します。 NBクラシファイアはメールの内容の単語と文章(その他言語的単位)をトークン化し、スパムと通常のメッセージのさまざまな単語やフレーズの出現確率を登録します。言語単位とそれに対応する確率の学習されたセットは、受信メールを分類するために使用される「仮説」を構成します。統計的なテキスト分類器は受信者によって段階的に訓練される必要はありますが、トレーニング自体は受信メールの頻度と比べて多くはありません。ほとんどの実装はツールのトレーニングの必要性を相殺するための出発点として機能内蔵の仮説が付属しています。訓練後は、統計テキストクラシファイアは、非常に正確に正当なメッセージとスパムを識別することができます。 このシステムは特定のユーザの好みが反映するトレーニングコーパスが使用可能なシングルユーザー環境で最適に動作することが知られています。現在一般的には許容範囲のスパム検出性能を得るため、ブラックリストのような直交クラシファイアが増加しています。

アーキテクチャ

Cloudmark Global Threat Network サービスは個人ベースではなく、コミュニティベースのフィルタートレーニングシステムです。これは、意味解析方式に依存せず、コミュニティが訓練する大規模な直交フィンガープリントスキームを使用しています。

本サービスは4つの重要なアーキテクチャ上のコンポーネントで構成されています。 エージェント、指名サーバ、カタログサーバー、Trust Evaluation System(TES)と呼ばれるレピュテーションシステムです。エージェントソフトウェア一式はメール受信者が「メッセージがスパム」、「メッセージがスパムではない」のような報告をするのに用いる様々なソフトウェアパッセージで構成されています。このフィードバックは指名サーバに送信され、メッセージに対して小型のフィンガープリントが生成されます。フィンガープリントの大きさは14〜20バイト程度です。このシステムは内容全体を通信するというよりはメッセージをフィンガープリンティングし、メール受信者のプライバシーを守るだけではなく、伝送、格納、およびフィードバックの処理に関連するコストを劇的に低減するものであります。のちにこの論文でスパムフィンガープリントについて詳しく議論します。

提出されたフィードバックはノミネーションサーバに渡され、そこで受信者に指名された新しいスパムもしくは誤検出のフィンガープリントのすべてが集められます。もしすべてのユーザーが平等に絶えずメッセージの処理を決定できる場合、1人のユーザーはあるフィンガープリントを「スパム」または「スパムではない」と使命、そしてフィンガープリントがコミュニティ内に再配布されます。 しかしCloudmark Global Threat Networkサービスは複数の信頼のおけるメンバーからのフィードバックを必要とします。フィンガープリントの妥当性におけるコミュニティの正当性を決定するロジックはTESで具体化されます。 TESは新しいレポートが有効か無効かのみ決定します。TESがどのように動作するかの概要は次のセクションで提示します。

TES システムがフィンガープリントを「スパム的」と認識すると、フィンガープリントはカタログサーバーに追加されます。 ユーザーが受信したすべてのメッセージはフィンガープリント化されており、フィンガープリントはカタログサーバーで照会されます。 照会されたフィンガープリントがカタログサーバーに存在する場合、エージェントはスパムとしてメッセージをフィルタリングします。もしフィンガープリントがカタログサーバーに存在せず、 受信者がそのメッセージをスパムと感じるのであれば、受信者は指定サーバにフィンガープリントを提出し、再び処理が始まります。

ユーザーのデスクトップ上に常駐するエージェントは、新しいメールのフィンガープリントを計算し、このフィンガープリントを

  1. スパムフィンガープリントカタログサーバに提出します。カタログサーバがデータベース内でフィンガープリントを持っている場合、
  2. サーバはメッセージがスパムとしてコミュニティによってフラグが立てられたとエージェントに伝えます。もしフィンガープリントがカタログサーバーに存在せず、受信者がメッセージがスパムだと感じている場合、受信者はエージェントに
  3. フィンガープリントをノミネーションサーバーに送信するように指導し、フィンガープリントをノミネーションデータベースに組み込みます。
  4. 信用評価システムであるTES、継続的監視
  5. 複数の信用できるメール受信者によって送信された新しいフィンガープリントがないか、指定データベースを監視します。十分に信用のある複数の受信者が同じフィンガープリントを提出した場合は、フィンガープリントはカタログサーバーに昇格され、処理が続行されます。

Process Flow Diagram of the Cloudmark Global Threat Network Service

図1:Cloudmark Global Threat Networkサービスのプロセスフロー

Trust Evaluation System(TES)

TESはGTNサービスのレピュテーション測定基準もしくは信頼システムで、指名サーバーに送信されたすべての新しいフィードバックを評価します。TESの主な機能は、フィンガープリントに「信頼」を割り当てることです。Cmn (正当) と Cmx (スパム)の値の間で、個々のフィンガープリント報告の「評価」と「信用性」が使用されます。信頼レベルtは、すべてのコミュニティ報告者に添付される有限数値です。値tは、報告者が指名したフィンガープリントの今までの裏付け的信頼から計算されます。円形の任務が効果的に安定した閉じられたループ制御システム内で分類器を回します。

Process Flow Diagram of the Trust Evaluation System

図2:Trust Evaluation Systemのプロセスフロー

Cloudmark Global Threat Networkサービスの心臓部はTrust Evaluation System(TES)です。 これはコミュニティーのフィンガープリント配置での信頼、およびコミュニティーのメンバーによって下された決定にシステムが置く信頼の両方を決定するコンポーネントです。続いてのプロセスでは、コミュニティのメンバーは新しいスパム(1)を受け取り、それについての感想を(スパムかスパムでないか)指定サーバーに報告し、それがTES (2)に報告されます。 各個別のレポーターに関連付けられた信頼関係に基づいて、TESがフィンガープリントに信頼性を割り当て(3)、 コミュニティに配布するためGTNサービスにそれを報告します(4)。 TESはその後メッセージの個々の評価の信頼性を決定するために、コミュニティの信頼値を再評価します。

現実世界のように、信頼はゆっくり得るもので達成困難なものです。新しい受信者は、ゼロの信頼レベルから始まります。最初期(クラシファイアの導入時)は、高信頼度の受信者はほんの少数しかいません。ゼロの信頼度しか無いコミュニティメンバーはフィードバックを提供し、TESは信頼度の高いメンバーがそれに同意した場合報酬を与えます。言い換えれば、TESはある報告者が信頼度の高い受信者と同意見であれば、トラストポイントを与えるということです。フィンガープリントに高い信頼性が得られるということは、信頼性の高い受信者が報告したということであり、TESは最初に報告した報告者達に小さな信頼報酬を与えます。

信用されていない受信者が頻繁に正しい報告をすることで、徐々に信頼される受信者としての地位を確立していきます。信頼性が高くなると、今度は他のユーザーの信頼性を審査するプロセスに参加することになります。 こうすることで、TESは「評価が高く」「信頼の置ける」メンバーを揃えたコミュニティを作り上げます。TESはまた多数派と意見を違えるメンバーにペナルティを与えます。 ペナルティは報酬よりも重く、信頼を積み重ねるのが難しい代わりに信頼を失うのは簡単だと言えるでしょう。

TESの第二の役割はフィンガープリントにコンフィデンスを与えることです。フィンガープリントのコンフィデンスは報告者の信頼レベルと報告の処理(ブロック・ブロック解除)の機能です。TESはリアルタイムで報告のたびにコンフィデンスをアップデートします。コンフィデンスがスパムであると確信できるしきい値に達すると、カタログサーバーに昇格します。フィンガープリントが信頼度の高い受信者にブロック解除されている場合、そのコンフィデンスはスパムコンフィデンスの平均以下となり、カタログサーバーからすぐに削除されます。コンフィデンスアサインメントの結果は非常に迅速で、数秒で自己修正ができます。

より正式な用語でいえば、あるフィンガープリント報告の一団をRとし、それぞれが信頼レベルtrを持っています。それらは処理すべき報告drがあり、もしフィンガープリントが正当なメッセージをスパムと誤認した場合dr = -1となり、もしメッセージがスパムであるならtr = 1となります。数個のフィンガープリントが収集された後、以下の式を使用してフィンガープリントの信頼を計算することができます。しかしTESは攻撃の脆弱性の低減のため、上記アルゴリズムの変形を使うことが申し上げておきます。

TESの出現プロパティ

TESは大規模に展開されたと複数の望ましく、驚愕するような出現プロパティを保有します。これらのプロパティはシステムの有効性に重要であり、首尾よく設計されたレピュテーションメトリックの典型的なものです。このセクションではこれらプロパティの一部について議論し、また他のスパム対策のアプローチに関連するプロパティと対比をします。

confidence equation

反応性

TESの報酬選択メトリックは、正確かつ早期に報告する受信者を好みます。これはTESが、時間が経つにつれて、最初の報告がスパムだとコミュニティに受け入れられるか可能性が高い報告者全員を特定できることを意味しています。信頼された受信者のグループが大きくなると、最初の2~3の報告はフィンガープリントの最終処分について極めて信頼性の高い予測ができるようになります。 その結果、GTNは、新たなスパム攻撃に非常に迅速に対応することができます。

専門家の監視を要するか、または個々のサンプルで訓練できないアンチスパム方式は、かなり長い応答時間を必要とします。これらのシステムは、既存のフィルタリング仮説によるアドレス不可能な一時的な攻撃を止めることができません。

自己訂正

負の決定をする能力 (メッセージがスパムではない)は、信頼割当てアルゴリズムの動的な性質と組み合わせられており、初期予測で大多数の見解と互換性がない場合に迅速な自己補正を可能にします。 コンフィデンスと信頼割り当てが絡み合っているため、コミュニティの意見の相違はフィンガープリントの信頼だけでなく、スパムとしてフィンガープリントを報告するための信頼が減少した際の即時補正となります。一貫した整合決定を下す報告者だけが信頼状態を保持するため、信頼度においての履歴トレンドを形成します。学習の観点から、報告者のレピュテーションや信頼値は、クラシファイアが下す良い決定やミスを合わせた全体的な履歴を表します。

モデリング不一致

TESを稼働した後に我々がすぐさま学んだことは、特定のフィンガープリントは平均的スパムコンフィデンスレベルのなかでころころ移動するということでした。これらフィンガープリントは通常ニュースレター大量送信メッセージのようなもので、望ましいと感じるものもいれば望ましくないと感じるものもいました。 メッセージがスパムかどうか、"本物の"コミュニティの合意が得られなかったため、信頼できる受信者のコミュニティはこれらのフィンガープリントの処分に反対しました。 不一致のパターンをモデル化することによって、我々はTESに疑問点の残るフィンガープリントのフラグを特定するように教えました。エージェントはフィンガープリントについて統一した意見がない場合、すべての受信者に対して主観的に定義することができるようにし、帯域外の基準に基づいてソースのメールを、分類することができるようにしました。

Cloudmark Global Threat Networkサービスのようなにクラシファイアにとって、競合のモデリングはシステムの精度をスコープするので非常に重要です。クラシファイアが制限されている場合は、必要に応じて他の分類方法を呼び出すことができます。Cloudmark Global Threat Networkサービスでは、 競合ロジックがフィンガープリント不一致の際の防御となります。 もしスパムと正当なメールが同じフィンガープリントを生成する場合は、フィンガープリントは不一致としてフラグが立てられ、分類決定から除外されます。 不一致の集合割合は信用できるコミュニティ内での考えの相違のレベルを表します。 もし不一致のレベルがとても低ければ、信頼モデルが正常にコミュニティの集合的な知恵を表しているといえるでしょう。

ナイーブベイズのような統計的文書クラシファイアを含むほとんどの機械学習システムは、自動的に不一致の文書を識別することができません。このため統計的クラシファイアは受信者の嗜好がずっと変わらないシングルユーザー環境でより適性があるのです。

攻撃に対する抵抗

Global Threat Networkサービスのようなオープンユーザーからのフィードバックによるシステムは、スパマーにとって魅力的な攻撃対象です。 サービスを攻撃する二つの基本的な方法があります。一つはハッシュバスティングといい、それぞれのスパムに異なったフィンガープリントを強制的に生成させることによってフィンガープリントアルゴリズムを攻撃する方法です。この論文で後述するように、フィンガープリントアルゴリズムは、ハッシュバスティングに耐性があるように設計されています。第二の攻撃の方法は不正なフィードバックを介して行われます。

一般的に、攻撃者は一般集団に攻撃を始める前に彼らのメールブロックを解除しようとします。しかし、フィンガープリントの配置に影響を与えるためには、まず攻撃者は信用されている必要があります。信頼を得るために、攻撃者は長い時間をかけて有用なフィードバックを提供する必要があり、 他人がスパムだと認定しているものを自分もスパムだと認定する必要があります。 言い換えれば、スパマーは長い間良い受信者であるかのように見せかけ、信頼を得る必要があるということです。もし彼らが信頼の置ける受信者に見せかける努力をし、それが少数であれば被害は取るに足りないものだと言えます。信頼度の高いコミュニティの大多数からの意見の相違はスパマーに大きなペナルティを課すからです。信頼度の高いユーザーグループが成長するにつれて、信頼を得るのが難しくなる代わりに失うのが簡単になります。参加者が多いほど、攻撃に対し強くなります。

専門家による監視システムはこのような攻撃に耐性がありますが、専門家の数を拡張することはできません。同様に、統計的な文書分類システムは、コーパス汚染を避けるために監視トレーニングを受ける必要があります。監視があることで、取り扱えるデータの量は限られてしまいます。例えば、監視つきの分類システムでは監視者がその言語を理解しない場合、「外国語」のスパムを感知することができません。

スパムの一括定義

アンチスパムサークルでの一番の議題となる「スパムを構成するものは何か」という問題には、未だに普遍的な回答は出ていません。議論は哲学に向かう傾向がありますが、それはアンチスパム分類器のクリエイターとユーザーにとって重要な問題です。幸運なことに、Global Threat Networkサービスの使用でスパムの生成的な定義が生まれます。 高いコンフィデンスに達するメールは「スパム」とされ、低いものは「スパムではない」となります。不一致のメールは、スパムかどうかの意見が一致しないものです。 これらメトリックはコミュニティのスパムの定義を直接に表すものとなります。

少人数グループ、もしくは非常に知識のある専門家によって行われるIPブラックリストのようなアンチスパムシステムの多くはシステムを個人的経験でトレーニングし、厳格なポリシーや少数派の視点を使います。 十分でないトレーニングの原因は、多くの場合可用性バイアス1と呼ばれる制限された可視性であり、多くの訴訟やアンチスパム技術の一般的な不信感につながっています。コミュニティベースのクラシファイアはそういったバイアスに耐性があります。

フィンガープリントとそのシステムパフォーマンスへの影響

Global Threat Networkサービスは、コミュニティがスパムを識別する際に高度メッセージフィンガープリントアルゴリズムを使用しています。 サービスが採用するフィンガープリントアルゴリズムのすべては、同じ一般的な形をとっています。それらは多数対一のメッセージ間のマッピングであり、14〜20バイト数のどれかです。良質なフィンガープリントアルゴリズムは、同じようなメッセージを追加のマッピングをすることなく多くの同類のメッセージをマッピングします。

弊社は2つのメトリックを生成することでフィンガープリントアルゴリズムの2つのプロパティを形式化しました。多重とクロスクラス不調和です。 多重は単一のスパム種の突然変異を分類するため、単一のフィンガープリントの汎用性をカプセル化します。クロスクラス不調和はスパムと正当なメッセージのコーパスから生成されたフィンガープリントとの交点の範囲です。これは、フィンガープリントがシステム内で誤検出を引き起こす可能性がある電位速度を測定します。フィンガープリントスキームの生成は創造的なプロセスですが、これらのメトリックは新たなフィンガープリントスキームの有効性を評価するための一般的なフレームワークとなっています。

これらメトリックのフィンガープリントベースのスパムフィルタに関する資料は非常に少ないため、社内で開発されました。社内のフィンガープリント評価システムが公に文書化されたのは本論文が最初となります。

まず、スパムメッセージのセットをSとし、 非スパムメッセージのセットを'Sとします。 スパマーはナイーブ署名方式を避けるために、単一のメッセージを変異することが知られています。私達は変異のセットを合意されたメッセージの単一ソースメッセージから導出されたもの、もしくは同一メッセージから派生したものと定義します。これら変異のセットは重複しないものとします。

スパムを変異クラスに完璧に分けるのは不可能な作業です。しかし、新しいフィンガープリントアルゴリズムの評価のために妥当な近似を手動コーパスで分類することは可能です。

equation

equation

フィンガープリントアルゴリズムのクラスをƒとします。ƒは2つのメッセージ間にどんな小さな変異があるかに関わらず、すべてのメッセージにそれぞれ違った値を生成する完璧な暗号ハッシュです。ƒo は限られたオラクルによって生成されたフィンガープリントであり、単一突然変異クラスのすべてのスパムメッセージは、同じフィンガープリントを生成します。ƒe は弊社が開発したフィンガープリントアルゴリズムです。フィンガープリントアルゴリズムは、正確にオラクルのように動作し、同じ突然変異クラス内のすべてのメッセージに対して単一のフィンガープリントを生成する必要があります。以前にシステムユーザーによって生成されたリンガープリントのセットはFCATで示されて、これはカタログサーバーの概要になっています。さらに、SCATはカタログサーバーでスパムメッセージのセットとして表されます。

equation

equation

バックエンドでは、2つの要因が精度と誤検出率を引き起こします。私たちは、入ってくる新たなスパムが以前に見たことがあるもの、もしくは古いスパムの突然変異、または完全に新しいスパムのどれかであることを知っています。もし古いスパムであるなら、コンテンツフィルタリングシステムに含まれているはずです。 それが新しいスパムの場合、データフィードバックシステムがシステムにメッセージのフィンガープリントを報告し、攻撃を識別するフィンガープリントが急速にシステムやコミュニティ全体に伝播されます。古いスパムの突然変異については、 私達はスパマーがメッセージのフォーマットやURLの変更などの簡単な変更をしても見破ることができます。 古いスパムの突然変異を防ぐためには、 高多重とフィンガープリントアルゴリズムを採用する必要があります。

equation

例えば暗号ハッシュアルゴリズムは、突然変異に対する適切なフィンガープリントではありませんが、それは意図せずに正当なメッセージにも適用されるフィンガープリントを生成することがあります。

全く変異していない多数のメッセージが私たちのエージェントによって受信された場合、多重番号が人工的に低く表れます。したがって、私たちは設計段階でフィンガープリントアルゴリズムを評価するために公平な多重として知られている追加のメトリックを使用しています。このメトリックは、実験的なフィンガープリントアルゴリズムが突然変異クラスごとにどれだけ近い単一のメトリックを生成することになるかを定量化します。

equation

高多重度フィンガープリントは単一のキャンペーンと同じスパムの複数の変異をカバーすることが可能です。コミュニティの立場から言えば、 高多重フィンガープリントを使うと単一のスパムキャンペーンは複数のフィンガープリントが必要な場合よりもはるかに早く排除されることを意味します。

メッセージの量が同じフィンガープリントでカバーされている非常に高い多重度を持つフィンガープリントを生成するこも可能です。しかし危険なのは、高多重度フィンガープリントは、スパムではないメッセージをカバーしたり、正当なクラスに含まれているメッセージとの衝突を引き起こすであろうということです。TESは独立してスパムや合法的なメッセージの両方をカバーしてフィンガープリントを争うことで誤検出から保護するので、ハイクロス不一致は、スパムを止めるのに効果がないフィンガープリントを衝突させることになります。

equation

メトリック設計中、私たちはクロス突然変異の不一致、CMCレート、単一のフィンガープリントが複数の突然変異クラスをカバーする速度を調べることによって、高競合率のフィンガープリントアルゴリズムのリスクを定量化しました。

equation

フィンガープリント関数の逆マッピングはメッセージ·セットのサブセットです。すなわち、クロス突然変異衝突率は実際のプロキシクロスクラスの不一致のメトリック、CCC速度、または速度であり、正当なメッセージとスパムメッセージは同じフィンガープリントにマッピングされます。

要約すると、完璧なフィンガープリントアルゴリズムはゼロクロスクラスの不一致を生成し、1の公平な多重度を持っています。現在、私たちは相互に直交している操作方法をのそれぞれ8つの異なるフィンガープリントアルゴリズムを採用しています。追加のフィンガープリントアルゴリズムの生成は、読者への課題として残しておきます。

equation

Vipul's RazorとCloudmarkのシステムに精通している読者のために、オープンソースのVipul's Razorのエージェントは、Global Threat Networkサービスの6つのフィンガープリントアルゴリズムのうち2つを実装していると付け加えておきます。フィンガープリント方式の独立性により、環境およびビジネスの要因によって必要とされる異なるQoSおよび性能特性を、サービスエージェントのバージョンで展開することができます。

equation

全体的な適合性

ユーザーの視点から見ると、最も重要な指標は精度と以下の式でa とfpとして示される誤検出率でしょう。私たちは、ユーザーの介入なしに迷惑メールとして分類された受信箱のスパムメッセージの割合で精度を定義します。また、誤検出率はスパムとして検出されたスパムでないメッセージが、フィードバックで解除された数で定義します。

実際にGlobal Threat Networkはブロック、ブロック解除、チェックの累積数に基づいて、精度やトレーニングコストの正確な定量化を可能にします。 実際、GTNは生産パフォーマンスをリアルタイムで開発者が測定することができるいくつかのアンチスパムシステムの中の1つです。

送信者のレピュテーション

いくつかの取り組みではメールそのものではなく、送信者の評判を計算する試みがあります。 センダーポリシーフレームワーク(SPF)4 とドメインキーアイデンティファイメール (DKIM)2はメール送信に使用するメールサーバーのセットによって、送信者を識別しようとします。 SPFはより一般的ですが、DKIMも評判をあげています。SPFスキームの背後にある基本的な考え方は、送信者がDNSレコードを介してメールを送信に使用するサーバーのリストを公開できるようにすることです。例えば、examplesender.comはmx1.examplesender.comまたはmx2.examplesender.comからメールを送っていると発表ができます。メールを受け取る前に、受信者のメールサーバーはexamplesender.comのメールが本当にexamplesender.comのDNSレコードを介して送られるのか確かめることができます。DKIMは、送信者のDNSで公開されている非対称鍵ですべての送信メッセージに署名します。 SPFとDKIMは送信者情報に基づいて、スパムフィルタリングを行い、送信者の身元を変造することを非常に難しくします。

equation

equation

SPFまたはDKIMで送信者の身元が確立されると、TESのような評価システムで 」送信者の信頼性」が時間をかけて形作られます。 送信者を評価するプロジェクトunderway3は多くあり、送信者のレピュテーションを追跡、算出して悪意のある送信者からメールをフィルタリングすることを目的としています。送信者評価システムは、前述の「アドレスホワイトリスト」クラシファイアのより堅牢なバージョンを可能にするでしょう。

そういったクラシファイアの精度はいかなるものでしょうか? 私たちは送信者認証は、便利で良い機能であると考えていますが、アンチスパムの文脈における送信者認証の有用性については、今日の業界で見られるような楽観視はしていません。送信者認証方式の問題点は、個々の送信者を識別しないことにあります。 現在はホストの背後の送信者の集団によって、身元が関連付けられています。より正確には、送信者認証スキームはメールの送信者が使用するソフトウェアとネットワークインフラを識別します。これには2つの問題があります。まず、送信者のレピュテーションは送信者と送信者の共有ネットワークリソースの動作に影響されます。第二に、送信者のレピュテーションは送信側ネットワーク上の悪意のある隠しコードの影響を受ける可能性があります。最初の問題は粒度の問題であり、第二の問題は偽装の問題です。

私たちは、ホストレベルの送信者認証と評判認証で小さい組織やフィッシングの影響をうけた機関など、良心的な送信者ポリシーを適用し、ゾンビから自社のネットワークを保護することができる良い送信者や送信者コレクションを特定することができます。送信者認証は、スパムを送信するためだけに作成された悪意のある送信者とのネットワークを識別するのに有効でしょう。 しかしスパムを吐き出すゾンビによって破られることができ、多数のユーザーを持つネットワークは結果的に評判を落としてしまう可能性があります。

単にフィンガープリントとして認証済みの送信者ホストを使用したフィンガープリントアルゴリズムを設計した場合、アルゴリズムは、高多重度で高いクロス不一致率をもたらすでしょう。上で述べたように、クラシファイアが不一致フィンガープリントを使うことができない結果生まれる高いクロス不一致率がフィルターの結果を決めます。したがって、送信側ホストベースのクラシファイアは大量のメールを分類するために、帯域外の方法に頼る必要があります。

DKIMは、個々の送信者の弱い認証を可能にします。個々の送信者認証の信頼性は、ドメイン内の送信者を認証するドメインの能力の関数です。 SMTP-AUTHのような送信者の内部認証は現在幅広く使われてはいませんが、とても扱いやすいソリューションです。

認証、そしてそれに続くレピュテーションを送信者に与えることで粒度の問題を軽減し、より良いレピュテーションができるでしょう。また、正規のユーザとゾンビアクティビティの送信者を区別するパターンをモデル化することによって、偽装の問題の解決が可能になるかもしれません。

私たちが記述する協調フィルタリングシステムは、メール送信者のグローバルプールでの信頼を確立する必要がありません。 私たちが説明するシステムは、世界中のメールユーザーから比べれば少ない人数でのグループのメール受信者が、誰でもスパムを正しいか正しくないかに関わらず分類し、信頼の弱い形を確立する必要があります。

結論

私たちはCloudmark Global Threat Networkサービスのアーキテクチャと運営について説明し、クラシファイアの基礎となるレピュテーションシステムの特性を示しました。また、スパムフィンガープリントアルゴリズムの有効性を評価するための枠組みも提示しました。

最後に、私たちは迷惑メールを分類する他の一般的な方法とのGTNアプローチを区別しました。現在Global Threat Networkサービスが使用している実際のアーキテクチャとアルゴリズムはかなり複雑です。 上記の説明は重要事項を強調するために簡略化されています。この論文でスパム対策におけるレピュテーションベースの方法の重要性をお伝え出来たのであれば嬉しく思います。

参照

  1. 有効性 heuristi http://en.wikipedia.org/wiki/Availability_heuristic. 2005年9月28日にアクセス.
  2. DomainKeys はメールを特定した http://mipassoc.org/dkim/. 2005年9月28日にアクセス.
  3. スパムとの闘いにおけるレピュテーションの向上 http://linuxworld.sys-con.com/read/48128.htm. 2005年9月28日にアクセス.
  4. Vipul’s Razor. http://razor.sourceforge.net.2005年9月28日にアクセス
  5. A Plan for Spam. http://www.paulgraham.com/spam.html, 2002年8月。 2005年9月28日にアクセス
  6. D. Chaum. Untraceable electronic mail, return addresses, and digital pseudonyms. Communications of the ACM, 1981年2月
  7. R. Dingledine, N. Mathewson, and P. Syverson. Tor: 第二世代オニオンルーター 2004年第13回のUsenixセキュリティシンポジウムにおいて

スパムの効果的なフィルタリングのためのレピュテーションベースアプローチ (430KB)

トップに戻る

スパムの効果的なフィルタリングのためのレピュテーションベースアプローチ (430KB)

Cloudmarkは、サービスプロバイダ、企業、全世界のカスタマーのセキュリティ、トラフィックデータ、インフラストラックチャーを守る最も信頼された企業です。 Cloudmark’s の特許を取得したソルーションは、 実績のあるキャリアグレードの拡張性と性能によって進化し続けるネットワーク上の危険に対し即効性、適用性および予防性の高い保護を提供し、インフラコストを削減しつつも安定したビジネスの運営を実現します。Cloudmarkはローカルで収集されたデータおよび—全世界の’s 情報技術上の脅威に関する知識を網羅する当社のGlobal Threat Network上からのデータを元にビッグデータの分析を行います。CloudmarkはAT&T、Verizon、Swisscom、Comcast、CoxおよびNTTをはじめとする120以上の中核となるお客様および7万企業のお客様に保護を提供し、さらに全世界で10億件を超える契約件数を誇っています。

サイトマップ  •  プライバシーポリシー  •  ©2002–2019 Cloudmark, Inc.