原文:Benford’s Law & Cryptocurrency Trading Data
要約:このコラムではベンフォードの法則について考察する。ベンフォードの法則とは自然界における数字の羅列の最初の桁の頻度に関する数学的法則である。まず、コイン通貨や取引高のデータといった仮想通貨のエコシステムから多様なデータ セットを抽出したうえで、この法則を他の現象と切り離すべきでないこと、および有力な結論を引き出すには経済学の基礎に対する深い理解が必要であることについて説明する。また、OKEX や HitBTC をはじめとする少数の取引プラットフォームの取引高データからはベンフォードの法則に反する結果が得られたことにも触れる。ただし、この結果はデータの不当操作を示唆するものでなく、予想外の分布には正当な理由が多数考えられる。
ベンフォードの法則の概要
ベンフォードの法則では、自然界の多様な数字の羅列の 1 桁目の度数分布に注目する。大半の状況で 1 桁目の度数分布は 11.1% (つまり 1 の確率は 11.1%、2 の確率は 11.1%、3 の確率は 11.1%) と通常想定され、実際に多くの状況でそうなっている。例えば、無作為に数字を生成した場合こうした結果が得られる。ただし、物理学、地学、生物学、化学、建築学、人口統計学、財政学、経営学などの分野における自然界のシナリオでは、違う度数分布が観察される場合がある。以下のグラフはこうした例を図示したもので、1 の発生頻度が最も多く (30.1%)、2がこれに続いている。
幾何級数的数字データの 1 桁目の度数分布
(出典:BitMEX Research) (注:幾何級数的データは 1 で始まり、2% ずつ増大。5,000 の数字を含む)
上記現象が発生する正確な理由付けは困難と考えられ、すべてのシナリオに合致する説明はないように思われる。ただ、ベンフォードの法則と合致するには、データが複数の桁に分散していることが必須要件となるようだ、
この現象は、基本的な幾何級数で合理的に説明できるかもしれない。例えば、10% ずつ増大する幾何級数で考えてみよう。級数 24 (20 台データの 40%) に到達したとき、次の数値は 26.4 であり、まだ十分 20 台にある (先頭の桁の数字は 2)。幾何級数が 84 (80 台データの 40%) に到達したとき、次の数値は 92.4 であり、先頭の桁は 8 から 9 に変わる。この違いは、金融界や自然界などで発生し得る一部の級数で、1 桁目に小さい値が来る確率が大きい値より高いことを示している。
ベンフォードの法則をビジネスや金融に適用
BitMEX Research チームメンバーの多くは、株式関連の投資アナリストや株を含むポートフォリオの運用マネージャーとして働いた経験がある。筆者の同僚は2015 年発行の公認不正検査士協会 (ACFE) の論文から、報告済み財務諸表での金融不正検知ツールとしてベンフォードの法則を利用できるのではないかとひらめいた。すなわち、企業の財務データが現実社会を正確に反映するならば、数字はベンフォードの法則に従うはずであるが、不正操作や無作為生成を経たものであれば、この法則から大幅に外れ、財務不正の危険信号となり得ると考えたのである。ところが、以下のシナリオで説明するように、そう単純な話しではない可能性がある。
若干不自然ではあるが次の 2 つの例を考えてみたい。
例 1 – 高成長期にある米テクノロジー企業 Google の売上分析
米インターネット複合企業 Google [GOOGL US] の 1999 年の売上高は 20 万ドル程度であった。同社は過去 20 年に急成長し、現在の売上高は 1,000 億ドルを突破している。したがって、Google の売上高の桁数は多数にわたり、ベンフォードの法則はグループの財務指標の分析に適する可能性がある。
例 2 – 低成長期にある日本の公益企業、北海道電力の売上分析
日本の水力、火力、原子力発電企業、北海道電力 [9509 JP] の 2019 年 3 月期における売上は 7,520億円であった。25 年前の同社の売上は 5,440 億円であり、過去 25 年間、同社の売上は 5,000 億円~ 8,000 億円の範囲内にとどまっている。同社の年間収益の最初の桁は、過去 25 年間、5、6、7のいずれかであり、明らかにベンフォードの法則に反する。この事実は改ざんなどの財務不正の兆候とは必ずしもいえず、日本の低い人口増加率、経済成長率、インフレ率を背景とする同社の保守的な性質を示しているのにすぎない可能性がある。
最初の桁の度数分布
最初の桁 |
ベンフォードモデル
|
Google 売上 (1999 年~ 2019 年)
|
北海道電力売上 (1995 年~ 2019 年) |
1 |
30.1%
|
33.3%
|
0.0%
|
2 |
17.6%
|
19.0%
|
0.0%
|
3 |
12.5%
|
9.5%
|
0.0%
|
4 |
9.7%
|
9.5%
|
0.0%
|
5 |
7.9%
|
4.8%
|
72.0%
|
6 |
6.7%
|
9.5%
|
12.0%
|
7 |
5.8%
|
4.8%
|
16.0%
|
8 |
5.1%
|
4.8%
|
0.0%
|
9 |
4.5%
|
4.8%
|
0.0%
|
(出典:BitMEX Research) (注:Google 売上は米ドル建て、北海道電力の売上は円建て表示)
上記例の目的は、ベンフォードの法則を財務分析に闇雲に適用できないことを示すことにある。この分析を効果的に実行するには、数学と対象事業の基礎的経済学の両方をよく理解していることが必要である。その背景にある数学的仮定と原理、および金融へのそれらの適用方法を十分理解せずに、統計や数学を用いた分析に基づき金融市場の活動について確定的結論を推察する行為は、マクロ経済学者や計量経済学者を中心によく犯される過ちである。このコラムではこうした過ちの再現を避けることに特に配慮している。
ベンフォードの法則を用いて株式ポートフォリオを分析したところ、テクノロジー、バイオテック、コモディティなどの特定業種の株式でベンフォードの法則が適用される例を観察することができた。一方で、食品、公益、小売り、建設などの安定業種ではこの法則との関連性はまちまちであった。株式の基本分析では、ベンフォードの法則は数値の不正操作よりボラティリティや成長の測定基準としての性格を持つ。
ベンフォードの法則は不正の危険信号を検出するツールと考えられることはあっても、その証拠を提供することはない。このコラムでは、仮想通貨業界を評価する際に不正の検知方法としてのベンフォードの法則の有効性を過信するわなに陥らないよう用心している
仮想通貨価格
以下では、ベンフォードの法則を用いて仮想通貨価格を分析している。全般的な結果として、仮想通貨価格の動きはベンフォードの法則に従っていることが示された。
1 日の通貨価格の変動率の最初の桁の度数分布 – 2018 年 12 月 ~ 2019 年11月
(出典:BitMEX Research、Coinmarketcap)
ベンフォードモデルから 2乗した差異を合計した平方根に目を向けると、Stellar、Bitcoin Cash、Litecoin で最も乖離が大きく、Ethereum と Ripple で最も乖離が小さかった。この結果が Stellar、Bitcoin Cash、Litecoin での価格操作の証拠である可能性は極めて低い。以下に主な理由をいくつか挙げる。
- すべてのコインはある程度密接にベンフォードモデルに従っており、データの無作為性を踏まえると一部の乖離は想定内である。
- 乖離が小さいデータはコイン価格がより変動的であるため桁の変動が大きい可能性を示唆するに過ぎない可能性がある。
- 1 年分の価格データは適切な結論を導き出すのには短すぎる可能性がある (例えば、ビットコイン価格のデータ期間が長いほど分布がベンフォードの法則に従う密接度は高くなる)。
- 我々が考慮しなかった他の要因が逸脱の原因になった可能性がある。
仮想通貨の取引プラットフォーム
コインを考察したところで、次に仮想通貨の取引プラットフォームについて分析したい。分析対象となるのは、USD/BTC 取引ペアの 1 日あたり取引高である。この分析の結果はより興味深いもので、逸脱幅が大きくなった。サンプルにした大半のプラットフォームはベンフォードの分布にある程度密接に従っているが、BitForex、HitBTC、OKEX など一部の顕著な例外も見られた。
仮想通貨取引プラットフォームの BTC/USD の 1 日あたり取引高の最初の桁の度数分布
(出典:BitMEX Research、Investing.com) (注:2018 年 12 月 12 日以降の 1 日あたり取引高)
結果の表 – 仮想通貨取引プラットフォームの BTC/USD の 1 日あたり取引高の最初の桁の度数分布
(出典:BitMEX Research、Investing.com) (注:2018 年 12 月 12 日以降の 1 日あたり取引高)
ベンフォード分布データを 2 乗した差異の合計の平方根
(出典:BitMEX Research、Investing.com) (注:2018 年 12 月 12 日以降の 1 日あたり取引高BTC / USD)
ベンフォードの法則の上記の乖離は重大なもので興味深いものともいえるが、本コラムの通貨価格セクションと同じ注意点がここでも適用される。つまり乖離は成長やボラティリティの測定指標となる可能性があるが、測定期間が短すぎるか、他の要因が乖離の原因である可能性がある。
結論
本項の結論が、OKEX や HitBTC による取引高データの改ざん、あるいは Kraken や Bittrex による真実のデータの報告では ないことは明白である。上記では、数値とベンフォードの分布との分布状況に影響を及ぼす可能性のある要因は多数あり、その多くは完全に正当 (プラットフォームが急拡大期間にあるか、より安定的な期間にあるかなど)であるといえることを説明した。CryptoCompare の 取引所レビューでは、1 つの特異な数学的概念よりはるかに強力な総合的なアプローチで取引所を評価している。 とはいえ、この分析が仮想通貨取引プラットフォーム業界の経済学とトレンドをある程度知る者に有益な補足情報となることを願う。