層化ランダムサンプリングの定義
層化ランダムサンプリングとは何ですか?
層化ランダムサンプリングは、母集団を層と呼ばれる小さなサブグループに分割することを含むサンプリング方法です。 の 層化ランダムサンプリング、または階層化、階層は、収入や学歴などのメンバーの共有属性または特性に基づいて形成されます。
層化ランダムサンプリングは、比例ランダムサンプリングまたはクォータランダムサンプリングとも呼ばれます。
重要なポイント
- 層化ランダムサンプリングにより、研究者は、調査対象の母集団全体を最もよく表すサンプル母集団を取得できます。
- 層化ランダムサンプリングでは、母集団全体を層と呼ばれる均一なグループに分割します。
- 層化ランダムサンプリングは、母集団全体からデータをランダムに選択する単純ランダムサンプリングとは異なります。そのため、考えられる各サンプルが同じように発生する可能性があります。
1:40
層化ランダムサンプリング
層化ランダムサンプリングのしくみ
同様の特性を持つエンティティのグループの分析または調査を完了すると、研究者は次のことに気付く場合があります。 人口規模 研究を完了するには大きすぎます。 時間とお金を節約するために、アナリストは母集団から小グループを選択することにより、より実行可能なアプローチをとることができます。 小グループはと呼ばれます サンプルサイズ、これは、母集団全体を表すために使用される母集団のサブセットです。 サンプルは、いくつかの方法で母集団から選択できます。そのうちの1つは、層化ランダムサンプリング法です。
層化ランダムサンプリングでは、母集団全体を層と呼ばれる均一なグループに分割します(複数形 層)。 次に、各層からランダムなサンプルが選択されます。 たとえば、2007年に卒業後3か月以内に求人を受け取ったMBAの学生の数を知りたい学術研究者を考えてみましょう。
彼はすぐにその年にほぼ20万人のMBA卒業生がいたことに気付くでしょう。 彼はすることを決めるかもしれません 取るだけ NS 単純ランダムサンプル 50,000人の卒業生のそして調査を実行します。 さらに良いことに、彼は母集団を層に分割し、層からランダムなサンプルを取得することができました。 これを行うために、彼は性別、年齢範囲、人種、国籍の国、および経歴に基づいて人口グループを作成しました。 各層からランダムなサンプルが、母集団と比較した場合の層のサイズに比例した数で取得されます。 次に、これらの層のサブセットがプールされて、ランダムなサンプルが形成されます。
[重要:層化サンプリングは、母集団内のグループ間の違いを強調するために使用されます。 単純ランダムサンプリング。これは、母集団のすべてのメンバーを等しいものとして扱い、等しい可能性があります。 サンプリングされました。]
層化ランダムサンプリングの例
研究チームが全米の大学生のGPAを決定したいとします。研究チームは、2,100万人の大学生全員からデータを収集するのが困難です。 4,000人の学生を使用して、母集団のランダムなサンプルを取得することにしました。
ここで、チームがサンプル参加者のさまざまな属性を調べ、GPAと学生の専攻に違いがあるかどうか疑問に思っていると仮定します。 560人の学生が英語専攻、1,135人が科学専攻、800人がコンピュータサイエンス専攻、1,090人が工学専攻、415人が数学専攻であることがわかったとします。 チームは、サンプルの層が母集団のランダムサンプルに比例する、比例層化ランダムサンプルを使用したいと考えています。
チームが調査していると仮定します 人口統計 米国の大学生の割合と学生が専攻しているものの割合を見つけます:英語で12%専攻、 科学を専攻する28%、コンピュータサイエンスを専攻する24%、工学を専攻する21%、 数学。 したがって、層化ランダムサンプリングプロセスから5つの層が作成されます。
次に、チームは、母集団の層がサンプルの層に比例していることを確認する必要があります。 しかし、彼らは比率が等しくないことを発見しました。 次に、チームは母集団から4,000人の学生を再サンプリングし、480人の英語、1,120人の科学、960人のコンピューター科学、840人の工学、600人の数学の学生をランダムに選択する必要があります。
それらとともに、それは大学生の比例した層化ランダムサンプルを持っており、それは大学の学生の専攻のより良い表現を提供します その後、米国の研究者は特定の層を強調し、米国の大学生のさまざまな研究を観察し、さまざまな成績を観察することができます 平均。
単純ランダムサンプルと層化ランダムサンプル
単純ランダムサンプル 層化ランダムサンプルは両方とも統計的測定ツールです。 単純なランダムサンプルを使用して、データ母集団全体を表します。 層化ランダムサンプルは、共通の特性に基づいて、母集団をより小さなグループまたは層に分割します。
単純ランダムサンプルは、データ母集団に関する情報がほとんどない場合、データが 母集団の違いが多すぎてさまざまなサブセットに分割できない場合、またはデータ間に明確な特性が1つしかない場合 人口。
たとえば、キャンディー会社は、製品ラインの将来を判断するために、顧客の購買習慣を調査したい場合があります。 10,000人の顧客がいる場合は、ランダムなサンプルとしてそれらの顧客から100人を選択することができます。 次に、100人の顧客から見つけたものを残りのベースに適用できます。 層化とは異なり、100のメンバーを、個々の特性に関係なく、純粋にランダムにサンプリングします。
比例および不均衡な階層化
層化ランダムサンプリングは、特定の母集団の各サブグループが調査研究のサンプル母集団全体内で適切に表されることを保証します。 層別化は、比例的または不均衡になる可能性があります。 比例層化法では、各層のサンプルサイズは、層の母集団サイズに比例します。
たとえば、研究者が年齢範囲を使用して50,000人の卒業生のサンプルを必要としている場合、比例 層化ランダムサンプルは、次の式を使用して取得されます:(サンプルサイズ/母集団サイズ)x層 サイズ。 以下の表は、年間180,000MBAの卒業生の人口規模を想定しています。
年齢層 |
24-28 |
29-33 |
34-37 |
合計 |
層の人数 |
90,000 |
60,000 |
30,000 |
180,000 |
層のサンプルサイズ |
25,000 |
16,667 |
8,333 |
50,000 |
の層サンプルサイズ MBA卒業生 24〜28歳の年齢範囲では、(50,000 / 180,000)x 90,000 = 25,000として計算されます。 同じ方法が他の年齢層グループにも使用されます。 層のサンプルサイズがわかったので、研究者は各層で単純なランダムサンプリングを実行して、調査参加者を選択できます。 つまり、24〜28歳の卒業生25,000人が全体からランダムに選ばれます。 人口、29〜33歳の16,667人の卒業生が人口からランダムに選択され、 すぐ。
不均衡な層化サンプルでは、各層のサイズは母集団内のサイズに比例しません。 研究者は、34〜37歳の卒業生の1/2と、29〜33歳の卒業生の1/3をサンプリングすることを決定できます。
1人が複数の層に収まらないことに注意することが重要です。 各エンティティは、1つの階層にのみ収まる必要があります。 サブグループが重複しているということは、一部の個人が選ばれる可能性が高くなることを意味します 確率の一種としての層化サンプリングの概念を完全に否定する調査 サンプリング。
ポートフォリオマネージャーは、層化ランダムサンプリングを使用して、債券インデックスなどのインデックスを複製することでポートフォリオを作成できます。
層化ランダムサンプリングの利点
メイン 層化ランダムサンプリングの利点 これは、サンプルの主要な母集団の特性をキャプチャすることです。 加重平均と同様に、このサンプリング方法では、母集団全体に比例する特性がサンプルに生成されます。 層化ランダムサンプリングは、さまざまな属性を持つ母集団に対してはうまく機能しますが、サブグループを形成できない場合は効果がありません。
層別化はより小さくなります 見積もりの誤り 単純なランダムサンプリング方法よりも高い精度。 階層間の差異が大きいほど、精度が向上します。
層化ランダムサンプリングのデメリット
残念ながら、この調査方法はすべての調査で使用できるわけではありません。 この方法の欠点は、適切に使用するためにいくつかの条件を満たす必要があることです。 研究者は、調査対象の母集団のすべてのメンバーを特定し、それぞれを1つだけのサブ母集団に分類する必要があります。 その結果、層化ランダムサンプリングは、研究者が母集団のすべてのメンバーを自信を持ってサブグループに分類できない場合に不利になります。 また、全体の網羅的で決定的なリストを見つける 人口 挑戦することができます。
複数のサブグループに分類されるサブジェクトがある場合、重複が問題になる可能性があります。 単純ランダムサンプリングを実行すると、複数のサブグループに属する人が選択される可能性が高くなります。 その結果、人口の不実表示または不正確な反映になる可能性があります。
上記の例は簡単です。学部生、大学院生、男性、女性は明確に定義されたグループです。 ただし、他の状況では、はるかに難しい場合があります。 人種、民族、宗教などの特徴を取り入れることを想像してみてください。 ソートプロセスはより困難になり、層化ランダムサンプリングは効果がなく、理想的とは言えない方法になります。