大量のデータが意味を持つのは、 feature $\boldsymbol{x}$ が $y$ を正確に予測するのに十分な情報を持つとき である。 これはたとえば、人間のエキスパートにその情報を与えると人間のエキスパートが正しく予測できるときにあたる。
大量のデータが意味を持つのは、 多くのパラメータを持つ学習アルゴリズムを使っているとき (多くのfeatureを使った logistic regression/linear regression とか、neural networkとか) である。 非常に多くのデータ (very large data) を使うことでoverfit を避けることができる。 $\displaystyle J_{train}(\theta)$ を学習させるtraining data set が十分に大きいと、 $\displaystyle J_{test}(\theta)$ で評価する test data set が相対的に小さくなり ほぼ同じサイズとみなせるので、 きっちり fit していても overfit ではなくなる。