学机器学习之前我希望知道的事
目录
学机器学习之前我希望知道的事
花了三个月刷 ML 教程,这是我想在开始时告诉自己的话。
1. 先学数学,再写代码
你可以在不理解的情况下复制粘贴模型代码,但出问题了就完全不知道从哪下手。把线性代数和概率基础打扎实,后面会省很多时间。
2. 从小开始
别一上来就搞 GPT 或者扩散模型。先从 CSV 文件上的线性回归开始,真正搞懂什么是损失函数。
3. Sklearn 是最好的老师
在碰 PyTorch 或 TensorFlow 之前,先把 scikit-learn 用熟。它把概念讲得最清楚。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
print(model.score(X_test, y_test))4. 过拟合是真实存在的问题
你的模型在训练集上表现很好,但在新数据上一塌糊涂。尽早学训练/测试集划分、交叉验证和正则化。
5. 数据处理占 80% 的工作量
清洗数据、处理缺失值、特征工程——大部分时间都在这上面。接受它。

