👏

老高的苦难学习经历

Good good study, day day up!

文章

标签

成立

246天

文章

15篇

20条

标签

0个

0625-机器学习day01

老高 2025-06-25 0

预训练属于无监督， SFT属于监督微调，有监督

1)回归问题.(预测值为连续值)

根据已知的输入和输出(这玩应算有监督.)寻找某种性能最佳的模型，将未知输出的输入带入模型，得到连续的输出.例如:

预测值为连续问题，就是回归
2)分类问题(预测值为离散值)

手写体识别,（10个类别分类问题（这里说的是0-9））
水果、鲜花、动物识别
工业产品瑕疵检测（良品、次品，二次分类的问题）
识别一个句子表达的情绪(正面、负面、中性)

3）聚类问题

聚类属于无监督
类似于谁跟谁相似，就自动划分到一起
根据客户在电商网站的浏览和购买历史记录,判断哪些客户对某件商品感兴趣.
判断哪些客户具有更高的相似度(就是将相似的样本划分到一起)

4)在性能损失尽可能小的情况下,降低数据的复杂地,数据规模缩小都称为降为问题.

大概意思就是维度太大了，把规模可以缩小一点.在不影响计算结果的情况下，尽量缩小维度.
补充:也不是为了删点,比如有6个特征,那可以计算出X1 X2 用两个特征表示6个特征。

第一步,数据清洗
第二部,预处理(如何将数据处理成机器学习的模型喜欢的样子)

1）标准化（均值移除）

如果我们的特征基准值和分散度不同的话.可能会大大影响模型的预测能力,所以我们会确保每一个特征列的数值都在类似的数据范围之间

懒得做笔记了，回家把这块看五遍，理解，并且能不在IDE提示的情况下手敲

0625-机器学习day01

发布于

June 25, 2025

分类

版权协议

MIT