机械学习概述
预训练属于无监督, SFT属于监督微调,有监督
1)回归问题.(预测值为连续值)
根据已知的输入和输出(这玩应算有监督.)寻找某种性能最佳的模型,将未知输出的输入带入模型,得到连续的输出.例如:
预测值为连续问题,就是回归
2)分类问题(预测值为离散值)
手写体识别,(10个类别分类问题(这里说的是0-9))
水果、鲜花、动物识别
工业产品瑕疵检测(良品、次品,二次分类的问题)
识别一个句子表达的情绪(正面、负面、中性)
3)聚类问题
聚类属于无监督
类似于谁跟谁相似,就自动划分到一起
根据客户在电商网站的浏览和购买历史记录,判断哪些客户对某件商品感兴趣.
判断哪些客户具有更高的相似度(就是将相似的样本划分到一起)
4)在性能损失尽可能小的情况下,降低数据的复杂地,数据规模缩小都称为降为问题.
大概意思就是维度太大了,把规模可以缩小一点.在不影响计算结果的情况下,尽量缩小维度.
补充:也不是为了删点,比如有6个特征,那可以计算出X1 X2 用两个特征表示6个特征。
数据预处理
第一步,数据清洗
第二部,预处理(如何将数据处理成机器学习的模型喜欢的样子)
1)标准化(均值移除)
如果我们的特征基准值和分散度不同的话.可能会大大影响模型的预测能力,所以我们会确保每一个特征列的数值都在类似的数据范围之间
今日作业
懒得做笔记了,回家把这块看五遍,理解,并且能不在IDE提示的情况下手敲
0625-机器学习day01