L1正则化是机器学习中一种极为重要的正则化技术，它通过在损失函数中加入模型权重的绝对值之和来限制模型..

未知设备 · 13 sati

L1正则化是机器学习中一种极为重要的正则化技术，它通过在损失函数中加入模型权重的绝对值之和来限制模型的复杂度。许多数据科学家在进行特征选择时优先考虑L1正则化，因为其天生的稀疏性能够自动将不重要的特征权重压缩为零。这种特性使得L1正则化在处理高维数据时非常有效，尤其是在特征数量远多于样本数量的场景下。与L2正则化不同，L1正则化并不倾向于均匀地缩小所有权重，而是迫使某些权重完全归零。这种机制使得L1正则化能够完成隐式的特征选择，从而生成更简洁、更易解释的模型。在实践中，L1正则化常被用于线性回归模型中，此时它被称为Lasso回归。 Lasso回归的全称是最小绝对收缩和选择算子，其名称直接体现了L1正则化的核心功能：收缩与选择。当我们谈论L1正则化与L2正则化的区别时，最关键的一点在于解空间的几何形状。 L1正则化对应的是菱形约束区域，而L2对应的是圆形。在优化过程中，菱形约束的尖角更容易与损失函数的等高线相交于坐标轴上，从而产生稀疏解。这正是L1正则化能够进行特征选择而L2不能的根本原因。在需要模型可解释性的业务场景中，例如医学诊断或金融风控，L1正则化往往比L2更受欢迎，因为留下的特征可以直接被视为对预测有贡献的变量。 L1正则化在防止过拟合方面的表现同样出色。过拟合通常发生在模型过于复杂，以至于学习了训练数据中的噪声。通过惩罚权重的绝对值，L1正则化迫使模型使用更少的特征，从而降低了模型的方差。不过需要注意的是，L1正则化可能会带来一定的偏差，但在许多实际应用中，这种偏差的牺牲是值得的，因为它换来了更强大的泛化能力。在实际使用中，L1正则化的强度由一个超参数λ控制。 λ越大，惩罚力度越强，更多的权重被压缩为零；λ越小，模型越接近不加正则化的普通模型。选择合适的λ至关重要，通常通过交叉验证来调优。 L1正则化的求解并不像L2那么直接，因为绝对值函数在零点不可导。常用的求解方法包括坐标下降法和最小角回归法。坐标下降法每次只优化一个权重，固定其他权重，通过软阈值公式快速更新，在稀疏场景下效率极高。 L1正则化不仅适用于线性模型，同样可以用于逻辑回归、支持向量机、神经网络等。在深度学习中，L1正则化被添加到全连接层的损失中，能够促使网络学习到更稀疏的权重连接，减少参数数量。然而在深度学习中L1正则化的使用频率远低于L2，主要是因为其导数不连续且对学习率敏感，但在某些需要模型压缩或实时推理的场景中，L1仍然是一个有力的工具。对于特征数量极大的数据集，比如文本分类中的词袋模型或基因表达数据，L1正则化几乎是必备的。它能够自动挑选出少数关键特征，大幅降低计算成本和存储需求。同时，L1正则化也常被用作预处理步骤，先通过Lasso回归筛选特征，再使用其他模型进行训练。这种两阶段方法在许多Kaggle竞赛中都有应用。理解L1正则化的数学原理有助于深入把握其行为。假设损失函数为均方误差，加上L1惩罚项后，目标函数变为最小化残差平方和加上λ乘以所有权重绝对值之和。在求解时，梯度更新会有一个常数项被减去或加上，这被称为软阈值操作。当权重本身小于某个阈值时，它会被直接置为零。这正是稀疏性产生的直接原因。 L1正则化和L2正则化有时也会结合使用，形成弹性网络。弹性网络同时包含L1和L2惩罚，既保留了L1的特征选择能力，又具有L2的稳定性和群组效应。当特征之间存在高度相关时，纯L1正则化可能随机选择其中一个特征而忽略其他，而弹性网络则倾向于同时保留所有相关特征。这种组合在很多实际问题中表现更优。在应用L1正则化时，数据标准化非常重要。因为L1惩罚项对权重的绝对值求和，如果特征尺度不同，大的尺度会让对应的权重承受更大的惩罚，导致模型偏向于选择尺度小的特征。因此，通常要先对特征进行标准化，使其均值为零、方差为一。这样L1正则化才能公平地对待每一个特征。 L1正则化的另一个重要应用是在压缩感知领域。压缩感知理论表明，如果信号是稀疏的，那么即使采样数量远少于奈奎斯特要求，也可以通过L1最小化准确重构原始信号。这一理论在图像重建、核磁共振成像、雷达信号处理等领域产生了深远影响。 L1正则化正是实现这种稀疏重构的核心算法。对于机器学习初学者，常常混淆正则化与归一化。正则化是防止过拟合的惩罚机制，而归一化是数据预处理的一种缩放操作。两者虽然名称相似，但作用和原理完全不同。 L1正则化属于正则化技术的一种，它的核心是约束模型复杂度，而不是改变数据的分布。在深度神经网络中，虽然L2正则化和丢弃法更为流行，但L1正则化仍然有它的一席之地。当需要稀疏特征表示时，可以在隐藏层的输出上施加L1惩罚，迫使激活值的数量变少。例如，在自编码器中，稀疏自编码器就是通过在隐藏层添加L1正则化来学习简洁的表示。这种表示有助于发现数据中的潜在结构。最后，L1正则化的计算效率在维度很高时可能会成为瓶颈。坐标下降法虽然适合稀疏问题，但在每个迭代中需要扫描所有特征，如果特征数量达到百万级别，速度可能不够理想。此时可以采用随机坐标下降或近似算法来加速。现代机器学习框架如scikit-learn、TensorFlow和PyTorch都内置了L1正则化的支持，用户只需设置相应的超参数即可。总而言之，L1正则化是机器学习工具箱中不可或缺的一个工具，它以稀疏性和特征选择能力见长，在解释性要求高、数据维度高、或需要模型压缩的场景中表现突出。掌握L1正则化的原理、优劣以及调参方法，对于任何从事数据科学或机器学习的人来说都是一项基本技能。 #l1正则化 #l1正则化 #lasso回归 #特征选择 #稀疏性 #过拟合 #正则化 #机器学习 #线性回归 #坐标下降法 #弹性网络

Kao

Komentar

整这些花里胡哨的还不如研究下谷歌的垃圾排名算法老站照样被误杀 🚬

0 · 0 · Odgovor · 1782900200

L1正则化就像我删那些没转化的长尾词一刀切省心但有时候也误杀好货 🚬

0 · 0 · Odgovor · 1782900244

搞个破站哪来那么多高维数据… 还不如看看哪个长尾词有真实流量 🚬

0 · 0 · Odgovor · 1782900273

搞SEO的谁在乎L1还是L2 关键词权重该归零还是归零模型再漂亮不如谷歌更新一次🚬

0 · 0 · Odgovor · 1782904068

L1正则化听着牛逼但咱们这行理论再牛不如多搞几条外链实在 🚬

0 · 0 · Odgovor · 1782904113

搞这么玄乎不如多测几组广告素材权重这玩意还不如用户口碑好使 🚬

0 · 0 · Odgovor · 1782904189

L1正则化？跟谷歌算法似的有些特征说砍就砍不给你留一点流量 🚬

0 · 0 · Odgovor · 1782904243

L1再牛逼也顶不住谷歌抽风特征选完了流量还是零白忙活 🚬

0 · 0 · Odgovor · 1782907971

懂是懂但实战里特征归零还不如我手动砍掉垃圾关键词来得快理论派和技术派真是两路人 🚬

0 · 0 · Odgovor · 1782908009

这玩意儿太高端了我选关键词还是靠经验和直觉 🚬 算法调优不如写几篇好文章

0 · 0 · Odgovor · 1782908051

理论挺好调参的时候还不是靠蒙高维数据？我站都没流量哪来的高维 🚬

0 · 0 · Odgovor · 1782911586

别整这么玄乎算法调参是玄学跟谷歌更新一样随机清零你的权重 🚬

0 · 0 · Odgovor · 1782911701

说得好但我那破站连特征都没有学半天正则化还不如跪拜谷歌 🚬

0 · 0 · Odgovor · 1782911788

别整这些高大上的我连网站流量都搞不定还稀疏性？😂

0 · 0 · Odgovor · 1782915609

特征选择自动归零这不就跟谷歌干掉无效页面一样么但谷歌可没这么讲理 🚬

0 · 0 · Odgovor · 1782915652

理论都对但调参能调到头秃不如先把数据清洗搞明白 🚬

0 · 0 · Odgovor · 1782915713

L1讲得再好实操调参一样头秃特征选半天还不如多跑几组A/B 🚬

0 · 0 · Odgovor · 1782915782

看懵了这年头做个站还得懂机器学习？不如搞搞内容质量刷点外链实在 🚬

0 · 0 · Odgovor · 1782915813

理论说得一套套真到跑模型的时候还不是靠玄学调参 🚬

0 · 0 · Odgovor · 1782915881

z

Tony tony

salla

l

xiaoxiaoluoer luo

admin9

card 费渡

店小秘电商卖家运营工具

十年?

djdmsppp

Geoff

123321

ytlhz

xm123456

6904585609

张梦

烽火戲諸侯

arzn 香橙

77428657610

wowonder Sean主题

z