IT171 中文网

技术源于分享,分享互通技长,技长深耕万象,万象同昇名扬。

关于 小黑屋 帮助 FAQ 协议 订阅
© 2007-2026 通州伍林堂网络工作室 版权所有、苏ICP备2024119294号-6、苏公网安备号
首页
摸鱼
好水 60秒?
互联
SRC 交流 域名 AI Dev
系统
windows macOS IOS 鸿蒙 Android
创意
游戏 图文 视频
171
测试 发布 废物
7,840

这个楼主还没有留下简介。

回复讨论
2

登录后可参与回复讨论。

IT171 中文网 Logo

IT171 中文网

登录后即可签到、查看积分与快捷发帖

IT171中文网作为全球知名的中文IT技术社区,致力于为广大IT技术爱好者提供最新、最全面的技术分享平台。我们坚守技术免费分享的宗旨,努力打造一个真正的技术资源分享平台。

相关主题

身为产品经理的你,该如何持续改进产品?新闻客户端,别被个性化资讯带沟里了你要投放朋友圈广告,必须先了解的策略技巧不愁访客不联系,外贸网站“联系我们”页面设计要点社区产品如何做好垃圾信息的清理?

主题标签

全部标签
图片数据分类色情识别
文明发言,理性讨论
IT171AI助手社区AI Bot·8小时前
函数
人工智能
标注
人工
训练
目录
前言一、鉴黄技术的发展历程1. 纯人工审核阶段2. 肤色算法辅助过滤阶段3. 人工智能机器学习阶段二、人工智能鉴黄核心原理第一步:明确分类定义与判定标准第二步:收集、标注训练样本第三步:训练识别模型
首页
摸鱼
摸鱼 节点
好水帖 63013 60秒?帖 4
好水

人工智能是如何识别一张黄图的?

前言

本文尝试用通俗的语言为大家介绍人工智能是如何实现“黄图”识别的,全文没有复杂的公式和晦涩的术语,适合初级技术人员和有强烈好奇心的读者。如果有兴趣对文章内提及的一些人工智能基础概念(神经网络、梯度下降、卷积等)深入研究,网上已有丰富资料,可自行查阅。

(注意:由于演示需要,本文可能包含一些尺度较大的图片。)

色情作为人类最基本欲望的体现之一,伴随人类社会发展衍生出多样形式。互联网的兴起,也让相关内容得到快速传播。有说法称互联网半数流量都和色情内容相关,本文不考证该数据真伪,也不探讨色情产业的合理性,仅从技术角度,结合网易信息安全部门实战经验,讲解网络色情图片的鉴别方案。

一、鉴黄技术的发展历程

1. 纯人工审核阶段

十几年前互联网发展初期,图片识别方式简单直接:人工审核。
彼时网络带宽低、线上产品少、图片数据体量小,单日图片量仅数万张,安排审核人员肉眼筛查、删除违规图片,完全可以满足管控需求。

2. 肤色算法辅助过滤阶段

随着互联网普及,图片数据量爆发式增长,单产品单日图片可达数百万张,单纯依靠增加人力审核,成本高昂且难以落地。
依托逐步发展的计算机视觉技术,行业开始使用肤色识别算法做初步过滤,机器筛除大部分低风险图片,剩余约**20%**的内容再交由人工复核,大幅降低人工工作量。

3. 人工智能机器学习阶段

移动互联网到来后,图片、短视频、直播等多媒体数据井喷,即便仅留存20%内容,人工也已无力承载。行业开始引入机器学习鉴黄系统,借助人工智能技术实现自动化审核,成为当前主流解决方案,并取得了显著效果。

二、人工智能鉴黄核心原理

从机器学习视角来看,判断一张图片是否为色情图片,本质属于图像分类问题:输入一张图片,由模型计算其属于色情内容的概率,最终输出判定结果。

计算机擅长数学运算,因此需要将识别逻辑抽象为数学模型,本文统一用公式表示:

y=f(x)y=f(x)y=f(x)

其中:输入图片为 xxx,函数 fff 为识别模型,输出结果 yyy 代表该图片为色情内容的概率。
整套流程分为定义标准、采集标注样本、训练模型三大步骤。

第一步:明确分类定义与判定标准

训练AI首先要划定清晰的分类规则,仅简单以“是否露点”划分,完全无法适配复杂的网络图片场景。

  1. 部分图片未露点,但画面、动作属于色情范畴,同样需要判定为违规。

【介于图片尺度问题,无法公开,大家可以想象一张裸体XXOO但不露点的侧身图】

95PRHAD400D80005.jpg

(图1: 没露点的色情)

  1. 部分图片存在露点画面,但属于合规正常内容,不能划为色情图片。

(图2 :特殊但合理)

  1. 除此之外,还有低俗擦边图、正常泳装图等各类边界场景:

image.png

(图3: 此处想象一张低俗但不漏点的图片)

(图4 :泳装)

由此可见,简单的“色情/正常”二分类远远不够,行业需要升级为多分类体系。团队结合实际场景、国家法律法规,搭建完整的分类标准,这也是整套鉴黄系统落地的基础。

第二步:收集、标注训练样本

分类标准确定后,需要海量图片样本用于模型训练。
依托多年人工审核积累的历史数据,从中筛选合规图片、色情图片、擦边图片等各类素材。同时搭建标签系统,组建专职标注团队,对所有样本精细分类打标。

训练样本的质量直接决定模型最终效果,因此数据筛选、标注工作耗时久、人力成本高。且由于素材多为违禁内容,存在传播风险,无法像公开数据集 ImageNet 一样采用众包模式,该工作也在持续迭代补充。

第三步:训练识别模型

本环节目标:根据标注样本,求解出最优函数 fff。

  1. 设定标注样本的标准结果为 y∗y^*y∗,模型计算结果为 yyy,定义损失函数 ∣y−y∗∣|y-y^*|∣y−y∗∣,代表预测值与真实值的偏差。模型训练的核心,就是不断优化函数 fff,让损失函数的值无限趋近于最小。行业普遍使用梯度下降法完成求解。

  2. 图片在计算机中本质是二进制 0/1 数据,直接使用原始二进制运算,会出现运算量巨大、特征提取低效、识别准确率低等问题。

(图5 :图片的二进制值)

  1. 为解决该问题,需要对图片做特征提取。现阶段主流方案为深度学习神经网络,本文选用 CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络) 三大经典模型。借助深度网络,可高效提取图片视觉特征,将原始图片转化为可运算的特征数据。

  2. 复杂模型拆解:实际应用中函数 fff 结构极复杂,会拆分为多层结构:

fn(fn−1(fn−2(…f2(f0))…))f_n(f_{n-1}(f_{n-2}(…f_2(f_0))…))fn​(fn−1​(fn−2​(…f2​(f0​))…))

拆分后的每一段函数,对应神经网络的一层,多层叠加即为“深度网络”。通过反向推导算法,逐层优化参数,最终训练出完整可用的鉴黄模型。

站点 Logo
IT171 中文网
站点 Logo
IT171 中文网
·2018/04/20 15:45
🎟️ 每日幸运刮刮乐
灬丨铭丨灬