AI大至少要会以下三个方面的技能。
第一、懂数据
懂数据首先是懂
1)数据工程的内容
例如:采集、存储、清洗、分析、可视化。
其次是懂
2)数据库的基本概念
数据库和数据表,CURD操作:Create、Update、Read、Delete,关系型数据库,非关系型数据库等。
3)数据的结构
例如:地铁数据,静态数据:线路、站点(不一定有时间戳,更新慢),动态数据:刷卡记录(必有时间戳,不断产生),数据存放有一定的规则。
4)数据的类型格式
TXT:纯文本
CSV:逗号分隔值
JSON:键值对
SQL:数据库文件等
第二、懂AI机器学习领域
AI的得以突破发展一方面是因为数据量的爆发式增长,另外一方面得益于机器学习,尤其是深度学习算法的发展。
1)什么是机器学习
研究如何通过计算的手段,利用经验来改善系统自身的性能,通俗来讲,让代码学着干活即为机器学习,而深度学习是机器学习的特例。
2)机器学习的种类
有监督学习:提供标签,分类、回归
无监督学习:无标签,聚类
增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Processes,MDP)
主动学习:边学习边标注
迁移学习:从一个域(Domain)迁移(Transfer)到另一个域
集成学习:Ensemble,三个臭皮匠赛个诸葛亮,Boosting和Bagging
3)机器学习两大痛点
维度灾难:数据量和特征数
过拟合:模型泛化能力
4)机器学习的流程
预处理:数据重塑、缺失值处理(补全、统计为缺失特征)
特征工程:特征没做好,参数调到老。在已有的特征上生成新的特征,数值、类别
特征选择、降维:基于MIC、Pearson相关系数、正则化方法、模型,PCA、tSNE
训练模型、调参:单模型,多模型融合,集成
评估模型:正确率(Acurracy)、准确值(Pecision)、召回值(Recall)、F值、AUC
懂以上机器学习的相关内容视为入门了AI大经理。
第三、懂数据且能进行AI产品化应用以构建机器学习用户画像产品为例
什么叫懂数据处理且能够进行AI产品化应用呢,下面笔者LineLian一构建用户画像实现大数据机器学习推荐为例来讲综合运用数据、算法和算力的步骤。
(第一步):建模
1)获取原始数据。例如用到的数据有用户访问系统的行为日志和用户的基本属性,通过采集日志数据,得到用户的行为信息;
2)对数据进行预处理,挖掘出事实标签。对用户数据进行过滤、清洗、简化表示,从用户的基本属性信息可以得到用户的编号、等级、名称、第一次登录时间等,这些信息属于事实标签;
3)分析用户行为信息,构建用户画像的模型标签。通过对用户的行为进行分析,得到用户访问页面和操作的规律,构建出用户的行为模型;
4)通过模型标签进行预测,完善用户画像。根据用户的行为模型可以预测出用户的操作行为。
(第二步):多维度刻画用户画像
1):自然属性,比如:用户注册时填写的姓名、性别、年龄、邮箱、电话、职业等。不同属性用户感兴趣的点不同,标签一般比较稳定。
2):兴趣属性,行为偏好信息,不同时间偏好不同,随时而变!偏好标签挖掘算法有TF-IDF和BM25算法等
3):地理信息,移动轨迹信息,不同区域用户访问不同服务器
4):主机IP、MAC地址、不同浏览器等,通过IP地址可以找到用户所在的区域
5):隐含属性指从用户的基本信息、行为信息等数据中发掘出用户信息中隐含的规律或偏好。例如从用户上线的频率计算出用户的活跃等级,活跃等级可以反映出用户对系统的粘性。
(第三步):标签
MECE(Mutually Exclusive Collective Exhaustive)原则,即标签需要彼此独立且详尽无遗。
(1) 用户需求和使用场景会不断的更新,所以标签体系是一个不断完善的过程,不可能一次性建立完成;
(2) 不同领域的用户需求和业务场景不同,用户画像的标签系统也不同。关键是要从不同层面更透彻地分析特定领域用户的决策行为。建立标签系统时,应根据具体业务情况进行切实分析;
(3) 根据具体需求合理划分标签的体系结构,一般需要让标签体系有结构框架,呈现出一定的层级关系便于标签管理,也可以增加标签间的联系。
标签体系结构三种:结构化、半结构化、非结构化
事实标签和模型标签举例 对标题按体系划分
(第四步)映射用户画像
数据-用户标签映射
用户画像方法是数据-用户标签映射方法,它是以数据来驱动用户画像的生成。
(第五步) : 评估模型
产品经理怎么评估用户画像模型好坏呢?建议从以下几个方面
用户画像评估指标包括:准确性、覆盖范围、及时性、可解释性和可扩展性等。
(第六步)数据可视化
与用户交互过程可视化,数据可视化不仅是统计图表,基本上可以通过图形显示的任何数据、文本、原理、逻辑和法则都可以称为数据可视化。数据可视化具有交互、多维和可见特征。用户画像可视化后图如下所示:
(AI逆潮增长)