机器学习

机器学习 Machine Learning

机器学习与人工智能

小度和AlphaGo
图像识别是机器学习一个很重要的分支
语音识别 科大讯飞
自动驾驶 (Google 特斯拉)
医疗智能诊断
智能翻译 (拍照翻译 1图像识别 2自然语言处理 3翻译 Google翻译远远超过百度翻译 神经网络 一段话结合语境)
数据挖掘 eg:逛淘宝留下浏览记录

人工智能领航者

人工智能领航者
为什么机器学习人工智能这两年发展这么快?
1. 大数据时代
数据量特别特别大
速度快 数据吞吐量非常大 能不能及时处理这些数据和公司的前途息息相关
多样性 很多可以挖掘发展的
价值 能不能从中挖掘到有用价值 不是取决于模型的优化 而且取决于数据量
2. 硬件发展
Google: GPU 为 tensorflow服务 神经网络
3. 深度学习
基于大数据时代应运而生的一门技术
4. 大规模的并行计算

发展史

什么是机器学习

机器学习(machine learning): 是通过算法,使用历史数据和资料进行训练,训练完成后产生模型。未来当有新的资料的时候,我们可以使用训练产生的模型进行预测。
机器学习:特征(feature)和标签(label)
比如预测明天是否下雨。
特征:湿度,风向,风俗,季节,气压
标签:0:不会降雨;1:会降雨
人类类比机器
– 监督学习(有标签)(Supervised learning):
回归分析(regression)
统计分类(classification): 二分类 多分类
– 非监督学习(无标签)(Unsupervised learning):
聚类(clustering)
降维(dimension个 reduction)
异常检测(anomaly detection)
– 强化学习(Reinforcement learning)

机器学习之统计回归

回归分析
– 预测输入变量与输出变量的关系
– 输出变量是连续的
– 一元回归与多元回归
一元:一个变量
多元:多个变量
– 线性回归与非线性回归
线性:最小二乘法
非线性:核方法,树类方法
– 算法:线性回归,支持向量机,树类算法,神经网络

机器学习之分类

分类问题
– 输出变量是离散的
– 输出变量的多少
二分类、多分类
– 精确率
– 召回率
– 算法:k近邻,感知机,朴素贝叶斯,决策树,逻辑回归,支持向量机,神经网络

风险评估:根据客户情况,决定是否贷款
图像识别:分析图像,判断图像中是否有人脸出现
垃圾邮件检测:判断一封邮件是否为垃圾邮件
智能医疗诊断:判断是否为恶性肿瘤

机器学习之聚类

聚类:把相似的对象通过静态分类的方法分成不同的组别或更多的子集。同一个子集的成员都有相似的属性。
算法:K均值,高斯混合聚类,密度聚类,层次聚类
商业:定义客户类型,刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
生物:动植物分类对基因进行分类,获取对种群固有结构的认识。
保险:聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。
社交:社交网络的挖掘

机器学习之推荐

推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:
1. 将与用户购买的内容近似的物品推荐给用户。对物品贴上多个标签
2. 基于用户相似度的推荐,则是将与目标用户兴趣相同的其它用户购买的东西推荐给目标用户

机器学习流程:

数据提取(ETL) >> 数据清洗(Feature cleaning) >> 特征工程(Feature engineering) >> 训练模型(Training model) >> 验证模型优化模型(validation)
– 机器学习并不是万能的,但没有机器学习是万万不能的!
– 数据清洗是实现机器学习算法的必要前提
– 特征工程是提升模型强度的关键因素
– 多种方法让机器学习的算法泛华能力增强

机器学习之大数据

机器学习:利用数据价值的最核心技术!
数据量越大 准确率越高
Hadoop & Spark echosystem
把数据切片分成很多小部分,分到单机中处理做并行运算。
数据拷贝成3份或多份存在硬盘里,保证数据不丢失。

机器学习之数据科学之路

数据科学
数理统计
– 概率论与统计:假设检验,概率分布,贝叶斯理论,极大似然估计….
– 线性代数:矩阵的操作
– 微积分:极值,优化问题,偏导数,梯度….
编程语言与算法
– 编程语言:R & Python(C++,Java…)
数据分析和挖掘:Python,R
数据工程师:Java,Python
钻研算法框架:C++,Python
– 数据结构
– 算法
1. 巩固数理统计基础。熟悉机器学习的算法知识
2. 熟练掌握至少一门编程语言
3. 学习数据结构与算法相关知识,锻炼编程能力

4. 积极参加数据科学竞赛(如kaggle)和数据科学相关的项目磨练自己

机器学习 – 理解与实战

机器学习

监督学习

  • 分类问题:输出位离散值的问题
    明年会不会涨工资
    能不能申请到想去的学校
    中国足球队能不能赢得比赛
    这张图片是什么
  • 回归问题:输出位连续值的问题
    明年的工资是多少
    明年的比特币价格是多少
    活动会有多少人来
    一切模型都是错的,但是有些模型有用

分类问题

问题描述:预测明年能不能申请到想去的学校
– 特征(条件):
成绩(GPA,排名)
本科/高中学校
科研成果/课外活动
TOEFL/GRE/SAT/GMAT分数
– 标记(结果)
拿到了
没拿到
线性回归——系数
logistic回归
过拟合
交叉验证
随机森林
评价分类器好坏

回归问题(线性回归)

image.png

无监督学习

聚类学习

k-means算法
1. 随机选取k个中心点,代表k个类别
2. 测量每个数据到中心点的距离,并归类到距离最近的中心点对应的类别上
3. 对每个类别的数据,计算出平均位置,更新k个中心点
4. 重复2~3步骤,直到系统收敛

神经网络

神经网络
卷积神经网络

AlphaGo算法

深度学习的发展与应用

  • 深度神经网络
  • 深度学习的应用
  • 实际应用案例
    M-P神经元模型
    神经网络简介
  • 1943 McCulloch-Pitts神经元模型
  • 1956 感知机(Perceptron) [(第一个可以学习的模型) (线性)]
  • 1986 分布式表示 — 深度学习之父 hinton
  • 1986 反向传播算法
  • 1994 长短记忆网络
  • 2006 深度信念网络 — hinton
  • 2007 卷积神经网络

优化深度神经网络

深度学习网络

卷积神经网络
解决图片识别问题

卷积

循环神经网络
h 降低参数 防止过拟合

长短记忆网络(LSTM)

门循环网络

生产判别式网络

深度学习的应用:
图片识别

语音识别

机器翻译

图片生成

物体检测

视觉搜索

航拍图片分析
海狮的种类,成年幼年等
农作物的期货,收成
露天停车位数量 – 沃尔玛销量

聊天机器人
客服
人工智能用在没有创意的格式化的工作上 实现自动化

如何学习深度学习

  • 数学
    线性代数
    微积分
    凸优化/计算方法
    概率论
  • 机器学习
  • 编程
    算法和数据结构
    Python
  • 深度学习
    Deep Learning,lan Goodfellow,Yoshua,Bengio,etc.
    论文

实战数据挖掘与机器学习

数据分析与数据科学的职业发展

数据相关职业岗位解析
数据分析师
市场分析师,产品经理,数据分析师
数据科学家
数据科学家,数据科学算法工程师
数据工程师
大数据工程师,数据工程架构师
要求

职业能力要求

学历

硬技能
Python SQL(数据库的操作)

软实力

关于数据科学竞赛的一点思考

业务理解

要求表格

学习数据分析和数据科学的要点

学会分析商业需求,
以项目实践为手段,
熟练应用已有工具,
锻炼持续学习能力。

推荐书籍:数据科学入门, 利用Python进行数据分析
pd.DataFrame?
Google
百度
Stackoverflow
知乎

  • 动手实际操作
    熟悉工具使用
  • 着重项目实践
    能实习尽量实习
    参加数据竞赛
  • 与人为善,与人为伴
    锻炼沟通与表达能力
    团队协调能力
    持续学习能力

UCI数据库
Kaggle数据库 (Kaggle:全球最大机器学习算法竞赛平台 数据量特别大)
天池 (阿里)
DataCastle 成都一家公司创建的竞赛平台 信贷风险

最后,献上福利:
Data Analysis.png

留下评论