上海数据分析就业班

认证

CDA数据分析师认证

放心：经管之家CDA LEVEL Ⅲ数据科学家认证证书，行业人才认证，已获得IBM大数据大学，中国电信，苏宁，德勤，猎聘，CDMS等企业的认可。

专业：CDA认证是根据商业数据分析专业岗位设立的一套体系化、科学化、化的人才标准。全国统考、命题、评分公平、流程严格，更具含金量。

权益：持证人享有系列特殊权益。证书皆绑定考生真实身份，可在CDA查询，确保性与防伪性。证书三年审核一次，增加持证人的实力与权益。
CDA数据分析师认证”是一套专业化，科学化，国际化，系统化的人才考核标准，分为CDA LEVELⅠ ，LEVEL Ⅱ，LEVEL Ⅲ，涉及金融、电商、医疗、互联网、电信等行业。

课程介绍

课程简介
Introduction
CDA数据分析就业班针对时间充裕、基础差的专科、本科在校生，以及待业、期待从事数据分析的工作人员提供3个月全脱产集训，毕业推荐相关工作单位。 CDA数据分析就业班每期至少十位以上相关领域授课，以CDA数据分析师标准大纲要求，从数据库管理—统计理论方法—数据分析主要软件应用（如：Excel、SQL、Power BI、Python等）—数据挖掘算法模型，一整套数据分析流程技术进行系统讲解。还将从金融、医药、保险、电商、零售等行业需求出发，使用实际案例手把手将数据分析技术传授给学员，使CDA就业班课程更符合就业要求，达到企业用人标准，在大数据时代找准工作定位。学员毕业要求能够完成商业数据分析项目。

学习目标
learning target
熟练掌握Excel、MySQL、Power BI、Python等数据分析软件；

熟练掌握数据清洗，可以完成缺失值填补、异常值处理等；

精通数据可视化，例如箱线图、动态图等；

掌握数理统计基本理论知识；

精通聚类、回归、因子分析等算法；

熟悉各类数据挖掘算法；

掌握数据分析在各行业的应用场景；

可以独立完成数据建模；

可以独立完成数据报告撰写；

学会团队协作，分工完成大型项目。

学习对象/基础
object for learning
在校高年级学生、转行欲从业人士；

在职数据分析师；

对数据分析和挖掘感兴趣的业界人士；

学习前较好具备大学数学和概率统计基础。

服务升级

朝九晚九全程跟班答疑
学习管理师线上服务时间由原先的上课期间答疑调整为课程持续期间答疑，包括中途休息时间；同时，每日答疑时间由原先的“朝九晚六”调整为“朝九晚九”，全面覆盖同学晚自习时间。

一对一督学
每个班级、每位同学、每月都会进行至少一次一对一辅导，询问同学学习状态、解决学员学习问题；同时，针对每个模块测试结果后10%的学员进行额外辅导，以确保学员能够跟上学习进度。

定期直播串讲
对于重难点知识和同学普遍反应的问题，学习管理师将进行每周1-2次的晚自习串讲，串讲时常为2小时左右，且相关内容需要重新制作、有别于课程内容，帮助同学攻克重难点知识。

五分钟内有问必答
学习管理师线上服务要求5分钟内有问必答，并能真正做到解决所有课程中遇到的问题。在原先每个班一个学习管理师+一个班主任的配置下，调整为每个班2名学习管理师+项目服务团队的模式，以确保、高质量的解决线上提问。

出勤率和进度监督
在课程持续期间，学习管理师还需实时统计学员出勤情况，监督课堂纪律，跟进学习进度。除正常答疑外，服务团队会与班级同学保持沟通、给予正确指引，从而营造积极学习氛围。

作业与测试
在远程授课期间，每个课程会安排相关课后作业，确保同学课下能够进行适当练习，提升同学实时参与感、增加当日学习效果。除了作业，服务团队还会组织学员进行阶段性测试，以考试性质为主，主要考察学员对本阶段知识掌握程度。

主讲老师

教师：唐绍祖
数据分析研究院经验丰富讲师

CDA数据分析研究院Python系列课程经验丰富讲师，CDA数据分析研究院课程研发成员，经管之家SPSS栏目撰稿人，参与编写《SPSS Modeler+Weak数据挖掘从入门到实战》。

教师：丁亚军
南京上度咨询数据分析总监

现任职于南京上度市场咨询有限公司，人大经济论坛数据处理中心数据分析顾问，SAS、SPSS 软件讲师、中国学习路径图国际中心技术顾问。曾参与2012 宏观经济预测、中国城镇居民家庭投资调查、泸州老窖目标管理与绩效。

教师：赵仁乾
北京大学管理科学与工程硕士

现就职于北京电信规划设计院，从事移动、联通集团及各省分公司市场\业务\财务规划、经济评价及运营咨询。重点研究方向包括离网用户挖掘、市场细分与营销、移动网络价值区域分析、潜在价值客户挖掘等。

教师：韩要宾
杭州沐垚科技有限公司创始人兼

5年电商从业经验，4年数据挖掘实战经验；专注于数据分析与挖掘、机器学习、深度学习，服务客户包括苏宁易购、迪卡侬、百草味、浙江师范大学等。

教师：安晓飞
中国农业大学博士

副教授，CDA数据分析研究院讲师，具有深厚的数理统计与应用专业背景，近十年的数据挖掘与人工智能算法实践经验，承担或参与完成多项数据挖掘分析相关项目。

教师：李奇
中国电子表格应用大会

曾在IBM中国担任销售管理团队数据分析项目组长及德勤北京所的数据分析咨询顾问。专精于企业数据分析、制定商业智能业务解决方案、软件开发及Excel培训等。

课程问答

关于大数据的热门问题
Q：上课形式是怎么样的？ A：受疫情影响，CDA数据分析就业班采取远程直播授课的形式，足不出户即可学习到优质课程。线上直播 + 录播视频 + 线上答疑，充分保障同学们的学习效果。

Q：学员课下如何与老师进行互动？ A：CDA课程每期都会建立QQ群和微信群，工作日有老师和学习管理师负责答疑，早九晚九；同时学员可以在讨论区以帖子的形式向老师提问，老师会在工作日的48小时内回复。

Q：远程班是录播还是直播？ A：远程班采取直播平台+ 线上答疑，同步现场班上课时间，错过直播学员可以观看视频。

Q：如果学不会怎么办？ A：首先，我们有一次0元学习的机会，如果还是学不会，授课老师会和学生面谈，发现问题所在，并让老师给出学习建议，查缺补漏，可以再跟着0元学一期。目前咱们还没有出现过这样的情况，对于学员来讲都是想尽快掌握技术能够运用到工作中。

新闻详情

上海口碑好的数据分析师培训班哪家好

来源：上海CDA数据分析师培训学校时间：2020/5/12 17:17:14 浏览量：337

海量数据分析处理方法

一、Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

基本原理及要点：

对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不增加查找的结果是正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是

counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要增加bit数组里至少一半为0，则m应该>=nlg(1/E)*lge

大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom

filter内存上通常都是节省的。

扩展：

Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom

filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom

Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的小值来近似表示元素的出现频率。

问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

二、Hashing

适用范围：查找，删除的基本数据结构，通常需要总数据量可以放入内存

基本原理及要点：

hash函数选择，针对字符串，整数，排列，具体相应的hash方法。

碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened

addressing。

扩展：

d-left hashing中的d是多个的意思，我们先简化这个问题，看一看2-left hashing。2-left

hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。在存储一个新的key时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，比如两个位置都为空或者都存储了一个key，就把新key存储在左边的T1子表中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个位置。

问题实例：

1).海量日志数据，提取出某日访问百度次数多的那个IP。

IP的数目还是有限的，多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

三、bit-map

适用范围：可进行数据的查找，判重，删除，一般来说数据范围是int的10倍以下

基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码

扩展：bloom filter可以看做是对bit-map的扩展

问题实例：

1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。

2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map。

四、堆

适用范围：海量数据前n大，并且n比较小，堆可以放入内存

基本原理及要点：大堆求前n小，小堆求前n大。方法，比如求前n小，我们比较当前元素与大堆里的大元素，如果它小于大元素，则应该替换那个大元素。这样后得到的n个元素就是小的n个。适合大数据量，求前n小，n的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。

扩展：双堆，一个大堆与一个小堆结合，可以用来维护中位数。

问题实例：

1)100w个数中找大的前100个数。

用一个100个元素大小的小堆即可。

五、双层桶划分-—其实本质上就是【分而治之】的思想，重在分的技巧上！

适用范围：第k大，中位数，不重复或重复的数字

基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子。

扩展：

问题实例：

1).2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间，就可以很方便的解决。

2).5亿个int找它们的中位数。

这个例子比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

实际上，如果不是int是int64，我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数只有2^20，就可以直接利用direct

addr table进行统计了。

六、数据库索引

适用范围：大数据量的增删改查

基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

七、倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询

基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

以英文为例，下面是要被索引的文本： T0 = “it is what it is” T1 = “what is it” T2 = “it is a

banana”

我们就能得到下面的反向文件索引：

“a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}

检索的条件”what”,”is”和”it”将对应集合的交集。

正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。

扩展：

问题实例：文档检索系统，查询那些文件包含了某单词，比如常见的学术论文的关键字搜索。

八、外排序

适用范围：大数据的排序，去重

基本原理及要点：外排序的归并方法，置换选择败者树原理，优归并树

扩展：

问题实例：

1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数高的100个词。

这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。

九、trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存

基本原理及要点：实现方式，节点孩子的表示方式