2019年年中开始,后面的工作内容应该有所调整。
自从16年6月底,从上海回到合肥,加入到华米科技, 到现在整整3年了。
从16年年中,到17年年初,基本一个人在做数据分析和报表。17年初到18年中, 带了一个新加入的同事A一起做数据分析和ETL等相关工作。 18年中,A去做上游的导数的事情,分析由我和新加入的B和C, 两个妹子,一起来完成,同时,自己也从大数据工程师,升级成了高级大数据工程师。
到了19年年中,撇去一些不开心的因素(导火索吧), 为什么想从大数据分析,转到算法团队(人工智能实验室团队)去做点事情呢? 我想主要还是想去了解数据探索的一个实用的套路吧。毕竟,描述性的统计分析,这个我已经做了三年了。 而关于数据的更地道的挖掘和分析,特征选取,建模, 模型评估这些,都是自己的薄弱点。也是我所认为的一个合格的data scientist
必须掌握的。更何况,自己在算法和机器学习这块,并非是没有基础。人生那么长,总不能一辈子做基础的描述性的统计分析/业务分析还有做报表吧。
下面列出一些以前学习过的课程和材料吧, 算是对过往准备工作的一个总结。
-
台大林轩田的<机器学习基石>, <机器学习技巧> 和 对应的英文教材 <Learning From Data>
-
吴恩达的<机器学习> 和 <深度学习>课程, 并且完成了coursera上的深度学习的几门课程(课后作业有点水,因为很多都可以通过上下文得到, 但是不得不承认,是好的课后作业)
-
北京交通大学的桑基韬等人在网易云课堂上开的<深度学习>课程
-
周志华的西瓜书<机器学习>
-
李航的<统计学习方法>
-
<The Elements of Statistical Learning> 看了一点点
-
概率统计和线性代数的相关知识平时都有所复习
-
scikit-learn, pandas 的了解和使用
-
用逻辑回归和时间序列分析,做过点探索分析; 时间序列分析结果,还在团队内部进行过分享
-
用深度学习的cnn方法,做过一个图片的分类程序(判断照片好看是不那么好看)
-
使用过算法包跑算法,并且验证算法检测结果,计算FN, FP, TN, TP
. -
在来华米科技之前, 做了三年多的防垃圾邮件工作, 文本处理相关的原理和技术,非常熟悉了
准备不少,现在缺乏啥呢?
-
缺少对机器学习和深度学习算法的深刻理解,手写算法的能力
-
缺少数据挖掘和更深层次的统计分析的流程认知
-
缺乏项目经验