Steven's Blog

A Dream Land of Peace!

最近的工作的一些感想

2019年年中开始,后面的工作内容应该有所调整。

自从16年6月底,从上海回到合肥,加入到华米科技, 到现在整整3年了。

从16年年中,到17年年初,基本一个人在做数据分析和报表。17年初到18年中, 带了一个新加入的同事A一起做数据分析和ETL等相关工作。 18年中,A去做上游的导数的事情,分析由我和新加入的B和C, 两个妹子,一起来完成,同时,自己也从大数据工程师,升级成了高级大数据工程师。

到了19年年中,撇去一些不开心的因素(导火索吧), 为什么想从大数据分析,转到算法团队(人工智能实验室团队)去做点事情呢? 我想主要还是想去了解数据探索的一个实用的套路吧。毕竟,描述性的统计分析,这个我已经做了三年了。 而关于数据的更地道的挖掘和分析,特征选取,建模, 模型评估这些,都是自己的薄弱点。也是我所认为的一个合格的data scientist必须掌握的。更何况,自己在算法和机器学习这块,并非是没有基础。人生那么长,总不能一辈子做基础的描述性的统计分析/业务分析还有做报表吧。

下面列出一些以前学习过的课程和材料吧, 算是对过往准备工作的一个总结。

  • 台大林轩田的<机器学习基石>, <机器学习技巧> 和 对应的英文教材 <Learning From Data>

  • 吴恩达的<机器学习> 和 <深度学习>课程, 并且完成了coursera上的深度学习的几门课程(课后作业有点水,因为很多都可以通过上下文得到, 但是不得不承认,是好的课后作业)

  • 北京交通大学的桑基韬等人在网易云课堂上开的<深度学习>课程

  • 周志华的西瓜书<机器学习>

  • 李航的<统计学习方法>

  • <The Elements of Statistical Learning> 看了一点点

  • 概率统计和线性代数的相关知识平时都有所复习

  • scikit-learn, pandas 的了解和使用

  • 用逻辑回归和时间序列分析,做过点探索分析; 时间序列分析结果,还在团队内部进行过分享

  • 用深度学习的cnn方法,做过一个图片的分类程序(判断照片好看是不那么好看)

  • 使用过算法包跑算法,并且验证算法检测结果,计算FN, FP, TN, TP.

  • 在来华米科技之前, 做了三年多的防垃圾邮件工作, 文本处理相关的原理和技术,非常熟悉了

准备不少,现在缺乏啥呢?

  • 缺少对机器学习和深度学习算法的深刻理解,手写算法的能力

  • 缺少数据挖掘和更深层次的统计分析的流程认知

  • 缺乏项目经验

希望一切都好,毕竟我才30岁。