Data Science Archive
1.72K subscribers
1 photo
113 links
小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些:

* 有趣/有价值/SOTA的会议论文和代码分享
* 自然语言处理,计算机视觉,语音信号领域进展
* Kaggle 和其他算法竞赛经验
* 反作弊,搜索和个性化推荐算法产品的工程化
* 统计学习,矩阵计算,贝叶斯相关的工具
* 可视化、算法服务相关的存储、并行和分布式计算工具

希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: jinyzho@microsoft.com
Download Telegram
一个对 LSTM 中 autoencoder 的科普介绍,还挺清楚。just another,有关键部分的 Keras code 帮助理解。https://machinelearningmastery.com/lstm-autoencoders
语言模型中的迁移学习进展和总结,对目前State of the Art 的 LM 都有介绍,包括allennlp 的 ELMo,ULMFiT,OpenAI 的 Transformer,以及最近 Google 刷屏的 BERT。https://drive.google.com/file/d/1kmNAwrSlFYo0cN_DcURMOArBwe9FxWxR/view
ICL 数学系DL课程的一些资料,包括有PyTorch和 TensorFlow 的 Tutorial 以及作业相关,看了一下Tutorial 部分,觉得非常有意思,和其他传统的基础作业不太一样,这里都是流行的落地项目,比如Question Answering、Generative Model with VAEs/GANs,非常值得一看。https://github.com/pukkapies/dl-imperial-maths
一个将 scikit-learn estimator 转化成其他语言的工具,这样线上做 prediction 的时候会更加灵活,暂时还没有需要研究,不过看起来是非常有意义的项目,目前更新也比较活跃。https://github.com/nok/sklearn-porter
NIPS 2018 上 MPC solver,用于在强化学习模型中的控制辅助。Specifically, we differentiate through MPC by using the KKT conditions of the convex approximation at a fixed point of the controller. 作者是用在 PyTorch 上,做了一个 PyTorch 的 Lib,不过确实先前的control methods 都有局限。
paper: https://arxiv.org/abs/1810.13400
code: https://github.com/locuslab/mpc.pytorch
link: https://locuslab.github.io/mpc.pytorch/
Yandex 的 NLP 课程资料,这家俄罗斯的公司实力很强,也是 catboost 和 Clickhouse 的东家。
link: https://github.com/yandexdataschool/nlp_course
顺便可以看看托管:https://github.com/yandexdataschool
似乎是他们做的DataScience公开课,值得关注。
一个 GBM 的实验,比较纯 Python+numba jit 和efficient version histogram binning优化过的 GBT(lightGBM) 的 benchmark。试了一下,貌似 master 分支上的 code 已经相差无几,更新比较活跃。
code: https://github.com/ogrisel/pygbm
关于 numba jit:http://numba.pydata.org/
介绍wasserstein距离的一篇科普文章,深入浅出写得非常好。link:http://www.mindcodec.com/an-intuitive-guide-to-optimal-transport-for-machine-learning/
介绍 QTE/ATE,以及 Local ATE,来自 Uber Eng,有不少产品角度的数据科学思考。
link: https://eng.uber.com/analyzing-experiment-outcomes/
顺带找到一个知乎上关于 Local ATE 的介绍:https://www.zhihu.com/question/32199571/answer/55792738
一个 ML 扩展包,配合scikit-learn 一起食用还是很不错的,以前用过,主要优势在于 ensemble 和各种常用应用层面的封装,毕竟scikit-learn 里面不常用的方法还是有点多。
link: http://rasbt.github.io/mlxtend/
作者是威斯康辛麦迪逊的统计系老师,也是这本《Python Machine Learning》的作者。
书:https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130
cuDF: GPU DataFrame Library,pandas-like API。貌似 NVIDIA 也有一个类似的项目?但是刚才去找了半天没找到。来自 rapids.ai。
link: https://github.com/rapidsai/cudf
团队还有其他不错的项目,cuML,cuGRAPH,可视化的工具等等,可能是想做一个 GPU Data Science Ecosystem,可以关注一下。
团队主页:https://rapids.ai/
团队项目主页:https://github.com/RAPIDSai
一个收集 NLP 各个子领域进展的 markdown 项目,这里对进展的定义不错,都是基于某某公开数据集,以及相应的 metrics,非常适合刚刚入门某个领域。扫了一眼 text classification & summarization,还是比较系统的。遗憾的是对于各个领域独有的(默认的)一些 trick 没有提及。
link: https://github.com/sebastianruder/NLP-progress
EMNLP 2018 上一个非监督的Statistical Machine Translation,WMT14 的 BLEU 分数26.2,还是挺不错的。翻译领域其实不太了解,NMT 还算实践过一些,传统的Statistical MT几乎不太懂。
看了一下项目里的requirements,看到了Moses 的身影,似乎这个是早期传统的 SMT 的重要工具?(上次在一个文言文翻译现代汉语的项目里见到过。
code: https://github.com/artetxem/monoses
link: https://arxiv.org/abs/1809.01272
Moses: http://www.statmt.org/moses/
一个用featuretools做特征工程的例子,ft这个工具还不错,上次做Kaggle也有用到,如果是不太熟悉的领域,又是categorical data,先ft提一波高阶组合特征,跑一个baseline还是不错的。
不过这个工具有相当多tricky的参数,时间开销也比较大。
link:https://medium.com/@rrfd/simple-automatic-feature-engineering-using-featuretools-in-python-for-classification-b1308040e183