Data Science Archive
1.72K subscribers
1 photo
113 links
小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些:

* 有趣/有价值/SOTA的会议论文和代码分享
* 自然语言处理,计算机视觉,语音信号领域进展
* Kaggle 和其他算法竞赛经验
* 反作弊,搜索和个性化推荐算法产品的工程化
* 统计学习,矩阵计算,贝叶斯相关的工具
* 可视化、算法服务相关的存储、并行和分布式计算工具

希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: jinyzho@microsoft.com
Download Telegram
Gael Varoquaux 在euroSciPy 上做的关于interprete model 的 tutorial,他的博客里面干货一向很多,周末好好研究一下,就是有时候文章里面法语单词会混在里面,不太影响理解,习惯就好……
link: http://gael-varoquaux.info/interpreting_ml_tuto/#
一个EMNLP 2018的 recap,看着挺好,配合 paper 食用更佳。博客也不错。
link: https://supernlp.github.io/2018/11/10/emnlp-2018/
一个对 GCN 训练和评估各种 trick 和 pitfalls 的 recap,简单看了一下有很多训练细节的描述和提及,还有 GCN 网络构建的很多关键部分。
先前试过朴素的 GCN 做文本分类:https://arxiv.org/abs/1809.05679
自己也造了一个轮子,GCN 做文本分类确实可行,而且相对 TextCNN 这些方法速度快很多。
link:https://arxiv.org/abs/1811.05868
一份在PyData Warsaw2018上的 slides,分享NLP Summarization.
https://ghostweather.slides.com/lynncherny/tl-dr-summarization#/6
进到页面后作者还有一些不错的 slides,包括 Google 那篇the stories we tell,写得都挺不错,适合快速 recap。
《Do Better ImageNet Models Transfer Better?》的第二版。
In v1, we used public checkpoints where the ResNet models were trained without regularizers, which is why they performed best in the fixed feature setting. In v2, we retrained everything. Surprisingly, for ImageNet training, the same hyperparameters work well for all models.
In v2, we show that regularization settings for ImageNet training matter a lot for transfer learning on fixed features. ImageNet accuracy now correlates with transfer acc in all settings.
https://arxiv.org/abs/1805.08974
MedicalTorch 升级到了v0.2,这是一个在 PyTorch 上专门用作医学图像的框架,没有仔细研究过,可能是医学图像和其他领域的图像处理有所不同。粗略看了一下代码里的 Model,提到了 segmentation using deep dilated convolutions
link: https://www.nature.com/articles/s41598-018-24304-3
transforms 里的函数有好多特殊的,像是一个高质量的项目,有待研究。
link:https://medicaltorch.readthedocs.io/en/stable/
来自Uber AI 的一个不错的轮子,玩了一天非常适合跑demo和验证,许多state of the art 的解决方案都可以先做验证。https://uber.github.io/ludwig/
blog介绍:https://eng.uber.com/introducing-ludwig/
DVC:做data science model管理的工具,大致原理是使用git和s3之类的进行联合存储。多人团队,跨多业务团队还是蛮有用的,上一次和其他队员一起刷Kaggle的时候用过一次体验不错。https://github.com/iterative/dvc
FAIR的ELF发布了ELF Go的新版,应该后面会继续发更多Go bot,https://facebook.ai/developers/tools/elf
ELF OpenGo:https://research.fb.com/facebook-open-sources-elf-opengo/
lecun的fb post:https://www.facebook.com/yann.lecun/posts/10155789997817143
早上试玩了一下JAX,前段时间有关注,昨天看Francois又在提到。简单来说就是Numpy+gradients,有XLA https://github.com/tensorflow/tensorflow/blob/master/tensorflow/compiler/xla/g3doc/overview.md 加成的GPU加速。想实现一些底层框架的话也许是一个不错的选择。https://github.com/google/jax
前有StanfordNLP,又发现 https://github.com/zalandoresearch/flair 不过现在对这种轮子有点免疫。看了一些源码觉得项目代码写得还是挺不错的,自己造轮子的朋友不妨一看,看得多才能造得好。