V2EX POST

[上海] 医药独角兽迅猛上升中欢迎 Python 搜索推荐大牛来投

职位描述：

负责 AI 项目数据处理以及搜索、推荐相关的工程实现；

任职要求：

1 、熟练使用 Python+ElasticSearch 进行搜索推荐工程开发，理解检索原理，一年以上相关工作经历；
2 、熟练使用 pandas 进行数据处理和分析；
3 、有数据 ETL 、网络接口开发和部署经验；
4 、熟练使用 linux 、docker 、git ；

加分项：

有 nlp 算法经验优先；

坐标 @ 上海，匹配的候选人请联系微信 @ lechengxi ，备注：v2ex

#熟练 #数据处理 #搜索 #使用 #网络接口 #AI #Python #ElasticSearch #pandas #ETL

5 views03:40

V2EX POST

pandas 新手，使用 pd.cut 怎么自定义开闭区间？

在用`pd.cut(pd.Series, bins=bins, right=False).value_counts()`对某一列值的区间数量进行统计

我想要左闭右开，但是最后一个区间要左右都是闭区间，也就是这样

- [0, 100), [100, 200), [200, 300),...,[900, 1000]

查阅了文档，只能左开右闭然后加上`include_lowest=True`让第一个参数的左区间变为闭区间，想了解一下有没有`right=False, include_largest=True`这样的实现方式

[文档]( https://pandas.pydata.org/docs/reference/api/pandas.cut.html#pandas.cut)

#cut #pandas #区间 #pd #bins #right #False #100 #200 #include

4 views07:38

V2EX POST

关于 csv 大文件， Python 处理的问题

之前有个关于一个近 10G 的 csv 文件关键词查询的的需求。
文件宽 80 长几千万吧，有各类数据。
使用了 pandas 分块处理，最后只弄成搜索一个关键词需要十几分钟。
大伙有什么只用 python 能更高效的建议吗？

#关键词 #文件 #有个 #10G #csv #80 #pandas #python #分块 #几千万

5 views14:15

V2EX POST

pandas 读取 Excel 参数文件，提交接口报错，打印出来的 dict 复制出来提交却正常

如题。接口的参数都存在一个 Excel 里。利用 pandas 读取出来后，转为 record 形式的 dict 。然后用 request 提交，但是报请求接口参数不正确，模板渲染失败。但是把这个 dict 打印出来后，复制到另一个 py ，用同样的方法转为 JSON 后提交成功。这是为什么呢？核心的代码如下：

import requests
import json
import pandas as pd
from datetime import datetime

tk=Token(get_hlht_token())
tb=pd.read_excel('D:\\log\\查询结果.xlsx')
tb=tb.fillna('')
tb=tb.astype({'sid':str,'ztlb':str,'jclb':str,'sjje':str})

lists=tb.to_dict('records')
temp_dict=lists[6]
fk_url='http://xxx?access_token={}'.format(tk.token)
header = { 'Content-Type': 'application/json'}
temp_dict['token']=get_lhzc_token()
jsons=json.dumps(temp_dict)
r=requests.post(url=fk_url,data=jsons,headers=header)
print(r.text)

把 temp_dict 打印出来，复制到另一个 py 文件，用同样的方式就能提交成功，这是为啥呢？一开始百度以为是 utf-8 编码的问题，但是加上.encode('ut8')也不行。麻烦大家指点下迷津

#dict #tb #token #import #str #temp #json #url #pandas #复制到

8 views04:45

V2EX POST

[求职][上海] 数据开发，现在还有机会吗？

迫于裁员减薪，op 我目前在降薪 /离职 n+1 之间摇摆，想先观望目前行情如何。

目前在现公司负责数据开发工作，是部门前期几个核心开发人员之一，主要负责 ETL 平台开发维护，主要技术栈包括不限于 Python ，Spark ，Pandas ，Django ，Kubernetes ，RabbitMQ 等等，偶尔要写写 Scala 维护点 UDF ；有时会给业务项目 SQL 调调优排排错；另外我对 Pandas 也比较熟，直接参与过科研项目的业务，有幸蹭到过第 n 作者。其他的话，op 工作经验五年不到；英语读写没有障碍，可日常沟通；以前在嵌入式相关公司干过开发和打杂，linux 服务运维开发啥都会一点点。

#op #Pandas #开发 #排错 #维护 #开发人员 #想先 #ETL #Python #Spark

5 views02:15

About

Blog

Apps

Platform