V2EX
1.79K subscribers
12.2K photos
2 videos
254 files
76.2K links
V2EX新帖及热议
群组:@v2exhub
Download Telegram
[酷工作] [北京] 字节跳动「番茄小说」招聘后端研发工程师,急急急~~~

职位描述

参与字节跳动旗下番茄小说业务研发,保障业务在高速发展中的架构稳定和可靠性;
负责调研业界前沿技术,针对业务领域的复杂问题,提出相应解决方案并落地;
负责在线大流量高并发系统设计;
主要开发语言为 Golang 。

职位要求

本科及以上学历,计算机、通信等相关专业;
具备强悍的编码能力,有扎实的数据结构和算法功底;
深刻理解计算机原理、计算机网络,熟悉 Mysql 、Redis 、Kafka 等组件;
积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;
热爱编程,有强烈的求知欲、好奇心和进取心 ,关注和学习业界最新技术;
具备海量数据和大规模分布式系统设计和开发经验者优先。

联系方式

#chenchen.ccqy66@bytedance.com#

内推简历

https://job.toutiao.com/s/WIozTbmqyes

via V2EX (author: cc839)
[分享发现] 迷惑优惠:微信支付,中国银行储蓄卡多笔立减:第二笔满 200 减 0.5;第三笔满 800 减 0.4;第四笔满 2000 减 0.3

via V2EX (author: VisualStudioCode)
[职场话题] 羡慕了,开发人员也有高温假?

我的一位前同事发朋友圈,正在筹备 8 月 2 号到 8 月 10 号到高温假去哪里玩。羡慕呀,开发人员都有高温假,大家有吗?

via V2EX (author: xiaohupro)
[程序员] AI 评测指北: Vibe Coding 哪家强? Benchmark 搞一把

Claude Code 、Gemini Cli 等命令行工具相继发布,这两个月 AI 编码又火出了新高度。 我对效率类工具一直都特感兴趣,喜欢折腾和把玩它们,加之这些工具是实实在在提升效率。 我去年底接触 Aider 、Cursor 、Cline 、Continue ,就想写篇博客来记录一下我对它们的感受。 最近又有些新感触!搞个博客来记录一下。

本来呀,我也只是想写一篇 “Aider 是怎么跑 benchmark 的” 的笔记。但看完了它的跑法之后呢, 感觉没啥可聊的。这两天正好看懂车帝搞了个智驾测试,挺有意思(特斯拉是真有点东西?); 加上最近几年工作也是搞测试;再加上有好几个朋友说 Claude Code 牛出天际,我就想看看是不是那么回事!

我就充当一回“懂 AI 帝”,来评测一把。

如何评测?

我也知道,要完善的评测一个工具,是很麻烦的。毕竟场景那么多,每个工具都有自己的擅长领域。 你看懂车帝的评测,就有很多人喷,但也有很多人顶它。我下面先介绍一下我的评测方法。

我看到的“榜单”有两个,一个是 [Aider LLM Leaderboards][aider-bench],还有一个是 [SWE-bench][swe-bench]。 前者可能比较小众,先简单介绍一下后者(让 AI 给我总结一把什么是 SWE-bench )
SWE-bench ( Software Engineering Benchmark )是一个专门用于评估大语言模型( LLM )在真实软件工程任务中表现的基准测试,最初由普林斯顿大学 NLP 团队于 2023 年发布。 它的核心任务是:给定一个 GitHub 开源项目的代码仓库和一个对应的 issue (问题描述),模型需要像人类开发者一样,理解问题、定位代码、修改文件,并生成一个补丁( patch ),最终通过该项目原有的单元测试验证修复是否成功。 SWE-bench 的关键特点: 真实场景:所有任务都来源于 GitHub 上 12 个流行 Python 项目的真实 issue 和对应的 pull request ( PR ),共 2,294 个任务实例。 执行验证:采用“Fail-to-Pass”测试机制,即修复前测试失败,修复后测试通过,才算成功。 高难度:任务涉及多文件理解、跨模块调用、复杂依赖关系等,远超传统代码补全或算法题。
Aider LLM Leaderboards 虽然小众,但人家评测流程和数据都是开源透明的,我觉得它的数据还是挺有参考价值的。 有兴趣的小伙伴可以去看看。

我从 SWE-bench 中选了一个题 [pylint-dev__pylint-6528][pylint-dev__pylint-6528] 来评测这些工具。 我选它,是因为看中了这个题的几个特点:

1. 难度适中。它的难度评级是 15min - 1hour,简单的题是 15min 以内,比如算法题。难的题要好几个小时。
2. 这个题的答案要修改两个文件。我觉得这对 Coding 工具是有一些挑战的,只改一个文件在当下这个时间节点,对它们没啥挑战。
3. 这个题很好理解。我看了一遍题目的 problem statement ,我就看懂了,不需要很强的背景知识。
4. pylint 这个项目,我自己也接触过,有把握能在本地搭好评测环境、判断 AI 答案的准确性等。

不仅题目,评测流程也很重要。比如说,不同的 PROMPT 就会带来完全不一样的结果。我的评测原则和流程如下

1. PROMPT 要完全一致,或者基本一致。比如,我给每个工具说的第一句话都是一模一样的
解决一下这个问题:{problem_statement}

2. 当工具问我要不要做某个操作时,我基本都会回答是,这样尽可能保证 apple-to-apple 。除非以下场景 1. 它要跑 lint 命令。我会拒绝。比如,Aider 的一个机制就是会跑 lint 命令来让代码质量更好。但我也用过很多次,它跑 lint 命令的时候,会 lint 并尝试修改老代码,这其实引入了很大的风险。 2. 它要跑 unit test 命令。我会拒绝。比如,很多工具都会尝试自动跑测试,但根据我的经验,它们的测试命令都非常粗糙。它可能直接建议我跑 pytest ,跑一遍可能都过年了。 3. 它要给我添加测试。我会拒绝。因为 SWE-bench 数据集里面已经有测试用例了,不需要它来。

我评测流程,如果用伪代码来描述,就是
def evaluate():
start_tool_with_default_parameters
send_to_chat: `解决一下这个问题:{problem_statement}`
enter yes until 它生成修复代码

# 初步检查答案,保证它的答案不会让回归测试失败
while 我主观觉得它还有戏:
run PASS-TO-PASS tests # 如果这个测试都跑不过,这个工具评测结果不及格
if fail:
send_to_chat: 有 X 个测试失败了:{failure_summary}
enter yes until 它再一次生成修复代码
else:
# 认为它代码已经修改完毕,直接开始检查它的答案
break

# 检查最终答案
while 我主观觉得它还有戏:
run FAIL-TO-PASS tests
if fail:
send_to_chat: 有 X 个测试失败了:{failure_summary}
enter yes until 它再一次生成修复代码
else:
break

更新(07-27 22:36): 这里 while 的地方有个主观部分,你可能会觉得它会影响这个评测的结果。严格来说,确实会有影响。但这里所谓的“主观”其实也是有判断标准的:即如果两次改动的代码都不符合预期,就认为它没戏。这个主要是考虑测试效率。

TL;DR 评测结果

我写了评测过程,让 AI 帮我总结了一个评测结果的表格。打分是我根据这次任务,主观打的

评测结果分析

在评测过程中,我发现了一些有意思的细节,下面也和读者分享一波。另外评测还有很多局限性,也给自己跌跌甲,轻喷。

我从评测过程中,提炼了几个维度来评价这些工具。这里最重要的指标是问题最终是否被解决了。 如果问题解决了,过程坎坷一点也能接受。如果问题没解决,过程再惊艳,也没用。 因此,我给 Claude Code, Aider, Gemini Cli 打的分数比较高。其它就低一些。

第二个维度是交互体验。这里又可以细分:UI/UX ;可观测性;性能;稳定性。我暂时就想到这几个维度。

● UI/UX:指的是用户界面和用户体验。 Aider 界面简洁;交互基本都是一波流。但可观测性差了点。 Gemini Cli 的展示总是半屏(让我感觉有 bug 一样);交互略微繁琐。 Claude Code 的界面也有繁琐,展示了很多工具的操作与结果;交互体验还行。另外它比较精致一点。 Trae 和 Cursor 都是 GUI 的 两者都把过程搞得很繁琐,每一次工具操作都显示出来且不能折叠,繁琐。不过也是有点好处的。 编辑的时候可以 accept 一部分,这个可控性比较好,这是 GUI 的优势 工具的结果方便查看,这也是 GUI 的优势
● 性能与稳定性稳定性方面:三个 Cli 工具感觉都有点小毛病。 性能方面:Trae 的 edit 速度体感比较慢(感觉是设计上的问题,vscode 的 edit 速度也很慢)。
● 收费Aider 支持任何模型,加之有很多免费 API ,总体给高评分。 Gemini Cli 免费额度基本够用。但不支持其它模型。 Claude Code 贵出天际,一天不用上三个小时,感觉有点亏 🐶 Trae 似乎可以免费用,只是要排队。好像不能设置其它模型。 Cursor 有免费额度,额度很小。

值得一提的是,模型真的很重要。不同的模型,测出来结果差异可能会差很远。

还有个值得一提的是,这里评测的背景是解决一个实际问题。最后再附加一下个人的综合性观点

1. 假设我很有钱、或者工作里面需要经常堆 shi ,我应该会选择 cursor 。也会考虑 claude code 。
2. 在我钱不多、且编码不那么多的情况下,我会选择 Aider + VSCode(Copilot)
3. Gemini Cli 和 Trae 感觉目前竞争力还差点。如果 Trae 让我免费用,我也乐意 🐶

评测过程记录

评测过程比较细节与繁琐,感兴趣的盆友,可以查看博客原文。

微信公众号原文:https://mp.weixin.qq.com/s/DvTk3W5xxqzw79tw_5zqQA
知乎原文:https://zhuanlan.zhihu.com/p/1932909167150109858
博客原文:https://cosven.me/blogs/10024

via V2EX (author: cosven)
[Apple] pdd 买了一个月的妙控键盘,c 键手感异常

到天才吧去看了下,给我清了灰,由于触感差异并不是很明显就回去了,但回家后还是有点异常,能让天才吧拆开帮我看看吗

via V2EX (author: saviourdog)
[程序员] pinokio 命令行下看不到输入的字符

最近用了用 https://pinokio.co/这个开源项目,可以很方便的免命令行部署一些脚本,对于我这个不习惯用 cli 和包管理工具的菜鸟扫清了许多障碍

但是启动某个部署好的 py 脚本后,当需要在光标处输入参数时,不管按什么都不显示输入的内容,按回车没反应,之前在浏览器 web 界面的 ssh 客户端时遇到过这种情况,只要切换到英文输入法就可以,这次切过来也不行

不知道有没有用过的前辈,遇到这种该怎么处理

via V2EX (author: zhenzinian)
[Apple] AppleCare One 开放订阅后普通版 AppleCare+大涨价

开放订阅当天我就开通了 AppleCare One ,也仔细对比了一番各个设备是普通版 AppleCare+更划算还是 AppleCare One 更划算。当时的结论是全系 iPhone ,MacBook Pro ,MacBook Air 15 ,Mac Pro ,Pro Display ,iPad Pro ,Vision Pro 这些是用 AppleCare One 更划算的。其他的就不适合用 AppleCare One 。

但同时我也注意到了几个比我现有设备的 AppleCare 订阅价格更便宜的。比如 iPad mini ,年费$30, Apple Watch SE $20. 而我现有的价格是 iPad mini 月费 3.5 ,等效年费 42 ,Apple Watch 月费 2.5 ,等效年费 30.

但今天想要给我这两个设备退掉旧的订阅改到更便宜的新价格的时候赫然发现,官网的价格已经涨价了。iPad mini 月费 5 ,年费 50. Apple Watch SE 月费 3 ,年费 30. 突然意识到这种订阅产品的价格相比更早之前的固定 2 年的 AppleCare 的价格变动似乎更加不引人注意。大家也比较难对比彼此之间不同时期开始订阅的价格。

所以,如果大家有意向要长期为设备保持 AppleCare 状态的话,建议不要采取 2 年固定+订阅或者 3 年固定+订阅这种到时候再开始订阅的做法。看起来固定期会比订阅的价格更划算,但是也可能潜在推高未来的订阅初始价。毕竟订阅价格一旦开始了,目前来说是长期锁定的。甚至在设备即将变成 Vintage 时有希望被更换到新款的设备继续延续下去。

via V2EX (author: MrLonely)
[问与答] 山东金晶五线玻璃的鱼缸是不是很贵?

最近想买一个 90 x 45 x 30 cm 的鱼缸,一直没用过山东金晶五线玻璃,这个玻璃是不是很贵?

在 PDD 有一个商家给我报价,金晶五线这个尺寸 240 包邮报损,这是不是肯定就是假的了?

五线不好买,买到 3 线也行啊,有正经用 3 线做鱼缸的店铺?

via V2EX (author: fruitmonster)
[电动汽车] 各位电车主,高速一般开多少

路况良好的情况下。144 ? 132 ? 120 ? 110 ?

感觉高速电车好多都是龟车,超车道压着 110 开,这个速度是不是能耗最优

via V2EX (author: wangxiang)
[加密货币] V2ex 也算是被盯上了

某黑客组织在 V2EX 伪装招聘进行投毒,以盗取面试者加密货币

深潮 TechFlow 消息,7 月 28 日,据慢雾余弦披露,某黑客组织在 V2EX 平台伪装招聘发布虚假职位信息,通过诱人福利吸引面试者。该组织诱导面试者基于其预先准备的恶意代码仓库作为项目模板开发页面。

一旦面试者下载并调试执行相关代码,计算机将被植入恶意软件,可能导致加密货币资产及各类账号权限被盗取。该攻击手段利用了求职者对技术面试的信任,通过看似正常的开发任务实施网络攻击。

求职者在参与技术面试时应保持警惕,避免在个人设备上运行来源不明的代码,建议使用虚拟机或沙箱环境进行测试。

还是要多留点心眼,侧面说明 V2EX 影响力还是可以的

via V2EX (author: heIIokitty)
[推广] 如何快速有效获取真需求好点子

来自公众号 https://mp.weixin.qq.com/s/OnEck6T5TX_mcVOXiPsRTQ

via V2EX (author: yeahjw)
[问与答] thinkpad 系列看不懂了,求推荐

最近看 thinkpad 系列咋感觉好乱,原来就是 X1 ,最新又有 X9 ,还有 X13 ,不知道目前从轻薄、续航,要兼顾性能的角度,目前哪个型号首选。原来就是无脑 X1 ,现在不知道选哪个了,预算 1.7 以内

via V2EX (author: lpffernando)
[生活] 近不惑之年,谈谈理发这件“小事“

背景(过往)

脸型原因,每次进理发店就像开盲盒。

去一家新理发店的话,开始店长会给你理,非常认真,效果也好还(听的懂人话)。

只要你办了卡后,基本后面就是欻欻几铲子,搞个劳改头出来(你再怎么描述,已经他不懂人话)。

后面遇到超市里一女理发师,比较认真( 15 元),理了 1 年时间,后面她二胎,再没回来过。

背景(近 2 年)

遇到一个特别负责的理发师(女)。

这位老师的过往:以前开发廊的,两家店面的店长( yq 原因,关店后在我以前住的那片开了个小店)。

15 块理一次,后面涨到 20 。

老师不太喜欢洗头,就认真给你好好理,每次去之前都有一种期待感,因为她每次都能理好,非常认真!!!

鉴于此,我每两周理一次。因为,在她这里好像找回了很多自信!

很多大老远跑过来找她理发的,最离谱的是一个老太太,肋骨断了还没完全好,背着家人偷偷过来!

自从这位老师开店,他的店里经常排队,周边理发店人少了非常多。

近期情况(不到 1 个月)

搬家了,最不舍的是那位理发师!

然后附近找理发店,最近的 1 家:正常 48 元一次,店长出手要 128 元一次!

这一对比,瞬间体会到上一位老师的价值!

总结

其实大部分人好好理的话,不至于那么离谱。

好的理发师真的很难得!

或者说,认认真真做事的人越来越少了!

如果每个人都认真对待自己的“事业”,世界将是多么美好!

试想一下:附近如果有一家好的理发店、好吃的馆子,是多么提升幸福感的事!

致敬下自己及其他做事认真负责的人

我自己也是一个做事认真负责的。

希望这位老师越来越好!

via V2EX (author: linora)
[问与答] 米家智能家居门锁不能分享吗?

买了把鹿客的 V5 Max 智能门锁,自己作为管理员可以正常添加进去,但是我把老婆来进来共同管理,他的界面就没有鹿客门锁的显示,是不能共享了么?

via V2EX (author: Hanson666)
[Chrome] 求助:如何关闭 chrome 网址的自动填充功能?

比如我的路由器地址是 192.168.1.1,我的 nas 地址是 192.168.1.10 。我在输入了 192.168.1.10 按回车后,会自动变成了 192.168.1.1 。这功能有时候不太智能,网上找到的方法因为版本问题都不能用了。目前最新版本,有大哥知道怎么关么?谢谢。

via V2EX (author: awee)
[Android] 要不怎么说浪子回头金不换呢?

别说开放 bl 不炸 tee 不影响售后这种大善事了,ovh 早些年做了多少低配高价这种没良心的事情,以前打开开发者模式还一直在通知栏警告,这两年出的产品其实也不算多优秀,只能说配置对得起那个价格,结果就收到大家的欢迎,以前的事情忘得干干净净,v2 问 iOS 换安卓推荐帖子里面 ov 都占大多数。

米接近 10 年来都可以随意解锁 bl ,不炸 tee ,不影响售后,没做过低配高价这种事,因为种种原因决定收紧 bl 权限了,口碑瞬间跌到谷底。

问就是没有初心,那米起码以前有过良心吧,不比那些一开始就昧良心的厂商好吗?

via V2EX (author: Awes0me)
[生活] 真想 gap year

上班太累了,gap half year 也很好啊

但考虑目前自己的情况,真 gap 了可能就彻底失业了

搬砖吧

via V2EX (author: gzldc)
[Apple] 去 Apple Store 对比了一下 iPhone 的 LG 屏和三星屏

看了八台 iPhone 16e (其他机型据说也有),两台是典型磨砂感、颗粒感的白色画面,六台是通透的白色画面,很明显的观感差异!我相信任何人都能看出差异!
工作人员巴拉巴拉说这都符合苹果的标准什么的,可这 LG 屏幕这一点不光明显不如三星,连我两千块钱的国产安卓机的国产 OLED 屏幕,显示白色都是通透纯净的,逼养的苹果,买国行的人可以一直换,像我这种买外版的抽到 LG 就只能吃瘪,希望国外有用户能集体起诉一波苹果,逼他们放弃垃圾元件!

via V2EX (author: CNM47589)
[投资] 投资 Q&A 尝试

/t/1147836

鉴于这个帖子中的讨论,我计划做一个 Q&A 尝试,即任何人提问并打赏超过 0.01 SOL, 我会回答你提出的一个问题并将所有的收入转换为$V2EX 并至少 hold1 年。

我对回答的公正性和客观性负责,即我会基于合理的数据和可以验证的逻辑作出推断,但是不对其准确性负责。我的核心出发点是提供观点,思路和提供所谓“正向性”,并不是帮你直接赚钱,请牢记。

如果你认为有必要,你可以附上资金的规模(只需要大概范畴)和你需要的回报比例/承担亏损比例,可以参考投资者适当性评估问卷。

我有信心回答的问题包括:

1. 中国二级市场上,包括股票,债券,商品的期货,期权等问题。(股票只能精确到行业和大市值票)
2. 宏观相关的中长期投资问题,包括地产,就业等。
3. 我对上述领域都有过覆盖(指在对应品种上有系统化的研究,并管理超过九位数的资金多年),如果遇到我解决不了但是有意义的问题,我也会去找到合适的人去咨询。

我研究的不是很透彻,但是赚到钱的行业包括

1. 美股,港股

我不擅长并且认为没有帮助的内容包括

1. 各种“估值”,什么 PB,ROE 等。
2. 在这里证明你比我( or 我比你)更懂投资,我只会回答你永远比我厉害。
3. 各种战法,技术分析在非高频交易范畴的原理和实现(这真的没用)。

via V2EX (author: ffgrinder)