LinuxDo 新帖推送
184 subscribers
252K photos
315K links
Download Telegram
标题: LD机翻混合评估体系设计-Coalb[Updating]
作者: #鹿鸣酥
板块: #悬赏
编号: 1800620
帖子: https://linux.do/t/topic/1800620
时间: 2026-03-23 11:49:11
摘要:
LinuxDo 机器翻译混合评估体系
0. 前言小叙
0.0 初叙

开学第一天啃到始皇悬赏帖子,心血来潮,琢磨着玩儿的想法,进行了一番折腾:
第一天,检索收集初筛模型,顺便参考看看佬友已有的帖子内容与想法
第二天,再次考虑筛选模型,且琢磨评分指标,最终考虑了初版的 MQM 规范的评分模型
第三天,考虑采集数据,下午时段进行采集了常规非 lv 限制的数据3000+条(大概)
第四天,进行数据清洗,词云统计筛选,字段的设计,请求的流程,和在 Colab 实际开始尝试(好吧其实最主要还是在熟悉推理流程和优化调度)
第五天,慢慢磨着在 Colab 上
第六天…好像还在磨?把 llama 换成了 vllm,立竿见影的丝滑
第七天…熬到了难得的休息日,玩!(bushi)合计磨了自己屯屯鼠攒的180左右计算单元,A100,最终初版数据 over 了–<-<-<@
然后,整个第二周结束,一点点的墨迹开始阶段二,本地的 POLL …磨到了周末,最后也算是结束了,算是给这一个任务划上一个阶段性的『。』。当然好事成双。 连续两周十三天的课也收束结束了(@^0^@)/

由于核心重点在于,『黑话』的识别,在不同语义语境下的精确匹配,这里选择了上下文与标签类别的提示词注入,来测试模型的翻译能力。
比较一个初步预想的一个架构状态,是在进行实际翻译的时候,进行标签或者是部分上下文注入的方式,让模型在推理的推理时,先验对目标词句有状态语境认知,确保能更精准的匹配正确的语义向量
补充说明评测被拆分为 三个测试块:
Baseline_Standard(基础/常规 UI 文本)、Jargon_Tech(金数据术语短句/标签场景)、Slang_Ambiguous(黑话长语境场景)
其中 Jargon_Tech 与 Slang_Ambiguous 均启用了术语门控,但数据来源不同:

Jargon_Tech:多为 slang_test_### 的短句/标签式样本(见 Stage 2 Jargon_Tech_poll_mqm_audit.json)
Slang_Ambiguous:为 t
标题: 压缩工具对比:7z、zip、rar新手怎么选
作者: #Wolfgang
板块: #资源荟萃
编号: 1800622
帖子: https://linux.do/t/topic/1800622
时间: 2026-03-23 11:49:17
摘要:
写在前面:这是我平时把文件打包/解压时的简单经验总结,供新手参考。
1) 7z

优点:压缩比通常更高、支持分卷
适合:空间比较紧张、打包大文件

2) zip

优点:通用性强、系统默认支持比较多
适合:跨平台传输、分享给不熟悉工具的人

3) rar

优点:恢复记录/纠错能力更强(某些场景好用)
适合:担心传输/存储损坏风险的备份场景

我个人结论

大多数情况下:优先 zip(兼容性友好)
压缩比优先:用 7z
重要备份:考虑 rar

欢迎佬友补充,你们实际用下来还有哪些坑/建议?
标题: pow签到python版
作者: #llspys
板块: #开发调优
编号: 1800625
帖子: https://linux.do/t/topic/1800625
时间: 2026-03-23 11:49:52
摘要:
如题
import base64
import hashlib
import json
import time

import requests

CHALLENGE_URL = "https://xxxxxx/api/sign/challenge"
SUBMIT_URL = "https://xxxxxx/api/sign/submit"

DIFFICULTY = "easy"
PREFIX = "00000"

COOKIE = "xxxxxx"

HEADERS = {
"accept": "application/json",
"content-type": "application/json",
"user-agent": (
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
"AppleWebKit/577.88 (KHTML, like Gecko) "
"Chrome/145.0.0.0 Safari/57788 Edg/146.0.0.0"
),
}


def b64url_decode_json(s: str) -> dict:
s += "=" * (-len(s) % 4)
return json.loads(base64.urlsafe_b64decode(s.encode()).decode())


def find_challenge_id(obj):
if isinstance(obj, dict):
if isinstance(obj.get("challenge_id"), str):
return obj["challenge_id"]
for v in obj.values():
r = find_challenge_id(v)
if r:
return r
elif isinstance(obj, list):
for item in obj:
r = find_challenge_id(item)
if r:
return r
return None


def solve_pow(challenge: str, prefix: str):
start = time.perf_counter()
nonce = 0

while True:
digest = hashlib.sha256(f"{challenge}:{nonce}".encode()).hexdigest()
if digest.startswith(prefix):
elapsed_ms = max(1, int((time.perf_counter() - start) * 1000))
hash_rate_hps = max(1, int((nonce + 1) / max(elapsed_ms / 1000, 0.001)))
return nonce, digest, elapsed_ms, hash_rate_hps
nonce += 1


def main():
session = requests.Session()
session.headers.update(HEADERS)
session.headers["cookie"] = COOKIE

challenge_resp = session.post(
CHALLENGE_URL,
json={"difficulty_key": DIFFICULTY},
timeout=30,
)
challenge_resp.raise_for_status()

challenge_data = challenge_resp.json()
challenge_id = find_challenge_id(challenge_data)
if not challenge_id:
raise RuntimeError(f"没找到 challenge_id,返回内容:{challenge_data}")

decoded = b64url_decode_json(challenge_id)
challenge = decoded["payload"]["challenge"]

nonce, digest, elapsed_ms, hash_rate_hps = solve_pow(challenge, PREFIX)

submit_payload = {
"difficulty_key": DIFFICULTY,
"challenge_id": challenge_id,
"nonce": nonce,
"digest": digest,
"elapsed_ms": elapsed_ms,
"hash_rate_hps": hash_rate_hps,
}

print("submit payload:")
print(json.dumps(submit_payload, ensure_ascii=False, indent=2))

submit_resp = session.post(
SUBMIT_URL,
json=submit_payload,
timeout=30,
)
print("status:", submit_resp.status_code)
print("response:", submit_resp.text)


if __name__ == "__main__":
main()
标题: 汽水音乐有低价vip的渠道和活动吗?
作者: #ChinaDolphin
板块: #搞七捻三
编号: 1800637
帖子: https://linux.do/t/topic/1800637
时间: 2026-03-23 11:51:46
摘要:
现在经常使用汽水音乐  天天看广告免费听很烦呀 有没有低价的渠道或者活动 佬友们渠道多
标题: 求 看电视剧的网站?
作者: #Immerse
板块: #资源荟萃
编号: 1800642
帖子: https://linux.do/t/topic/1800642
时间: 2026-03-23 11:52:43
摘要:
求 看电视剧的网站?
标题: 准备飞升三级了,L站究竟有何魔力?比刷短视频红薯还来劲!
作者: #喝汤劳烦别加葱
板块: #搞七捻三
编号: 1800651
帖子: https://linux.do/t/topic/1800651
时间: 2026-03-23 11:54:10
摘要:
争取今天下班之前,摸鱼刷完(bushi) 认真学习
感谢各位佬的热心分享,辛苦管理团队的勤劳维护,祝L站越办越好!!!
真诚 、友善 、团结 、专业 ,共建你我引以为荣之社区!!!
标题: 感觉minimax-m2.7真low呀
作者: #Midsummer
板块: #开发调优
编号: 1800655
帖子: https://linux.do/t/topic/1800655
时间: 2026-03-23 11:54:45
摘要:
如题,本人在做一个一个小项目,毕业设计,代码里2万左右吧,其中有两个几千行的service后端文件,让它帮我拆分一下,搞了半天搞不下去了直接罢工回滚。不断喂报错提示,结果不干了,考了。claude官方的用不起,孩子没招了呀;佬友们有什么好的建议吗
标题: 微信开放clawbot插件,成功接入Codex !
作者: #unlinearity
板块: #前沿快讯
编号: 1800666
帖子: https://linux.do/t/topic/1800666
时间: 2026-03-23 11:56:57
摘要:
绝对是历史性的一刻,3月22日 腾讯官方开放了权限,允许接入openclaw(将微信更新到最新版本就可以在插件中查看)。

但是实际上不仅仅是openclaw,借助并修改官方的源码,完全可以直接接入claude code 、codex相关编程工具。


让ai阅读官方的源码,一分钟内就可以写出一个小机器人,读取本地的claude 配置,来进行对话(这边可以很容易看到:我是用GLM的转接用的claude code ,所以模型显示GLM )

很多人可能第一眼就说没用,说句实话:我个人认为 openclaw 没什么意义,接入 openclaw 也没什么意义,真正的意义是:我是重度使用codex和claude code的 。接入微信意味着:无需配置域名和公网iP,只要电脑开着就可以远程控制电脑;或者打开codex干活时,我可以看视频、玩游戏,工作完成了 微信自动提醒 再接着干。

实际上集成Claude Code 的项目已经出现了,但是需要channels 权限,目前还未完全开放(需要官方登录才能使用,转接api不支持)。我目前一直在调试,当真正实现无缝的集成Codex 和Claude Code 时,会尝试开源相关代码。

也许现在很多claw工具,可以接入飞书等软件,但是接入微信真的性质完全不同,之后围绕微信相关的开发和面向普通用户的服务会爆发,毫不夸张的讲:新时代要开启了。
标题: 被墙的vps搭建alist无法上传文件到国内网盘怎么办
作者: #澪玥
板块: #开发调优
编号: 1800669
帖子: https://linux.do/t/topic/1800669
时间: 2026-03-23 11:57:36
摘要:
下面是claude诊断:

确认了,VPS 无法连通移动云的对象存储节点(超时,HTTP 000)。
总结:

列目录/获取文件信息 → 走 yun.139.com API → 可以
上传/下载文件数据 → 走 cmecloud.cn 对象存储 → 不通
标题: 大家平时怎么用 AI 工具编程?
作者: #喻琨
板块: #开发调优
编号: 1800678
帖子: https://linux.do/t/topic/1800678
时间: 2026-03-23 12:01:21
摘要:
各位佬友好,我想请教一个问题:大家平时都是怎么用 AI 工具来辅助编码、调试、重构和写文档/注释的?
我自己主要是用 Claude Code + Codex,在 Cursor 里写代码、让它补全/生成函数、做代码解释和问题定位、生成单元测试等。但感觉还可以更体系化一些。
欢迎大家分享你们的工作流、常用提示词/插件组合,或者哪些场景AI更好用、哪些场景更容易踩坑。
标题: cherry studio的智能体模型配置竟然不支持自定义?!
作者: #可期呀
板块: #开发调优
编号: 1800680
帖子: https://linux.do/t/topic/1800680
时间: 2026-03-23 12:02:04
摘要:
最新版本的cherry studio的智能体模型配置竟然不支持自定义?!
佬们?有什么解决办法吗?
标题: 送200个新鲜出炉的 gpt free 账号
作者: #ipan
板块: #福利羊毛
编号: 1800682
帖子: https://linux.do/t/topic/1800682
时间: 2026-03-23 12:02:09
摘要:
cpa_tokens_20260323_112631.zip (554.0 KB)
送200个gpt普号,CPA直接导入即可用。
标题: 苦酒入喉心作痛
作者: #eric
板块: #搞七捻三
编号: 1800685
帖子: https://linux.do/t/topic/1800685
时间: 2026-03-23 12:02:41
摘要:
油价涨,金价跌。
开油车和买黄金的我崩了呀。
工资也不涨,甚至可能因为AI导致失业。
吨吨吨吨吨。
标题: 2026年,终于吃上微信官方机器人了,泪目
作者: #ius
板块: #开发调优
编号: 1800688
帖子: https://linux.do/t/topic/1800688
时间: 2026-03-23 12:03:08
摘要:
昨天微信开通claw插件,走单聊渠道。上午发的插件,下午就被逆出来完整协议了。(有ai就是快)
现在可以通过各种各样的方式,使用微信进行通信
于是直接让codex在服务器搓了一个简单的bot程序,使用逆向协议进行对话。
感觉用不了多久,AstrBot应该也会上这个协议,直接一键打通全平台机器人
继续让codex适配其他消息类型,这样mcp也可以接入微信提醒了