Forwarded from 风向旗参考快讯
美共和党议员与TikTok代表会面 仍决定推动立法禁止TikTok
据路透社报道,据加拉格尔的发言人称,加拉格尔星期三(2月1日)会见了TikTok美国公共政策主管贝克曼(Michael Beckerman)与公司其他代表。
发言人说,加拉格尔认为TikTok的论点没有说服力,因此他仍计划在未来几周内与众议员克利胥纳莫提(Raja Krishnamoorthi)一起提出禁止TikTok的立法。
贝克曼在一份声明中表示,TikTok期待可以更加了解加拉格尔没有在这项综合计划中得到解决的具体担忧。”
他补充说,TikTok希望再与加拉格尔会面,因为“很难在一次简短的会议上对一项已经酝酿了两年的国家安全提案进行实质性的深入研究。”
—— 联合早报
据路透社报道,据加拉格尔的发言人称,加拉格尔星期三(2月1日)会见了TikTok美国公共政策主管贝克曼(Michael Beckerman)与公司其他代表。
发言人说,加拉格尔认为TikTok的论点没有说服力,因此他仍计划在未来几周内与众议员克利胥纳莫提(Raja Krishnamoorthi)一起提出禁止TikTok的立法。
贝克曼在一份声明中表示,TikTok期待可以更加了解加拉格尔没有在这项综合计划中得到解决的具体担忧。”
他补充说,TikTok希望再与加拉格尔会面,因为“很难在一次简短的会议上对一项已经酝酿了两年的国家安全提案进行实质性的深入研究。”
—— 联合早报
和推荐系统一样,ChatGPT 类的 AI 应用最终会导致稀缺内容和稀缺知识获取困难甚至消失
技术进步的双刃剑
技术进步的双刃剑
👌5⚡1
Forwarded from 微博精选
#中国人# 能聊天、代写论文、作诗编程样样不在话下,ChatGPT发布不到一周便收获了百万用户。其锋芒从美国席卷到中国,但在地球另一边的非洲大陆上,一群为OpenAI工作的外包数据标注员,曾遭受过非人的精神折磨。坐在电脑前、阅读一段文本、给出相应的标注、紧接着切换到下一段……这就是数据标注员的日常。在这场席卷中美两个市场的资本狂欢中,他们是边缘化的、被遗忘的却又至关重要的一个群体。美国《时代周刊》报道显示,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的外包肯尼亚劳工,他们所负责的工作就是数据标注。数据标注的工作流程包括数据标注、打标签、分类、调整和处理等,是构建AI模型的数据准备和预处理工作中不可或缺的一环。对于ChatGPT这样的语言模型,如果没有人工标注来筛除一些不恰当的内容,那么它不仅会给出一些错误的信息,更会对用户造成心理不适。更何况,类似ChatGPT这样的预训练模型在训练过程中需使用的数据样本较多,数据标注的需求较高。那么如何规避上述问题,筛查出有害内容呢?OpenAI效仿了Facebook等社交媒体公司的做法——构建一个额外的AI模型,向它提供暴力、仇恨等带有攻击性的言论,从而让它学会识别相应内容。这样的模型会被内置到ChatGPT中,帮助后者过滤掉一些有害的文本。在这个过程中,需要大量的人力来给攻击性言论做标注。于是,OpenAI在2021年底与一家外包公司Sama达成了合作。两者签署了三份总价值约20万美元的合同,OpenAI向Sama发送了数万个文本片段,包含大量的有关谋杀、自残、虐待甚至其他更加不堪的内容。Sama公司的每一个数据标注员的日常工作流程就是阅读文本并为其添加相应的标签。“那是酷刑”
Sama是一家主营数据训练的公司,专注于为人工智能算法注释数据,客户包括沃尔玛、谷歌、通用汽车和微软等多个海外大厂。Sama标榜自己为一家有道德的公司:“Sama的使命是在数字经济时代为低收入人群增加就业机会。”此外,公司声称已帮助超五万人摆脱了贫困。而Sama数据标注员的真实工作情况如何?据《时代周刊》披露,根据资历和表现,Sama为OpenAI雇用的数据标注员的实际工资约为每小时1.32美元至2美元。有三位员工透露,在Sama,三十余名工人被分成三个小组,他们每九小时轮班阅读和标记150至250段文字,每段文字大约100词到1000词不等。上述被采访员工均表示,这份工作给他们留下了“精神创伤”,虽然他们能够参加公司组织的团体心理辅导,但辅导并没有提供任何的帮助。此外,由于Sama对员工工作效率要求极高,所以公司很少组织心理辅导活动。有员工曾提出想与心理辅导员一对一进行咨询,但被Sama的管理层拒绝。其中一位数据标注员坦言,在阅读了一些过于不堪的内容后,他反复出现幻觉。“那是酷刑。”他表示,“整个一周,你会反复的阅读这样的内容。等到周五,你会不停想象与它相关的场景。”
Sama的回应
低薪、高强度、创伤性的标注工作折磨着肯尼亚工人的身心。对于来自《时代周刊》等媒体的“控诉”,Sama回应外媒Quartz称,其支付给标注员的薪资几乎是东非其他内容审核公司的两倍,并给员工提供福利和养老金,并声称这样的待遇在东非并不常见。
据了解,肯尼亚并没有统一的最低薪资规定。但在内罗毕(肯尼亚首都),一个接待员的最低时薪是1.52美元,而Sama的数据标注员最低薪资仅为1.32美元。在Sama与OpenAI的合同中,OpenAI向Sama支付每小时12.5美元的工作费用,是Sama数据标注员最低薪资的9倍以上。Sama的发言人还表示,在每九小时的轮班工作里,标注员只需要标记70段文字,而不是上文所述的150至250段文字。此外,数据标注员的税后时薪为1.46美元至3.74美元。合同中每小时12.5美元的工作费用覆盖了包括基础设施、质检、管理团队薪资等在内的所有成本。针对员工遭受心理折磨的情况,Sama的发言人则声称,公司十分重视员工的心理健康。“我们为员工提供一对一的心理咨询。在审核、标注工作过程中,员工可以随时退出工作,且不会受到任何的惩罚。”该发言人补充道,“员工标注有害内容的时间是有限的,敏感信息会有专人处理。”
违法、解约和失业
2022年2月,OpenAI与Sama加深了合作,OpenAI要求Sama收集数千张暴力和黄色的图片,其中包括一些违法美国法律的内容。据《时代周刊》、《布鲁塞尔时报》等外媒报道,当月,Sama给OpenAI交付了一批1400张图像的样本,后者向前者支付了787.5美元。但很快,两者的合作破裂。Sama在一份声明中表示,有关图像收集工作的原始合同并未包含违法内容,但工作开始后,OpenAI向其发送了一份附加说明,其中提及到一些涉嫌违法的内容。因此,Sama决定终止与OpenAI的合作。在2022年2月下旬,陆陆续续有Sama的员工收到了转岗和裁员的通知。一位员工无奈的表示:“对我们来说,这是一份养家糊口的工作。而现在,仅有30多名工人被迫转到更低薪的岗位,其他人都面临失业。”今年1月10日,Sama宣布取消所有涉及到敏感内容的工作,并表示不会与Facebook续签价值390万美元的内容审核合同。据了解,Facebook也曾被指控雇佣外包劳工来审核有害内容。
Sama表示,经团队多次讨论后,公司决定剥离自然语言处理和内容审核业务,专注于构建计算机视觉数据标注解决方案。 source
Sama是一家主营数据训练的公司,专注于为人工智能算法注释数据,客户包括沃尔玛、谷歌、通用汽车和微软等多个海外大厂。Sama标榜自己为一家有道德的公司:“Sama的使命是在数字经济时代为低收入人群增加就业机会。”此外,公司声称已帮助超五万人摆脱了贫困。而Sama数据标注员的真实工作情况如何?据《时代周刊》披露,根据资历和表现,Sama为OpenAI雇用的数据标注员的实际工资约为每小时1.32美元至2美元。有三位员工透露,在Sama,三十余名工人被分成三个小组,他们每九小时轮班阅读和标记150至250段文字,每段文字大约100词到1000词不等。上述被采访员工均表示,这份工作给他们留下了“精神创伤”,虽然他们能够参加公司组织的团体心理辅导,但辅导并没有提供任何的帮助。此外,由于Sama对员工工作效率要求极高,所以公司很少组织心理辅导活动。有员工曾提出想与心理辅导员一对一进行咨询,但被Sama的管理层拒绝。其中一位数据标注员坦言,在阅读了一些过于不堪的内容后,他反复出现幻觉。“那是酷刑。”他表示,“整个一周,你会反复的阅读这样的内容。等到周五,你会不停想象与它相关的场景。”
Sama的回应
低薪、高强度、创伤性的标注工作折磨着肯尼亚工人的身心。对于来自《时代周刊》等媒体的“控诉”,Sama回应外媒Quartz称,其支付给标注员的薪资几乎是东非其他内容审核公司的两倍,并给员工提供福利和养老金,并声称这样的待遇在东非并不常见。
据了解,肯尼亚并没有统一的最低薪资规定。但在内罗毕(肯尼亚首都),一个接待员的最低时薪是1.52美元,而Sama的数据标注员最低薪资仅为1.32美元。在Sama与OpenAI的合同中,OpenAI向Sama支付每小时12.5美元的工作费用,是Sama数据标注员最低薪资的9倍以上。Sama的发言人还表示,在每九小时的轮班工作里,标注员只需要标记70段文字,而不是上文所述的150至250段文字。此外,数据标注员的税后时薪为1.46美元至3.74美元。合同中每小时12.5美元的工作费用覆盖了包括基础设施、质检、管理团队薪资等在内的所有成本。针对员工遭受心理折磨的情况,Sama的发言人则声称,公司十分重视员工的心理健康。“我们为员工提供一对一的心理咨询。在审核、标注工作过程中,员工可以随时退出工作,且不会受到任何的惩罚。”该发言人补充道,“员工标注有害内容的时间是有限的,敏感信息会有专人处理。”
违法、解约和失业
2022年2月,OpenAI与Sama加深了合作,OpenAI要求Sama收集数千张暴力和黄色的图片,其中包括一些违法美国法律的内容。据《时代周刊》、《布鲁塞尔时报》等外媒报道,当月,Sama给OpenAI交付了一批1400张图像的样本,后者向前者支付了787.5美元。但很快,两者的合作破裂。Sama在一份声明中表示,有关图像收集工作的原始合同并未包含违法内容,但工作开始后,OpenAI向其发送了一份附加说明,其中提及到一些涉嫌违法的内容。因此,Sama决定终止与OpenAI的合作。在2022年2月下旬,陆陆续续有Sama的员工收到了转岗和裁员的通知。一位员工无奈的表示:“对我们来说,这是一份养家糊口的工作。而现在,仅有30多名工人被迫转到更低薪的岗位,其他人都面临失业。”今年1月10日,Sama宣布取消所有涉及到敏感内容的工作,并表示不会与Facebook续签价值390万美元的内容审核合同。据了解,Facebook也曾被指控雇佣外包劳工来审核有害内容。
Sama表示,经团队多次讨论后,公司决定剥离自然语言处理和内容审核业务,专注于构建计算机视觉数据标注解决方案。 source
👍4😨4
微博精选
#中国人# 能聊天、代写论文、作诗编程样样不在话下,ChatGPT发布不到一周便收获了百万用户。其锋芒从美国席卷到中国,但在地球另一边的非洲大陆上,一群为OpenAI工作的外包数据标注员,曾遭受过非人的精神折磨。坐在电脑前、阅读一段文本、给出相应的标注、紧接着切换到下一段……这就是数据标注员的日常。在这场席卷中美两个市场的资本狂欢中,他们是边缘化的、被遗忘的却又至关重要的一个群体。美国《时代周刊》报道显示,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的外包肯尼亚劳工,他们所负责的工作就是数据标…
数据标注是新时代的套利第三世界的新殖民了(殖民是中性),背后是新的贸易壁垒
1. 大家都说数据是水电煤一样的基础材料,其实不尽然,经过标注后的大规模数据才是,一个是同等目标下的样本量集合,一个是被标注过,这也是在目前条件下, AI 也好,AGI 也好没可能超过人类的原因,他本质上还是效率工具,拟合的上限也是人的认知,只是比你快,比你更全面,所谓运动的更高更快更强(说不定也更团结,bushi),就是一个非线性突破人类自我上限的过程;
2. 数据标注背后是数据所有权,数据所有权背后的代表的数据安全和数据主权问题,这个就是新时代的贸易壁垒,世界新秩序一定程度上会围绕着这件事情重新洗牌,只是目前还没有看到有人拿出威尔逊十四条,也没有英国人站出来主导国联
1. 大家都说数据是水电煤一样的基础材料,其实不尽然,经过标注后的大规模数据才是,一个是同等目标下的样本量集合,一个是被标注过,这也是在目前条件下, AI 也好,AGI 也好没可能超过人类的原因,他本质上还是效率工具,拟合的上限也是人的认知,只是比你快,比你更全面,所谓运动的更高更快更强(
2. 数据标注背后是数据所有权,数据所有权背后的代表的数据安全和数据主权问题,这个就是新时代的贸易壁垒,世界新秩序一定程度上会围绕着这件事情重新洗牌,只是目前还没有看到有人拿出威尔逊十四条,也没有英国人站出来主导国联
👍5
Forwarded from 风向旗参考快讯
淘宝抖音和京东的快递地址数据已被泄露,基本确认是新数据。建议做好个人反诈骗防护。用某些查询工具时不要查自己和身边人,它可能会收集你的TG标识并且和查询信息做进一步绑定,至少他们能够推测用这些号码的人可能使用TG并且有访问外网的能力。
本次泄露的危害很大,因为它可以通过手机号码查询到某人的诸多实际地址。在互联网上乃至线下暴露手机号码的后果变得更为严重了。结合此前一些应用泄露的数据,犯罪分子也能够编造更逼真的谎言,如果家中有老人又邮寄过东西的建议做好提醒。
另外这也说明了使用单独的虚拟手机号码收件的重要性,虽然现在有些晚了。
最后,千万不要在墙内分享这些数据或工具,根据以往经验,警察可能抓不到泄密者,但是抓传播者他们还是会的。
本次泄露的危害很大,因为它可以通过手机号码查询到某人的诸多实际地址。在互联网上乃至线下暴露手机号码的后果变得更为严重了。结合此前一些应用泄露的数据,犯罪分子也能够编造更逼真的谎言,如果家中有老人又邮寄过东西的建议做好提醒。
另外这也说明了使用单独的虚拟手机号码收件的重要性,虽然现在有些晚了。
最后,千万不要在墙内分享这些数据或工具,根据以往经验,警察可能抓不到泄密者,但是抓传播者他们还是会的。
Forwarded from 风向旗参考快讯
你需要知道的近年来重要的数据泄露事件,为什么有人能够通过外网社交平台也能够定位某些人
我们处于一个数据的时代,历年来泄露的数据为黑客和其它组织提供了一个强大的工具,而你需要了解这些信息的来源。
2018年QQ用户数据泄露事件暴露了8亿条QQ用户信息,主要涉及QQ用户的手机绑定信息。
2019年11月起,某学生对淘宝实施了长达八个月的数据爬取并盗走大量用户数据。在阿里巴巴注意到这一问题前,已经有超过11亿8千多万条用户信息泄露。
2020年3月4日,5.38亿条微博用户信息泄露,其中1.72 亿有账号基本信息,含绑定手机号数据。
2020年11月23日,有用户在黑客论坛放出了一个44.65GB社工库信息包,该库就包含了此前所泄露的大约5.38亿微博用户数据、8亿条QQ用户数据、75万条车主信息、某保险公司10万条数据、70万条企业数据、部分快递信息和某贷视频照片。这些信息被众多的人广泛获取。
2021年12月,中国初创公司Socialarks(笨鸟社交)泄露了400GB数据,由于ElasticSearch数据库设置错误,泄露了超过3.18亿条用户记录,涉及到Instagram、领英、Facebook等多个社交平台的用户信息。
2022年3月,超过2亿条国内个人信息在国外暗网论坛兜售,可能来自微博、QQ等多个社交媒体,包括姓名、手机号、邮箱、密码等信息。
2022年9月,某地方公安局的一个数据库暴露于公网且未设置密码从而被黑客入侵,这批泄露自公安局的数据由总计逾23TB的多个部分构成,涉及逾十亿中国大陆居民,包含姓名、地址、出生地、身份证号码、照片、手机号码和刑事案件资讯。在外媒大量报道后的一段时间后该数据库才下线。此次泄露被认为是有史以来最大的中国公民信息泄密事件。
2023年2月,约45亿条中国快递地址库内个人信息被泄露,包括姓名、地址、手机号等信息。该事件是近年来最危险的泄密事件。
如下是部分外网社交媒体重要的泄露事件,显然也会被利用来关联中国用户的信息。
2019年12月,一个黑客组织获取了超过3亿个Facebook账号的数据,包括姓名、电话号码、Facebook ID等信息,这些数据被发现在一个未加密的数据库中。
2021年4月,Facebook的一项数据泄露事件影响了超过5.3亿用户,包括姓名、电话号码、生日、电子邮件地址等信息,这些数据被发现在暗网论坛上免费提供。
2020年5月,Telegram的一个数据库被发现在暗网论坛上出售,包含了约7000万个用户的电话号码和Telegram唯一用户ID,这些数据可能来自于2019年的一次数据泄露事件,当时黑客利用了Telegram的联系人导入功能,获取了用户的信息。
2020年6月,Telegram遭到又一次数据泄露事件,未知的黑客在暗网论坛上公开了其用户的个人信息,包括电话号码、Telegram唯一用户ID和其他敏感信息,据称影响了约4000万用户。
2022年7月,Twitter确认了一次数据泄露事件,是由一个已经修复的零日漏洞导致的,该漏洞允许黑客将电子邮件地址和电话号码与用户账号关联,从而编制了一个包含540万个用户账号信息的列表。
2023年1月,一个自称StayMad的黑客声称泄露了超过2亿推特个用户的个人数据,包括一些高调的账号,如谷歌CEO Sundar Pichai, Donald Trump Jr., SpaceX, CBS Media, NBA, WHO等,这些数据包括姓名、电话号码、电子邮件地址、密码等信息。
显然我们正处于一个数据“大繁荣”的时代,泄密事件从来没有停止过。这也告诉我们在互联网上没有谁可以保证信息是安全的。
我们处于一个数据的时代,历年来泄露的数据为黑客和其它组织提供了一个强大的工具,而你需要了解这些信息的来源。
2018年QQ用户数据泄露事件暴露了8亿条QQ用户信息,主要涉及QQ用户的手机绑定信息。
2019年11月起,某学生对淘宝实施了长达八个月的数据爬取并盗走大量用户数据。在阿里巴巴注意到这一问题前,已经有超过11亿8千多万条用户信息泄露。
2020年3月4日,5.38亿条微博用户信息泄露,其中1.72 亿有账号基本信息,含绑定手机号数据。
2020年11月23日,有用户在黑客论坛放出了一个44.65GB社工库信息包,该库就包含了此前所泄露的大约5.38亿微博用户数据、8亿条QQ用户数据、75万条车主信息、某保险公司10万条数据、70万条企业数据、部分快递信息和某贷视频照片。这些信息被众多的人广泛获取。
2021年12月,中国初创公司Socialarks(笨鸟社交)泄露了400GB数据,由于ElasticSearch数据库设置错误,泄露了超过3.18亿条用户记录,涉及到Instagram、领英、Facebook等多个社交平台的用户信息。
2022年3月,超过2亿条国内个人信息在国外暗网论坛兜售,可能来自微博、QQ等多个社交媒体,包括姓名、手机号、邮箱、密码等信息。
2022年9月,某地方公安局的一个数据库暴露于公网且未设置密码从而被黑客入侵,这批泄露自公安局的数据由总计逾23TB的多个部分构成,涉及逾十亿中国大陆居民,包含姓名、地址、出生地、身份证号码、照片、手机号码和刑事案件资讯。在外媒大量报道后的一段时间后该数据库才下线。此次泄露被认为是有史以来最大的中国公民信息泄密事件。
2023年2月,约45亿条中国快递地址库内个人信息被泄露,包括姓名、地址、手机号等信息。该事件是近年来最危险的泄密事件。
如下是部分外网社交媒体重要的泄露事件,显然也会被利用来关联中国用户的信息。
2019年12月,一个黑客组织获取了超过3亿个Facebook账号的数据,包括姓名、电话号码、Facebook ID等信息,这些数据被发现在一个未加密的数据库中。
2021年4月,Facebook的一项数据泄露事件影响了超过5.3亿用户,包括姓名、电话号码、生日、电子邮件地址等信息,这些数据被发现在暗网论坛上免费提供。
2020年5月,Telegram的一个数据库被发现在暗网论坛上出售,包含了约7000万个用户的电话号码和Telegram唯一用户ID,这些数据可能来自于2019年的一次数据泄露事件,当时黑客利用了Telegram的联系人导入功能,获取了用户的信息。
2020年6月,Telegram遭到又一次数据泄露事件,未知的黑客在暗网论坛上公开了其用户的个人信息,包括电话号码、Telegram唯一用户ID和其他敏感信息,据称影响了约4000万用户。
2022年7月,Twitter确认了一次数据泄露事件,是由一个已经修复的零日漏洞导致的,该漏洞允许黑客将电子邮件地址和电话号码与用户账号关联,从而编制了一个包含540万个用户账号信息的列表。
2023年1月,一个自称StayMad的黑客声称泄露了超过2亿推特个用户的个人数据,包括一些高调的账号,如谷歌CEO Sundar Pichai, Donald Trump Jr., SpaceX, CBS Media, NBA, WHO等,这些数据包括姓名、电话号码、电子邮件地址、密码等信息。
显然我们正处于一个数据“大繁荣”的时代,泄密事件从来没有停止过。这也告诉我们在互联网上没有谁可以保证信息是安全的。
Forwarded from 在无尽长河的尽头
示威是一种政治博弈的手段,博弈的目标是迫使妥协而不是消灭。把群体性运动狭隘化成暴力革命的,要么是被列宁主义叙事忽悠傻了,要么是小说电影看太多看傻了。
👍6
El Camino Real Bell Ringing
听说王毅参加完慕尼黑安全会议之后,要公布中国对待俄乌战争的方案 盲猜 不管支持不支持俄罗斯,一定是支持战争持续下去 #神棍言论
所谓支持就是,你不反对什么,就是鼓励什么,从来就是这样