ALA数据分析|高质量数据集|图书|电子书工具
1.28K subscribers
161 photos
76 files
82 links
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
Download Telegram
【大学生给其他学校的异性点外卖关系网络】

🏷 标签 tag:#图片 #有趣
🌍 语言 language:#CN
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
🥴2
【日本小电影和女优元数据】

此份数据包含39605名女优444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
不包含影片 不包含影片 不包含影片


【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。

【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。

【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。

【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。

【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。


🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍2🔥1💯1😈1
【5万 成语数据 目前最全的免费成语数据集】

此份数据包含49636条成语没有重复
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:8u6WJv2WJQUfMX8

【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法

🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍41
Channel name was changed to «ALA数据分析/高质量数据集/图书/电子书工具»
【机场形势突然严峻】

近几日多家机场突然被封禁大量IP,有些机场甚至所有IP全部封禁 全军覆没。广东地区尤甚。

某老牌大厂根据通报样本初步分析,此次封禁与协议类型无明显关联,与流量大小无明显关联,与历史出现过通报的客户强关联。

基本确定此次的手段是从订阅链接获取节点IP,然后进行封禁和通报。

强烈建议非常时期不要分享订阅不要在任何公开的社交软件(微信 微博 抖音 B站 总之你能想到的国内社交网络)发送订阅不要使用订阅转换器
机场启用阅后即焚订阅,也许是非常时期的有效手段。

起因有多种说法,目前不确定,会持续多久目前也不太清楚。

🏷 标签 tag:#消息 #梯子 #机场
😶‍🌫️ 交流群
【1309部 中国法律文本合集】
markdown格式的法律条文,1309部法律。包括法律、修正案、管理条例、司法解释等。
用于AI训练,制造赛博律师。
密码:GOsRAOFIef7omFa

🏷 标签 tag:#数据集 #法律 #NLP
🌍 语言 language#CN
📄 来源 SophIA整理
💾 格式 type:#markdown
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
【汉字构型数据 IDS表意文字序列】

IDS是一种描述中日韩统一表意文字(CJK Unified Ideographs)的方式。
简单的说,就是展示了方块字的结构。
CJK包含了几乎所有的方块字,中日韩是最大的三个使用国,所以命名是CJK,并不只有中日韩。
IDS由结构和汉字两部分组成。结构就是下面你看到的这些。
IDS可以迭代,也就是说,一个复杂的汉字可以拆解成一棵部件树。
这也意味着你能直接根据结构输入、检索汉字,甚至能直接用IDS语法创造一个不存在的字。
你可以去 字统网 自己玩一玩。

⿰ 两部件由左至右组成 相
⿱ 两部件由上至下组成 杏
⿲ 三部件由左至右组成 衍
⿳ 三部件由上至下组成 京
⿴ 两部件由外而内组成 回
⿵ 三面包围,下方开口 凰
⿶ 三面包围,上方开口 凶
⿷ 三面包围,右方开口 匠
⿸ 两面包围,两部件由左上至右下组成 病
⿹ 两面包围,两部件由右上至左下组成 戒
⿺ 两面包围,两部件由左下至右上组成 超
⿻ 两部件重叠 巫
⿼ 三面包围,左方开口 㕚
⿽ 两面包围,两部件由右下至左上组成 氷
⿾ 水平翻转 卐
⿿ 旋转 𠕄

🏷 标签 tag:#数据集 #文化
🌍 语言 language#CN
📄 来源
💾 格式 type:#txt
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
Channel name was changed to «ALA数据分析|高质量数据集|图书|电子书工具»
【如何看到香港电子书 HKPL香港公共图书馆电子书元数据】

此份数据包含15万册中文电子书40万册英文电子书
电子书属于香港公共图书馆(Hong Kong Public Libraries, HKPL)
密码:Af8nWfL4aREypwK

【申请读者证】
有网上申请和线下申请两种办法
网上需要上傳最近3個月的香港住址證明文件副本,例如水電煤氣費單。
线下则需要香港身份證正本。
国内平台有卖读者证的,请自行判断。

【怎么看到书】
在元数据中搜一本书,点击后边的链接,会跳到图书界面,然后点击ViewOnline。

🏷 标签 tag:#数据集 #电子书
🌍 语言 language:#CN #繁体
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍1
【商务部 国别贸易指南】
上次发过对外投资合作国别(地区)指南
这个是国别贸易指南
《指南》选取了中国50个出口目的地国,每个国别单独成篇,介绍该国宏观经济概况,主要进出口商品及双边贸易情况,该国支柱产业及优先发展产业相关政策,跨境电商平台及贸易促进机构等,同时新增联合国采购指南板块,为我国企业开拓国际市场提供帮助。

具体介绍了每个国家进口的十大商品,中国对其出口的十大商品。
整个国家的产业概况,比如指南里会告诉你加拿大是世界第一大钾肥出口国,捷克的支柱站也是汽车工业这样的信息。
中国对每个国家有出口潜力的商品,比如对加拿大的潜力商品是:便携式自动数据处理设备、智能手机、气体液化设备、玩具玩偶。还会告诉你哪些免征进口税(截止2023或2024年)。
也包括反向的,我们从国外可以进口什么,中国对某个国家进口的潜力商品。
并且提供了一些重要机构与展会的联系方式。比如加拿大国际食品展、加拿大商业理事会、哥伦比亚咖啡博览会等。
可以让你对国际贸易情况有个整体的把握。


🏷 标签 tag:#数据集 #商业
🌍 语言 language:#CN
💾 格式 type:#pdf
🔗 官网下载
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
2