ALA数据分析|高质量数据集|图书|电子书工具
1.28K subscribers
161 photos
76 files
82 links
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
Download Telegram
【2024全国公共图书馆藏书数量统计】
注意单位都是 万册。

2024年,全国296个城市,31个省级行政区,总计藏书14亿7566万册也就是说,平均每个中国人都能有一本书。

【城市藏书总量】
藏书最多的是上海,有8307万册,其次是北京8099万册。比第三第四名断崖领先2000万册。
第三名是哈尔滨 6657万册书,第四是深圳6476万册书。比之后的城市断崖领先3000万册。
之后是广州,杭州,重庆,苏州……

【省份藏书总量】
最多的是广东省,1亿8972万册书,比第二名多6000万册,遥遥领先。
其次是江苏,浙江,都在1亿2200万册左右。
这比较好理解,这三个省是最有钱的。
但第四名是黑龙江,黑龙江有9446万册书,哈尔滨独占6657万册。整个黑龙江比上海还多1000万册书。
所以这个事还真不一定完全和GDP相关……

假如网络上公开的读秀库是一座城市,那么读秀库的藏书量能排到87位,在广西柳州(415万册)和广东清远(399万册)之间。
做为省份就只能排在倒数第三了,在海南省(514万)后边。
读秀库指经过精确的整理和去重之后的读秀库,不是那种乱七八糟堆在一起干到1PB的玩意。


🏷 标签 tag:#数据集 #文化 #图书馆
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
【2024全国公共图书馆电子书统计 读秀排在什么位置?】

读秀标准库经过精确的整理和去重,数量为400万册左右。


图书馆有很多重复的书,但是针对图书馆的书精确去重是不可能的,根本拿不到这种数据。
不过统计藏书量时会对一个省所有公共图书馆加总,很显然图书馆之间有很多重复的书。
所以,我们要看一下平均每家图书馆有多少实体书和电子书,这算是一种粗略的去重策略。

【各省公共图书馆数量】

图书馆最多的是四川省,有209家。有一年成都市一个市就号称自己有一亿七千多万本藏书,非常离谱,可能和这个有关。
第二名和第三名是河北河南分别有181家和177家。
北京上海的图书馆数量是垫底的,北京只有19座 倒数第一,上海和天津各20座,倒数第二。

【各省平均每家公共图书馆藏书(实体书)数量】

我们计算省内平均每个图书馆藏书数量:北京(426万册)上海(415万册)断崖领先所有省份,几乎是第三名广东(126万册)的四倍。
是最后一名西藏的140倍。
从平均数可以看到,藏书最多和图书馆最多的省份,平摊到每座图书馆的书不一定很多。
这也说明北京上海的资源非常恐怖,集中度非常高,一座图书馆的藏书量能就抵的过好几个普通城市(省份)的总藏书。

【各省平均每个公共图书馆电子书数量】

大部分省份电子书总量都在几千万册,最多的是浙江,大概7000多万册。
总量意义不大,很可能许多图书馆买了相同的库,有能力自建库的图书馆非常少。
不过平均下来每个图书馆的电子书就很少了,最多只有95万册。
所以在电子书资源上,可能存在很大的不平衡,只有省会,大图书馆,才有能力存储大量电子书,一些小城市,普通一点的图书馆就几乎没有了。

【读秀在哪】

读秀标准库(约400万册), 远超图书馆的平均电子书数量。也就是说,大多数地方图书馆是不如读秀库的
和平均藏书比,也仅次于北京和上海,基本是一线大图书馆的水平。

🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 数据源:2024文化和旅游统计年鉴
💻 关注频道@ALA数据分析
😶‍🌫️ 交流群
【大学生给其他学校的异性点外卖关系网络】

🏷 标签 tag:#图片 #有趣
🌍 语言 language:#CN
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
🥴2
【日本小电影和女优元数据】

此份数据包含39605名女优444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
不包含影片 不包含影片 不包含影片


【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。

【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。

【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。

【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。

【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。


🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍2🔥1💯1😈1
【5万 成语数据 目前最全的免费成语数据集】

此份数据包含49636条成语没有重复
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:8u6WJv2WJQUfMX8

【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法

🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍41
Channel name was changed to «ALA数据分析/高质量数据集/图书/电子书工具»
【机场形势突然严峻】

近几日多家机场突然被封禁大量IP,有些机场甚至所有IP全部封禁 全军覆没。广东地区尤甚。

某老牌大厂根据通报样本初步分析,此次封禁与协议类型无明显关联,与流量大小无明显关联,与历史出现过通报的客户强关联。

基本确定此次的手段是从订阅链接获取节点IP,然后进行封禁和通报。

强烈建议非常时期不要分享订阅不要在任何公开的社交软件(微信 微博 抖音 B站 总之你能想到的国内社交网络)发送订阅不要使用订阅转换器
机场启用阅后即焚订阅,也许是非常时期的有效手段。

起因有多种说法,目前不确定,会持续多久目前也不太清楚。

🏷 标签 tag:#消息 #梯子 #机场
😶‍🌫️ 交流群
【1309部 中国法律文本合集】
markdown格式的法律条文,1309部法律。包括法律、修正案、管理条例、司法解释等。
用于AI训练,制造赛博律师。
密码:GOsRAOFIef7omFa

🏷 标签 tag:#数据集 #法律 #NLP
🌍 语言 language#CN
📄 来源 SophIA整理
💾 格式 type:#markdown
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
【汉字构型数据 IDS表意文字序列】

IDS是一种描述中日韩统一表意文字(CJK Unified Ideographs)的方式。
简单的说,就是展示了方块字的结构。
CJK包含了几乎所有的方块字,中日韩是最大的三个使用国,所以命名是CJK,并不只有中日韩。
IDS由结构和汉字两部分组成。结构就是下面你看到的这些。
IDS可以迭代,也就是说,一个复杂的汉字可以拆解成一棵部件树。
这也意味着你能直接根据结构输入、检索汉字,甚至能直接用IDS语法创造一个不存在的字。
你可以去 字统网 自己玩一玩。

⿰ 两部件由左至右组成 相
⿱ 两部件由上至下组成 杏
⿲ 三部件由左至右组成 衍
⿳ 三部件由上至下组成 京
⿴ 两部件由外而内组成 回
⿵ 三面包围,下方开口 凰
⿶ 三面包围,上方开口 凶
⿷ 三面包围,右方开口 匠
⿸ 两面包围,两部件由左上至右下组成 病
⿹ 两面包围,两部件由右上至左下组成 戒
⿺ 两面包围,两部件由左下至右上组成 超
⿻ 两部件重叠 巫
⿼ 三面包围,左方开口 㕚
⿽ 两面包围,两部件由右下至左上组成 氷
⿾ 水平翻转 卐
⿿ 旋转 𠕄

🏷 标签 tag:#数据集 #文化
🌍 语言 language#CN
📄 来源
💾 格式 type:#txt
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
Channel name was changed to «ALA数据分析|高质量数据集|图书|电子书工具»
【如何看到香港电子书 HKPL香港公共图书馆电子书元数据】

此份数据包含15万册中文电子书40万册英文电子书
电子书属于香港公共图书馆(Hong Kong Public Libraries, HKPL)
密码:Af8nWfL4aREypwK

【申请读者证】
有网上申请和线下申请两种办法
网上需要上傳最近3個月的香港住址證明文件副本,例如水電煤氣費單。
线下则需要香港身份證正本。
国内平台有卖读者证的,请自行判断。

【怎么看到书】
在元数据中搜一本书,点击后边的链接,会跳到图书界面,然后点击ViewOnline。

🏷 标签 tag:#数据集 #电子书
🌍 语言 language:#CN #繁体
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
👍1
【商务部 国别贸易指南】
上次发过对外投资合作国别(地区)指南
这个是国别贸易指南
《指南》选取了中国50个出口目的地国,每个国别单独成篇,介绍该国宏观经济概况,主要进出口商品及双边贸易情况,该国支柱产业及优先发展产业相关政策,跨境电商平台及贸易促进机构等,同时新增联合国采购指南板块,为我国企业开拓国际市场提供帮助。

具体介绍了每个国家进口的十大商品,中国对其出口的十大商品。
整个国家的产业概况,比如指南里会告诉你加拿大是世界第一大钾肥出口国,捷克的支柱站也是汽车工业这样的信息。
中国对每个国家有出口潜力的商品,比如对加拿大的潜力商品是:便携式自动数据处理设备、智能手机、气体液化设备、玩具玩偶。还会告诉你哪些免征进口税(截止2023或2024年)。
也包括反向的,我们从国外可以进口什么,中国对某个国家进口的潜力商品。
并且提供了一些重要机构与展会的联系方式。比如加拿大国际食品展、加拿大商业理事会、哥伦比亚咖啡博览会等。
可以让你对国际贸易情况有个整体的把握。


🏷 标签 tag:#数据集 #商业
🌍 语言 language:#CN
💾 格式 type:#pdf
🔗 官网下载
💻 关注频道:@ALA数据分析
😶‍🌫️ 交流群
2