【2024全国公共图书馆藏书数量统计】
注意单位都是 万册。
2024年,全国296个城市,31个省级行政区,总计藏书14亿7566万册,也就是说,平均每个中国人都能有一本书。
【城市藏书总量】
藏书最多的是上海,有8307万册,其次是北京8099万册。比第三第四名断崖领先2000万册。
第三名是哈尔滨 6657万册书,第四是深圳6476万册书。比之后的城市断崖领先3000万册。
之后是广州,杭州,重庆,苏州……
【省份藏书总量】
最多的是广东省,1亿8972万册书,比第二名多6000万册,遥遥领先。
其次是江苏,浙江,都在1亿2200万册左右。
这比较好理解,这三个省是最有钱的。
但第四名是黑龙江,黑龙江有9446万册书,哈尔滨独占6657万册。整个黑龙江比上海还多1000万册书。
所以这个事还真不一定完全和GDP相关……
假如网络上公开的读秀库是一座城市,那么读秀库的藏书量能排到87位,在广西柳州(415万册)和广东清远(399万册)之间。
做为省份就只能排在倒数第三了,在海南省(514万)后边。
🏷 标签 tag:#数据集 #文化 #图书馆
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
注意单位都是 万册。
2024年,全国296个城市,31个省级行政区,总计藏书14亿7566万册,也就是说,平均每个中国人都能有一本书。
【城市藏书总量】
藏书最多的是上海,有8307万册,其次是北京8099万册。比第三第四名断崖领先2000万册。
第三名是哈尔滨 6657万册书,第四是深圳6476万册书。比之后的城市断崖领先3000万册。
之后是广州,杭州,重庆,苏州……
【省份藏书总量】
最多的是广东省,1亿8972万册书,比第二名多6000万册,遥遥领先。
其次是江苏,浙江,都在1亿2200万册左右。
这比较好理解,这三个省是最有钱的。
但第四名是黑龙江,黑龙江有9446万册书,哈尔滨独占6657万册。整个黑龙江比上海还多1000万册书。
所以这个事还真不一定完全和GDP相关……
假如网络上公开的读秀库是一座城市,那么读秀库的藏书量能排到87位,在广西柳州(415万册)和广东清远(399万册)之间。
做为省份就只能排在倒数第三了,在海南省(514万)后边。
读秀库指经过精确的整理和去重之后的读秀库,不是那种乱七八糟堆在一起干到1PB的玩意。
🏷 标签 tag:#数据集 #文化 #图书馆
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
【2024全国公共图书馆电子书统计 读秀排在什么位置?】
图书馆有很多重复的书,但是针对图书馆的书精确去重是不可能的,根本拿不到这种数据。
不过统计藏书量时会对一个省所有公共图书馆加总,很显然图书馆之间有很多重复的书。
所以,我们要看一下平均每家图书馆有多少实体书和电子书,这算是一种粗略的去重策略。
【各省公共图书馆数量】
图书馆最多的是四川省,有209家。有一年成都市一个市就号称自己有一亿七千多万本藏书,非常离谱,可能和这个有关。
第二名和第三名是河北河南分别有181家和177家。
北京上海的图书馆数量是垫底的,北京只有19座 倒数第一,上海和天津各20座,倒数第二。
【各省平均每家公共图书馆藏书(实体书)数量】
我们计算省内平均每个图书馆藏书数量:北京(426万册)和上海(415万册)断崖领先所有省份,几乎是第三名广东(126万册)的四倍。
是最后一名西藏的140倍。
从平均数可以看到,藏书最多和图书馆最多的省份,平摊到每座图书馆的书不一定很多。
这也说明北京上海的资源非常恐怖,集中度非常高,一座图书馆的藏书量能就抵的过好几个普通城市(省份)的总藏书。
【各省平均每个公共图书馆电子书数量】
大部分省份电子书总量都在几千万册,最多的是浙江,大概7000多万册。
总量意义不大,很可能许多图书馆买了相同的库,有能力自建库的图书馆非常少。
不过平均下来每个图书馆的电子书就很少了,最多只有95万册。
所以在电子书资源上,可能存在很大的不平衡,只有省会,大图书馆,才有能力存储大量电子书,一些小城市,普通一点的图书馆就几乎没有了。
【读秀在哪】
读秀标准库(约400万册), 远超图书馆的平均电子书数量。也就是说,大多数地方图书馆是不如读秀库的。
和平均藏书比,也仅次于北京和上海,基本是一线大图书馆的水平。
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 数据源:2024文化和旅游统计年鉴
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
读秀标准库经过精确的整理和去重,数量为400万册左右。
图书馆有很多重复的书,但是针对图书馆的书精确去重是不可能的,根本拿不到这种数据。
不过统计藏书量时会对一个省所有公共图书馆加总,很显然图书馆之间有很多重复的书。
所以,我们要看一下平均每家图书馆有多少实体书和电子书,这算是一种粗略的去重策略。
【各省公共图书馆数量】
图书馆最多的是四川省,有209家。有一年成都市一个市就号称自己有一亿七千多万本藏书,非常离谱,可能和这个有关。
第二名和第三名是河北河南分别有181家和177家。
北京上海的图书馆数量是垫底的,北京只有19座 倒数第一,上海和天津各20座,倒数第二。
【各省平均每家公共图书馆藏书(实体书)数量】
我们计算省内平均每个图书馆藏书数量:北京(426万册)和上海(415万册)断崖领先所有省份,几乎是第三名广东(126万册)的四倍。
是最后一名西藏的140倍。
从平均数可以看到,藏书最多和图书馆最多的省份,平摊到每座图书馆的书不一定很多。
这也说明北京上海的资源非常恐怖,集中度非常高,一座图书馆的藏书量能就抵的过好几个普通城市(省份)的总藏书。
【各省平均每个公共图书馆电子书数量】
大部分省份电子书总量都在几千万册,最多的是浙江,大概7000多万册。
总量意义不大,很可能许多图书馆买了相同的库,有能力自建库的图书馆非常少。
不过平均下来每个图书馆的电子书就很少了,最多只有95万册。
所以在电子书资源上,可能存在很大的不平衡,只有省会,大图书馆,才有能力存储大量电子书,一些小城市,普通一点的图书馆就几乎没有了。
【读秀在哪】
读秀标准库(约400万册), 远超图书馆的平均电子书数量。也就是说,大多数地方图书馆是不如读秀库的。
和平均藏书比,也仅次于北京和上海,基本是一线大图书馆的水平。
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 数据源:2024文化和旅游统计年鉴
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
【日本小电影和女优元数据】
此份数据包含39605名女优,444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。
【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。
【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。
【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。
【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。
🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
此份数据包含39605名女优,444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
不包含影片 不包含影片 不包含影片
【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。
【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。
【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。
【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。
【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。
🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
👍2🔥1💯1😈1
【5万 成语数据 目前最全的免费成语数据集】
此份数据包含49636条成语,没有重复。
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:8u6WJv2WJQUfMX8
【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法
🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
此份数据包含49636条成语,没有重复。
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:
【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法
🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
Telegram
ALA数据分析|高质量数据集|图书|电子书工具
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
👍4❤1
【超多漫画资源】
【有妖气全站免费漫画保存计划】
https://mypikpak.com/s/VOUoZ6nEOhVIfili6RPQcAMio2
【2000+ 漫画杂志】
https://mypikpak.com/s/VOUoZLuvN-Kf6QvOBCiW5xMOo2
【1TB 美漫】美漫也算二次元?(bushi
https://mypikpak.com/s/VOUoZYbU6XXqZuZmmS0qKheCo2
【600+ 港漫】
https://mypikpak.com/s/VOUoZoDDN-Kf6QvOBCiW68vBo2
【epub/mobi/azw3格式 漫画合集】
https://mypikpak.com/s/VOUo_YrRaPYXcbWefs5tTqISo2
🏷 标签 tag:#资源 #ACG
📄 来源 SophIA整理
😶🌫️ 交流群
【有妖气全站免费漫画保存计划】
https://mypikpak.com/s/VOUoZ6nEOhVIfili6RPQcAMio2
【2000+ 漫画杂志】
https://mypikpak.com/s/VOUoZLuvN-Kf6QvOBCiW5xMOo2
【1TB 美漫】
https://mypikpak.com/s/VOUoZYbU6XXqZuZmmS0qKheCo2
【600+ 港漫】
https://mypikpak.com/s/VOUoZoDDN-Kf6QvOBCiW68vBo2
【epub/mobi/azw3格式 漫画合集】
https://mypikpak.com/s/VOUo_YrRaPYXcbWefs5tTqISo2
🏷 标签 tag:#资源 #ACG
📄 来源 SophIA整理
😶🌫️ 交流群
PikPak Drive
有妖气全站免费漫画保存计划 is shared on PikPak
有妖气全站免费漫画保存计划 available for high-speed download on PikPak and streaming across multiple devices.
🔥1
【机场形势突然严峻】
近几日多家机场突然被封禁大量IP,有些机场甚至所有IP全部封禁 全军覆没。广东地区尤甚。
某老牌大厂根据通报样本初步分析,此次封禁与协议类型无明显关联,与流量大小无明显关联,与历史出现过通报的客户强关联。
基本确定此次的手段是从订阅链接获取节点IP,然后进行封禁和通报。
强烈建议非常时期不要分享订阅,不要在任何公开的社交软件(微信 微博 抖音 B站 总之你能想到的国内社交网络)发送订阅,不要使用订阅转换器。
机场启用阅后即焚订阅,也许是非常时期的有效手段。
起因有多种说法,目前不确定,会持续多久目前也不太清楚。
🏷 标签 tag:#消息 #梯子 #机场
😶🌫️ 交流群
近几日多家机场突然被封禁大量IP,有些机场甚至所有IP全部封禁 全军覆没。广东地区尤甚。
某老牌大厂根据通报样本初步分析,此次封禁与协议类型无明显关联,与流量大小无明显关联,与历史出现过通报的客户强关联。
基本确定此次的手段是从订阅链接获取节点IP,然后进行封禁和通报。
强烈建议非常时期不要分享订阅,不要在任何公开的社交软件(微信 微博 抖音 B站 总之你能想到的国内社交网络)发送订阅,不要使用订阅转换器。
机场启用阅后即焚订阅,也许是非常时期的有效手段。
起因有多种说法,目前不确定,会持续多久目前也不太清楚。
🏷 标签 tag:#消息 #梯子 #机场
😶🌫️ 交流群
Telegram
SL扯淡群
You’ve been invited to join this group on Telegram.
【汉字构型数据 IDS表意文字序列】
IDS是一种描述中日韩统一表意文字(CJK Unified Ideographs)的方式。
简单的说,就是展示了方块字的结构。
CJK包含了几乎所有的方块字,中日韩是最大的三个使用国,所以命名是CJK,并不只有中日韩。
IDS由结构和汉字两部分组成。结构就是下面你看到的这些。
IDS可以迭代,也就是说,一个复杂的汉字可以拆解成一棵部件树。
这也意味着你能直接根据结构输入、检索汉字,甚至能直接用IDS语法创造一个不存在的字。
你可以去 字统网 自己玩一玩。
⿰ 两部件由左至右组成 相
⿱ 两部件由上至下组成 杏
⿲ 三部件由左至右组成 衍
⿳ 三部件由上至下组成 京
⿴ 两部件由外而内组成 回
⿵ 三面包围,下方开口 凰
⿶ 三面包围,上方开口 凶
⿷ 三面包围,右方开口 匠
⿸ 两面包围,两部件由左上至右下组成 病
⿹ 两面包围,两部件由右上至左下组成 戒
⿺ 两面包围,两部件由左下至右上组成 超
⿻ 两部件重叠 巫
三面包围,左方开口 㕚
两面包围,两部件由右下至左上组成 氷
水平翻转 卐
旋转 𠕄
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 来源
💾 格式 type:#txt
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
IDS是一种描述中日韩统一表意文字(CJK Unified Ideographs)的方式。
简单的说,就是展示了方块字的结构。
CJK包含了几乎所有的方块字,中日韩是最大的三个使用国,所以命名是CJK,并不只有中日韩。
IDS由结构和汉字两部分组成。结构就是下面你看到的这些。
IDS可以迭代,也就是说,一个复杂的汉字可以拆解成一棵部件树。
这也意味着你能直接根据结构输入、检索汉字,甚至能直接用IDS语法创造一个不存在的字。
你可以去 字统网 自己玩一玩。
⿰ 两部件由左至右组成 相
⿱ 两部件由上至下组成 杏
⿲ 三部件由左至右组成 衍
⿳ 三部件由上至下组成 京
⿴ 两部件由外而内组成 回
⿵ 三面包围,下方开口 凰
⿶ 三面包围,上方开口 凶
⿷ 三面包围,右方开口 匠
⿸ 两面包围,两部件由左上至右下组成 病
⿹ 两面包围,两部件由右上至左下组成 戒
⿺ 两面包围,两部件由左下至右上组成 超
⿻ 两部件重叠 巫
三面包围,左方开口 㕚
两面包围,两部件由右下至左上组成 氷
水平翻转 卐
旋转 𠕄
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 来源
💾 格式 type:#txt
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
