【65万 哈佛大学CBDB中國歷代人物傳記資料庫 2025最新版】
中國歷代人物傳記資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料。创始人為郝若貝教授(Robert M. Hartwell)(1932 – 1996)。后将資料庫初版及其他財產遺贈哈佛燕京學社。
截至 2025 年 5 月為止,该資料庫共收錄約 649,533 人的傳記資料,涵盖大部分朝代,以唐以后为主。
人物数量最多的五个朝代是 清>明>宋>唐>元
資料庫由人物(People)、親屬(Kinship)、非親屬社會關係(Non-kinship Associations)、社會區分(Status)、入仕途徑(Modes of Entry into Government)、宦歷(Offices / Postings)、地址(Places)、著述(Writings)等部份組成。
你可以在其中查询到一个历史人物在地图上的行动轨迹,社会关系网络,工作经历,甚至送礼往来记录等等信息。
其数据来源如下:
傳記資料索引
宋人傳記資料索引
元人傳記資料索引
明人傳記資料索引
清代人物生卒年表
史料
正史列傳
墓誌銘、墓表等
地方志列傳
文學作品
文集之祭文、序、記、書信等
官方文書
郡守年表
會要、實錄等
其他資料庫
【数据字典】
见TablesFields表
🏷 标签 tag:#数据集 #文化
💾 格式 type:#sqlite
🌍 官网 home:home
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
中國歷代人物傳記資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料。创始人為郝若貝教授(Robert M. Hartwell)(1932 – 1996)。后将資料庫初版及其他財產遺贈哈佛燕京學社。
截至 2025 年 5 月為止,该資料庫共收錄約 649,533 人的傳記資料,涵盖大部分朝代,以唐以后为主。
人物数量最多的五个朝代是 清>明>宋>唐>元
資料庫由人物(People)、親屬(Kinship)、非親屬社會關係(Non-kinship Associations)、社會區分(Status)、入仕途徑(Modes of Entry into Government)、宦歷(Offices / Postings)、地址(Places)、著述(Writings)等部份組成。
你可以在其中查询到一个历史人物在地图上的行动轨迹,社会关系网络,工作经历,甚至送礼往来记录等等信息。
其数据来源如下:
傳記資料索引
宋人傳記資料索引
元人傳記資料索引
明人傳記資料索引
清代人物生卒年表
史料
正史列傳
墓誌銘、墓表等
地方志列傳
文學作品
文集之祭文、序、記、書信等
官方文書
郡守年表
會要、實錄等
其他資料庫
【数据字典】
见TablesFields表
🏷 标签 tag:#数据集 #文化
💾 格式 type:#sqlite
🌍 官网 home:home
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
👍2
【对外投资合作国别(地区)指南】
由商务部编写的指南,涵盖全球180个国家和地区,一共196个pdf:
+ 亚洲与台港澳地区 27个
+ 西亚非洲 64个
+ 美洲大洋洲 40个
+ 欧洲 37个
+ 欧亚 12个
+ 对外投资合作国别(地区)绿色指南 16个
内容详实,包括国家自然环境,政治环境,社会文化等基础介绍,
以及经济环境,中国与其他国家的经贸合作,投资环境等内容。
并且详细介绍当地法律法规,以及一些重要的手续办理方式。
连在当地开展投资合作有可能碰到什么问题都一一列出。
居家旅行必备之选。
🏷 标签 tag:#数据集 #商业
💾 格式 type:#pdf
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
由商务部编写的指南,涵盖全球180个国家和地区,一共196个pdf:
+ 亚洲与台港澳地区 27个
+ 西亚非洲 64个
+ 美洲大洋洲 40个
+ 欧洲 37个
+ 欧亚 12个
+ 对外投资合作国别(地区)绿色指南 16个
内容详实,包括国家自然环境,政治环境,社会文化等基础介绍,
以及经济环境,中国与其他国家的经贸合作,投资环境等内容。
并且详细介绍当地法律法规,以及一些重要的手续办理方式。
连在当地开展投资合作有可能碰到什么问题都一一列出。
居家旅行必备之选。
🏷 标签 tag:#数据集 #商业
💾 格式 type:#pdf
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
Telegram
ALA数据分析|高质量数据集|图书|电子书工具
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
❤3👍2
【155万菜谱数据】
共计155万0152条数据,解压后1.86GB.
西餐、中餐、炒菜、甜品……各种各样稀奇古怪的菜谱。
由多名网友集体贡献。
【数据字典】
+ name 菜谱名词
+ description 描述
+ recipeIngredient 配料
+ recipeInstructions 做法
+ keywords 作者
+ keywords 关键词
🏷 标签 tag:#数据集 #生活 #美食
🌍 语言 language:#CN
💾 格式 type:#json
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
共计155万0152条数据,解压后1.86GB.
西餐、中餐、炒菜、甜品……各种各样稀奇古怪的菜谱。
由多名网友集体贡献。
【数据字典】
+ name 菜谱名词
+ description 描述
+ recipeIngredient 配料
+ recipeInstructions 做法
+ keywords 作者
+ keywords 关键词
🏷 标签 tag:#数据集 #生活 #美食
🌍 语言 language:#CN
💾 格式 type:#json
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
Telegram
ALA数据分析
👍3
【15万 B站评论数据】
B站用户评论数据,看看B友都说了啥。
NLP练习用数据,情感分析,AI训练集。
🏷 标签 tag:#数据集 #NLP
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
B站用户评论数据,看看B友都说了啥。
NLP练习用数据,情感分析,AI训练集。
🏷 标签 tag:#数据集 #NLP
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
Telegram
ALA数据分析
【2024全国公共图书馆藏书数量统计】
注意单位都是 万册。
2024年,全国296个城市,31个省级行政区,总计藏书14亿7566万册,也就是说,平均每个中国人都能有一本书。
【城市藏书总量】
藏书最多的是上海,有8307万册,其次是北京8099万册。比第三第四名断崖领先2000万册。
第三名是哈尔滨 6657万册书,第四是深圳6476万册书。比之后的城市断崖领先3000万册。
之后是广州,杭州,重庆,苏州……
【省份藏书总量】
最多的是广东省,1亿8972万册书,比第二名多6000万册,遥遥领先。
其次是江苏,浙江,都在1亿2200万册左右。
这比较好理解,这三个省是最有钱的。
但第四名是黑龙江,黑龙江有9446万册书,哈尔滨独占6657万册。整个黑龙江比上海还多1000万册书。
所以这个事还真不一定完全和GDP相关……
假如网络上公开的读秀库是一座城市,那么读秀库的藏书量能排到87位,在广西柳州(415万册)和广东清远(399万册)之间。
做为省份就只能排在倒数第三了,在海南省(514万)后边。
🏷 标签 tag:#数据集 #文化 #图书馆
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
注意单位都是 万册。
2024年,全国296个城市,31个省级行政区,总计藏书14亿7566万册,也就是说,平均每个中国人都能有一本书。
【城市藏书总量】
藏书最多的是上海,有8307万册,其次是北京8099万册。比第三第四名断崖领先2000万册。
第三名是哈尔滨 6657万册书,第四是深圳6476万册书。比之后的城市断崖领先3000万册。
之后是广州,杭州,重庆,苏州……
【省份藏书总量】
最多的是广东省,1亿8972万册书,比第二名多6000万册,遥遥领先。
其次是江苏,浙江,都在1亿2200万册左右。
这比较好理解,这三个省是最有钱的。
但第四名是黑龙江,黑龙江有9446万册书,哈尔滨独占6657万册。整个黑龙江比上海还多1000万册书。
所以这个事还真不一定完全和GDP相关……
假如网络上公开的读秀库是一座城市,那么读秀库的藏书量能排到87位,在广西柳州(415万册)和广东清远(399万册)之间。
做为省份就只能排在倒数第三了,在海南省(514万)后边。
读秀库指经过精确的整理和去重之后的读秀库,不是那种乱七八糟堆在一起干到1PB的玩意。
🏷 标签 tag:#数据集 #文化 #图书馆
🌍 语言 language:#CN
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
【2024全国公共图书馆电子书统计 读秀排在什么位置?】
图书馆有很多重复的书,但是针对图书馆的书精确去重是不可能的,根本拿不到这种数据。
不过统计藏书量时会对一个省所有公共图书馆加总,很显然图书馆之间有很多重复的书。
所以,我们要看一下平均每家图书馆有多少实体书和电子书,这算是一种粗略的去重策略。
【各省公共图书馆数量】
图书馆最多的是四川省,有209家。有一年成都市一个市就号称自己有一亿七千多万本藏书,非常离谱,可能和这个有关。
第二名和第三名是河北河南分别有181家和177家。
北京上海的图书馆数量是垫底的,北京只有19座 倒数第一,上海和天津各20座,倒数第二。
【各省平均每家公共图书馆藏书(实体书)数量】
我们计算省内平均每个图书馆藏书数量:北京(426万册)和上海(415万册)断崖领先所有省份,几乎是第三名广东(126万册)的四倍。
是最后一名西藏的140倍。
从平均数可以看到,藏书最多和图书馆最多的省份,平摊到每座图书馆的书不一定很多。
这也说明北京上海的资源非常恐怖,集中度非常高,一座图书馆的藏书量能就抵的过好几个普通城市(省份)的总藏书。
【各省平均每个公共图书馆电子书数量】
大部分省份电子书总量都在几千万册,最多的是浙江,大概7000多万册。
总量意义不大,很可能许多图书馆买了相同的库,有能力自建库的图书馆非常少。
不过平均下来每个图书馆的电子书就很少了,最多只有95万册。
所以在电子书资源上,可能存在很大的不平衡,只有省会,大图书馆,才有能力存储大量电子书,一些小城市,普通一点的图书馆就几乎没有了。
【读秀在哪】
读秀标准库(约400万册), 远超图书馆的平均电子书数量。也就是说,大多数地方图书馆是不如读秀库的。
和平均藏书比,也仅次于北京和上海,基本是一线大图书馆的水平。
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 数据源:2024文化和旅游统计年鉴
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
读秀标准库经过精确的整理和去重,数量为400万册左右。
图书馆有很多重复的书,但是针对图书馆的书精确去重是不可能的,根本拿不到这种数据。
不过统计藏书量时会对一个省所有公共图书馆加总,很显然图书馆之间有很多重复的书。
所以,我们要看一下平均每家图书馆有多少实体书和电子书,这算是一种粗略的去重策略。
【各省公共图书馆数量】
图书馆最多的是四川省,有209家。有一年成都市一个市就号称自己有一亿七千多万本藏书,非常离谱,可能和这个有关。
第二名和第三名是河北河南分别有181家和177家。
北京上海的图书馆数量是垫底的,北京只有19座 倒数第一,上海和天津各20座,倒数第二。
【各省平均每家公共图书馆藏书(实体书)数量】
我们计算省内平均每个图书馆藏书数量:北京(426万册)和上海(415万册)断崖领先所有省份,几乎是第三名广东(126万册)的四倍。
是最后一名西藏的140倍。
从平均数可以看到,藏书最多和图书馆最多的省份,平摊到每座图书馆的书不一定很多。
这也说明北京上海的资源非常恐怖,集中度非常高,一座图书馆的藏书量能就抵的过好几个普通城市(省份)的总藏书。
【各省平均每个公共图书馆电子书数量】
大部分省份电子书总量都在几千万册,最多的是浙江,大概7000多万册。
总量意义不大,很可能许多图书馆买了相同的库,有能力自建库的图书馆非常少。
不过平均下来每个图书馆的电子书就很少了,最多只有95万册。
所以在电子书资源上,可能存在很大的不平衡,只有省会,大图书馆,才有能力存储大量电子书,一些小城市,普通一点的图书馆就几乎没有了。
【读秀在哪】
读秀标准库(约400万册), 远超图书馆的平均电子书数量。也就是说,大多数地方图书馆是不如读秀库的。
和平均藏书比,也仅次于北京和上海,基本是一线大图书馆的水平。
🏷 标签 tag:#数据集 #文化
🌍 语言 language:#CN
📄 数据源:2024文化和旅游统计年鉴
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
【日本小电影和女优元数据】
此份数据包含39605名女优,444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。
【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。
【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。
【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。
【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。
🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
此份数据包含39605名女优,444632部影片(根据番号去重)的元数据。
数据截止2019年,里边的图像链接已经失效了。
不包含影片 不包含影片 不包含影片
【罩杯】
多数为C-D-E三种。Q罩杯是什么鬼。
【身高】
身高小于140cm 大于182cm视为无效数据。
平均身高158.8cm,多数身高为160cm左右,170cm以上的就很少了。
不过日本平均身高本来就不太高。
【年龄】
最大的95岁,太离谱了……年纪特别大的那种可能是年轻的时候拍过,后来录入数据的时候只计算了当前日期与生日的年龄差。
多数集中在30-39岁之间,出乎意料。按直觉是20-30岁的最多。
【家乡】
除去来自东京的人,来自神奈川的人最多,神奈川这地方指定有点说法。
也有少数来自上海(恵美梨、JL-006-1),北京(メイファ、AA-714, AA-715),台湾(愛玲 ONED-695;黛まりな UM-037)的演员。
不知道是不是噱头。
【爱好】
喜欢做饭的人最多、其次是购物。
还有喜欢投资的。爱好多达1000多种,个个身怀绝技。
🏷 标签 tag:#数据集 #有趣
🌍 语言 language:#JP
📄 来源
💾 格式 type:#csv
🔗 下载 download
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
👍2🔥1💯1😈1
【5万 成语数据 目前最全的免费成语数据集】
此份数据包含49636条成语,没有重复。
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:8u6WJv2WJQUfMX8
【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法
🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
此份数据包含49636条成语,没有重复。
保留通假字,在不同时代不同出处中的同一个成语,某一个字可能是不同的。这种全部保留。
用于NLP、成语接龙、飞花令等。
密码:
【包含如下字段】
成语
拼音
解释
出处
示例
近义词
反义词
语法
🏷 标签 tag:#数据集 #文化 #NLP
🌍 语言 language:#CN
📄 来源 SophIA整理
💾 格式 type:#csv
🔗 数据见评论区
💻 关注频道:@ALA数据分析
😶🌫️ 交流群
Telegram
ALA数据分析|高质量数据集|图书|电子书工具
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
👍4❤1