我们计划招募大佬来本地化200T标准库。本地化的目的,其一是为了安全冷备份互联网宝贵资料。其二或许未来有训练ai的用途。目前已经有几个大佬完成本地化。我们的本地化计划是小规模的。为了避免人多眼杂/隔墙有耳/坏人骚扰,充分保障隐私,有计划参与的大佬请联系 @bookbackqnabot,提交下以下问卷以方便搞事儿。
有多少T的硬盘:
计划备份全部200T,还是是其中一部分:
作为存储爱好者,目前备份了多少网络上的什么资源:
计划如何利用本地化后的200T书籍:
🫶
计划官方频道:https://t.me/tycolio
有多少T的硬盘:
计划备份全部200T,还是是其中一部分:
作为存储爱好者,目前备份了多少网络上的什么资源:
计划如何利用本地化后的200T书籍:
🫶
计划官方频道:https://t.me/tycolio
读秀书的整体情况
## 元数据和书的区别
元数据是所有书的索引,可以通过元数据来查找想要的信息
书就是网络上流传的电子书。
只有元数据那就是空壳子,只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来,才能发挥作用。
## 读秀元数据
元数据有很多版本,大约都在509万-512万左右,一般俗称512w元数据
这份元数据最初从哪来已经不得而知,只知道似乎流传了好几年,期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析
## 什么是标准库
标准库本体共有390万左右,加上补库和后来新出现的,总共约400万,容量接近200TB
标准库是前几年秒传还在时,大佬利用秒传整理的一个库,力求尽量包含所有能找到的读秀书,并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。
书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本,还有贩子推出接近大几百TB的成品盘,实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……
## 妥善保存
从最早的一本算起,这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉,自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查,似乎有些证据表明,曾经在许多年前发生过一次中文互联网电子书大灭绝事件,这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉,证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。
保存的要求:
1. 书要尽量全
2. 尽量不要重复,否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下,容量尽量小。
有些人喜欢按自己的品味扔掉一些"不好"的,只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间,无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失
目前来说,只有标准库满足上面四个条件。
## 整体说明
这是512w元数据和标准库,以及补库的ssid做交集的venn图。
A:只有元数据没有书 大约100万条左右。实际上还有更多缺失的书,以后会提到
B:标准库中可以和元数据对应上的书,大约有385万
C:标准库中6万本没有元数据的书,这部分书没法搜索。可以称为僵尸书。零散抽出几本来看,像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U:全部读秀书:读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522
下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间,向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。
后来新出现的读秀7和读秀8并不在其中,以后会分析。
## 可以做些什么
1. 寻找丢失的100w
2. 补充元数据
3. 备份
## 元数据和书的区别
元数据是所有书的索引,可以通过元数据来查找想要的信息
书就是网络上流传的电子书。
只有元数据那就是空壳子,只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来,才能发挥作用。
## 读秀元数据
元数据有很多版本,大约都在509万-512万左右,一般俗称512w元数据
这份元数据最初从哪来已经不得而知,只知道似乎流传了好几年,期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析
## 什么是标准库
标准库本体共有390万左右,加上补库和后来新出现的,总共约400万,容量接近200TB
标准库是前几年秒传还在时,大佬利用秒传整理的一个库,力求尽量包含所有能找到的读秀书,并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。
书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本,还有贩子推出接近大几百TB的成品盘,实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……
## 妥善保存
从最早的一本算起,这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉,自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查,似乎有些证据表明,曾经在许多年前发生过一次中文互联网电子书大灭绝事件,这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉,证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。
保存的要求:
1. 书要尽量全
2. 尽量不要重复,否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下,容量尽量小。
有些人喜欢按自己的品味扔掉一些"不好"的,只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间,无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失
目前来说,只有标准库满足上面四个条件。
## 整体说明
这是512w元数据和标准库,以及补库的ssid做交集的venn图。
A:只有元数据没有书 大约100万条左右。实际上还有更多缺失的书,以后会提到
B:标准库中可以和元数据对应上的书,大约有385万
C:标准库中6万本没有元数据的书,这部分书没法搜索。可以称为僵尸书。零散抽出几本来看,像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U:全部读秀书:读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522
下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间,向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。
后来新出现的读秀7和读秀8并不在其中,以后会分析。
## 可以做些什么
1. 寻找丢失的100w
2. 补充元数据
3. 备份
guides.lib.uw.edu
Library Guides: China Studies: Duxiu User Guide
Research guide on China and Chinese language studies resources. Duxiu User Guide
❤4
