以省为单位的图书馆传统业务的云上构想
图书管理系统各馆都有,一般高校基本上是汇文,图创,Ilas系统,原985高校图书馆使用国外的系统较多,这些系统管理的本馆图书,读者和借阅日志都是本校数据,数据不全且各馆数据互不相通,形成数据孤岛。比如国内书目500万左右,一般馆可能在100万种左右,各馆的OPAC查询到的就只有20%左右的书目数据,每年出版新书在10万以上,但多数图书馆采购的新书可能在2万种左右,也只占20%左右,如果要一键查询图书在各高校的收藏情况,可能采用超星的读秀是可行的,但由于超星作为一家商业公司在无政策规范和指导下,收集的各馆馆藏数据有一定阻力,导致时效性不强;
如何由国资背景公司,业内领袖、商业公司和各图书馆成员合作,共建共享搭建一套以省为单位的云上系统,统一管理书目、馆藏、读者和借阅日志数据,实现在数字中国的背景下,实现图书馆界的行业大数据,推动数据驱动下的图书馆传统业务的新发展。以下是对具体数据治理的一些探讨:
一、数据提交
1、书目数据
各馆图书编目基本都接入了CALIS的联合编目系统,但书目基本是各高校图书馆已经购买图书的集合,而不是国内出版图书的合集。现在由新华书店,清华大学和杭州麦达提供的中国图书数据服务(https://cckb.lib.tsinghua.edu.cn/)作为一个先行者做了很好的示范工程。2023年5月1日引用CCBD网站数据显示:4,974,962 基础图书书目信息;2,267,083 采访MARC数据; 2,282,090 国图标准MARC数据;1,328,234 Calis标准MARC数据,提供全面,权威、多字段揭示和唯一编号的书目数据,特别是图书封面图像,目录,前言等是传统MARC数据没有揭示的,关于唯一编号CCBD数据可能需要改进和申请DOI解析工作。各馆基于这套数据关联本地书目记录后,书目数据治理就可以完成。基本流程为各馆实时提交本馆数据后和CCBD的书目数据比对,平台记录下CCBDID和本馆书目记录号实现关联,关于比对的准确性不必追求百分百准确,因为主要业务还是基于本地管理系统运行。
2、馆藏数据
收集此类数据现在做法可能是由各馆每年从管理系统中导出后交给公司处理;另外就是直接爬取,这种方式容易引起图书馆反感。现在可以采用FLINK CDC方式实时传递到云平台,多数图书管理系统 的后台数据库为ORACLE,并且以11G的版本居多。基本流程是通过FLINK CDC方式上传书目记录号和条码号,实现和CCBDID的关联。
3、读者数据
读者数据要实现唯一标识,长期服务,通过微信公众号的OPENID可以做到,基本流程是通过各校的统一认证系统绑定读者证号,通过学校名和读者学号唯一限定。微信在读者手机的安装比例应该接近100%,并且可以身份认证有多种方式,最重要的是能够免费发送模板消息,比如发送借还消息,图书推荐信息。为了保护读者隐私,只收集读者性别,年级,学位,学科和学校。
4、借还数据
基本流程是通过FLINK CDC监控loan_work表实现实时借还数据提交,通过监控LOG_CIR提交历史借还数据(interlib为例)
二、具体应用
1、OPAC
通过省中心OPAC查询CCBD中心库所有纸质图书和数字图书,通过学校名称限定导航到本馆书目,显示关联的本地书目记录号和馆藏条码,通过链接的方式跳转到各馆OPAC详细书目和馆藏地,在馆状态的页面。
2、采访和推荐
个人认为应该将采购权更多的给读者,调动读者参与的积极性,请读者推荐采购方式,并将推荐结果插入到本地的管理系统中,由馆员基于本地系统负责审核并下订单,并通过微信公众号推送消息,因为图书采购的招标和支付流程限制了直接基于平台的订购。基于平台的直接采购下单和图书的直接邮寄到读者是下一步推动的方向。
3、数据统计
生成图工委需要的各馆年度统计报表;
以大学生读书调查表为模板,提供数据报表的直接生成;
4、数据挖掘
和学工合作,分析读者心理状态;
和教务合作,推出专业书单;
和出版社合作,推送出版主题;
三、代码示例
以下代码由非专业程序员个人编写,东拼西凑,水平之低,请勿见笑!
1、早期通过SIP2代理方式收集流通日志代码
通过SIP2自助借还协议的代理实现实时借阅的数据上传和推送,代码分三部分,一是SIP2代理,二是读者和书目数据提取后并推送到百度IOT平台,三是订阅IOT接受数据并存放到本地数据库,基本想法是多数高校实现了自助借还,通过SIP2代理方式即可捕获各馆借阅实时数据,然后直接通过读取数据库提取读者和书目信息,既可以记录下那类读者借阅了哪本图书的日志,为什么要采用百度的IOT平台了,一是免费、强大又稳定,每年全省的流通量不会超过1千万,在免费额度内。二是为了公开透明,要收集流通日志数据,需要等到各图书馆的高度信任,上传到百度这样的大平台上,各图书馆都能看到并自主管理。
2、后期的基于CCBD数据和FLINK CDC方式采集数据
在早期想通过CALIS的书目数据来统一规范书目数据,但在实施过程中,由于超过了下载额度而暂停。另外在读取读者数据和书目数据时需要直接读取数据库,也有图书馆意愿和安全风险考虑,前期只做了一些试验后就停止了。
接触到CCBD的数据后,并在业内大佬指点下,试验了一下FLINK CDC的方式采集各馆数据,想在各馆各自独立管理数据数据不互通和全面采用下一代图书管理平台的中间时段做一些数据整合的尝试。