|
本帖最后由 Oeasy 于 2023-6-27 21:59 编辑 4 @0 P/ @7 S5 e$ O2 J1 |. }
6 [& d+ J- `& T) a; J2 T
( P3 i" a6 t% y( I8 K6 }爾雅 https://www.shidianguji.com/book/SBCK013
8 y' L8 @4 H% S' s. W& d2 u3 j; }5 e5 ? `0 a, P! d( ]
2 k, _. K" u$ E0 ]6 U2 i5 j* s参考:https://gongyi.bytedance.com/iss ... 7160869621275379748
+ o3 _% X$ d( a# v20230314 字节跳动古籍保护专项基金介绍及重点项目 http://www.news.cn/culture/20230 ... e25ba9f441c4/c.html% x% ?+ D2 }6 e
20220407 "识典古籍"上线,千万字符在这里跳动 https://gongyi.bytedance.com/detail/7161003434291775518
1 _1 p, T' _' L) n3 h& n: i. u2022年04月07日
8 R- b# l% L9 f( K6 l4 T% F6 V2 n0 \! d* H4 ]
近日,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版正式上线了。 b4 p. ]+ ^ W$ M
k" P' y) ^+ S! ^目前,平台已经整理上线了390部经典古籍,共计3000多万字,主要来自《四部丛刊》;预计在3年内,我们将完成10000种古籍数字化整理,基本覆盖儒家、道家和佛家的核心典籍目录,并对全社会免费开放,公众可以通过识典古籍平台高效检索、阅读和利用古籍。: \+ P [" M6 q, V: ?- J4 T9 Q' M
4 V& P8 c- b3 v3 o6 G C感兴趣的朋友可以在PC端进入网站https://www.shidianguji.com/进行体验。
& B ~4 B: L. {, W& J, q
8 n; u; \. n2 H1 r, Y+ k8 Y6 C- u: ^9 N! _: E N/ f7 ]4 b
. A0 {6 S3 V: }: t7 }# Y/ ~& ~9 w p0 J9 j1 J
4 P. K3 P& c7 J5 K% p( T6 K一直以来,古籍数字化整理面临着技术、资金等诸多困难,导致数字化进展缓慢,或使用体验不佳等。据不完全统计,中国现存古籍约20万种,其中已经完成数字化影像扫描的有8万种,而实现文本数字化的仅3-4万种。
8 n/ `" u+ Z9 n6 y1 P% k! o 1 g1 l5 u, i: d2 J" w" ]
今年3月,字节跳动与北京大学开展合作,希望通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。 z/ h1 X1 s5 z
1 v1 H. C. T) b* O) P: \% a01.
- ] g: u, d& h* v+ E. p9 B; G识典古籍测试版的四个特点( O# C+ U h; s5 q3 D( p, {
8 o0 J. ] c8 e, k+ x& e
目前上线的“识典古籍”测试版有以下四个特点:向公众免费开放,实现知识共享;采用影印底本,来源权威;繁简一键转换,方便阅读;灵活检索古籍,运行流畅。: Q' l, b$ y8 l D" ~
2 K8 x+ i2 H9 V# c2 E0 I5 e2 Z首先是免费开放,知识共享。为了让更多人阅读到古籍里的内容,促进知识的共享,“识典古籍”数字化平台将长期免费向全社会开放,同时,我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人一起共建。
5 P+ Y6 R2 h8 y
: V9 g7 v; B y% Z* ~其次是影印底本 ,来源权威。进入“识典古籍”测试版,用户任意阅读一本古籍,均可通过点击“原本影像”,查看古籍的底本影印图像。通过左右对照,大家既能用现代人习惯的方式顺畅地读懂古籍内容,也能感受原汁原味的古籍。
! r* }0 ^9 k+ Q L" H$ Y& ?6 R
) J6 B5 m, H# ]# M5 Q# V
# S1 P4 u0 E& s7 ]
& c8 d) ^) D u% V1 k; u' A5 `5 ]+ \( |* j$ q4 L
c r: g- }! @& X6 E7 a
第三是,繁简转换,方便阅读。点击右上角繁简体转换功能,可轻松切换繁简字,方便专业研究人员、古籍爱好者以更加高效便利的方式读懂古籍内容。
, @4 P1 E1 o& _0 @ {. f+ W+ A- p: }/ b$ `7 Z
$ z3 t1 d! f. `
& j0 L7 p6 s3 ^6 M7 A7 G, S$ o. Z9 R2 b' [' ?$ ?* Z, ~7 t( |9 A
$ e3 x# {( i/ l4 Z7 L/ Q第四是,灵活检索,运行流畅。用户还可以通过关键词检索,快速找到来自不同古籍的相关内容,方便大家对文献内容进行灵活运用。依托字节跳动积累的产品研发与设计能力,“识典古籍”测试版也保证了使用过程的稳定、快速。( c" m; \5 C* P/ g8 ~6 E9 R
! W/ \" J# l. T$ i0 s& B9 N. B9 S+ \- k% z9 }
7 @/ Q; q c* v: q3 C& }
) H' {* Y) A2 n
9 I& I4 i1 y6 A+ S; u; r6 @1 |02. 0 E" ~/ [1 F9 p8 i
古籍是如何实现数字化的?
) O0 v; m4 _ w/ g p6 E: B ; z6 F% J+ q1 E9 X7 s; C* _0 w
“识典古籍”测试版的开发与上线,依托于字节跳动与北京大学在OCR文字识别、自然语言处理、知识图谱等技术领域的合作。 ?# n; _0 A% a, l- U3 _1 @
" v; N+ x# h9 x! y古籍的数字化主要经历了文字识别、自动标点、命名实体识别三个过程。
& C4 R. ~ t* o : w; j2 A; j4 A7 N A6 q4 |
第一,在文字识别阶段,OCR技术首先将单个文字从图片中一个个切割开,再将切分好的图片送入模型,识别出具体文字,最后结合文字内容和文字位置获取阅读顺序,完成了文字的识别。目前行业内OCR的识别准确率平均为93%至94%,而“识典古籍”将这个数字提高到96%至97%。
t. x/ P/ B, D# m
- Z/ _8 a* B" [8 R8 f
6 u# ^# V3 G+ c* |) F" F7 {9 ]; q: D M! M; A, {4 b
% G! S6 b4 Z. G; _$ J* J' ?9 `
, b! j1 P; [0 w' m$ J0 _+ { I7 { J. ^& p9 X: b
第二,在自动标点阶段,要通过算法,给原本缺少断句的古籍自动打上标点符号。文字识别步骤中被识别出的文字,在编码后被转换为计算机语言,通过计算,文字被打上标点并输出。举个例子,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”0 @. @5 F9 _) H0 n
9 v. V3 ]& A0 z4 @2 y$ c% X) Q* \: A, U
1 v- r) ?6 w% q) f& X
/ ^! R* o2 N; S; i8 o0 E1 ^* A5 I }9 X
第三,为了进一步优化文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职五种类型的专有名词。+ L4 f n+ O; V5 V
# ?* |$ y/ r0 n, Y4 N e" p
8 H Y6 [7 a0 ?6 D$ D4 ~% u! h" L! e y2 y1 m) x
) M% q) l0 Z7 R$ e. o b" b' ^3 w. S O1 c$ U' v9 {7 w
除了搭建古籍数字化阅读平台,字节跳动还在助力古籍修复、古籍活化上进行了探索。2021年6月,字节跳动联合中国文物保护基金会成立古籍保护专项基金,与国家图书馆开展合作,预计1-2年内修复珍贵古籍100余册件,培养100名古籍修复人才。同时,我们还通过古籍纪录片、激励创作者以多元形式演绎古籍知识等,让古籍鲜活起来,吸引更多人喜爱和关注。7 j/ A6 |$ V9 N: H, ~
; i, O8 A4 M% k文以载道,源远流长,古籍穿越历史的长河,带着古人的智慧向我们走来。我们期待与更多的古籍收藏机构、研究团队、爱好者等一起,助力古籍传承,让古籍真正活起来,传下去。
8 J' w- b$ f. |
" I7 _7 f% I9 u: ~ t2 i+ \
% ?4 }1 C4 c5 }5 K, p4 S2 L2 i! J5 h* F" E. Q/ ` Q, m L# i8 Q7 F
|
评分
-
1
查看全部评分
-
|