|
本帖最后由 Oeasy 于 2023-6-27 21:59 编辑 - ]" G y5 Q" J9 q/ ^
9 Y5 l3 n5 L, v$ ]- t6 ^# n8 F) B# C, Z; l8 C; p( P
爾雅 https://www.shidianguji.com/book/SBCK013: Q8 W; f9 M. V. {" I
4 `9 }6 R# J/ k
! U' R/ m% i D& K/ v
参考:https://gongyi.bytedance.com/iss ... 7160869621275379748
+ `- j9 J2 ], A" A4 G# g9 S, g1 R20230314 字节跳动古籍保护专项基金介绍及重点项目 http://www.news.cn/culture/20230 ... e25ba9f441c4/c.html
* C/ ]5 n+ Y6 U4 h20220407 "识典古籍"上线,千万字符在这里跳动 https://gongyi.bytedance.com/detail/71610034342917755186 h1 q: e0 b! b4 H% a
2022年04月07日3 E* X8 {# Q# E; q
6 t+ @0 U: u; z6 m, k4 W- e7 Y近日,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版正式上线了。( V4 A6 t9 M, @" ~. E# I
7 B5 p+ {, D% M; [8 t
目前,平台已经整理上线了390部经典古籍,共计3000多万字,主要来自《四部丛刊》;预计在3年内,我们将完成10000种古籍数字化整理,基本覆盖儒家、道家和佛家的核心典籍目录,并对全社会免费开放,公众可以通过识典古籍平台高效检索、阅读和利用古籍。
. ^! Z5 I8 ^: q& m1 o( p
1 y t" V& T( ` J感兴趣的朋友可以在PC端进入网站https://www.shidianguji.com/进行体验。
. d) C( n4 ~# ?& K" d) |7 T1 T
. v. b, y/ h5 z9 X0 m. N( d
% X+ |/ l# S8 ]! x8 U* p3 [$ }6 }2 v* O
* T' ^$ y+ d, s6 S0 Z0 b/ g L0 v8 D5 _/ P
一直以来,古籍数字化整理面临着技术、资金等诸多困难,导致数字化进展缓慢,或使用体验不佳等。据不完全统计,中国现存古籍约20万种,其中已经完成数字化影像扫描的有8万种,而实现文本数字化的仅3-4万种。
2 z# H0 _) y% Q. v& Z6 c
6 S6 ~# G3 J6 M/ [今年3月,字节跳动与北京大学开展合作,希望通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。5 |" ]5 W& c- \. b
$ N: a. P( c6 e. P: \01. : u0 @' C4 F- z& h4 N: i
识典古籍测试版的四个特点
' ~1 e% l* H7 Y& d5 U, y" d - g- d) s* p2 X4 n. n( o
目前上线的“识典古籍”测试版有以下四个特点:向公众免费开放,实现知识共享;采用影印底本,来源权威;繁简一键转换,方便阅读;灵活检索古籍,运行流畅。% X0 B! _7 B; U3 c: i3 I
0 b0 L) G) v: E% s8 @
首先是免费开放,知识共享。为了让更多人阅读到古籍里的内容,促进知识的共享,“识典古籍”数字化平台将长期免费向全社会开放,同时,我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人一起共建。9 I' i, v% E: m3 C- M2 F
1 g. e; r: d% ~6 M) t( `! b, o其次是影印底本 ,来源权威。进入“识典古籍”测试版,用户任意阅读一本古籍,均可通过点击“原本影像”,查看古籍的底本影印图像。通过左右对照,大家既能用现代人习惯的方式顺畅地读懂古籍内容,也能感受原汁原味的古籍。+ }7 ?& f9 F6 g5 r3 T* y6 f' r
: ~: T9 e; g8 ~. P
! n2 ?5 m. {5 W
3 L, u$ w* o$ V2 k; c9 A) @
" F( t: }- v$ V6 S) P5 c6 `' K, i" {( N) Q5 Q/ u# ]/ ?: a
第三是,繁简转换,方便阅读。点击右上角繁简体转换功能,可轻松切换繁简字,方便专业研究人员、古籍爱好者以更加高效便利的方式读懂古籍内容。
; F7 W4 m; z& W& R1 @1 x: }2 @
) J& E, i- N3 e, ] \' f0 a+ ?# T/ o9 O! _ D7 ]! w
0 S7 B# ~& N. P2 n) Z) r% |% Y
- N- S8 j: [ h8 p( d0 j+ ?, k/ ?% t1 [
第四是,灵活检索,运行流畅。用户还可以通过关键词检索,快速找到来自不同古籍的相关内容,方便大家对文献内容进行灵活运用。依托字节跳动积累的产品研发与设计能力,“识典古籍”测试版也保证了使用过程的稳定、快速。
& i# p9 i, ]7 E0 D) \4 c Y4 n* e1 E; h: h& N _7 {
; P6 H2 C0 I1 | U
4 k3 l8 `9 f( D6 x6 H/ u' ~% D# Y8 c% Z
O1 L& Q6 Z' i* W n$ F' K2 _02. 1 S- W0 b P: }8 l6 v
古籍是如何实现数字化的?5 B- T/ _: {- M; D) ^6 u! G7 q
3 {6 O: C* @; F
“识典古籍”测试版的开发与上线,依托于字节跳动与北京大学在OCR文字识别、自然语言处理、知识图谱等技术领域的合作。
6 p! G+ S9 `) _: a/ s4 x7 W, w8 j& e- o+ m, c0 T
古籍的数字化主要经历了文字识别、自动标点、命名实体识别三个过程。
- r: D" _# V/ Q: g! U
6 d, j' J2 y6 ^! e8 A5 m- b0 [第一,在文字识别阶段,OCR技术首先将单个文字从图片中一个个切割开,再将切分好的图片送入模型,识别出具体文字,最后结合文字内容和文字位置获取阅读顺序,完成了文字的识别。目前行业内OCR的识别准确率平均为93%至94%,而“识典古籍”将这个数字提高到96%至97%。
" J7 g! }. E4 w k0 v& u: M3 O7 j- L1 V3 v; h
$ E; z, o+ `- Z
; s& _- Y( r' J1 l0 X
/ b0 p# t1 p1 F h: n8 u& w2 L. K: z7 i. ?; e" e& w4 w- V
' }/ H9 m9 t9 k t+ e3 A) X第二,在自动标点阶段,要通过算法,给原本缺少断句的古籍自动打上标点符号。文字识别步骤中被识别出的文字,在编码后被转换为计算机语言,通过计算,文字被打上标点并输出。举个例子,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”! a7 r3 ?3 h. \. l/ G
9 L' T6 V1 L1 F' r7 E
- g& R, v% x( V5 R( p
2 R" Z6 ^1 L3 F9 P5 |. x( Q. r
`/ h+ b" m- K5 n0 w
! e+ L/ j, L8 u/ N9 p+ R$ ]# e/ z
第三,为了进一步优化文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职五种类型的专有名词。& `. h5 b$ g. ~% {! [
; h" m; H% P" N. C) G
" `( I4 r& x* m2 D
& o1 _% F: C' R( t4 u% E2 G" n. D4 b
2 d8 a& c% R+ Z. `7 @: {
除了搭建古籍数字化阅读平台,字节跳动还在助力古籍修复、古籍活化上进行了探索。2021年6月,字节跳动联合中国文物保护基金会成立古籍保护专项基金,与国家图书馆开展合作,预计1-2年内修复珍贵古籍100余册件,培养100名古籍修复人才。同时,我们还通过古籍纪录片、激励创作者以多元形式演绎古籍知识等,让古籍鲜活起来,吸引更多人喜爱和关注。
% k& z/ X( ?& }% V7 T q6 [$ L* N " P; ~1 F5 H- g! Q0 r) D+ q
文以载道,源远流长,古籍穿越历史的长河,带着古人的智慧向我们走来。我们期待与更多的古籍收藏机构、研究团队、爱好者等一起,助力古籍传承,让古籍真正活起来,传下去。 , N! ?0 w. w1 X, Z* `* G
) V" G% ?8 @+ F/ c/ S
^3 ]' n% x/ g: H4 w
, n8 N5 k- J- w( R. n |
评分
-
1
查看全部评分
-
|