掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1919|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 ! |& a! a8 m+ T+ A1 t* U

    9 V$ N, m' \' v+ v8 Whttps://huggingface.co/spaces/mikeee/radiobee-aligner4 g5 }& s2 z9 c# Z/ a
      Q5 k2 \( \. s

    + i, }# C# L. M7 l( z: x《呼哮山莊》第一章对齐结果片段6 B1 n& i# |& b% X- S" f/ O* g
    3 _6 x4 n1 {" z/ O
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    " C# `3 P. x4 n2 d界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    2 R3 q6 `' C6 s4 d3 ~  E: @* O$ A/ W! }/ Z  [
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。. y6 i: l7 L7 f( I$ C

    : {, n7 ^' A; _网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。3 A$ K7 y6 s3 c8 n# w

    , B7 w) m3 ?* V' l1 t% hradiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    % x( x* r! e' ?, W) [+ C% U, A4 E

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    2 F8 P. M6 A5 h2 {' N! K感谢分享!意思是以后会出软件PC版?

    " j! w! t6 A$ x7 h7 {有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03% X% `2 [! ?+ p9 |
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    $ ]( A0 b* M" |+ h6 M
    很好!期待!
  • TA的每日心情
    开心
    2024-5-9 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    3 n; y3 o9 L' ?9 S6 u: m( @. z4 T8 A
    Shiny2020 发表于 2021-12-28 23:23+ N0 W3 y; x( N  o& O( u
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    0 K3 g. T' r& t3 a  p& p; ]: k% P$ m, s
    # M7 h% ~) Q! K) m0 ~' Y1 b
    类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    2024-5-9 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
    8 u2 {: Y6 E1 T) s类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...
    5 [8 L4 E' w$ x/ A/ K; w
    哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 ) [9 G6 A$ P5 g1 u; s  t% L

    + D% `5 H1 d+ @8 w9 N7 h这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    & V9 \; b% b- n! o% _6 ^* ~3 @' q. P
    6 z, U: C% Q$ E; e( w/ {: M2 X# R$ T各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    5 m1 o! y2 k0 G/ v各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...

    9 U% m1 r) h; s/ S& V术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33+ e4 D% l# ]5 B
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

    % |# g2 Z  q1 d哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑 " p) V* v/ k  V4 Y4 X

      I4 l: t' O7 T3 v0 K  , r0 P  F7 N1 ]3 E% e
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
    0 B0 X3 W. g) Z, k& o
    ! a, e0 R' _( I. X. I0 ?有兴趣的网友自己动手试试
    4 [9 q6 T4 R7 o
    " ?' c- }, N: K) x) {1 G3 l, O& T% ^- O; z" X: {4 s/ k$ A
    用时仅 3.2秒!
    8 y% A7 F! Q& N% S2 Y0 q
    1 V' J) T8 i! f3 k0 d# Q, ?4 S5 E附上 epub 版
    4 L; C4 Z) x1 D9 @
    - ?8 }, E. i! O% ]3 TPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑
    + c7 @! S; G8 f$ I. J
    7 c6 o" o1 O- U( a8 B7 t9 U https://huggingface.co/spaces/mikeee/radiobee-aligner 8 Z- U6 @4 d+ t( F; G# S
    radiobee 对齐已经支持多种语言对并支持自动分离。
      d: I& n# q1 d6 h# i5 j- Q
    % I$ N/ L5 R! Y, P& `有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06- e  |/ R/ M* U- R& p# J9 x
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
    ; q$ W2 S5 ?! S; u. B/ T
    感谢反馈。
    ! ~# N; m) j6 D3 |9 ^% j
    6 K2 S% c  d3 g4 [  S' T有兴趣可以试试其他版本。都支持多语种4 L9 Q( x. w0 T1 q) U
    演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    , T% t6 w; \* ^8 |# H/ Z演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06
    7 t  c3 I6 @9 F; b0 o真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    1 L( }3 W& A, j# R7 F: H3 v
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项+ [; T2 `" t! e0 E$ ?; d; g8 j5 c
    1. sent ali algo
      ' M( h5 }6 U9 b# R: M9 Q+ C0 J8 x9 x! `
    2. None fast slow
    复制代码

    5 X6 U' q' s- W1 {0 y6 C% v3 S$ S4 g& `! D) ?
    , k" c* C; F3 _. N' @! [, G! U" I) g
    None: 不分句1 j# N' k; T: o. O
    Fast:对齐分句的方法A,快一些但可能性能稍差一点9 x6 l( q+ ~/ y  z( P8 c1 g8 y
    Slow:对齐分句的方法B,慢一些- i* b, Q# K, {/ n8 u# V
    - l; t9 }+ w, Q3 Z: j) ]2 h( e
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。
    ( C, q5 p& Q6 \1 D  T; X/ }7 f  

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16- a# M5 }$ L# d# |9 T
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    6 m/ ~) ]) k5 |7 A  
    8 I: ~, o- h) u/ N4 f$ }
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-17 12:28 , Processed in 0.061206 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表