掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1961|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 ! _" |) B% O- E6 N" l0 b

      Y0 o5 r) I9 [% C+ Whttps://huggingface.co/spaces/mikeee/radiobee-aligner
    9 u1 C" C; K& Y( c! C) {. E: L9 p . B9 H/ I6 s" {7 [# M5 _% N" S- ~
    - L8 P6 R: h! I4 q6 p
    《呼哮山莊》第一章对齐结果片段
    8 |: g8 m1 y8 [. q% l+ S- x. N$ ]4 u# H4 C7 G3 `" U) k7 _+ n$ b
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。# t8 S. k6 V2 o2 O9 d# k/ H8 z* d
    界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    " t% ?; g8 T  c$ c6 j7 g0 r2 V# ^( [9 a: Y$ r! @; u* u
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。7 D$ E) G1 R6 E2 P% c
    9 Z0 o" Q" z3 y- y: e( M
    网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。
    ( Q( e: P  o3 D! e2 I+ ^" n8 X+ ~" J9 n
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。5 f$ ]# S" L* {7 ~& }7 K7 X3 E

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    * s4 p  W1 J* U/ J) F感谢分享!意思是以后会出软件PC版?

    : N, L, j* G4 ~; v/ X4 t8 G* X5 S4 j  u9 \有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03; Y7 M7 ?6 ]+ d- _" `
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    # r+ T6 W8 x- f
    很好!期待!
  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 513 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    # B3 B- I' _' N/ D# n1 e) X( ?
    Shiny2020 发表于 2021-12-28 23:23* I: P/ F  q1 f1 {; L
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    " c! _9 [1 `$ w& D

    4 D2 \3 |& }  A类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 513 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:375 s2 B4 a; S- e4 K3 v" N; @
    类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...
    ; U# z+ [% C  T3 n  {
    哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 6 i  e7 @! K! Q& E  m  c. h0 Y2 n
      W6 Q# `; t; H1 G6 ~& f6 W
    这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑 0 u  B$ F3 S% Q

    . t; L- V' \$ \! F' T各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    1 @: @- v( f2 G5 \各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    0 ]; ^( m, d8 X
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    & W9 U5 i! U5 _+ o! Q1 ?术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

    & J& m: [8 D! l' c" ?8 C哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    " V+ h" h$ b4 _+ b. F' t8 G( o0 e6 k  m9 G8 e/ u% p6 l( ?
      
    ' x5 ~" W+ n+ ^7 `+ b' @# G托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。1 n0 ]6 }$ c5 o) @

    6 U/ I0 v: U0 }$ G3 i有兴趣的网友自己动手试试
    ) z  o, a& {( m
    0 q. z+ K% w) \: R! i  M% b, i/ U
    $ m3 G/ y) ]" s用时仅 3.2秒!1 G; F1 r# h% [0 u2 S

    $ B$ S* Q9 I5 G; Z6 q% p% L. |' ]附上 epub 版
    8 i0 o8 v& H$ B0 Z
    + V, V. N* D+ P; ]2 YPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 1 h% ]) X0 Q9 R/ c/ F6 z8 x

    . S8 d+ a, d5 L& A! L https://huggingface.co/spaces/mikeee/radiobee-aligner
      M" s6 j* F! Z! f6 F2 kradiobee 对齐已经支持多种语言对并支持自动分离。( b( ?' i5 E( K8 ^$ Q3 G3 K/ }4 Q1 X

    6 O+ a8 A" }: G! D$ q有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06" \) F7 r0 L4 o$ a# Z
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
    / Y  }5 k, m' [+ u' p% z/ l! _
    感谢反馈。" m$ |! q& I' p  _7 M% U* a+ d5 ^
    4 L* I# w9 \& `! Z- Y) t  {
    有兴趣可以试试其他版本。都支持多语种
    ( c" L8 \% X- [演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    0 w3 _/ w$ H& e0 h" \7 @! f& i演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06/ S, b( l- }# [; A; t
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    " U" _5 @$ _  i3 b
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项# x7 F7 d# N1 M/ f5 @* T$ Z! S
    1. sent ali algo/ n" \; J, D3 c, P, J" y
    2. None fast slow
    复制代码
    3 j& k/ a: I# c- U% I6 P) s
    ) g# Z* p) p% r% U; o: F4 G
    8 j# ~5 o' X3 D% e# ]8 i" h; t/ T
    None: 不分句
    $ m: D0 B6 N! @8 {Fast:对齐分句的方法A,快一些但可能性能稍差一点8 ^, L2 K7 h8 e3 L4 h) }9 {
    Slow:对齐分句的方法B,慢一些
    ) d  t  @" a, ^+ E5 j4 q' g
    , d  U8 A# l) h% L由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 ) |3 Z: y6 a$ Q& `
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
    / r/ G, L6 K% P" K4 Z) O- h( V不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    5 _5 \& P8 p& k0 j: a2 ~  |# o  
    * \  M5 e  \3 F9 U# L4 E
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-13 20:14 , Processed in 0.062302 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表