掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2889|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑
    4 m5 H0 w3 U; K' T6 Q( t
    0 H" [. `* b) f# m8 p' ohttps://huggingface.co/spaces/mikeee/radiobee-aligner
    $ l7 ]5 l- v& M: ]1 [, J! f# ^ ( q) ]6 |9 Q1 i" T
    3 _( A: D- f) P" @: O, X- S
    《呼哮山莊》第一章对齐结果片段
    6 v# H. S5 T9 ^0 U
    ) L1 E: T1 A8 O0 ^# Z) G# R工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    - I% i# |# @" F, v1 n& C3 P+ F界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
      v" ^4 H% W3 T. K7 ]) [1 N' |# b8 `% k2 F
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。
    - |* a3 q- z9 H. A
      f. c5 m. I; W- X! @网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。& z( {  E" D0 Y' f# S- t9 _8 `- i
    1 ]$ n; \! `; v) |; q, N, X
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    4 W! R# A1 ?1 t& T

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情

    2025-1-9 17:52
  • 签到天数: 642 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54( N/ v0 x( x- Q/ _8 i
    感谢分享!意思是以后会出软件PC版?
    & P. F6 r8 w! w+ Q3 b% R
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情

    2025-1-9 17:52
  • 签到天数: 642 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03
    0 X, ?. [' c, t% `/ _# X, y有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    ' i' u( A& p% G3 {+ d8 ~
    很好!期待!
  • TA的每日心情
    开心
    2025-2-24 20:24
  • 签到天数: 559 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑 9 @4 E% ?7 G0 s1 b5 \
    Shiny2020 发表于 2021-12-28 23:238 e9 }: V: ^5 |$ f
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    7 H0 E! Z% [, x# W8 E' K
    5 h# g5 Y5 k) T/ m3 y: w" ^7 @2 _
    类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    2025-2-24 20:24
  • 签到天数: 559 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:370 e2 v# o- r% C! n
    类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    4 _4 U: t2 N: @% P# `* o哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 9 h8 b) k- I* P7 T% y. h; u* T

    1 m% s, i7 ^) J% k" J这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    7 K# e% c# A0 C) q
    7 [& c6 e1 h6 g0 {各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43: Z9 h3 a# y7 U% }! U
    各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    ! q- U) g6 u- B( |, T
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33( B! N# j7 N7 ]/ H5 ~' S; H& g# Z+ u
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...
      i& G; H" Y% ~7 r7 N" O: `
    哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑 3 I6 `$ s" M/ I' b: X2 H# l6 ~/ }

    1 p4 M; ?$ ]0 H  M/ p9 [  + Z5 s9 B3 j: b, [. z6 K/ \/ T
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。- |& b; `& R1 W3 a

    6 L! n  c. x, _/ u. h有兴趣的网友自己动手试试
    & A% g3 x% k( |, u8 h
    " Z$ ?7 F6 `, d' c0 j% H4 e, q+ a8 _2 c8 v' [
    用时仅 3.2秒!" O: D3 U) i8 \3 a, c
    - T& u2 [) A5 q( |8 A
    附上 epub 版 2 |. N4 C& y2 r/ a5 F
    7 A$ |# h, @4 R+ ^
    PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑
    8 b7 D4 L; b3 n4 t7 j; W3 R6 K- ~. B' X
    https://huggingface.co/spaces/mikeee/radiobee-aligner . s1 `( C# C4 u; S6 H5 C) E' F) u
    radiobee 对齐已经支持多种语言对并支持自动分离。
      U7 o6 R. s8 [4 D# e2 }- H. F$ g; q5 M$ P$ D& U# \7 e
    有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06
    0 V3 O: ?: W2 r/ D6 K% ~楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...

    - ^% m' y8 `+ a2 W感谢反馈。
    9 v& D) L2 ]7 D8 m2 i7 N  i( R* q8 S0 H' U
    有兴趣可以试试其他版本。都支持多语种
    ' N9 |$ u: \& U! W& a演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev* H% B$ K; E) T& Q
    演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06
    . X4 c, V/ R& J4 Y$ \' v9 Z真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    , @% J1 A* \9 v! x2 ?# O8 r
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项' }# B+ J: W5 S
    1. sent ali algo
      5 J7 O+ g! P& i
    2. None fast slow
    复制代码

    * `% @- I( ^) t6 M
    ; B/ ]* y3 A9 A, `: {1 u
    0 R; v3 {0 ~2 A9 a: v8 UNone: 不分句
    / H5 |% ]( _! c9 G+ {, p: KFast:对齐分句的方法A,快一些但可能性能稍差一点9 w$ ?) }4 A3 z
    Slow:对齐分句的方法B,慢一些" g* t5 X- S  |6 {
    - i1 K' X0 i. a
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 $ q4 g3 d; C. @  `- ?0 g6 q
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
      @. k9 k/ @3 |# @- {7 v: y6 w不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    & ]) a. N; W, S8 Q& i  
    - z7 G% G5 N+ F/ ~! m. [& l
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-25 08:04 , Processed in 0.024739 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表