New argos model en_ru for add argospm-index

Hello,

This is a new model for the en-ru language.

I trained the model with argos train.

The model is trained on cleaned text corpora https://opus.nlpl.eu/
corpus: ada83.en-ru, bible-uedin.en-ru, Books.en-ru, CCMatrix.en-ru, ELRC_2922.en-ru, EUbookshop.en-ru, GlobalVoices.en-ru, GNOME.en-ru, infopankki.en-ru, KDE4.en-ru, MultiUN.en-ru
News-Commentary.en-ru, OpenSubtitles.en-ru, ParaCrawl.en-ru, PHP.en-ru, QED.en-ru, Tanzil.en-ru
Tatoeba.en-ru, TED2013.en-ru, TED2020.en-ru, tico-19.en-ru, TildeMODEL.en-ru, Ubuntu.en-ru, UN.en-ru, WikiMatrix.en-ru, wikimedia.en-ru, WMT-News.en-ru

The check was carried out on the Yandex Translate corpus 1m version 1.3. Яндекс.Переводчик

Bleu score on 100 000 train step: 21.8

2 Likes

Thanks for training this!

This looks like a good candidate to add to the package index, I think this model uses more data and train steps then my current one. I included some examples from my tests below, if any Russian speakers have feedback on the new model please comment.

Test Examples

English

  • Argos Translate can be used as either a Python library, command-line, or GUI application. Argos Translate uses OpenNMT for translations, SentencePiece for tokenization, Stanza for sentence boundary detection, and PyQt for GUI. LibreTranslate is an API and web-app built on top of Argos Translate.
  • LibreTranslate is a free and Open Source Machine Translation API that is 100% self-hosted, offline capable and easy to setup.
  • The Southern Cross Expedition, otherwise known as the British Antarctic Expedition, 1898–1900, was the first British venture of the Heroic Age of Antarctic Exploration, and the forerunner of the more celebrated journeys of Robert Falcon Scott and Ernest Shackleton.
  • Tree

Current Russian Model

  • Argos Translate может использоваться как библиотека Python, командная строка или приложение GUI. Argos Translate использует OpenNMT для переводов, SentencePiece для токенизации, Stanza для определения границ приговора, и PyQt для GUI. LibreTranslate - это API и веб-приложение, построенное на вершине Argos Translate.
  • LibreTranslate - это бесплатный и Open Source Machine Translation API, который является 100% самовидным, оффлайн способным и легко настроить.
  • Южный Крест Экспедиция, в противном случае известный как британская Антарктическая экспедиция, 1898–1900, был первым британским венчанием Героического века Антарктической Exploration, и предателем более отпразднованных путешествий Роберта Фалькона Скотта и Эрнеста Шаклтона.
  • Дерево

Proposed Russian Model

  • Аргос Транслат может быть использован как библиотека питона, командная линия или приложение ГУИ. Аргос Транслат использует Открытый НМТ для переводов, Сентенс-Пьес для токенизации, Станза для определения границ предложения и ПИКТ для ГУИ. ЛибреТранслат - это АПИ и веб-приложение, построенное на вершине Транслат Аргос.
  • Либретранслат - это бесплатный и открытый источник машинного перевода АПИ, который на 100% самообслуживаемый, оффлайн способный и простой в установке.
  • Экспедиция Южного Креста, иначе известная как Британская антарктическая экспедиция, 1898–1900, была первым британским предприятием Героической эпохи антарктической разведки и предшественником более знаменитых путешествий Роберта Сокола Скотта и Эрнеста Шеклтона.
  • Дерево

Current Russian Model handles terms better.
Thanks, I figured out what was wrong with my model,
I’ll be back here later with a new version.

1 Like

I am here again.

translate-en_ru-1_2-jf.argosmodel

The model is trained on cleaned text corpora https://opus.nlpl.eu/
corpus: ada83.en-ru, bible-uedin.en-ru, Books.en-ru, CCMatrix.en-ru, ELRC_2922.en-ru, EUbookshop.en-ru, GlobalVoices.en-ru, GNOME.en-ru, infopankki.en-ru, KDE4.en-ru, MultiUN.en-ru
News-Commentary.en-ru, OpenSubtitles.en-ru, ParaCrawl.en-ru, PHP.en-ru, QED.en-ru, Tanzil.en-ru
Tatoeba.en-ru, TED2013.en-ru, TED2020.en-ru, tico-19.en-ru, TildeMODEL.en-ru, Ubuntu.en-ru, UN.en-ru, WikiMatrix.en-ru, wikimedia.en-ru, WMT-News.en-ru

The check was carried out on the Yandex Translate corpus 1m version 1.3. Yandex.Translate

Bleu score on 100 000 train step: 21.8

1 Like

Here are the test sentences with the updated model:

  • Argos Translate может использоваться в качестве библиотеки Python, командной строки или приложения GUI. Argos Translate использует OpenNMT для переводов, SentencePiece для токенизации, Stanza для определения границы предложения и PyQt для GUI. LibreTranslate - это API и веб-приложение, построенное на вершине Argos Translate.
  • LibreTranslate - это бесплатный и Open Source Machine Translation API, который на 100% самостоятелен, офлайн способен и прост в установке.
  • Экспедиция «Южный крест», иначе известная как британская антарктическая экспедиция, 1898–1900, была первым британским предприятием эпохи исследований Антарктики и предшественником более знаменитых путешествий Роберта Фалькона Скотта и Эрнеста Шеклтона.
  • Дерево

I’m planning to merge this if no one thinks it is a regression from the current model.

I just published this model on the package index. Thanks @joefox

1 Like

Awesome! Thanks for training this new model. :clinking_glasses:

1 Like