【NLP】2020年に生まれたBERTの派生形まとめ

Kai
20 min readDec 25, 2020

--

Bertとその派生(Ernie)。尚、派生の方が人気があると思われる。

国際学会で採択された’○○BERT’、’BERT○○’と名付けられたものをまとめました。全部で10個くらいはあるんじゃないかって?甘いです。

タイトル、採択された学会、簡単な説明を載せています。

元論文を読みたい場合、各論文のタイトルをクリックしてください。

  1. K-BERT: Enabling Language Representation with Knowledge Graph
    AAAI 2020
    BERTにナレッジグラフを接続することで、ドメイン固有タスクでの精度向上を目指した。ナレッジグラフは完全外付けなので事前学習済みBERTをそのまま使用できる。3つの専門分野でBERTを大きく上回った。
  2. SensEmBERT: Context-Enhanced Sense Embeddings for Multilingual Word Sense Disambiguation
    AAAI 2020
    意味ネットワークを応用し、BERTで各単語の潜在的な意味表現を獲得した。この表現は埋め込み表現空間上に存在しているため、ある単語が出現した時、その意味まで知ることが出来るようになる。
  3. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT
    AAAI 2020
    ヘッセ行列を用いてBERTの量子化を行った。パラメータを13倍圧縮、埋め込み表現を4倍圧縮しても最大2.3%の性能低下までで収まった。
  4. Semantics-Aware BERT for Language Understanding
    AAAI 2020
    BERTの埋め込み表現に、事前に訓練されたモデルで獲得した意味表現を加えた(SemBERT)。事前学習済みBERTをそのまま利用できる。10のタスクで高いスコアを獲得した。
  5. Distill BERT to Traditional Models in Chinese Machine Reading Comprehension
    AAAI 2020
    蒸留という手法(正解から学ぶのではなく教師モデルの出力から学ぶ手法)を用いて、BERTの97%の精度を保持しながら、パラメータ数を40%減らし、計算速度を60%早くすることに成功した。
  6. Spelling Error Correction with Soft-Masked BERT
    ACL 2020
    誤字脱字訂正タスクにおいて誤り検出用ネットワークと誤り訂正用ネットワークの2種類を準備し、ソフトマスキングと呼ばれる手法で両者を接続した。 BERTより有意に優れていることが示されている。
  7. ExpBERT: Representation Engineering with Natural Language Explanations
    ACL 2020
    BERTに帰納的バイアスを組み込んだ(例:文章から配偶者のペアを抽出するために、結婚している夫婦はハネムーンに行くという帰納的バイアスを組み込む)。BERTと比較してF1スコアで3~10ポイント改善した。
  8. GAN-BERT: Generative Adversarial Learning for Robust Text Classification with a Bunch of Labeled Examples
    ACL 2020
    自然言語文に紐づくラベルを半教師ありGANによって獲得することで、学習時におけるラベル付の教師データの必要数を大幅に削減(50~100例あればOK)した。
  9. MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
    ACL 2020
    スマホで動くBERT。BERT-BASEと比べて4.3倍小型化、5.5倍高速化に成功した。GLUEスコアではBERT-BASEに0.6ポイント負けたものの、pixel 4上でレイテンシ62msだった。SQuAD v1.1/v2.0タスクでは(1.5/2.1)ポイント勝った。
  10. DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
    ACL 2020
    高速化のためにBERTの推論を層の途中で打ち切りることを検討した。最大40%の高速化に成功している。
  11. schuBERT: Optimizing Elements of BERT
    ACL 2020
    今後の高速化のためにBERTのアーキテクチャを再検討したもの。BERTと同じ数のパラメータを持った時、GLUEおよびSQuADデータセットにおいて6.6%高い平均精度を実現した。
  12. SentiBERT: A Transferable Transformer-Based Architecture for Compositional Sentiment Semantics
    ACL 2020
    単語の意味的表現を捉えることでセンチメント分析において高スコアを達成した。バイナリ構成要素解析木を用いた文構造と、BERTで捉えた単語の表現をAttentionで融合している。
  13. BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance
    ACL 2020
    希少語の最適な埋め込み表現を推論するモデル。各単語をBERTRAMに食わせてからBERTに渡すことで、希少語~中頻度語の表現が改善され、既存BERTの性能が大幅に向上する。
  14. CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
    ACL2020
    生のコーパスから各単語の最頻意味の分布を導出することで単語の曖昧性を解消する多言語BERT。曖昧性解消タスクにおいてSoTAを達成した。
  15. SenseBERT: Driving Some Sense into BERT
    ACL 2020
    単語の意味レベルで弱教師あり(weak-supervision)学習を行うBERT。MASK単語予測タスクにおいて、同時に意味カテゴリも予測することで、Word in ContextタスクでSoTAを達成した。
  16. FastBERT: a Self-distilling BERT with Adaptive Inference Time
    ACL 2020
    オリジナルな自己蒸留機構を採用することで、性能の低下を最小限に抑えながら計算効率を向上させたモデル。高速化の基準を1~12倍まで可変にコントロールすることが可能。
  17. tBERT: Topic Models and BERT Joining Forces for Semantic Similarity Detection
    ACL 2020
    BERTによる文脈表現とトピックモデルを組み合わせ、ペアワイズ意味的類似度検出を行えるようにしたBERT。トピックモデルを加えることで、特にドメイン固有の問題に強くなった。
  18. CamemBERT: a Tasty French Language Model
    ACL 2020
    英語以外の言語(フランス語)で各タスクに最適化させる方法を検討した。その結果、学習においてwikipediaデータ<webクロールデータであること、4GBデータ=130GBデータであることがわかった。CamemBERTは検討した中で最高の精度を達成したモデル。
  19. TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data
    ACL 2020
    自然言語とデータベーステーブルのような構造化された表形式データを同時に学習できるBERT。2600万個の表とその英語文脈からなるコーパスから学習された。WikiTableQuestionsタスクにおいてSoTAを達成した。
  20. EXBERT: A Visual Analysis Tool to Explore Learned Representations in Transformer Models
    ACL 2020
    BERTのモデル内部の推論プロセスを可視化するツール。入力文と大規模な注釈付きデータセットを照合することで、文脈表現やAttentionの意味を知ることができる。
  21. CopyBERT: A Unified Approach to Question Generation with Self-Attention
    ACL 2020
    BERTにコピー機構(LSTMで使われていた技術)を加えることでQAタスクでSoTAを達成した。また、Attentionにマスクをかけることで、EncoderとDecoderに同じモデルを採用することを可能としている。
  22. CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT
    EMNLP 2020
    放射線読影レポートのラベル付けを行うためのBERT。生物医学分野コーパスでのpretraining→ルールベースのアノテーションで継続学習→専門家のアノテーションでfine tuneしている。報告書ラベリングでのSoTAを達成した。
  23. VD-BERT: A Unified Vision and Dialog Transformer with BERT
    EMNLP 2020
    視覚的QA(画像を見ながら質問に答える)を目的としたBERT。画像と対話履歴の両方をEncoderに入れてしまうため、構造がシンプルである。視覚対話タスクにおいてSoTAを達成した。
  24. BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth Mover’s Distance
    EMNLP 2020
    多対多のマッピングに基づいた新しいBERT蒸留法。Earth Mover’s Distance(EMD)を利用することで、蒸留の知識変換に必要なコストを計算できるだけでなく、効率的なマッピングが可能となった。精度と圧縮率の両面で高い性能を発揮した。
  25. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue
    EMNLP 2020
    人やシステムによるタスク指向対話をモデル化するためのBERT。ユーザートークンとシステムトークンを組み込んでいる。また、応答選択タスクのための新たな目的関数も入っている。few-shot learnが可能。
  26. DagoBERT: Generating Derivational Morphology with a Pretrained Language Model
    EMNLP 2020
    複雑な単語の生成に焦点を当てたBERT。実験の中で入力セグメンテーションが派生知識に決定的な影響を与えることが示されたため、単語の分割方法次第でBERTの性能がさらに延びることが示された。
  27. TernaryBERT: Distillation-aware Ultra-low Bit BERT
    EMNLP 2020
    BERTの重みをternarizes(三項化?)することで軽量化したモデル。近似ベースの手法とlossを考慮した三項化手法を組み合わせた。さらに精度低下軽減のために蒸留を用いている。14.9倍小型化しながら、通常BERTと同精度を得ることに成功している。
  28. HABERTOR: An Efficient and Effective Deep Hatespeech Detector
    EMNLP 2020
    ヘイトスピーチ検出用BERT。独自辞書を構築して1から学習をしている。またクォータニオンを考慮した軽量化、複数入力に対応するためのプーリング層、規則的な敵対的訓練によるロバスト性向上を行っている。1.4Mの注釈的コメントを含む口語音声データで学習させ、SoTAを達成した。BERTと比べてデータ数は1M未満、学習は4~5倍高速で、メモリ使用量は1/3以下。
  29. PatchBERT: Just-in-Time, Out-of-Vocabulary Patching
    EMNLP 2020
    下流タスクでのOOVが与える情報損失について研究した論文。PatchBERTではOOVの緩和のためのアプローチが取り入れられており、BERTと同じパラメータ数で性能が向上している。
  30. ConceptBert: Concept-Aware Representation for Visual Question Answering
    EMNLP 2020
    視覚的QA(画像を見て質問に答える )用BERT。一般的なタスクでは質問文と画像だけで答えられるQAしか解かないが、ConceptBertはナレッジグラフを内包しているため、常識や概念を考慮した回答ができる。
  31. E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT
    EMNLP 2020
    既存BERTにWikipedia2Vecで取得したエンティティに関する事実知識を融合した。エンティティベクトルをワードピースベクトルと同じように扱えるようにした。教師なしQA、教師あり関係分類、実体リンクの3つのタスクにおいてBERTや他のベースラインより優れていた。
  32. PhoBERT: Pre-trained language models for Vietnamese
    EMNLP 2020
    ベトナム語で事前訓練されたBERT。ベトナム語タスクにおいてSoTAを達成した。
  33. exBERT: Extending Pre-trained Models with Domain-specific Vocabulary Under Constrained Training Resources
    EMNLP 2020
    自前の拡張辞書を拡張モジュールを用いて既存BERTに連結させた。既存BERTの重みは固定したまま、拡張辞書と拡張モジュールの重さのみを学習できるため、訓練資源が非常に少ない。精度も高い。
  34. CodeBERT: A Pre-Trained Model for Programming and Natural Languages
    EMNLP 2020
    自然言語とプログラミング言語をつなぐBERT。置換されたトークンの検出、生成器からサンプリングされた中で一番尤もらしいトークンの検出、という2つの目的関数で事前学習されている。
  35. TopicBERT for Energy Efficient Document Classification
    EMNLP 2020
    文章分類タスクの計算コストを抑えることに特化したBERT。トピックモデル(NVDM)とと言語モデルを相補的に学習させた結果、99.9%の性能を維持しながらCO2排出量を40%減らし、1.4倍の高速化を達成した。
  36. Optimizing BERT for Unlabeled Text-Based Items Similarity
    EMNLP 2020
    カタログデータに特化して自己監視型事前学習を行ったRecoBERTを導入し、テキストベースのアイテム推薦を行った。項目感の類似度をスコアリングすることを目指しているが、類似度ラベルを必要としていない。カタログ間の不一致を最小化するように設計され、推論時には4つのスコアを組み込んでいる。
  37. DomBERT: Domain-oriented Language Model for Aspect-based Sentiment Analysis
    EMNLP 2020
    汎用言語モデルとドメイン固有モデルの融合を目指した。ドメインコーパスと関連ドメインコーパスの両方から学習させるためにBERTを拡張している。センチメント分析において有望な結果を示した。
  38. LEGAL-BERT: The Muppets straight out of Law School
    EMNLP 2020
    法律領域に特化したBERT。法律領域ではテンプレ的なファインチューニングが必ずしもうまく働くわけではないと判明し、ドメイン固有コーパスの追加や、ドメイン固有コーパス上でのゼロからの学習などを検討している。
  39. RobBERT: a Dutch RoBERTa-based Language Model
    EMNLP 2020
    オランダ語に特化したRoBERTa。
  40. BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA
    EMNLP 2020
    QAタスクにk近傍法を用いた。k近傍法を用いることで、BERTに更なる訓練をすることなくBERTのスコアを大きく上回る。また、BERTが「米国の都市」と正しいカテゴリで答えるところを、BERT-kNNは「マイアミ」と正しい答えを導くことができる。
  41. TinyBERT: Distilling BERT for Natural Language Understanding
    EMNLP 2020
    Transformerで蒸留することに特化したTransformer蒸留を開発し、それを用いてBERTを小型化させた。事前学習、タスク固有の学習の両方でTransformer蒸留を実行する。GLUEで96.8%の精度を維持しつつ、7.5倍の小型化と、9.4倍の高速化を実現した。
  42. The birth of Romanian BERT
    EMNLP 2020
    ルーマニア語BERT。ルーマニア語特有の前処理等について考察している。
  43. LIMIT-BERT : Linguistics Informed Multi-Task BERT
    EMNLP 2020
    多タスクと多言語を組み合わせたBERT。品詞タグ、構文解析、意味的役割ラベリングタスクを解くことを目的としている。半教師あり学習を行っているため、学習と同じ量のタスクデータを提供できる。
  44. MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering
    EMNLP 2020
    複数の入力モダリティに対応した視覚的QA(画像を見て質問に答える)を解くためのBERT。各モダリティの異なるソースを、類似の構造を持ったBERTインスタンスに分解している。TVQAデータセットでSoTAだった。
  45. BERT-QE: Contextualized Query Expansion for Document Re-ranking
    EMNLP 2020
    クエリ拡張を行うBERT。拡張のために関連する文書群を選択するためにBERTベースのモデルを使用している。
  46. VL-BERT: Pre-training of Generic Visual-Linguistic Representations
    ICLR 2020
    視覚-言語タスクに用いることのできるBERT。単語か画像のRoIが入力の要素となる。視覚-言語タスクのほとんどに適合するように設計されている。VCRベンチマークでSoTAを達成した。
  47. BERTSCORE: EVALUATING TEXT GENERATION WITH BERT
    ICLR 2020
    テキスト生成の自動評価指標。文脈に応じた埋め込みを用いてトークンの類似度を計算するため、完全一致していなくても評価される。既存指標よりも人間の判断との相関性が高く、強いモデル選択性能を示した。
  48. Incorporating BERT into Neural Machine Translation
    ICLR 2020
    機械翻訳の精度を高めたBERT-fusedを開発した。BERTを用いて入力文の特徴量を抽出し、それをAttentionを用いてEncoderとDecoderの各層に融合させた。教師あり、半教師あり、教師なしなど7つのベンチ位マークでSoTAを達成した。
  49. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
    ICLR 2020
    エルマンの線形探索に触発され、事前学習に言語構造を組み込んだBERT。単語レベルと文レベルでそれぞれ言語構造を活用し、事前学習を行っている。GLUEにおけるSoTAを達成した他、その他タスクでも高い性能を示した。
  50. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
    ICLR 2020
    パラメータの削減によってメモリ消費を抑えと訓練速度を向上させた。それにも関わらずGLUE, RACE, SquadなどにおいてSotTAを達成した。
  51. EViLBERT: Learning Task-Agnostic Multimodal Sense Embeddings
    IJCAI 2020
    言語と画像の関連付けを行うことができ、画像について実体があるかどうかを問わず実行することができる。概念と画像のペアの手動注釈付データセットを元に構築されている。
  52. AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search
    IJCAI 2020
    BERTの圧縮をタスク指向で行っている。タスク指向の知識蒸留損失と、効率を意識した損失を組み込むことで、タスク適応型BERTの圧縮を効率化した。同等の性能を維持しながらBERTより推論が12.7~29.3倍早く、パラメータサイズが11.5~17.0倍小さい。
  53. BERT-INT: A BERT-based Interaction Model For Knowledge Graph Alignment
    IJCAI 2020
    異なるナレッジグラフを統合させたモデル。近傍を集約するのではなく、近傍間の相互作用を計算することで、SoTAを達成した。
  54. BERT-PLI: Modeling Paragraph-Level Interactions for Legal Case Retrieval
    IJCAI 2020
    法的事例照会タスクを解いた。一般的なキーワード検索より入力文書が長く、照会先との関連性は複雑になりがちで、大規模データセットが存在しないタスクである。段落レベルでの意味関係を補足するためにBERTを利用し、段落レベルの相互作用を集約するためにBERT-PLIを利用した。
  55. FinBERT: A Pre-trained Financial Language Representation Model for Financial Text Mining
    IJCAI 2020
    金融テキストマイニングを行うために、大規模金融コーパスで事前学習させたドメイン固有BERT。6つの事前学習タスクを構築し、一般コーパスと金融コーパスを同時に学習した。結果SoTAを達成した。
  56. SpanBERT: Improving Pre-training by Representing and Predicting Spans
    TACL 2020
    テキストのスパンをよりよく表現し、予測できるBERT。ランダムトークンではなくランダムスパンでマスキングしスパン境界表現を学習することで、スパン内部の個々のトークンに頼らず、スパン全体の内容を予測させている。BERT-LARGEと同じデータとパラメータ数でSQuAD 1.1/2.0がそれぞれ94.6%/88.7%だった。

--

--