kaggleの雑記

Pythonの自然言語処理ライブラリtransformersとは

transformersの概要

https://github.com/huggingface/transformers

transformersとはPyTorchとTensorFlow 2.0にとって使いやすい自然言語処理ライブラリです。

BERT, GPT-2, RoBERTaなど最新の自然言語処理の手法を簡単に利用できることを目標に以下の特徴を備えています。

  • 実務業務での自然言語処理利用のハードルを下げる
  • 最先端の自然言語処理を利用可能にする
  • 多くの訓練済みモデルを利用できる

日本語にも対応ずみ

tokenizerを利用した例です。Mecabを使わずに形態素解析ができることには非常に驚きました。

from transformers import BertJapaneseTokenizer
tokenizer = BertJapaneseTokenizer.from_pretrained('bert-base-japanese-whole-word-masking')
tokenizer.tokenize('お腹が痛いので遅れます。')
# ['お', '##腹', 'が', '痛', '##い', 'ので', '遅れ', 'ます', '。']

以下の記事を参考にしました

https://qiita.com/nekoumei/items/7b911c61324f16c43e7e

やってみたシリーズ(随時追記していきます)

transformersのRobertaTokenizerを試してみた

transformersのRobertaTokenizerを試してみたRobertaTokenizerとは https://huggingface.co/transformers/model_doc/ro...
ABOUT ME
hirayuki
今年で社会人3年目になります。 日々体当たりで仕事を覚えています。 テーマはIT・教育です。 少しでも技術に親しんでもらえるよう、noteで4コマ漫画も書いています。 https://note.mu/hirayuki