紙をこよなく愛する松本洋紙店のスタッフが、紙の使い心地や、使用例、豆知識などをドンドン発信! | 紙のブログ

店長ぼんやり日記

松本洋紙店|AIプロジェクト格闘記  3日目

AIプロジェクト格闘記 Vol.3|3万通のメールを「使えるデータ」にするには? 構造化で気づいた”データの調理法”

2026年3月更新|松本洋紙店 店長 松本

3万通以上のお客様とのメールやり取りを「構造化データ」にしてみよう──そう意気込んで始めたものの、ツールは重くなる、処理は途中で止まる、データの引き継ぎは不安だらけ。100件のテスト抽出からカテゴリやキーワードを付けてみたら「このままじゃ使えない」という現実にぶつかりました。個人情報の除外ルール、データの整理の順番、そして昔学んだデータベースの考え方がまさかここで役立つとは……。今回はそんな試行錯誤の3日目です。

1. ツールが重い!処理が止まる問題との戦い

3万通以上のメールデータを構造化しようとしているわけですが、これがまあ大変なんです(笑)。やり取りを続けていると、どうしてもツールがどんどん重たくなっていきます。

途中で処理がピタッと止まってしまうことが何度もありました。そのたびに「え、今の作業どこまで進んだの?」と不安になるわけです。パソコンの前でフリーズ画面を眺めている時間って、地味にストレスです。

2. データの引き継ぎ──新しい処理方法への移行

処理が重くて止まるなら、新しい処理方法に切り替えればいい。理屈はそうなんですが、問題は「今までやり取りしていたデータがちゃんと引き継がれるかどうか」なんです。

AIツールに「今までのデータを保持してください」とわざわざ指示しないといけない。これがまたストレスで(笑)。でも、ずっとやり取りの中で積み上げてきた説明や設定を引き継がないと、全く意味がなくなってしまうんですよね。

結局、それまでのやり取り内容をまとめた上で、新しい指示データに移行しました。ここでの教訓は「途中経過をちゃんと記録しておく」ことの大切さです。

💬 店長の本音:
「保持してください」って指示するの、なんか変な感じしませんか? 人間同士なら「さっきの話の続きなんだけど」で済むのに、AIには改めてお願いしないといけない。このあたりがAIとの共同作業の”もどかしさ”なんですよね。

3. 100件テストで見えた「このままじゃ使えない」

Vol.2の教訓を活かして、今回も全部を一気にやるのではなく、まず100件だけテスト抽出しました。これはもう鉄則ですね。

100件の抽出データに対して、カテゴリやキーワードなどをどんどん付けていきました。「お、これは用紙の質問だな」「これはプリンターの設定関連か」と分類していくわけです。

ところが、やっていくうちに「これ、このままじゃちょっと使えないな……」ということが見えてきました。なぜか? ルール作りが足りなかったんです。

4. 除外ルールの整備──個人情報・不要データの扱い

具体的に何のルールが必要かというと、まず個人情報の除外です。お客様のお名前、電話番号などは当然このデータからは抜かないといけません。

さらに、仕入先や取引先とのやり取りなど、今回の目的(お客様対応のナレッジ化)には関係ないデータも除外しなければなりません。

除外が必要なもの 理由
お客様の氏名 個人情報保護のため
電話番号・メールアドレス 個人情報保護のため
仕入先・取引先とのやり取り お客様対応ナレッジには不要
目的外のメール(社内連絡等) ノイズになるため
逆に、あとから付け加えたい情報もあります。たとえば「この時期の値段だよ」という注釈だったり、回答の重みづけだったり。でも、それは後の話。まずはキレイなデータを作ることが先だと気づきました。

5. 「まずキレイに、あとから味付け」が正解だった

いろいろ試して分かったのは、結局こういう順番が一番効率が良いということです。

① まずデータをすっきりキレイにする
② そこに重みづけや注釈を加えていく

最初から全部やろうとすると、もうぐちゃぐちゃになるんですね(笑)。余計なものを取り除いて、シンプルな状態にしてから「味付け」していくのが正解でした。

🔸 たとえ話:料理と同じ

データの整理って、料理に似ています。野菜を買ってきて、まず泥を落として皮をむいて(=不要データの除外)、食べやすい大きさに切って(=構造化)、それから味付けする(=重みづけ・注釈の追加)。泥がついたまま調味料をかけても美味しくならないですよね。データも同じなんです。

6. エクセル脳 vs データベース脳──縦持ちの発想

ここで面白い気づきがありました。私は昔「マイツール」というデータベースソフトを勉強していたことがあるんですが、まさに今、その知識が役立っています。

データベースの基本は「1行1データ」なんですね。これ、エクセルに慣れている人にはちょっと感覚が違うかもしれません。

考え方 エクセル脳 データベース脳
データの伸ばし方 横に横に広げる 縦に縦に積んでいく
並び順 最初に決めがち あとからタグや番号で並び替え
元データの扱い 直接いじりがち 元データは残して、別に加工する
発想 見た目重視で整えたい まず「ローデータ」を作り、そこから調理

エクセルに慣れていると、どうしても横にデータを広げていきたくなるんですが、データベースの世界では縦にデータを積んでいくんですね。そして順番は後から自由に並び替えられるように、番号やタグを付けておけばいい。

元データ(ローデータ)はいろいろなものがあって、それをどう調理するかは人それぞれ。同じ食材でも和食にもフレンチにもなるように、同じデータでも使い方次第で全然違う活用ができるんだなと、つくづく実感しました。

💬 店長の本音:
昔「マイツール」をかじっていた自分を褒めてあげたい(笑)。あの頃は「こんな知識いつ使うんだろう」と思っていましたが、まさか何年か経ってAIプロジェクトで役に立つとは。人生、何が繋がるかわかりませんね。

7. ソースコードは”全部やり直し”じゃなく”ピンポイント修正”

もうひとつ大事な気づきがありました。ソースコード(処理のプログラム)に手を入れるとき、全部をやり直すと処理がものすごく大変になるんです。

だから、ピンポイントで必要な部分だけを修正することが重要。これもまたデータと同じで、「全とっかえ」よりも「部分修正」のほうがはるかに効率がいいんですね。

まだまだ学ぶべきことはたくさんありますが、ありがたいのは、このAI処理は日々の仕事をしながら同時進行で動かせるということです。お店の業務をやりながら、裏でバッチ処理が走っている。これは本当に便利だなと感じています。

🔸 たとえ話:炊飯器みたいなもの

AI処理を裏で走らせるのは、炊飯器でご飯を炊きながらおかずを作っているようなものです。炊飯器のスイッチを入れたら、あとは勝手に炊いてくれる。その間に別の仕事ができる。バッチ処理って、まさにそういう感覚なんです。

FAQ:構造化データづくり、よくある疑問

Q. 構造化データって何ですか?
A. バラバラだった情報(メール文面など)を、カテゴリ・キーワード・タグなど決まった形に整理し直したデータのことです。検索や分析がしやすくなります。料理でいえば「食材を種類ごとに仕分けして冷蔵庫に入れる」ようなイメージです。

Q. なぜ個人情報を除外しないといけないのですか?
A. AIにデータを学習させる場合、お客様のお名前や電話番号などの個人情報が含まれたままだと、プライバシーの問題が生じます。安全に活用するために除外が必須です。これはルールというより「当たり前のマナー」ですね。

Q. 「ローデータ」とは何ですか?
A. 加工前の生のデータのことです。料理でいえば「食材そのもの」。ここから不要なものを取り除いたり、分類したりして使いやすくしていきます。ローデータは「素材」なので、大事にとっておくのが基本です。

Q. エクセルとデータベースの違いは?
A. エクセルは「見た目」を整えながらデータを扱うのに向いています。データベースは「1行1データ」で縦にどんどん積んでいき、あとから自由に検索・並び替えするのに向いています。大量のデータ処理にはデータベースの考え方のほうが圧倒的に効率がいいです。

Q. 日々の仕事をしながら同時進行できるってどういうこと?
A. バッチ処理(まとめて自動処理)は、一度スタートさせればあとはパソコンが勝手に処理してくれます。その間にお店の通常業務ができるので、作業時間を無駄にしません。炊飯器でご飯を炊きながらおかずを作る、あの感覚です。

Q. ソースコードの「ピンポイント修正」って素人でもできますか?
A. AIツールに「ここだけ直して」と指示すれば、AIが修正してくれます。プログラミングの知識がなくても、日本語で修正箇所を伝えればOK。全部書き直すより圧倒的に楽です。ここのレベルはエンジニアの人は最初からやってるんだろうけど、ハードル高い。。

📝 まとめ
今回の学び ポイント
ツールが重くなる問題 長いやり取りで処理が止まる → 新しいセッションに移行
データの引き継ぎ 途中経過を記録し、新しい指示データとして移行する
除外ルールの重要性 個人情報・不要データは先に除外ルールを決めてから処理
データ整理の順番 まずキレイにする → あとから重みづけ・注釈を追加
縦持ちの発想 エクセルの横展開ではなく、データベースの縦積みで考える
コード修正の考え方 全部やり直しではなくピンポイント修正が効率的
次回予告:除外ルールを適用した上で、キレイになったデータに重みづけや注釈を追加していく作業に取りかかります。「使えるナレッジデータベース」完成に向けて、もう少し踏ん張ります!