今年の年末年始の休暇期間を利用して Python でスクレイピングと自然言語処理のまねごとなどをやってみました。
ゴールはまだまだ先のところにありますが、とりあえずやりたかったことと現在の進捗だけまとめておきたいと思います。
PIXTA や Adobe Stock などのストック系サイトで売れそうな素材のキーワードを抽出する
ただ闇雲にイラストを描いて販売しても効率が悪いので、もう少し効果的にテーマを絞って販売していければいいなぁ…というのが事の発端でした。
絞り込みに有効そうな材料
分析について僕は専門家でも何でもないので的外れなことを言っているかもしれませんが、
だいたいこんなことをイメージして設計を始めていきました。
ざっくり言うと、スクレイピング結果と形態素解析の結果をそれぞれ DB に登録するところまでやりました。
思ったより全然進んでいないです 😓
以下詳細です。
「いま話題になっている言葉」として、「ニュースサイトなどの記事📝への出現回数が多い単語」を取得してみることにしました。
(実際は naver まとめ から抽出)
まとめ記事をスクレイピングした後、それらを形態素解析して「名詞」だけ抽出し、出現回数の多い単語をとりあえずは「いま話題になっている言葉」とします。
↓実際に抽出したデータ
mysql> select * from keywords order by num desc limit 10;
+---------+-------+-------------+---------------------+---------------------+
| name | num | create_date | created_at | updated_at |
+---------+-------+-------------+---------------------+---------------------+
| こと | 65346 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| の | 54995 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| .com | 50397 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| 1 | 41841 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| twitter | 33503 | 2019-01-06 | 2019-01-06 16:31:38 | 2019-01-06 16:38:54 |
| よう | 32498 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| 人 | 30738 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| 1 | 29485 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
| pic | 27630 | 2019-01-06 | 2019-01-06 16:31:41 | 2019-01-06 16:38:54 |
| http:// | 27588 | 2019-01-06 | 2019-01-06 16:31:37 | 2019-01-06 16:38:54 |
+---------+-------+-------------+---------------------+---------------------+
10 rows in set (0.16 sec)
名詞 としての精度もいまいちなのでもう少しなんとかする必要がありそうです😓これまでの実装は github にあげていますので参考にどうぞ。
mac に pip をインストールする
mac は標準で python が入っていますが、パッケージ管理の pip がインストールされていないので入れてみました。
2017/05/26 09:00
[GAS] Google Drive の特定フォルダ配下のフォルダ・ファイルの権限を一括で移譲する
Google Drive の特定フォルダ配下のファイル・フォルダの権限を一括で移譲するツールを Google Apps Script で作りました。
2018/11/10 15:54
[Windows] Ophcrack を使ってユーザーパスワードを解析する方法
家族で使っていた Windows7 のログインパスワードを忘れたため、Ophcrack を使って解析したときの記録です。
2017/09/30 21:00
[shell] フォルダ内にある大量の ZIP ファイルをまとめて解凍する
とある ZIP を解凍すると中に大量の ZIP が居たときに幸せになれるコマンドを紹介します
2018/06/19 23:45
[MySQL] データファイルから DB を復元する
先日 MySQL が再起動できなくなる問題が発生し、急遽データファイル(.frm, .ibd)から復元しました
2018/11/25 12:44