スクレイピングで抽出対象に同名タグが含まれており適切な抽出が行えないときの対処法

実現したいこと

Google Apps Script を用いたスクレイピング

前提

https://www.ldoceonline.com/dictionary/dictionary
こちらのオンライン辞書から、単語の発音記号をスクレイピングで抽出したいと考えています。
今回は例としてdictionaryという単語について行っています。

このサイトで発音記号に関するHTML構造は次のようになっています。

html

12 ˈdɪkʃənəri 3

ここから、dɪkʃənəri だけを抽出したいです。

そこで、ひとまず次のようなコードを書いて、
ˈdɪkʃənəri
を抽出しようとしました。

JavaScript

1function main() {2 let word = "dictionary";3 let url = "https://www.ldoceonline.com/dictionary/";4 let response = UrlFetchApp.fetch(url + word);5 let text = response.getContentText("utf-8");6 7 let ipa = Parser.data(text)8 .from('class="PRON"')9 .to('')10 .build();11 12 console.log(ipa);13}

しかしながら、当然ですが、得られる出力は

ˈdɪkʃənə

となってしまいます。今回のような、同名のタグが抽出したい要素の中に複数回含まれる場合、どのようにすれば目的の出力を得ることができるのか教えていただきたいです。

よろしくおねがいします。

スクレイピングで抽出対象に同名タグが含まれており適切な抽出が行えないときの対処法

実現したいこと

前提

hsmw

コメントを投稿

0 コメント

このブログを検索

Popular Posts

pom.xmlの1行目でMaven構成問題エラー2月 06, 2024

React + Djangoでフロント画面からの送信データをバックエンドでCRUDする機能実装2月 06, 2024

pythonのtkinterで画像表示をしたいが上手くいかない。2月 06, 2024

スクレイピングで抽出対象に同名タグが含まれており適切な抽出が行えないときの対処法

実現したいこと

前提

hsmw

おすすめの投稿

コメントを投稿

0 コメント

このブログを検索

Social Plugin

Popular Posts

pom.xmlの1行目でMaven構成問題エラー2月 06, 2024

React + Djangoでフロント画面からの送信データをバックエンドでCRUDする機能実装2月 06, 2024

pythonのtkinterで画像表示をしたいが上手くいかない。2月 06, 2024

Social Footer Widget