�@�B�w�K���g���ĕ��͂̎����������s�������Ƃ��āA�ɂ��珬���̃f�[�^���擾���āA�{���̃e�L�X�g��1�������X�g�Ɋi�[���Ă݂܂��傤�B
���̋L���͉������ł��B����o�^�i�����j����ƑS�Ă������������܂��B
�@�O��܂ł͉摜�����ɂ��Ă��낢��Ǝ����Ă��܂����B����͐���ɕ����āA���R���ꏈ���iNatural Language Processing�j�ɂ��Ċw��ł����\��ł��B�������N�A�@�B�w�K�̐��E�ɂ����Ă�Transformer��GPT-x�ABERT�ȂǂȂǁA���܂��܂ȋZ�p�����ݏo����āA���R���ꏈ���̕��삪������悵�Ă��܂��B���̓K�p�̈���|��A���̗͂v��A����́A�`���b�g�{�b�g�ȂǂȂǁA���L�����̂ł��B
�@�����������ŁA��肠��������������璘�쌠�̐ꂽ��i���w�K�f�[�^�Ƃ��āA���͐������s�����Ƃ�ړI�Ƃ��āA���R���ꏈ���ɂ܂�邳�܂��܂ȗv�f���w��ł�������ł��B
�@����͐ɂ��珬���̃f�[�^���擾���鏈��������ǂ��Č��āA���������ɂ܂Ƃ߂邱�Ƃɂ��܂��B�Ȃ��A����̃R�[�h�����̃m�[�g�u�b�N�Ō��J���Ă��܂��B
�@�f�[�^�̎擾�ɂ�Python�����ł�������Beautiful Soup 4���g���܂��B�ڂ������Ƃ͑O�f�̃����N���Q�Ƃ��Ă��������Ƃ��āA�܂��͊����Y�̏���������擾����R�[�h�����������Ă����܂��傤�B
�@�ȉ��́u���� ��Y�v�̒���ꗗ�ł��B
�@�����ł͗�Ƃ��ď����Z�߂̍�i�ł���w���̎��̉��ɂ��x�i�V���V�����j�̃f�[�^�����o���Ă݂邱�Ƃɂ��܂��傤�B���̃����N���N���b�N����ƁA���̂悤�ȃy�[�W���\������܂��B
�@�擾�\�ȃt�@�C���̎�ނɂ�3����܂����A�����ł́m�t�@�C����ʁn���mXHTML�t�@�C���n�ƂȂ��Ă���t�@�C�����擾���邱�Ƃɂ��܂����B���̃����N�i427_19793.html�j���N���b�N����ƈȉ��̂悤�ɍ�i���\������܂��iZIP�t�@�C�����_�E�����[�h�����ꍇ�ɂ̓��r���܂v���[���e�L�X�g����ɓ�����܂����A�M�҂̎��XHTML�t�@�C���������ł͎g�����Ƃɂ��܂����j�B
�@�����ł͍�i���⒘�Җ��Ȃǂ��\������Ă��܂����A����胋�r�����J�ɐU���Ă���܂��B���A�����̏��ɂ��Ă͌�قǎ�菜���Ă��܂��܂��B�K�v�Ȃ̂́A�����̖{���e�L�X�g�����ł��B
�@�Ƃ����킯�ŁAurllib.request���W���[��������urlopen�����g���āA���̃y�[�W�̓��e���擾���āA�����Beautiful Soup 4�ɓ��͂���A���܂��܂ȑ��삪�\�ȃI�u�W�F�N�g����ɓ���܂��B
�@�����܂ł̏��������ۂɍs���̂��A�ȉ��̃R�[�h�ł��B
from bs4 import BeautifulSoup
from urllib import request
url = 'https://www.aozora.gr.jp/cards/000074/files/427_19793.html'
response = request.urlopen(url)
soup = BeautifulSoup(response)
response.close()
print(soup)
�@�Ō�Ɂuprint(soup)�v�Ƃ����s������̂ŁA���̃R�[�h�����s����ƁA�擾����Web�y�[�W�̓��e�iXHTML�j���ȉ��̂悤�ɕ\������܂��B
�@�����̒ʂ�A�{���e�L�X�g�����ł͂Ȃ��A���܂��܂ȃ^�O���܂܂�Ă��܂��B�����ŁA�܂���<div>�^�O�iclass������"main_text"�j�ƂȂ��Ă��镔�����������o���܂��傤�B
main_text = soup.find('div', class_='main_text')
print(main_text)
�@��������s����ƁA���̂悤�ɂȂ�܂��B
�@����ŏ����̖{���e�L�X�g�����������܂������A�C�ɂȂ�͎̂R�قǓ����Ă��郋�r�֘A�̃^�O�ł��B���Ƃł������폜���Ă����̂͑�ςł����A����find���\�b�h�Ŏ擾�����{���e�L�X�g�imain_text�I�u�W�F�N�g�j��Beautiful Soup 4��Tag�I�u�W�F�N�g�ƂȂ��Ă��āA���̃I�u�W�F�N�g�ɂ�decompose���\�b�h���p�ӂ���Ă��܂��B���̃��\�b�h�͓���̃^�O�Ƃ��̓��e���폜����̂Ɏg���܂��B�����ŁA��Ŏ��o����main_text�Ń��r�֘A�̃^�O�i�̈ꕔ�j���폜���Ă݂܂��傤�B
tags_to_delete = main_text.find_all(['rp', 'rt'])
for tag in tags_to_delete:
tag.decompose()
print(main_text)
�@�����ł�<rp>�^�O��<rt>�^�O��2�������폜�̑ΏۂƂ��Ă��܂��B����ȊO�͂������c���Ă��܂��̂ł����A<rb>�^�O�̓��e�͍폜���Ă��܂��Ă͍�����́i���r��U�镶�����̂��́j�ł�����A����͂����������̂��Ǝv���܂��傤�B<ruby>�^�O�����l�ŁA������폜���Ă��܂��ƃ��r�����ł͂Ȃ��A�{���e�L�X�g�̈ꕔ�܂ō폜���Ă��܂��܂��B
�@���s���ʂ͎��̂悤�ɂȂ�܂��B
�@���q�ׂ��悤�ɁA<ruby>�^�O��<rb>�^�O�͈ˑR�Ƃ��Ďc���Ă��܂����A���̑��̃^�O���܂��c���Ă��܂��B�����͂ǂ�����悢�ł��傤�BBeautiful Soup 4��Tag�I�u�W�F�N�g�ɂ́uget_text���\�b�h�v�Ƃ����֗��ȃ��\�b�h������܂��B����͐l���ǂ߂�悤�ȃe�L�X�g���o���̂Ɏg���܂��i�߂�l��Beautiful Soup 4�̃I�u�W�F�N�g�ł͂Ȃ��A�P�Ȃ镶����ł��j�B���ۂɎg���Ă݂܂��傤�B
main_text = main_text.get_text()
print(main_text)
�@��������s�������ʂ͈ȉ��̒ʂ�ł��B
�@����B�L���C�ɂȂ�܂����ˁi�����ڂ́j�B�Ƃ������Ƃ́A<rp>�^�O��<rt>�^�O�����̕��@�ŏ����Ă��܂��悩�����悤�Ɏv���܂��B���ۂɁi�^�O���폜����O��main_text����j�����̃^�O��get_text���\�b�h�ō폜���Ă݂����ʂ��ȉ��Ɏ����܂��B
�@�^�O�͏����܂����A���r�̏��ł���u�i�������j�v�Ȃǂ��e�L�X�g���Ɋ܂܂�Ă��邱�Ƃɒ��ڂ��Ă��������B�����͑S�p�������u�i�j�v�Ɉ͂܂ꂽ�Ђ炪�Ȃł�����A���K�\�����g���āumain_text = re.sub('�i[\u3041-\u309F]+�j', '', main_text)�v�̂悤�Ȃ��Ƃ����邱�Ƃō폜�\�ł��B���A�{���e�L�X�g�Ƃ��Ă��̂悤�ȕ����̕��т��o�ꂷ��\���̓[���Ƃ͂�������܂���B�����ŁA<rp>�^�O��<rt>�^�O�Ƃ��������肪����Ƃ��āA�폜���Ă��悢���̂�O�����ď������Ă������Ƃɂ��܂����B
�@�Ƃ���ŁA��قǂ̕��͂Ɂu�i�����ڂ́j�v�Ƃ���̂ɋC���t�����������������邩������܂���B�����ڂƂ͂ǂ��������Ƃł��傤�B�����print����main_text��n���̂ł͂Ȃ��A�umain_text�v�Ƃ����Z���ɓ��͂��āAGoogle Colab��ŕ]�����Ă݂�ƕ�����܂��B
�@�u\r�v�u\n�v�u\u3000�v�Ȃǂ̕�����main_text�I�u�W�F�N�g�ɖ��ߍ��܂�Ă���̂�������܂��i�Ō�́u\u3000�v�͑S�p�����̃R�[�h�|�C���g�j�B����͕������replace���\�b�h���g���č폜���Ă��܂��܂��傤�B
main_text = main_text.replace('\r', '').replace('\n', '').replace('\u3000', '')
main_text
�@���s���ʂ͈ȉ��̒ʂ�ł��B
�@�Ō�ɃG�N�X�N�����[�V�����}�[�N�u�I�v�Ƌ�_�u�B�v�̒���ɉ��s���܂߂�悤�ɂ��܂��B�����1�����Ƃɉ��s�����悤�ɂȂ�܂��B�Ƃ����Ă��A�����������̂ł͂Ȃ��A�Ō�ɂ����splitlines���\�b�h�ŌX�̕���v�f�Ƃ��郊�X�g���쐬���Ă������߂ł��i����ȍ~�̏����Ŗ𗧂悤�ȋC�������̂ł������Ă��܂��j�B
import re
main_text = re.sub('([�I�B])', r'\1\n', main_text) # �B�ƁI�ʼn��s
text_list = main_text.splitlines()
print(text_list)
Copyright© Digital Advantage Corp. All Rights Reserved.